Programowa synteza mowy języka polskiego typu "text-to-speech"
Programowa synteza mowy
języka polskiego typu TTS
oraz syntezator mowy
polskiej DANT
Witam !
Jest już dostępna do przetestowania nowa wersja syntezatora mowy DANT 1.9 (do
pobrania w sekcji Do cišgnięcia).
Dopisałem bardzo dużo opcji i udoskonaliłem już istniejšce opcje, a także
syntezę mowy. Znacznie rozbudowana została także możliwoć czytania napisów do
filmów zgodnie z Waszym życzeniem.
Alternatywna kopia strony jest dostępna na http://www.syntezatorek.republika.pl
SPIS
Moja historyjka z syntezatorem mowy
Ogólna historyjka o syntezie i syntezatorach mowy
Zastosowanie syntezatorów mowy
Syntezator przydatny każdemu posiadaczowi komputera (NOWOĆ!)
Sposoby testowania możliwoci syntezatorów mowy (NOWOĆ!)
Do cišgnięcia
FAQ - czyli pytania i odpowiedzi dotyczšce syntezatora DANT
Słowniczek zwišzany z syntezš mowy języka polskiego
Słowniczek zwišzany z obróbkš dwięku
Linkownia
Moja historyjka z syntezatorem mowy
Pewnego razu buszujšc po stronach www natrafiłem na strony z
opisem polskich syntezatorów mowy. Od razu zaciekawiło mnie w jaki sposób
programy te generujš mowę ludzkš i zaszokowała mnie ich kolosalna cena.
Rozmylajšc sobie nad metodš syntezy mowy jakš mogš stosować te programy i nie
majšc wówczas zielonego pojęcia o tej dziedzinie informatyki wymyliłem własnš
metodę jakš ja bym zastosował piszšc taki program. Minšł pewien czas, aż
którego dnia zdecydowałem się napisać taki program na własnej, eksperymentalnej
metodzie syntezy mowy. Po bardzo wielu godzinach żmudnego mówienia do mikrofonu
w celu utworzenia odpowiednich próbek głosowych i po wymyleniu różnych
czarodziejskich sztuczek programistycznych udało mi się w końcu stworzyć własny
syntezator mowy. W tym miejscu pragnę przeprosić wszystkie osoby, które zmuszone
były słuchać dwięki jakie z siebie wydawałem tworzšc potrzebne próbki głosowe i
podziękować im, że mimo tego co słyszeli nie zwštpili w mojš poczytalnoć.
Pragnę także podziękować mojej Justynie za to, że również miało wypowiedziała
pare słów do mikrofonu dzięki czemu poczułem się lepiej piszšc ten syntezator.
Rozbudowa i naturalizacja syntezy trwa nadal dzięki wszystkim życzliwym ludziom,
którzy swoim poparciem, uwagami i dobrymi słowami przyczyniajš się do
udoskonalania tego syntezatora i dodajš mi chęci do dalszego kontynuowania prac
nad realizacjš nowych rozwišzań i pomysłów. Mój adres kontaktowy witam@konto.pl
Zrzuty ekranowe okien głównych tego syntezatora w najnowszej wersji:
Opcje dotyczšce czytania
napisów filmowych:
Kliknij tutaj, aby zobaczyć oryginalne rozmiary tych zrzutów ekranowych.
Zalecam uruchamianie programu w windows klasy NT, jak np. XP lub 2000 ponieważ
program był pisany głównie z mylš o użytkownikach systemu Win XP.
Lista niektórych, najważniejszych zalet, które charakteryzujš syntezator mowy o
nazwie DANT:
dowolny dobór klawiszy aktywujšcych oraz wiele ustawień dotyczšcych sposobu
pracy syntezatora mowy.
akcentowanie wyrazów pytajšcych, wyrazów kończšcych zdanie oraz wyrazów
zakończonych wykrzyknikiem.
możliwoć czytania napisów filmowych oraz autosynchronizacji czytanych napisów
z odtwarzarkami SubEdit Player i VPlayer.
automatyczne czytanie ze schowka, możliwoć literowania, pauzy (chwilowej i
trwałej), czytania separatorów, pozycji myszy, aktualnej godziny i inne.
możliwoć przyspieszania, spowalniania, zgłaniania i ciszania czytania oraz
możliwoć przewijania czytanego tekstu w dwóch trybach (stronicowym i o
ustalonš liczbę znaków).
możliwoć czytania tytułu aktywnego okna obcej aplikacji oraz adresu aktualnie
aktywnej strony internetowej w przeglšdarce Internet Explorer.
możliwoć pracy syntezatora bezporednio z płyty CD z autouruchomieniem po
włożeniu płyty do napędu bez potrzeby instalowania programu oraz możliwoć
zainstalowania programu na dysk twardy i ustawienia automatycznego
uruchamiania przy starcie systemu.
syntezator składa liczby poprawnie je czytajšc w zakresie od 0 do
999999999999, a pozostałe literuje.
poprawnie czyta wyjštki typu "tarzan, zamarznšć, klient", a także typu "krzak,
przeceniony, także, strzała, twarz".
rozpoznaje i czyta ponad 100 skrótów języka polskiego (np.
"tzn.","dr","MHz","zł").
synteza odbywa się w tle.
Historia innowacji i zmian wprowadzanych do syntezatora DANT:
Ostatnio wprowadzone zmiany i nowoci (w wersji 1.9):
zmieniony został wyglšd i poprawiony sposób działania całego programu.
dopracowana została synteza mowy przez dodanie akcentowania wyrazów kończšcych
zdanie, wyrazów z wykrzyknikiem oraz poprawienie akcentu wyrazów pytajšcych.
dopisane zostały nowe opcje konfiguracyjne programu (m.in. automatyczne
obniżanie czytanego tekstu w oknie, okrelanie czasów odstępów wyrazów i zdań,
ustawianie wyglšdu po uruchomieniu).
dopisana została możliwoć przedstawienia syntezatora w formie małego okna
mogšcego pozostawać zawsze na wierzchu.
dla użytkowników systemu windows 98 syntezator dopracowany został pod kštem
pracy w tle innych okien systemu. Dzięki temu program działa z takim efektem
jak pracujšc wielowštkowo pod windows XP.
wyeliminowany został ukryty błšd z podgłanianiem syntezy oraz mały błšd z
czytaniem napisów filmowych.
cały syntezator można teraz ukryć do paska systemowego obok zegara i pracować
z niewidocznym programem oraz przełšczać się do opcji programu z poziomu
ikony.
Linki do pozostałych opisów wprowadzanych innowacji w starszych wersjach
syntezatora DANT:
Innowacje i zmiany wprowadzone w wersji 1.8
Innowacje i zmiany wprowadzone w wersji 1.7
Innowacje i zmiany wprowadzone w wersji 1.6
Innowacje i zmiany wprowadzone w wersji 1.5
Innowacje i zmiany wprowadzone w wersjach najstarszych
Wymagania syntezatora DANT:
Program pisałem na komputerze z procesorem Celeron 366MHz zatem minimalne
wymagania programu sš następujšce:
Procesor Celeron 366Mhz - powinno płynnie działać także na wolniejszych;
Opcja czytania napisów do filmu wymaga szybszego komputera (jednoczesne
odtwarzanie filmu i synteza bardzo obcišżajš procesor);
CD-ROM - program jest dostarczany na płycie CD w wersji bezporednio
uruchamianej z CD i w wersji instalacyjnej na dysk twardy;
1MB wolnej przestrzeni na dysku twardym - a jeli chcemy zainstalować
syntezator na dysk to potrzebne jest ok. 10MB.
System operacyjny Windows. Zalecam klasy NT jak windows XP lub 2000, gdyż
syntezator pisany był z mylš o nowoczesnym rodowisku systemowym jakim jest
obecnie Windows XP.
Oczywicie działajšca karta muzyczna.
Według moich obliczeń syntezator wykorzystuje ok. 20 MB pamięci RAM, gdyż od
wersji 1.7 synteza jest generowana korzystajšc z jej zasobów.
Cały syntezator zajmuje obecnie ok. 10 MB i jest przystosowany do uruchamiania z
CD zatem nie trzeba go instalować na dysk twardy za każdym razem, gdy użytkownik
usišdzie przy innym komputerze. Oczywicie w razie potrzeby syntezator można
zainstalować i uruchomić także z dysku twardego.
Mam nadzieję, że dzięki osobom chcšcym korzystać z tego syntezatora mowy
polskiej moje chęci na udoskonalanie go nie wygasnš lecz nadal będš na tyle
duże, że pewnego dnia najtańszy program tego typu wyprzedzi jakociowo inne
drogie syntezatory.
Zawartoć tej witryny oraz udostępniane programy majš charakter informacyjny i
nie stanowiš oferty handlowej w rozumieniu art.66par.1 Kodeksu Cywilnego oraz w
rozumieniu art. 543 Kodeksu Cywilnego.
Ogólna historyjka o syntezie i syntezatorach mowy
Pierwsze badania nad syntezš mowy zostały zainicjowane już w roku 1773 przez
Ch.G.Kratzensteina - profesora fizjologii w Kopenhadze, który zrealizował
urzšdzenie generujšce dwięki samogłoskowe wykorzystujšc w tym celu rezonans
specjalnych tub połšczonych z organowymi piszczałkami. Maszyna ta pozwalała na
doć ograniczone, niemniej jednak realne wytworzenie mowy syntetycznej. Dokładny
opis "maszyny mówišcej" umiecił Wolfgang von Kempelen w ksišżce "Mechanismus
der menschlichen Sprache nebst Beschreibung einer sprechenden Maschine" (1791).W
1835 urzšdzenie to zostało zrekonstruowane na podstawie tej ksišżki i
zaprezentowane przez Wheatstone'a w Dublinie jako nowsza wersja "maszyny
mówišcej".W Londynie w 1846 roku Joseph Faber zaprezentował urzšdzenie nazwane
jako "Euphonia", które jako pierwsze generowało nie tylko mowę ludzkš, ale także
piew. Podobne urzšdzenie, jednak generujšce dwięk bardziej przybliżony do
naturalnej mowy ludzkiej zaprezentował w 1937 roku R.R.Riesz w Stanach
Zjednoczonych.Na poczštku dwudziestego wieku postęp techniczny umożliwił
wykorzystanie zjawisk elektrycznych przy budowie syntezatora mowy. Pierwsze
takie urzšdzenie elektryczne zostało wykonane przez Homera Dudley'a i
zaprezentowane pod nazwš "VODER" (ang. voice demonstrator) w Nowym Yorku w 1939
roku. Wszystkie te urzšdzenia służyły głównie rozrywce jednak w planach było
wykorzystanie ich w telekomunikacji. Nowy kierunek rozwoju tego typu urzšdzeń
nadał Frank Cooper tworzšc w 1950 roku tzw. Pattern Playback , który to
sczytywał przy pomocy odbitej wišzki wiatła tekst a następnie przetwarzał go na
mowę.Od 1970 roku dalszy rozwój syntezy mowy był bezporednio zwišzany z
technologiš komputerowš. Komputery umożliwiły tworzenie syntezatorów mowy dla
praktycznych celów dzięki czemu większe grono naukowców na wiecie
zainteresowało się zmienianiem tekstu na mowę. Najnowsze osišgnięcia naukowców
pozwalajš już nie tylko na wytwarzanie mowy ludzkiej, lecz także umożliwiajš
dokładne ustalenie płci oraz wieku osoby wypowiadajšcej słowa. Można przykładowo
okrelić, że wytwarzana mowa odpowiada kobiecie w wieku 40 lat, dziecku w wieku
15 lat lub mężczynie w wieku 25 lat.
Zastosowanie syntezatorów mowy
Obecnie zastosowanie syntezatorów mowy staje się coraz szersze. Syntezatory mowy
sš bardzo pomocne dla osób niewidomych i niedowidzšcych jednak sš one także
niezastšpione w innych sytuacjach. Otóż coraz częciej spotyka się możliwoć
głosowej komunikacji maszyny z człowiekiem. Przykładem może być bankofon, czyli
urzšdzenie umożliwiajšce klientowi uzyskiwanie za porednictwem telefonu
informacji o stanie własnego konta. W niedalekiej przyszłoć bankofony będš
powszechnš ofertš wszystkich polskich banków. Syntezatory mowy sš wykorzystywane
w serwerach fonicznych, gdzie służš one do przekazania rozmaitych informacji
użytkownikowi. Mogš to być przykładowo informacje dotyczšce repertuaru kin,
aktualnych ofert cenowych i asortymentowych, ogłoszeń, różnych porad,
regulaminów, godzin otwarcia, aktualnych kursów walut i papierów wartociowych,
potrzebnych dokumentów w działalnoci gospodarczej, wyrobienia dowodu
osobistego, paszportu, prawa jazdy itd. Zatem syntezator mowy umożliwia
przekazanie użytkownikowi głosem (np. drogš telefonicznš) wszelkiego typu
pożšdanej informacji i może to być usługa dostępna przez całš dobę. Obecnie
większoć sieci telefonów komórkowych posiada tzw. usługę dostępu głosowego
wykorzystujšcš technologię text to speech (TTS) do odsłuchiwania wiadomoci
elektronicznych, czyli na przykład wiadomoci email. Coraz częciej spotyka się
także wykorzystanie technologi TTS w słownikach. Przykładem takiego słownika
może być wielojęzyczny słownik Babylon, który korzysta z technologii TTS do
poprawnego czytania haseł. Dodatkowo obecnie coraz bardziej popularny staje się
nowy standard VoiceXML umożliwiajšcy prowadzenie dialogu między rozmówcš, a
komputerem z oprogramowaniem rozpoznajšcym mowę oraz zamieniajšcym tekst na
mowę.
Syntezator przydatny każdemu posiadaczowi komputera
Jak zdšżyłem się przekonać syntezatory mowy mogš być pomocne i przydatne wielu
osobom przynależšcych do przeróżnych grup społecznych. Okazuje się, bowiem, że
taki niewielki program znacznie potrafi ułatwić życie każdemu posiadaczowi
komputera. Na podstawie własnych obserwacji osoby najbardziej zainteresowane tš
tematykš mogę przedstawić następujšco:
studenci, uczniowie i wszyscy czytajšcy dużo z monitora - syntezator pozwala
oszczędzać wzrok i potrafi czytać tekst szybciej niż ludzkie oko, ponadto
syntezator mowy się nie męczy natomiast oczy ludzkie czytajšc tekst z ekranu
monitora męczš się bardzo szybko.
osoby niewidome i niedowidzšce - przyjęto, że głównie dla nich tworzy się tego
typu programy, gdyż syntezatory mowy sš często pomostem między osobš
niewidomš, a bogactwem informacji zawartym w komputerze i Internecie.
multimedialici, czyli osoby korzystajšcy z syntezatorów mowy do rozrywki i
zabawy - przykładem może być wprowadzona opcja czytania napisów do filmów w
moim syntezatorze, która obecnie cieszy się szerokim zainteresowaniem.
kadra naukowa - zainteresowanie syntezš mowy wykazujš także nauczyciele (być
może majšcy stycznoć z osobami niepełnosprawnymi) oraz osoby pracujšce w
różnych instytutach szkół wyższych (przypuszczalnie badajšcych problematykę
syntezy).
osoby leniwe, którym po prostu nie chce się czytać to co przeczytać muszš.
Sposoby testowania możliwoci syntezatorów mowy
Piszšc własny syntezator mowy poznałem, co tak naprawdę sprawia trudnoci
programom w wypowiedzeniu i w jaki sposób można ocenić zdolnoci wymowy tekstu
dowolnego syntezatora. Przeciętny człowiek myli zwykle o wpisaniu kilku
trudnych zdań do wypowiedzenia przez istotę ludzkš i sprawdzeniu jak sobie
poradzi z tym syntezator. Otóż okazuje się, że wypowiedzenie zdań w stylu:
"Lojalna Jola, Jola nielojalna",
"W Szczebrzeszynie chrzšszcz brzmi w trzcinie",
"Król Karol kupił królowej Karolinie korale koloru koralowego",
"Grzegorz Brzęczyszczykiewicz",
"Szedł Sasza suchš szosš"
lub "stół z powyłamywanymi nogami"
wbrew pozorom nie stanowi większego problemu dla większoci syntezatorów ( tak
przy okazji jak kto zna inne to chętnie poznam ).
Co zatem może sprawić trudnoci w wymowie ?
Chcšc dobrze przetestować dowolny syntezator mowy radzę zwrócić uwagę na
poniższe aspekty.
CZYTANIE LICZB.
Na poczštek najlepiej sprawdzić czy syntezator potrafi składać liczby na postać
mówionš czy też je po prostu literuje jako cyfry.
Przykładowo wemy liczbę "1204009":
fatalnie, gdy syntezator przeczyta liczbę jako "jeden dwa zero cztery zero
zero dziewięć",
dobrze, jeli syntezator przeczyta "jeden milion dwiecie cztery tysišce
dziewięć",
a już najlepiej, gdy przeczyta w sposób jeszcze bardziej inteligentny
pomijajšc zbędne "jeden" przed słowem "milion".
Z czytaniem liczb po przecinku - liczb ułamkowych różnie bywa i nie zawsze jest
pożšdane, a w szczególnoci, gdy mamy do czynienia z cišgiem liczb całkowitych
oddzielonych od siebie przecinkiem. Czytanie wówczas dwóch takich liczb
całkowitych oddzielonych przecinkiem będzie mylšce.
CZYTANIE WYJĽTKÓW.
Język polski jest bardzo oporny, jeli chodzi o reguły czytania wyrazów i
podobnie jak w języku angielskim niektóre wyrazy mogš odbiegać w wymowie od
wszelkich przyjętych zasad. Syntezator mowy powinien rozpoznawać, że ma do
czynienia z takim nietypowcem i poprawnie go przeczytać odbiegajšc od ustalonych
reguł. Oto parę przykładów:
słowa "marznšć","zamarznšć","przymarznšł","tarzan" i inne odmiany takich słów
powinien przeczytać nie składajšc "rz" w "ż"
słowa "klient", "klientowi","kliencki" i inne tego typu odmiany powinien
czytać rozdzielajšc fragment "kli" od "ent" lub przedłużajšc literę "i", aby
było jš właciwie słychać.
ROZPOZNAWANIE SKRÓTÓW.
Mylę, że fajnie jest, jeli syntezator przykładowe skróty "np.", "inż."Kg
","MHz ","p.n.e.","n.p.m.", "tel." czy "tzn." przeczyta rozwijajšc je
odpowiednio, czyli jako "na przykład", "inżynier", "kilogramów", "megaherców",
"przed naszš erš", "nad poziomem morza", "telefon" czy tez "to znaczy". Piszšc
własny syntezator doliczyłem się około 120 takich fundamentalnych skrótów, więc
mylę, że jest to znaczšce tym bardziej że w codziennym pimie pojawiajš się
nadzwyczaj często.
LITEROWANIE INICJAŁÓW I SKRÓTÓW NAZW.
Bardzo często pojawia się problem ze sposobem przeczytania pewnych wyrazów
złożonych z pierwszych liter nazw jakiego okrelenia (np. nazwy firmy,
przedmiotu lub terminu). Ważne jest, aby syntezator potrafił przeliterować
napotkanš nietypowš nazwę zamiast czytać jš jako niezrozumiałe słowo. Przykładem
możš być skróty SDK, MS, IE, WWW - powinny być one literowane, a nie czytane
składowo.
TEST TYPU "SZOK I PRZERAŻENIE".
Aby dobrze przetestować syntezator mowy najlepiej jest wprowadzić tekst ciężki
dla niego do przełknięcia. Jaka to mogłaby być treć ? Proponowałbym wypróbować:
wprowadzenie tekstu maksymalnie długiego - z tego co mi wiadomo najdłuższym
polskim wyrazem nierozłšcznym jest "konstantynopolitańczykiewiczówianeczka". W
języku polskim dłuższych wyrazów raczej nie można spotkać, zatem szybkie i
poprawne przeczytanie wyrazu takich rozmiarów dobrze wiadczy o syntezatorze.
wprowadzenie tekstu składajšcego się ze znaków niealfabetycznych - dobry
syntezator powinien poradzić sobie z różnymi dziwnymi znakami w rodku tekstu
i je w miarę możliwoci przeczytać. Przykładem może być cišg
"Só@#$!saf$~'%_+-\{q".
wprowadzenie dowolnego tekstu i przyspieszenie mowy w celu wychwycenia momentu
gdy mowa przestaje być zrozumiała - podobny test pożna wykonać spowalniajšc
test. Syntezator powinien czytać zrozumiale w jak najszerszym wachlarzu
wprowadzonych zmian.
AKCENTOWANIE.
Akcentowanie wyrazów jest bardzo trudne do osišgnięcia w syntezatorze, natomiast
akcentowanie całych zdań to już wykonanie arcydzieła. Testujšc sposób
akcentowania wyrazów przez syntezator mowy najlepiej posłużyć się analogicznymi
przykładami:
słowa "mama", "tata", "alibaba" posiadajš dwie jednakowe sylaby sšsiadujšce ze
sobš, jednak mimo to sylaby te powinny być czytane w różny sposób (na ogół
pierwszy fonem bardziej akcentowany niż drugi) - nie powinny one brzmieć tak
samo.
słowa krótkie typu "na", "do", "za" lub "pod" nie powinny brzmieć jakby były
wyjęte z innych wyrazów.
Natomiast testujšc sposób akcentowania całych zdań najlepiej jest wpisać klika
zdań zakończonych znakiem zapytania i kilka zakończonych wykrzyknikiem. Radzę
także zwrócić uwagę czy zdanie zakończone kropkš brzmi inaczej niż to same
zdanie bez kropki kończšcej. Powinno oczywicie być słyszalne akcentowanie w duł
wyrazu kończšcego zdanie.
OBCIĽŻALNOĆ SYSTEMU.
Zwykle bywa tak, że im syntezator więcej potrafi przeczytać i jest
inteligentniejszy w wyłapywaniu tekstu z obcych okien systemu operacyjnego tym
bardziej obcišża procesor i spowalnia pracę komputera. Warto zwrócić uwagę na to
jak system zachowuje się podczas pracy syntezatora i czy swobodnie można
wykonywać inne zadania na komputerze. Istotne jest także sprawdzenie czy skróty
klawiszowe obsługujšce syntezator mowy nie przeszkadzajš w normalnej pracy z
innš aplikacjš.
Do cišgnięcia
Poniżej udostępniam najnowszš instalacyjnš wersję testowš mojego syntezatora
mowy DANT 1.9.
Serwer 3
Instalka_DANT.rar (8 MB)
Serwer 4 (alternatywny - niezalecany)
Instalka_DANT.exe (3 MB - rar)
Instalka_DANT.r00 (3 MB - rar)
Instalka_DANT.r01 (2 MB - rar)
Pozostałe serwery z programem powinny być udostępnione za parę dni.
Syntezator poprawnie rozpoznaje najnowszš odtwarzarkę SubEdit Player dostępnš na
stronie
http://alfa.imi.pcz.czest.pl/~subedit :
SubEdit Player w wersji instalacyjnej. (762 kB )
SubEdit Player w wersji spakowanej zipem. (664 kB )
Aby syntezator kontrolował poprawnie pracę odtwarzarki VPLAYER odtwarzarka ta
musi być jednš z następujšcych wersji dostępnych ze strony
http://www.vplayer.prv.pl :
VPlayer (alpha 2000) wersja 0.5e (372 kB)
VPlayer (alpha 2000) wersja 0.5d (373 kB)
VPlayer (alpha 2000) wersja 0.5c (373 kB)
VPlayer (alpha 2000) wersja 0.5b (370 kB)
VPlayer (alpha 2000) wersja 0.5a (360 kB)
VPlayer (alpha 2000) wersja 0.4h (498 kB)
Przy zwiększonym ruchu cišganie z serwera 4 (alternatywnego) może zakończyć się
blokadš strony przez godzinę w wyniku przekroczenia godzinnego limitu transferu
dlatego zalecam cišganie z serwera 1 ,2 lub 3.
Dziękuję wszystkim życzliwym ludziom, którzy udostępniajš mi miejsce na własnych
serwerach.
Dzięki tym osobom można ten program pobierać już z trzech różnych mirrorów.
Jeli chcesz także udostępnić mi do 10 MB na swoim serwerze w roli kolejnego
mirrora to byłym bardzo wdzięczny, a w zamian mogę w razie potrzeby umieszczać
na stronie jakie banery reklamowe.
Obecnie strona jest odwiedzana rednio 75 razy na dzień i zajmuje już czołowe
miejsca w wynikach największych wyszukiwarek takich jak www.google.com,
www.yahoo.com, www.wp.pl , www.wow.pl oraz www.netsprint.pl po wpisaniu hasła
"syntezator mowy".
Jeli strona www.syntezatorek.republika.pl jest dostępna, a próba pobierania
pliku z serwera 4 nadal powoduje wywietlenie "Przekroczono godzinny limit
transferu" należy w opcjach internetowych przeglšdarki (z menu "Narzędzia")
kliknšć "usuń pliki" a następnie "Usuń całš zawartoć online".
W każdej sprawie można się ze mnš skontaktować poprzez email witam@konto.pl
Dodatkowe informacje o użytkowaniu syntezatora DANT sš dostępne w dziale FAQ -
czyli pytania i odpowiedzi dotyczšce syntezatora DANT.
Zawartoć tej witryny oraz udostępniane programy majš charakter informacyjny i
nie stanowiš oferty handlowej w rozumieniu art.66par.1 Kodeksu Cywilnego oraz w
rozumieniu art. 543 Kodeksu Cywilnego.
Mały słowniczek zwišzany z syntezš mowy języka polskiego
Abrewiacja skrót wyrazu lub grupy wyrazów w pimie, jak np., itd., itp.
Afereza zanik poczštkowej głoski lub grupy głosek w wyrazie.
Afiks jest to czšstka wyrazu.
Afiksacja tworzenie wyrazów pochodnych przez dodawanie afiksów do wyrazów
podstawowych.
Afrykata spółgłoska zwartoszczelinowa (c, dz, cz, ć, d).
Alfabet polski zbiór wszystkich znaków literowych pisma używanego w języku
polskim. Kolejnoć jest następujšca: a, š, b, c, ć, d, e, ę, f, g, h, i, j, k,
l, ł, m, n, ń, o, ó, p, (q), r, s, , t, u, (v), w, x, y, z, , ż. Litery q, v,
x stosujemy tylko w pisowni wyrazów obcych oraz we wzorach matematycznych.
Litery š, ę, ń i y w języku polskim nie rozpoczynajš wyrazów.
Alofon głoska różnišca się od innej głoski tylko cechš fonetycznš, nie
funkcjš.
Alograf wariant graficzny litery.
Apokopa zanik głoski na końcu wyrazu.
Artykulacja ruchy i układ narzšdów mowy podczas wymawiania poszczególnych
głosek.
Aspiracja przydech dajšcy w wyniku słaby dwięk h, towarzyszšcy artykulacji
niektórych głosek.
Aspiraty spółgłoski przydechowe, np. ph, th, kh, dh, gh w systemie danego
języka, przeciwstawiajšce się spółgłoskom czystym p, t, k, d, g.
Asybilacja wytwarzanie się w końcowej fazie artykulacji spółgłoski zwartej
szczeliny, której rezultatem sš np. polskie spółgłoski ć, d, powstałe z dawnych
t', d'.
Dwuznak znak podwójny, składajšcy się z dwóch elementów, w szczególnoci
połšczenie dwóch liter oznaczajšce jednš głoskę, np. sz, rz, ch, dz.
Dyftong dwugłoska zespół dwóch elementów samogłoskowych, z których tylko
jeden jest podstawš sylaby, np. autor.
Eufonia harmonijne, przyjemne brzmienie głosek.
Fonem najmniejsza dajšca się wydzielić jednostka systemu fonologicznego. Jest
to zespół współwystępujšcych cech dystynktywnych charakteryzujšcych dany dwięk
w okrelonym systemie językowym.
Fonetyka dział nauki o języku obejmujšcy badanie dwięków mowy.
Fonologia nauka o funkcjach dwięków w mowie.
Geminaty spółgłoski podwojone, np. panna, lekki.
Głoska najmniejsza głona artykulacja powtarzajšca się w toku mowy. Mowa
składa się z głosek. Głoski mówimy i słyszymy. Zapisujemy głoski za pomocš
liter.
Implozja poczštkowy moment artykulacji spółgłosek zwartych.
Interakcyjny System Telefoniczny (IST) system komunikacyjny nie stawiajšcy
użytkownikowi żadnych dodatkowych wymagań sprzętowych prócz telefonu.
Interesujšca informacja użytkownikowi zostaje przekazana wyłšcznie za pomocš
głosu. Ponieważ systemy takie muszš być interakcyjne, to użytkownik powinien
przekazywać do systemu polecenia lub wskazania, jakie informacje go interesujš.
Jotacja pojawienie się spółgłoski j w wyrazach, najczęciej przed
samogłoskami nagłosowymi i między samogłoskami.
Kontrakcja cišgnięcie dwóch występujšcych obok siebie samogłosek w jednš.
Litera znak graficzny oznaczajšcy okrelonš głoskę (pisany, drukowany, wykuty,
wykonany z jakiego materiału), zespół liter danego języka stanowi alfabet.
Mazurzenie wymowa ogólnopolskich spółgłosek sz, ż, cz, d, jak s, z, c, dz
występujšca w niektórych dialektach polskich.
Monoftong pojedyncza samogłoska.
Mocja różnorodnoć końcówek gramatycznych pozostajaca w zwiazku z rodzajem
gramatycznym, np. nowy, nowa, nowe, nowi.
Morfologia dział gramatyki obejmujšcy fleksję i słowotwórstwo; nauka o budowie
i odmianie wyrazów.
Ortoepia nauka poprawnego mówienia i poprawnego używania form językowych.
Ortofonia nauka poprawnego wymawiania.
Samogłoska głoska dwięczna, otwarta, mogšca tworzyć sylabę.
Serwer foniczny serwer do przekazywania poprzez łšcza telefonii stacjonarnej
bšd komórkowej, informacji o charakterze audio tekstowym.
Sonanty półsamogłoski grupa fonemów stojšcych na pograniczu między
samogłoskami i spółgłoskami, np. spółgłoski półotwarte, płynne r, l, nosowe
m, n.
Spiranty spółgłoski szczelinowe, np. f, w, s, z, sz, , ż, .
Spółgłoska konsonant głoska tworzšca sylabę w połšczeniu z samogłoskš.
Sylaba zgłoska czšstka fonacji odpowiadajšca taktowi wydechu. Składa się z
samogłoski lub z samogłoski połšczonej ze spółgłoskš. Sylaba jest otwarta, kiedy
jest zakończona samogłoskš lub zamknięta, jeżeli kończy się spółgłoskš.
Synkopa zanik nie akcentowanej głoski lub grupy głosek wewnštrz wyrazu.
VoiceXML nowy standard stosowany przy oprogramowywaniu aplikacji mowy. Jest to
język, który definiuje sposób konstruowania i prowadzenie dialogu pomiędzy
rozmówcš, a komputerem z oprogramowaniem rozpoznajšcym mowę oraz zamieniajšcym
tekst na mowę. VoiceXML jest dostatecznie elastyczny, by umożliwić tworzenie
treci głosowych w technologii webowej lub budowę aplikacji dla centrów
rozpoznawania wywołań opartych na technice telefonicznej.
Mały słowniczek zwišzany z obróbkš dwięku
Aliasing - niekorzystne zjawisko które zachodzi podczas próbkowania dwięku,
polega ono na nakładaniu na sygnał niepożšdanych częstotliwoci harmonicznych;
Amplituda - wartoć o jakš fala (sygnał) wznosi się lub opada względem zera;
Analogowy sygnał - sygnał w postaci przebiegu cišgłego, w którym dane sš
przedstawiane jako wielkoci fizyczne;
Barwa dwięku - obecnoć okrelonych częstotliwoci składowych, które decydujš o
brzmieniu poszczególnych instrumentów lub głosu ludzkiego;
Całkowite pasmo przenoszenia - zakres częstotliwoci jaki jest w stanie
przetworzyć dane urzšdzenie przetwarzajšce dwięk;
Cyfrowy sygnał - sygnał który jest wyrażony w postaci próbek zapisanych cyfrowo,
wyraża on swoimi wartociami amplitudę(przebieg) sygnału;
Częstotliwoci harmoniczne - decydujšce o barwie dwięku sš składowymi widma
akustycznego o częstotliwociach równych wielokrotnoci tonu podstawowego;
Częstotliwoć odcięcia - parametr, który okrela częstotliwoć jakiej nie jest w
stanie przenieć okrelone urzšdzenie;
Częstotliwoć próbkowania - wartoć, którš wyrażamy w hercach, okrela ona ile
razy w przecišgu jednej sekundy została pobrana próbka sygnału analogowego do
procesu kwantyzacji;
Decybel - jednostka głonoci, jeden decybel to minimalna zmiana głonoci jakš
może rozróżnić ludzkie ucho, skala w decybelach jest skalš logarytmicznš, co
wynika z właciwoci ludzkiego ucha;
Delay - opónienie sygnału przetworzonego w stosunku do ródłowego;
Digitalizacja (cyfryzacja) proces zamiany sygnału analogowego na cyfrowy;
Dithering - proces , którego zadaniem jest dodanie do sygnału cyfrowego tzw.
szumu linearyzujšcego, który maskuje szum kwantyzacji;
Dopplera efekt - zmiana częstotliwoci fali słyszanej przez słuchacza w
przypadku poruszania się względem ródła dwięku, przy zbliżaniu się do ródła
dwięku dwięk słyszany staje się wyższy, przy oddalaniu niższy;
Dynamika - stosunek sygnałów o najniższym i najwyższym poziomie, jakie można
zapisać na noniku lub sprzęcie przy użyciu danej technologii, wartoć dynamiki
jest podawana w decybelach (dB);
Echo - odbicie dwięku od przeszkody i powrót do miejsca transmisji, stosowane w
obróbce dwięku przy pomocy procedur umieszczonych w programach do obróbki
dwięku;
Elektroakustyka - dział akustyki zajmujšcy się problematykš przetwarzania
energii akustycznej w elektrycznš i odwrotnie;
Equalizer - korektor;
Filtr - procedura w programie, układ elektroniczny lub obwód, które służš do
wzmacniania lub odcinania pewnych okrelonych częstotliwoci, istniejš filtry
pasywne (bez wzmacniacza) i aktywne (ze wzmacniaczem);
Filtr dolnoprzepustowy - filtr tłumišcy (odcinajšcy) częstotliwoci powyżej
ustalonej częstotliwoci odcięcia;
Filtr górnoprzepustowy - filtr tłumišcy (odcinajšcy) częstotliwoci poniżej
ustalonej częstotliwoci odcięcia;
Filtr przeciwszumowy - filtr służšcy do redukcji szumów, czyli odcina najwyższe
pasmo akustyczne;
Full duplex - tryb pracy karty dwiękowej pozwalajšcy jej na jednoczesne
nagrywanie i odtwarzanie dwięku;
Fuzz - (przester) efekt sprzętowy lub programowy umożliwiajšcy kontrolowane
przesterowanie sygnału;
Generator fal dwiękowych - układ elektroniczny lub procedura w programie
potrafišca wytworzyć przebieg sygnału o różnym kształcie amplitudy (przede
wszystkim sinusoidalnym, trójkštnym, piłokształtnym lub kwadratowym), można
potem takie przebiegi nakładać na siebie tworzšc zróżnicowane pod względem
charakterystyki przebiegi;
Kwantyzacja - wyrównywanie pobranych i pomierzonych wartoci do wartoci
najbliższego przedziału kwantowania, zaokršglanie ich do pełnych liczb;
Miernik wysterowania - (VU-meter) miernik dokonujšcy pomiarów poziomu szczytów
sygnałowych trwajšcych minimum 10 ms, umożliwia dokładnš kontrolę dynamiki
sygnału;
Nadpróbkowanie - (oversampling) dodatkowe próbkowanie sygnału pomiędzy próbkami
zasadniczymi, zwiększajšce precyzję procesu próbkowania i ułatwiajšce
zmniejszenie szumów kwantyzacji. Wykonuywane jest poprzez obliczanie dodatkowych
wartoci na podstawie już istniejšcych;
Pasmo przenoszenia - zakres częstotliwoci jakie może przenieć i odtworzyć dane
urzšdzenie;
Próbka (sample) potoczne okrelenie krótkiego fragmentu nagrania cyfrowego,
służšcego do tworzenia muzyki w samplerach lub syntezatorach cyfrowych;
Próbkowanie - okresowe dokonywanie pomiaru poziomu sygnału analogowego w celu
przetworzenia go na impulsowy sygnał cyfrowy;
Przesterowanie - wprowadzenie urzšdzenia w stan uniemożliwiajšcy liniowe
przeniesienie sygnału;
Przetwornik AC - układ przetwarzajšcy sygnał analogowy (A) na postać cyfrowš
(C);
Przetwornik CA - układ przetwarzajšcy sygnał cyfrowy (C) na postać analogowš
(A);
Rozdzielczoć próbkowania - wyrażana w bitach wartoć okrelajšca dokładnoć z
jakš przybliżane sš wartoci poziomów sygnału analogowego;
Szum - napięcie zakłócajšce, zjawisko akustyczne wywołane sygnałami o
nieuporzšdkowanych przebiegach w szerokim zakresie częstotliwoci;
Szum kwantowania - (szum granularny) szum powstajšcy na skutek niedokładnoci
przebiegu sygnału cyfrowego, wynikajšcej z zaokršglania (kwantowania) wartoci
próbek;
Szum spoczynkowy - wytwarzany jest przez urzšdzenie nieobcišżone tzn. gdy nie
przepływa przez nie sygnał;
Wzmacniacz - urzšdzenie służšce do wzmacniania mocy sygnału doprowadzonego na
jego wejcie;
Zniekształcenia liniowe - zniekształcenia wprowadzajšce opónienia fazowe lub
zakłócajšce pierwotny kształt widma sygnału;
Zniekształcenia nieliniowe - pojawiajš się gdy urzšdzenie nie jest w stanie
przetworzyć sygnału w sposób proporcjonalny, w skrajnych przypadkach obcinajšc
nawet szczyty sygnałów;
Najciekawsze linki
Strony z informacjami o syntezie mowy i syntezatorach oraz z przykładowymi
samplami dwiękowymi syntezatorów:
POLSKIE:
http://kdn.idn.org.pl/syntezatory/index.html - opis programowych syntezatorów
mowy Spiker, SynTalk, Lektor i SPEAK oraz sprzętowych syntezatorów mowy Apollo
i SMP
http://harpo14.poznan.mtl.pl - opis syntezatorów mowy Juno, Kubu, Spiker,
SynTalk i Apollo 2.
http://www.harpo.com.pl/al.htm - Auto-Lektor firmy Harpo, czyli urzšdzenie do
czytania głosem syntetycznym pisma drukowanego.
http://www.kognitywistyka.net - strona powięcona głównie naukom kognitywnym z
bardzo bogatym zbiorem informacji dotyczšcych sztucznej inteligencji i
problematyki mózgu - zawiera liczne ciekawe artykuły i mnóstwo interesujšcych
linków. Między innymi w dziale sztucznej inteligencji znaleć można linki do
sporej liczby stron z informacjami o innych syntezatorach mowy.
http://luke.of.pl - prywatna strona Łukasza O. - twórcy syntezatora mowy typu
text-to-speech napisanego w ramach pracy magisterskiej [ pozdrawiam :) ]
http://www.olafson.prv.pl - prywatna strona o syntezie i analizie sygnałów
mowy.
http://www.pjwstk.edu.pl/~kszklanny/syntezam.htm - artykuł Kszysztofa Sz. z
opisem metod syntezy mowy.
http://www.ipnet.pl/sf/index.htm - opis serwerów fonicznych z wykorzystaniem
syntezatorów mowy typu text to speech.
http://www.pckurier.pl/webmaster/2000/kwiecien/domalewski/voxml.html - opis
języka VoxML do tworzenia serwisów głosowych umożliwiajšcego samodzielne
budowanie aplikacji głosowych.
http://www.pckurier.pl/webmaster/2000/maj/domalewski/voxml2.html - druga częć
opisu głosowego systemu sieciowego opartego o język VoxML. Artykuł opisuje jak
przy pomocy programu VoxML SDK będšcego symulatorem przeglšdarki głosowej i
umożliwiajšcego konwersję kodu ródłowego serwisu głosowego zaprojektować
głosowy internetowy serwis www.
http://www.networld.pl/artykuly/21870.html - inny artykuł powięcony nowemu
standardowi VoiceXML - językowi stosowanemu przy oprogramowywaniu aplikacji
mowy.
WIATOWE:
http://www.ling.su.se/staff/hartmut/kemplne.htm - angielska strona wietnie
opisujšca historię syntezatorów mowy - zawiera zdjęcia i schematy dawnych
"maszyn mówišcych" oraz krótkie sample demonstrujšce ich możliwoci.
http://www.festvox.org/history/klatt.html - angielska strona zawierajšca dużš
iloć sampli demonstrujšcych możliwoci syntezatorów mowy różnych typów z
różnych okresów rozwoju tej dziedziny.
http://www.ling.su.se/staff/hartmut/manipul.htm - strona zawiera sample
demonstrujšce syntezę mowy po szwecku ze zmianš płci i wieku z Instytutu
Lingwistyki Uniwersytetu Sztokholmskiego.
Strony wielkich wiatowych instytucji zajmujšcych się dziedzinš syntezy mowy z
możliwociš zdalnego testowania ich produktów (po wprowadzeniu tekstu
otrzymujemy zsyntezowanš mowę czytajšcš ten tekst w danym języku) :
http://www.scansoft.com/realspeak/demo/ - potężna firma o wiatowym zasięgu
demonstruje możliwoci swoich syntezatorów mowy o syntezie najlepszej jakoci
(moja opinia) z możliwociš wyboru jednego z wielu języków wiata - w tym
także języka polskiego. Niestety według danych z www.chip.de syntezator tej
firmy o nazwie RealSpeak(TM) jest wyceniony do sprzedaży na sumę ok. 1000
euro. Uwaga zdalnie generowana synteza mowy polskiej nie akceptuje polskich
fontów. Przesył w formacie WAVE.
http://www.elantts.com/accueil.html - prezentacja syntezy mowy text-to-speech
firmy ElanSpeech dostępna w języku polskim, francuskim, angielskim,
hiszpańskim, brazylijskim, niemieckim, ruskim, włoskim i holenderskim. Uwaga
zdalnie generowana synteza mowy polskiej nie akceptuje polskich fontów.
Przesył w formacie WAVE.
http://www.festvox.org/voicedemos.html - opcjonalna synteza języka
angielskiego w odmianie amerykańskiej i brytyjskiej oraz języka hiszpańskiego
- niestety brak języka polskiego
http://www.naturalvoices.att.com/demos - laboratorium AT&T Natural Voices (TM)
demonstruje syntezę text-to-speech dla języka angielskiego, niemieckiego,
francuskiego i koreańskiego. Alternatywna strona AT&T Lab's Natural Voices
(TM) z demonstracjš syntezy jest dostępna na
http://www.research.att.com/~ttsweb/cgi-bin/ttsdemo
http://www.bell-labs.com/project/tts/index.html - labolatorium Bell Labs
prezentuje projekty oparte na technologii text-to-speech - dostępna jest
zdalna synteza dla języka angielskiego, niemieckiego, chińskiego,
hiszpańskiego, francuskiego i włoskiego. Można dokładnie okrelić rodzaj
syntezy mowy, czyli synteza mężczyzny, kobiety lub dziecka oraz format
przesyłanego pliku ( .aiff, .wav, .au ).
http://www.flexvoice.com/demo.html - zdalna demonstracja syntezatora FlexVoice
dla języka angielskiego i węgierskiego - dostępne 4 różne głosy.
http://www.tik.ee.ethz.ch/cgi-bin/w3svox - zdalna demonstracja syntezatora
SVOX tylko dla języka niemieckiego z Technicznego Instytutu Informatyki i
Telekomunikacji TIK w Niemczech. Przesył w formatach au, wav, voc, aiff i raw.
http://www.fonix.com/downloads/ttsdemo.php - zdalna demonstracja syntezatora
korporacji Fonix (R) tylko dla języka angielskiego.
http://wwwtios.cs.utwente.nl/say/index.html - zdalna demonstracja syntezy mowy
języka angielskiego będšcej osišgiem Tele-Informatic Open System Uniwersytetu
Twente z Holandii.
Polskie strony kierowane do osób niewidomych:
http://kdn.idn.org.pl - serwer Komputer Dla Niewidomych opisujšcy dokładnie
sprzęt i oprogramowanie pomocne osobom niewidomym i słabowidzšcym.
http://www.pzn.org.pl - strona Polskiego Zwišzku Niewidomych.
http://www.idn.org.pl - serwer Internet Dla Niepełnosprawnych.
http://harpo14.poznan.mtl.pl - opis produktów dla osób niewidomych i
niedowidzšcych m.in. drukarki brailowskie, elektroniczne notatniki i
dyktafony, lupy elektroniczne, brailowskie maszyny do pisania, monitory
(linijki) brailowskie, powiększalniki telewizyjne, OCR, programy powiększajšce
no i oczywicie syntezatory mowy.
http://samisobie.clan.pl - Stowarzyszenie Internetowej Społecznoci Osób
Niepełnosprawnych. Zawiera wiele materiałów informacyjnych posegregowanych
tematycznie. Ich cennik na programy i urzšdzenia dla niedowidzšcych jest
udostępniony na stronie http://samisobie.clan.pl/syntmowy.htm
SONDA
Co sšdzisz o tej stronce ?
Byle tak dalej.
Jest OK.
Nic nie sšdzę.
Nic ciekawego.
Strasznie nudna.
Zobacz wyniki
[ Czytaj księgę goci ]
[ Wpisz się do księgi ]
Wyszukiwarka
Podobne podstrony:
OBRĂBKA DĹšWIÄKU I FILMĂWCP W1 I NS lato2011 obrĂłbka dĹşwiÄku14 Rejestracje i obrĂłbka dĹşwiÄku na potrzeby produkcjiid543CP W3 I NS lato2011 obrĂłbka dĹşwiÄkuslownik terminow zwiazanych z ksiazka elektronicznaslownik podstawowych pojÄÄ zwiÄ
zanych z kulturÄ
ĹźydowskÄ
DziaĹ 8 uprawnienia pracownikĂłw zwiÄ
zane z rodzicielstwemWyĹwietlacz MMI z 6 kanaĹowym procesorem dĹşwiÄku (9VD)SĹownik PUAwiÄcej podobnych podstron