ogolna historia syntezy mowy języka polskiego typu text to speech




Programowa synteza mowy języka polskiego typu "text-to-speech"












'); //-->

Programowa synteza mowyjęzyka polskiego typu TTSoraz
syntezator mowypolskiej DANT
Witam ! Jest już dostępna do przetestowania nowa wersja
syntezatora mowy DANT 1.9 (do pobrania w sekcji Do
ściągnięcia).Dopisałem bardzo dużo opcji i udoskonaliłem już istniejące
opcje, a także syntezę mowy. Znacznie rozbudowana została także możliwość
czytania napisów do filmów zgodnie z Waszym życzeniem. Alternatywna
kopia strony jest dostępna na http://www.syntezatorek.republika.pl/


SPIS Moja historyjka z
syntezatorem mowy Ogólna historyjka o
syntezie i syntezatorach mowy Zastosowanie syntezatorów
mowy Syntezator przydatny
każdemu posiadaczowi komputera (NOWOŚĆ!) Sposoby testowania
możliwości syntezatorów mowy (NOWOŚĆ!) Do ściągnięcia FAQ - czyli
pytania i odpowiedzi dotyczące syntezatora DANT Słowniczek związany z
syntezą mowy języka polskiego Słowniczek związany z
obróbką dźwięku Linkownia






Moja historyjka z syntezatorem
mowyPewnego razu buszując po stronach www natrafiłem na strony zopisem
polskich syntezatorów mowy. Od razu zaciekawiło mnie w jaki sposób programy te
generują mowę ludzką i zaszokowała mnie ich kolosalna cena. Rozmyślając sobie
nad metodą syntezy mowy jaką mogą stosować te programy i nie mając wówczas
zielonego pojęcia o tej dziedzinie informatyki wymyśliłem własną metodę jaką ja
bym zastosował pisząc taki program. Minął pewien czas, aż któregoś dnia
zdecydowałem się napisać taki program na własnej, eksperymentalnej metodzie
syntezy mowy. Po bardzo wielu godzinach żmudnego mówienia do mikrofonu w celu
utworzenia odpowiednich próbek głosowych i po wymyśleniu różnych czarodziejskich
sztuczek programistycznych udało mi się w końcu stworzyć własny syntezator mowy.
W tym miejscu pragnę przeprosić wszystkie osoby, które zmuszone były słuchać
dźwięki jakie z siebie wydawałem tworząc potrzebne próbki głosowe i podziękować
im, że mimo tego co słyszeli nie zwątpili w moją poczytalność. Pragnę także
podziękować mojej Justynie za to, że również śmiało wypowiedziała pare słów do
mikrofonu dzięki czemu poczułem się lepiej pisząc ten syntezator. Rozbudowa i
naturalizacja syntezy trwa nadal dzięki wszystkim życzliwym ludziom, którzy
swoim poparciem, uwagami i dobrymi słowami przyczyniają się do udoskonalania
tego syntezatora i dodają mi chęci do dalszego kontynuowania prac nad realizacją
nowych rozwiązań i pomysłów. Mój adres kontaktowy mailto:witam@konto.pl?subject=W
związku z syntezatorem mowy&body=Witam ! Zrzuty
ekranowe okien głównych tego syntezatora w najnowszej
wersji:















Opcje dotyczące czytania


napisów filmowych:




Kliknij tutaj, aby zobaczyć oryginalne rozmiary tych zrzutów
ekranowych. Zalecam uruchamianie programu
w windows klasy NT, jak np. XP lub 2000 ponieważ program był pisany głównie z
myślą o użytkownikach systemu Win XP.
Lista niektórych, najważniejszych zalet, które charakteryzują
syntezator mowy o nazwie DANT:

dowolny dobór klawiszy aktywujących oraz wiele ustawień dotyczących
sposobu pracy syntezatora mowy.
akcentowanie wyrazów pytających, wyrazów kończących zdanie oraz wyrazów
zakończonych wykrzyknikiem.
możliwość czytania napisów filmowych oraz autosynchronizacji czytanych
napisów z odtwarzarkami SubEdit Player i VPlayer.
automatyczne czytanie ze schowka, możliwość literowania, pauzy (chwilowej
i trwałej), czytania separatorów, pozycji myszy, aktualnej godziny i inne.
możliwość przyspieszania, spowalniania, zgłaśniania i ściszania czytania
oraz możliwość przewijania czytanego tekstu w dwóch trybach (stronicowym i o
ustaloną liczbę znaków).
możliwość czytania tytułu aktywnego okna obcej aplikacji oraz adresu
aktualnie aktywnej strony internetowej w przeglądarce Internet Explorer.
możliwość pracy syntezatora bezpośrednio z płyty CD z autouruchomieniem po
włożeniu płyty do napędu bez potrzeby instalowania programu oraz możliwość
zainstalowania programu na dysk twardy i ustawienia automatycznego
uruchamiania przy starcie systemu.
syntezator składa liczby poprawnie je czytając w zakresie od 0 do
999999999999, a pozostałe literuje.
poprawnie czyta wyjątki typu "tarzan, zamarznąć, klient", a także typu
"krzak, przeceniony, także, strzała, twarz".
rozpoznaje i czyta ponad 100 skrótów języka polskiego (np.
"tzn.","dr","MHz","zł").
synteza odbywa się w tle.
Historia innowacji i zmian wprowadzanych do syntezatora
DANT:Ostatnio wprowadzone zmiany i nowości (w wersji 1.9):


zmieniony został wygląd i poprawiony sposób działania całego programu.
dopracowana została synteza mowy przez dodanie akcentowania wyrazów
kończących zdanie, wyrazów z wykrzyknikiem oraz poprawienie akcentu wyrazów
pytających.
dopisane zostały nowe opcje konfiguracyjne programu (m.in. automatyczne
obniżanie czytanego tekstu w oknie, określanie czasów odstępów wyrazów i zdań,
ustawianie wyglądu po uruchomieniu).
dopisana została możliwość przedstawienia syntezatora w formie małego okna
mogącego pozostawać zawsze na wierzchu.
dla użytkowników systemu windows 98 syntezator dopracowany został pod
kątem pracy w tle innych okien systemu. Dzięki temu program działa z takim
efektem jak pracując wielowątkowo pod windows XP.
wyeliminowany został ukryty błąd z podgłaśnianiem syntezy oraz mały błąd z
czytaniem napisów filmowych.
cały syntezator można teraz ukryć do paska systemowego obok zegara i
pracować z niewidocznym programem oraz przełączać się do opcji programu z
poziomu ikony.
Linki do pozostałych opisów wprowadzanych innowacji w starszych
wersjach syntezatora DANT:Innowacje i
zmiany wprowadzone w wersji 1.8Innowacje i
zmiany wprowadzone w wersji 1.7Innowacje i
zmiany wprowadzone w wersji 1.6Innowacje i
zmiany wprowadzone w wersji 1.5Innowacje i zmiany
wprowadzone w wersjach najstarszychWymagania syntezatora
DANT:Program pisałem na komputerze z procesorem Celeron
366MHz zatem minimalne wymagania programu są następujące:

Procesor Celeron 366Mhz - powinno płynnie działać także na wolniejszych;
Opcja czytania napisów do filmu wymaga szybszego komputera (jednoczesne
odtwarzanie filmu i synteza bardzo obciążają procesor);
CD-ROM - program jest dostarczany na płycie CD w wersji bezpośrednio
uruchamianej z CD i w wersji instalacyjnej na dysk twardy;
1MB wolnej przestrzeni na dysku twardym - a jeśli chcemy zainstalować
syntezator na dysk to potrzebne jest ok. 10MB.
System operacyjny Windows. Zalecam klasy NT jak windows XP lub 2000, gdyż
syntezator pisany był z myślą o nowoczesnym środowisku systemowym jakim jest
obecnie Windows XP.
Oczywiście działająca karta muzyczna.
Według moich obliczeń syntezator wykorzystuje ok. 20 MB pamięci RAM, gdyż
od wersji 1.7 synteza jest generowana korzystając z jej zasobów.
Cały syntezator zajmuje obecnie ok. 10 MB i jest przystosowany do
uruchamiania z CD zatem nie trzeba go instalować na dysk twardy za każdym razem,
gdy użytkownik usiądzie przy innym komputerze. Oczywiście w razie potrzeby
syntezator można zainstalować i uruchomić także z dysku twardego. Mam
nadzieję, że dzięki osobom chcącym korzystać z tego syntezatora mowy polskiej
moje chęci na udoskonalanie go nie wygasną lecz nadal będą na tyle duże, że
pewnego dnia najtańszy program tego typu wyprzedzi jakościowo inne drogie
syntezatory. Zawartość tej witryny oraz udostępniane programy mają
charakter informacyjny i nie stanowią oferty handlowej w rozumieniu art.66par.1
Kodeksu Cywilnego oraz w rozumieniu art. 543 Kodeksu Cywilnego.









Ogólna historyjka o
syntezie i syntezatorach mowy
Pierwsze badania nad syntezą mowy zostały zainicjowane już w roku 1773
przez Ch.G.Kratzensteina - profesora fizjologii w Kopenhadze, który zrealizował
urządzenie generujące dźwięki samogłoskowe wykorzystując w tym celu rezonans
specjalnych tub połączonych z organowymi piszczałkami. Maszyna ta pozwalała na
dość ograniczone, niemniej jednak realne wytworzenie mowy syntetycznej. Dokładny
opis "maszyny mówiącej" umieścił Wolfgang von Kempelen w książce "Mechanismus
der menschlichen Sprache nebst Beschreibung einer sprechenden Maschine" (1791).W
1835 urządzenie to zostało zrekonstruowane na podstawie tej książki i
zaprezentowane przez Wheatstone'a w Dublinie jako nowsza wersja "maszyny
mówiącej".W Londynie w 1846 roku Joseph Faber zaprezentował urządzenie nazwane
jako "Euphonia", które jako pierwsze generowało nie tylko mowę ludzką, ale także
śpiew. Podobne urządzenie, jednak generujące dźwięk bardziej przybliżony do
naturalnej mowy ludzkiej zaprezentował w 1937 roku R.R.Riesz w Stanach
Zjednoczonych.Na początku dwudziestego wieku postęp techniczny umożliwił
wykorzystanie zjawisk elektrycznych przy budowie syntezatora mowy. Pierwsze
takie urządzenie elektryczne zostało wykonane przez Homera Dudley'a i
zaprezentowane pod nazwą "VODER" (ang. voice demonstrator) w Nowym Yorku w 1939
roku. Wszystkie te urządzenia służyły głównie rozrywce jednak w planach było
wykorzystanie ich w telekomunikacji. Nowy kierunek rozwoju tego typu urządzeń
nadał Frank Cooper tworząc w 1950 roku tzw. Pattern Playback , który to
sczytywał przy pomocy odbitej wiązki światła tekst a następnie przetwarzał go na
mowę.Od 1970 roku dalszy rozwój syntezy mowy był bezpośrednio związany z
technologią komputerową. Komputery umożliwiły tworzenie syntezatorów mowy dla
praktycznych celów dzięki czemu większe grono naukowców na świecie
zainteresowało się zmienianiem tekstu na mowę. Najnowsze osiągnięcia naukowców
pozwalają już nie tylko na wytwarzanie mowy ludzkiej, lecz także umożliwiają
dokładne ustalenie płci oraz wieku osoby wypowiadającej słowa. Można przykładowo
określić, że wytwarzana mowa odpowiada kobiecie w wieku 40 lat, dziecku w wieku
15 lat lub mężczyźnie w wieku 25 lat.



Zastosowanie
syntezatorów mowy
Obecnie zastosowanie syntezatorów mowy staje się coraz szersze.
Syntezatory mowy są bardzo pomocne dla osób niewidomych i niedowidzących jednak
są one także niezastąpione w innych sytuacjach. Otóż coraz częściej spotyka się
możliwość głosowej komunikacji maszyny z człowiekiem. Przykładem może być
bankofon, czyli urządzenie umożliwiające klientowi uzyskiwanie za pośrednictwem
telefonu informacji o stanie własnego konta. W niedalekiej przyszłość bankofony
będą powszechną ofertą wszystkich polskich banków. Syntezatory mowy są
wykorzystywane w serwerach fonicznych, gdzie służą one do przekazania rozmaitych
informacji użytkownikowi. Mogą to być przykładowo informacje dotyczące
repertuaru kin, aktualnych ofert cenowych i asortymentowych, ogłoszeń, różnych
porad, regulaminów, godzin otwarcia, aktualnych kursów walut i papierów
wartościowych, potrzebnych dokumentów w działalności gospodarczej, wyrobienia
dowodu osobistego, paszportu, prawa jazdy itd. Zatem syntezator mowy umożliwia
przekazanie użytkownikowi głosem (np. drogą telefoniczną) wszelkiego typu
pożądanej informacji i może to być usługa dostępna przez całą dobę. Obecnie
większość sieci telefonów komórkowych posiada tzw. usługę dostępu głosowego
wykorzystującą technologię text to speech (TTS) do odsłuchiwania wiadomości
elektronicznych, czyli na przykład wiadomości email. Coraz częściej spotyka się
także wykorzystanie technologi TTS w słownikach. Przykładem takiego słownika
może być wielojęzyczny słownik Babylon, który korzysta z technologii TTS do
poprawnego czytania haseł. Dodatkowo obecnie coraz bardziej popularny staje się
nowy standard VoiceXML umożliwiający prowadzenie dialogu między rozmówcą, a
komputerem z oprogramowaniem rozpoznającym mowę oraz zamieniającym tekst na
mowę.



Syntezator
przydatny każdemu posiadaczowi
komputeraJak zdążyłem się przekonać syntezatory mowy mogą być
pomocne i przydatne wielu osobom przynależących do przeróżnych grup społecznych.
Okazuje się, bowiem, że taki niewielki program znacznie potrafi ułatwić życie
każdemu posiadaczowi komputera. Na podstawie własnych obserwacji osoby
najbardziej zainteresowane tą tematyką mogę przedstawić następująco:

studenci, uczniowie i wszyscy czytający dużo z monitora - syntezator
pozwala oszczędzać wzrok i potrafi czytać tekst szybciej niż ludzkie oko,
ponadto syntezator mowy się nie męczy natomiast oczy ludzkie czytając tekst z
ekranu monitora męczą się bardzo szybko.
osoby niewidome i niedowidzące - przyjęto, że głównie dla nich tworzy się
tego typu programy, gdyż syntezatory mowy są często pomostem między osobą
niewidomą, a bogactwem informacji zawartym w komputerze i Internecie.
multimedialiści, czyli osoby korzystający z syntezatorów mowy do rozrywki
i zabawy - przykładem może być wprowadzona opcja czytania napisów do filmów w
moim syntezatorze, która obecnie cieszy się szerokim zainteresowaniem.
kadra naukowa - zainteresowanie syntezą mowy wykazują także nauczyciele
(być może mający styczność z osobami niepełnosprawnymi) oraz osoby pracujące w
różnych instytutach szkół wyższych (przypuszczalnie badających problematykę
syntezy).
osoby leniwe, którym po prostu nie chce się czytać to co przeczytać muszą.




Sposoby
testowania możliwości syntezatorów mowy
Pisząc własny syntezator mowy poznałem, co tak naprawdę
sprawia trudności programom w wypowiedzeniu i w jaki sposób można ocenić
zdolności wymowy tekstu dowolnego syntezatora. Przeciętny człowiek myśli zwykle
o wpisaniu kilku trudnych zdań do wypowiedzenia przez istotę ludzką i
sprawdzeniu jak sobie poradzi z tym syntezator. Otóż okazuje się, że
wypowiedzenie zdań w stylu:

"Lojalna Jola, Jola nielojalna",
"W Szczebrzeszynie chrząszcz brzmi w trzcinie",
"Król Karol kupił królowej Karolinie korale koloru koralowego",
"Grzegorz Brzęczyszczykiewicz",
"Szedł Sasza suchą szosą"
lub "stół z powyłamywanymi nogami"wbrew pozorom nie stanowi
większego problemu dla większości syntezatorów ( tak przy okazji jak ktoś zna
inne to chętnie poznam ). Co zatem może sprawić trudności w wymowie
?Chcąc dobrze przetestować dowolny syntezator mowy radzę zwrócić uwagę na
poniższe aspekty.CZYTANIE LICZB. Na początek najlepiej
sprawdzić czy syntezator potrafi składać liczby na postać mówioną czy też je po
prostu literuje jako cyfry.Przykładowo weźmy liczbę "1204009":

fatalnie, gdy syntezator przeczyta liczbę jako "jeden dwa zero cztery zero
zero dziewięć",
dobrze, jeśli syntezator przeczyta "jeden milion dwieście cztery tysiące
dziewięć",
a już najlepiej, gdy przeczyta w sposób jeszcze bardziej inteligentny
pomijając zbędne "jeden" przed słowem "milion".Z czytaniem liczb
po przecinku - liczb ułamkowych różnie bywa i nie zawsze jest pożądane, a w
szczególności, gdy mamy do czynienia z ciągiem liczb całkowitych oddzielonych od
siebie przecinkiem. Czytanie wówczas dwóch takich liczb całkowitych oddzielonych
przecinkiem będzie mylące.CZYTANIE WYJĄTKÓW. Język polski
jest bardzo oporny, jeśli chodzi o reguły czytania wyrazów i podobnie jak w
języku angielskim niektóre wyrazy mogą odbiegać w wymowie od wszelkich
przyjętych zasad. Syntezator mowy powinien rozpoznawać, że ma do czynienia z
takim nietypowcem i poprawnie go przeczytać odbiegając od ustalonych reguł. Oto
parę przykładów:

słowa "marznąć","zamarznąć","przymarznął","tarzan" i inne odmiany takich
słów powinien przeczytać nie składając "rz" w "ż"
słowa "klient", "klientowi","kliencki" i inne tego typu odmiany powinien
czytać rozdzielając fragment "kli" od "ent" lub przedłużając literę "i", aby
było ją właściwie słychać.ROZPOZNAWANIE SKRÓTÓW. Myślę,
że fajnie jest, jeśli syntezator przykładowe skróty "np.", "inż."Kg ","MHz
","p.n.e.","n.p.m.", "tel." czy "tzn." przeczyta rozwijając je odpowiednio,
czyli jako "na przykład", "inżynier", "kilogramów", "megaherców", "przed naszą
erą", "nad poziomem morza", "telefon" czy tez "to znaczy". Pisząc własny
syntezator doliczyłem się około 120 takich fundamentalnych skrótów, więc myślę,
że jest to znaczące tym bardziej że w codziennym piśmie pojawiają się nadzwyczaj
często.LITEROWANIE INICJAŁÓW I SKRÓTÓW NAZW.Bardzo często
pojawia się problem ze sposobem przeczytania pewnych wyrazów złożonych z
pierwszych liter nazw jakiegoś określenia (np. nazwy firmy, przedmiotu lub
terminu). Ważne jest, aby syntezator potrafił przeliterować napotkaną nietypową
nazwę zamiast czytać ją jako niezrozumiałe słowo. Przykładem możą być skróty
SDK, MS, IE, WWW - powinny być one literowane, a nie czytane
składowo.TEST TYPU "SZOK I PRZERAŻENIE".Aby dobrze
przetestować syntezator mowy najlepiej jest wprowadzić tekst ciężki dla niego do
przełknięcia. Jaka to mogłaby być treść ? Proponowałbym wypróbować:

wprowadzenie tekstu maksymalnie długiego - z tego co mi wiadomo
najdłuższym polskim wyrazem nierozłącznym jest
"konstantynopolitańczykiewiczówianeczka". W języku polskim dłuższych wyrazów
raczej nie można spotkać, zatem szybkie i poprawne przeczytanie wyrazu takich
rozmiarów dobrze świadczy o syntezatorze.
wprowadzenie tekstu składającego się ze znaków niealfabetycznych - dobry
syntezator powinien poradzić sobie z różnymi dziwnymi znakami w środku tekstu
i je w miarę możliwości przeczytać. Przykładem może być ciąg
"Só@#$!saf$~'%_+-\{q".
wprowadzenie dowolnego tekstu i przyspieszenie mowy w celu wychwycenia
momentu gdy mowa przestaje być zrozumiała - podobny test pożna wykonać
spowalniając test. Syntezator powinien czytać zrozumiale w jak najszerszym
wachlarzu wprowadzonych zmian.AKCENTOWANIE.Akcentowanie
wyrazów jest bardzo trudne do osiągnięcia w syntezatorze, natomiast akcentowanie
całych zdań to już wykonanie arcydzieła. Testując sposób akcentowania wyrazów
przez syntezator mowy najlepiej posłużyć się analogicznymi przykładami:

słowa "mama", "tata", "alibaba" posiadają dwie jednakowe sylaby
sąsiadujące ze sobą, jednak mimo to sylaby te powinny być czytane w różny
sposób (na ogół pierwszy fonem bardziej akcentowany niż drugi) - nie powinny
one brzmieć tak samo.
słowa krótkie typu "na", "do", "za" lub "pod" nie powinny brzmieć jakby
były wyjęte z innych wyrazów. Natomiast testując sposób akcentowania
całych zdań najlepiej jest wpisać klika zdań zakończonych znakiem zapytania i
kilka zakończonych wykrzyknikiem. Radzę także zwrócić uwagę czy zdanie
zakończone kropką brzmi inaczej niż to same zdanie bez kropki kończącej. Powinno
oczywiście być słyszalne akcentowanie w duł wyrazu kończącego
zdanie.OBCIĄŻALNOŚĆ SYSTEMU.Zwykle bywa tak, że im syntezator
więcej potrafi przeczytać i jest inteligentniejszy w wyłapywaniu tekstu z obcych
okien systemu operacyjnego tym bardziej obciąża procesor i spowalnia pracę
komputera. Warto zwrócić uwagę na to jak system zachowuje się podczas pracy
syntezatora i czy swobodnie można wykonywać inne zadania na komputerze. Istotne
jest także sprawdzenie czy skróty klawiszowe obsługujące syntezator mowy nie
przeszkadzają w normalnej pracy z inną aplikacją.




Do
ściągnięcia
Poniżej udostępniam najnowszą instalacyjną wersję testową mojego
syntezatora mowy DANT 1.9. Serwer 3Instalka_DANT.rar
(8 MB) Serwer 4 (alternatywny - niezalecany)Instalka_DANT.exe
(3 MB - rar) Instalka_DANT.r00
(3 MB - rar) Instalka_DANT.r01
(2 MB - rar) Pozostałe serwery z programem powinny być
udostępnione za parę dni. Syntezator poprawnie rozpoznaje najnowszą
odtwarzarkę SubEdit Player dostępną na stroniehttp://alfa.imi.pcz.czest.pl/~subedit/polish/information.html
:SubEdit
Player w wersji instalacyjnej. (762 kB ) SubEdit
Player w wersji spakowanej zipem. (664 kB ) Aby syntezator
kontrolował poprawnie pracę odtwarzarki VPLAYER odtwarzarka ta musi być jedną z
następujących wersji dostępnych ze strony http://www.vplayer.prv.pl/ :

VPlayer (alpha
2000) wersja 0.5e (372 kB)
VPlayer (alpha
2000) wersja 0.5d (373 kB)
VPlayer (alpha
2000) wersja 0.5c (373 kB)
VPlayer (alpha
2000) wersja 0.5b (370 kB)
VPlayer (alpha
2000) wersja 0.5a (360 kB)
VPlayer (alpha
2000) wersja 0.4h (498 kB) Przy zwiększonym ruchu ściąganie z serwera 4 (alternatywnego)
może zakończyć się blokadą strony przez godzinę w wyniku przekroczenia
godzinnego limitu transferu dlatego zalecam ściąganie z serwera 1 ,2 lub 3.
Dziękuję wszystkim życzliwym ludziom, którzy udostępniają mi
miejsce na własnych serwerach. Dzięki tym osobom można ten program
pobierać już z trzech różnych mirrorów. Jeśli chcesz także udostępnić mi do 10
MB na swoim serwerze w roli kolejnego mirrora to byłym bardzo wdzięczny, a w
zamian mogę w razie potrzeby umieszczać na stronie jakieś banery
reklamowe.Obecnie strona jest odwiedzana średnio 75 razy na dzień i zajmuje
już czołowe miejsca w wynikach największych wyszukiwarek takich jak http://syntezatorek.w.interia.pl/www.google.com.pl,
http://syntezatorek.w.interia.pl/www.yahoo.com,
http://www.wp.pl/ , http://wow.pl/ oraz http://netsprint.pl/ po wpisaniu hasła
"syntezator mowy". Jeśli strona http://www.syntezatorek.republika.pl/
jest dostępna, a próba pobierania pliku z serwera 4 nadal powoduje wyświetlenie
"Przekroczono godzinny limit transferu" należy w opcjach internetowych
przeglądarki (z menu "Narzędzia") kliknąć "usuń pliki" a następnie "Usuń całą
zawartość online". W każdej sprawie można się ze mną skontaktować poprzez email mailto:witam@konto.pl?subject=W
związku z syntezatorem mowy&body=Witam !Dodatkowe informacje o
użytkowaniu syntezatora DANT są dostępne w dziale FAQ - czyli
pytania i odpowiedzi dotyczące syntezatora DANT. Zawartość tej
witryny oraz udostępniane programy mają charakter informacyjny i nie stanowią
oferty handlowej w rozumieniu art.66par.1 Kodeksu Cywilnego oraz w rozumieniu
art. 543 Kodeksu Cywilnego.



Mały
słowniczek związany z syntezą mowy języka
polskiego
Abrewiacja
skrót wyrazu lub
grupy wyrazów w piśmie, jak np., itd., itp.Afereza
zanik
początkowej głoski lub grupy głosek w wyrazie.Afiks
jest to
cząstka wyrazu.Afiksacja
tworzenie wyrazów pochodnych przez
dodawanie afiksów do wyrazów podstawowych.Afrykata

spółgłoska zwarto
szczelinowa (c, dz, cz, ć, dź). Alfabet polski

zbiór wszystkich znaków literowych pisma używanego w języku polskim.
Kolejność jest następująca: a, ą, b, c, ć, d, e, ę, f, g, h, i, j, k, l, ł, m,
n, ń, o, ó, p, (q), r, s, ś, t, u, (v), w, x, y, z, ź, ż. Litery q, v, x
stosujemy tylko w pisowni wyrazów obcych oraz we wzorach matematycznych. Litery
ą, ę, ń i y w języku polskim nie rozpoczynają wyrazów.Alofon

głoska różniąca się od innej głoski tylko cechą fonetyczną, nie
funkcją.Alograf
wariant graficzny
litery.Apokopa
zanik głoski na końcu wyrazu.
Artykulacja
ruchy i układ narządów mowy podczas wymawiania
poszczególnych głosek. Aspiracja
przydech dający w wyniku
słaby dźwięk h, towarzyszący artykulacji niektórych głosek.
Aspiraty
spółgłoski przydechowe, np. ph, th, kh, dh, gh w
systemie danego języka, przeciwstawiające się spółgłoskom czystym p, t, k, d,
g.Asybilacja
wytwarzanie się w końcowej fazie artykulacji
spółgłoski zwartej szczeliny, której rezultatem są np. polskie spółgłoski ć, dź,
powstałe z dawnych t', d'.Dwuznak
znak podwójny, składający
się z dwóch elementów, w szczególności połączenie dwóch liter oznaczające jedną
głoskę, np. sz, rz, ch, dz.Dyftong
dwugłoska
zespół dwóch
elementów samogłoskowych, z których tylko jeden jest podstawą sylaby, np. autor.
Eufonia
harmonijne, przyjemne brzmienie głosek.
Fonem
najmniejsza dająca się wydzielić jednostka systemu
fonologicznego. Jest to zespół współwystępujących cech dystynktywnych
charakteryzujących dany dźwięk w określonym systemie
językowym.Fonetyka
dział nauki o języku obejmujący badanie
dźwięków mowy.Fonologia
nauka o funkcjach dźwięków w
mowie.Geminaty
spółgłoski podwojone, np. panna, lekki.
Głoska
najmniejsza głośna artykulacja powtarzająca się w
toku mowy. Mowa składa się z głosek. Głoski mówimy i słyszymy. Zapisujemy głoski
za pomocą liter. Implozja
początkowy moment artykulacji
spółgłosek zwartych.Interakcyjny System Telefoniczny (IST)

system komunikacyjny nie stawiający użytkownikowi żadnych dodatkowych wymagań
sprzętowych prócz telefonu. Interesująca informacja użytkownikowi zostaje
przekazana wyłącznie za pomocą głosu. Ponieważ systemy takie muszą być
interakcyjne, to użytkownik powinien przekazywać do systemu polecenia lub
wskazania, jakie informacje go interesują.Jotacja
pojawienie
się spółgłoski j" w wyrazach, najczęściej przed samogłoskami nagłosowymi i
między samogłoskami. Kontrakcja
ściągnięcie dwóch
występujących obok siebie samogłosek w jedną.Litera
znak
graficzny oznaczający określoną głoskę (pisany, drukowany, wykuty, wykonany z
jakiegoś materiału), zespół liter danego języka stanowi
alfabet.Mazurzenie
wymowa ogólnopolskich spółgłosek sz, ż,
cz, dź, jak s, z, c, dz występująca w niektórych dialektach polskich.
Monoftong
pojedyncza samogłoska. Mocja

różnorodność końcówek gramatycznych pozostajaca w zwiazku z rodzajem
gramatycznym, np. nowy, nowa, nowe, nowi.Morfologia
dział
gramatyki obejmujący fleksję i słowotwórstwo; nauka o budowie i odmianie
wyrazów.Ortoepia
nauka poprawnego mówienia i poprawnego
używania form językowych. Ortofonia
nauka poprawnego
wymawiania. Samogłoska
głoska dźwięczna, otwarta, mogąca
tworzyć sylabę. Serwer foniczny
serwer do przekazywania
poprzez łącza telefonii stacjonarnej bądź komórkowej, informacji o charakterze
audio tekstowym. Sonanty
półsamogłoski
grupa fonemów
stojących na pograniczu między samogłoskami i spółgłoskami, np. spółgłoski
półotwarte, płynne
r, l, nosowe
m, n. Spiranty

spółgłoski szczelinowe, np. f, w, s, z, sz, ź, ż, ś.
Spółgłoska
konsonant
głoska tworząca sylabę w połączeniu z
samogłoską. Sylaba
zgłoska
cząstka fonacji odpowiadająca
taktowi wydechu. Składa się z samogłoski lub z samogłoski połączonej ze
spółgłoską. Sylaba jest otwarta, kiedy jest zakończona samogłoską lub zamknięta,
jeżeli kończy się spółgłoską. Synkopa
zanik nie akcentowanej
głoski lub grupy głosek wewnątrz wyrazu.VoiceXML
nowy
standard stosowany przy oprogramowywaniu aplikacji mowy. Jest to język, który
definiuje sposób konstruowania i prowadzenie dialogu pomiędzy rozmówcą, a
komputerem z oprogramowaniem rozpoznającym mowę oraz zamieniającym tekst na
mowę. VoiceXML jest dostatecznie elastyczny, by umożliwić tworzenie treści
głosowych w technologii webowej lub budowę aplikacji dla centrów rozpoznawania
wywołań opartych na technice telefonicznej.









Mały
słowniczek związany z obróbką dźwięku
Aliasing - niekorzystne
zjawisko które zachodzi podczas próbkowania dźwięku, polega ono na nakładaniu na
sygnał niepożądanych częstotliwości harmonicznych;Amplituda -
wartość o jaką fala (sygnał) wznosi się lub opada względem zera;
Analogowy sygnał - sygnał w postaci przebiegu ciągłego, w którym
dane są przedstawiane jako wielkości fizyczne; Barwa dźwięku -
obecność określonych częstotliwości składowych, które decydują o brzmieniu
poszczególnych instrumentów lub głosu ludzkiego; Całkowite pasmo
przenoszenia - zakres częstotliwości jaki jest w stanie przetworzyć dane
urządzenie przetwarzające dźwięk;Cyfrowy sygnał - sygnał który
jest wyrażony w postaci próbek zapisanych cyfrowo, wyraża on swoimi wartościami
amplitudę(przebieg) sygnału; Częstotliwości harmoniczne -
decydujące o barwie dźwięku są składowymi widma akustycznego o
częstotliwościach równych wielokrotności tonu
podstawowego;Częstotliwość odcięcia - parametr, który określa
częstotliwość jakiej nie jest w stanie przenieść określone
urządzenie;Częstotliwość próbkowania - wartość, którą wyrażamy
w hercach, określa ona ile razy w przeciągu jednej sekundy została pobrana
próbka sygnału analogowego do procesu kwantyzacji; Decybel -
jednostka głośności, jeden decybel to minimalna zmiana głośności jaką może
rozróżnić ludzkie ucho, skala w decybelach jest skalą logarytmiczną, co wynika z
właściwości ludzkiego ucha; Delay - opóźnienie sygnału
przetworzonego w stosunku do źródłowego; Digitalizacja

(cyfryzacja) proces zamiany sygnału analogowego na
cyfrowy;Dithering - proces , którego zadaniem jest dodanie do
sygnału cyfrowego tzw. szumu linearyzującego, który maskuje szum kwantyzacji;
Dopplera efekt - zmiana częstotliwości fali słyszanej przez
słuchacza w przypadku poruszania się względem źródła dźwięku, przy zbliżaniu się
do źródła dźwięku dźwięk słyszany staje się wyższy, przy oddalaniu niższy;
Dynamika - stosunek sygnałów o najniższym i najwyższym
poziomie, jakie można zapisać na nośniku lub sprzęcie przy użyciu danej
technologii, wartość dynamiki jest podawana w decybelach (dB); Echo
- odbicie dźwięku od przeszkody i powrót do miejsca transmisji, stosowane
w obróbce dźwięku przy pomocy procedur umieszczonych w programach do obróbki
dźwięku; Elektroakustyka - dział akustyki zajmujący się
problematyką przetwarzania energii akustycznej w elektryczną i odwrotnie;
Equalizer - korektor; Filtr - procedura w
programie, układ elektroniczny lub obwód, które służą do wzmacniania lub
odcinania pewnych określonych częstotliwości, istnieją filtry pasywne (bez
wzmacniacza) i aktywne (ze wzmacniaczem); Filtr dolnoprzepustowy
- filtr tłumiący (odcinający) częstotliwości powyżej ustalonej
częstotliwości odcięcia; Filtr górnoprzepustowy - filtr
tłumiący (odcinający) częstotliwości poniżej ustalonej częstotliwości odcięcia;
Filtr przeciwszumowy - filtr służący do redukcji szumów, czyli
odcina najwyższe pasmo akustyczne;Full duplex - tryb pracy
karty dźwiękowej pozwalający jej na jednoczesne nagrywanie i odtwarzanie
dźwięku; Fuzz - (przester) efekt sprzętowy lub programowy
umożliwiający kontrolowane przesterowanie sygnału; Generator fal
dźwiękowych - układ elektroniczny lub procedura w programie potrafiąca
wytworzyć przebieg sygnału o różnym kształcie amplitudy (przede wszystkim
sinusoidalnym, trójkątnym, piłokształtnym lub kwadratowym), można potem takie
przebiegi nakładać na siebie tworząc zróżnicowane pod względem charakterystyki
przebiegi; Kwantyzacja - wyrównywanie pobranych i pomierzonych
wartości do wartości najbliższego przedziału kwantowania, zaokrąglanie ich do
pełnych liczb; Miernik wysterowania - (VU-meter) miernik
dokonujący pomiarów poziomu szczytów sygnałowych trwających minimum 10 ms,
umożliwia dokładną kontrolę dynamiki sygnału;Nadpróbkowanie -
(oversampling) dodatkowe próbkowanie sygnału pomiędzy próbkami zasadniczymi,
zwiększające precyzję procesu próbkowania i ułatwiające zmniejszenie szumów
kwantyzacji. Wykonuywane jest poprzez obliczanie dodatkowych wartości na
podstawie już istniejących; Pasmo przenoszenia - zakres
częstotliwości jakie może przenieść i odtworzyć dane urządzenie;
Próbka
(sample) potoczne określenie krótkiego fragmentu nagrania
cyfrowego, służącego do tworzenia muzyki w samplerach lub syntezatorach
cyfrowych;Próbkowanie - okresowe dokonywanie pomiaru poziomu
sygnału analogowego w celu przetworzenia go na impulsowy sygnał cyfrowy;
Przesterowanie - wprowadzenie urządzenia w stan uniemożliwiający
liniowe przeniesienie sygnału; Przetwornik AC - układ
przetwarzający sygnał analogowy (A) na postać cyfrową (C);
Przetwornik CA - układ przetwarzający sygnał cyfrowy (C) na
postać analogową (A); Rozdzielczość próbkowania - wyrażana w
bitach wartość określająca dokładność z jaką przybliżane są wartości poziomów
sygnału analogowego; Szum - napięcie zakłócające, zjawisko
akustyczne wywołane sygnałami o nieuporządkowanych przebiegach w szerokim
zakresie częstotliwości; Szum kwantowania - (szum granularny)
szum powstający na skutek niedokładności przebiegu sygnału cyfrowego,
wynikającej z zaokrąglania (kwantowania) wartości próbek; Szum
spoczynkowy - wytwarzany jest przez urządzenie nieobciążone tzn. gdy nie
przepływa przez nie sygnał; Wzmacniacz - urządzenie służące do
wzmacniania mocy sygnału doprowadzonego na jego wejście;
Zniekształcenia liniowe - zniekształcenia wprowadzające opóźnienia
fazowe lub zakłócające pierwotny kształt widma
sygnału;Zniekształcenia nieliniowe - pojawiają się gdy
urządzenie nie jest w stanie przetworzyć sygnału w sposób proporcjonalny, w
skrajnych przypadkach obcinając nawet szczyty sygnałów;



Najciekawsze linki
Strony z informacjami o syntezie mowy i
syntezatorach oraz z przykładowymi samplami dźwiękowymi syntezatorów:
POLSKIE:

http://kdn.idn.org.pl/syntezatory/index.html - opis
programowych syntezatorów mowy Spiker, SynTalk, Lektor i SPEAK oraz
sprzętowych syntezatorów mowy Apollo i SMP
http://harpo14.poznan.mtl.pl/web.nsf/produkty?OpenView&Start=1&Count=30&Expand=11#11
- opis syntezatorów mowy Juno, Kubuś, Spiker, SynTalk i Apollo
2.
http://www.harpo.com.pl/al.htm - Auto-Lektor firmy Harpo,
czyli urządzenie do czytania głosem syntetycznym pisma
drukowanego.
http://www.kognitywistyka.net/ - strona poświęcona
głównie naukom kognitywnym z bardzo bogatym zbiorem informacji dotyczących
sztucznej inteligencji i problematyki mózgu - zawiera liczne ciekawe artykuły
i mnóstwo interesujących linków. Między innymi w dziale sztucznej inteligencji
znaleźć można linki do sporej liczby stron z informacjami o innych
syntezatorach mowy.
http://luke.of.pl/ -
prywatna strona Łukasza O. - twórcy syntezatora mowy typu text-to-speech
napisanego w ramach pracy magisterskiej [ pozdrawiam :) ]
http://www.olafson.prv.pl/ - prywatna strona o syntezie i
analizie sygnałów mowy.
http://www.pjwstk.edu.pl/~kszklanny/syntezam.htm -
artykuł Kszysztofa Sz. z opisem metod syntezy mowy.
http://www.ipnet.pl/sf/index.htm - opis serwerów
fonicznych z wykorzystaniem syntezatorów mowy typu text to speech.
http://www.pckurier.pl/webmaster/2000/kwiecien/domalewski/voxml.html
- opis języka VoxML do tworzenia serwisów głosowych umożliwiającego
samodzielne budowanie aplikacji głosowych.
http://www.pckurier.pl/webmaster/2000/maj/domalewski/voxml2.html
- druga część opisu głosowego systemu sieciowego opartego o język VoxML.
Artykuł opisuje jak przy pomocy programu VoxML SDK będącego symulatorem
przeglądarki głosowej i umożliwiającego konwersję kodu źródłowego serwisu
głosowego zaprojektować głosowy internetowy serwis www.
http://www.networld.pl/artykuly/21870.html - inny artykuł
poświęcony nowemu standardowi VoiceXML - językowi stosowanemu przy
oprogramowywaniu aplikacji mowy.ŚWIATOWE:

http://www.ling.su.se/staff/hartmut/kemplne.htm -
angielska strona świetnie opisująca historię syntezatorów mowy - zawiera
zdjęcia i schematy dawnych "maszyn mówiących" oraz krótkie sample
demonstrujące ich możliwości.
http://www.festvox.org/history/klatt.html - angielska
strona zawierająca dużą ilość sampli demonstrujących możliwości syntezatorów
mowy różnych typów z różnych okresów rozwoju tej dziedziny.
http://www.ling.su.se/staff/hartmut/manipul.htm - strona
zawiera sample demonstrujące syntezę mowy po szwecku ze zmianą płci i wieku z
Instytutu Lingwistyki Uniwersytetu Sztokholmskiego.
Strony wielkich światowych instytucji zajmujących
się dziedziną syntezy mowy z możliwością zdalnego testowania ich produktów (po
wprowadzeniu tekstu otrzymujemy zsyntezowaną mowę czytającą ten tekst w danym
języku) :

http://www.scansoft.com/realspeak/demo/ - potężna firma o
światowym zasięgu demonstruje możliwości swoich syntezatorów mowy o syntezie
najlepszej jakości (moja opinia) z możliwością wyboru jednego z wielu języków
świata - w tym także języka polskiego. Niestety według danych z www.chip.de
syntezator tej firmy o nazwie RealSpeak(TM) jest wyceniony do sprzedaży na
sumę ok. 1000 euro. Uwaga zdalnie generowana synteza mowy polskiej nie
akceptuje polskich fontów. Przesył w formacie WAVE.
http://www.elantts.com/accueil.html - prezentacja syntezy
mowy text-to-speech firmy ElanSpeech dostępna w języku polskim, francuskim,
angielskim, hiszpańskim, brazylijskim, niemieckim, ruskim, włoskim i
holenderskim. Uwaga zdalnie generowana synteza mowy polskiej nie akceptuje
polskich fontów. Przesył w formacie WAVE.
http://www.festvox.org/voicedemos.html - opcjonalna
synteza języka angielskiego w odmianie amerykańskiej i brytyjskiej oraz języka
hiszpańskiego - niestety brak języka polskiego
http://www.naturalvoices.att.com/demos/ - laboratorium
AT&T Natural Voices (TM) demonstruje syntezę text-to-speech dla języka
angielskiego, niemieckiego, francuskiego i koreańskiego. Alternatywna strona
AT&T Lab's Natural Voices (TM) z demonstracją syntezy jest dostępna na
http://www.research.att.com/~ttsweb/cgi-bin/ttsdemo
http://www.bell-labs.com/project/tts/index.html -
labolatorium Bell Labs prezentuje projekty oparte na technologii
text-to-speech - dostępna jest zdalna synteza dla języka angielskiego,
niemieckiego, chińskiego, hiszpańskiego, francuskiego i włoskiego. Można
dokładnie określić rodzaj syntezy mowy, czyli synteza mężczyzny, kobiety lub
dziecka oraz format przesyłanego pliku ( .aiff, .wav, .au ).
http://www.flexvoice.com/demo.html - zdalna demonstracja
syntezatora FlexVoice dla języka angielskiego i węgierskiego - dostępne 4
różne głosy.
http://www.tik.ee.ethz.ch/cgi-bin/w3svox - zdalna
demonstracja syntezatora SVOX tylko dla języka niemieckiego z Technicznego
Instytutu Informatyki i Telekomunikacji TIK w Niemczech. Przesył w formatach
au, wav, voc, aiff i raw.
http://www.fonix.com/downloads/ttsdemo.php - zdalna
demonstracja syntezatora korporacji Fonix (R) tylko dla języka angielskiego.

http://wwwtios.cs.utwente.nl/say/index.html - zdalna
demonstracja syntezy mowy języka angielskiego będącej osiągiem Tele-Informatic
Open System Uniwersytetu Twente z Holandii. Polskie
strony kierowane do osób niewidomych:

http://kdn.idn.org.pl/
- serwer Komputer Dla Niewidomych opisujący dokładnie sprzęt i
oprogramowanie pomocne osobom niewidomym i słabowidzącym.
http://www.pzn.org.pl/
- strona Polskiego Związku Niewidomych.
http://www.idn.org.pl/
- serwer Internet Dla Niepełnosprawnych.
http://harpo14.poznan.mtl.pl/ - opis produktów dla osób
niewidomych i niedowidzących m.in. drukarki brailowskie, elektroniczne
notatniki i dyktafony, lupy elektroniczne, brailowskie maszyny do pisania,
monitory (linijki) brailowskie, powiększalniki telewizyjne, OCR, programy
powiększające no i oczywiście syntezatory mowy.
http://samisobie.clan.pl/ - Stowarzyszenie Internetowej
Społeczności Osób Niepełnosprawnych. Zawiera wiele materiałów informacyjnych
posegregowanych tematycznie. Ich cennik na programy i urządzenia dla
niedowidzących jest udostępniony na stronie http://samisobie.clan.pl/syntmowy.htm





SONDA

Co sądzisz o tej stronce ?




Byle tak
dalej.


Jest
OK.


Nic nie
sądzę.


Nic
ciekawego.


Strasznie
nudna.
Zobacz
wyniki







[ Czytaj
księgę gości ][ Wpisz się do księgi
]

//




Wyszukiwarka

Podobne podstrony:
Bogurodzica jako zabytek języka polskiego, historia utworu, walory literackie
Reforma języka polskiego
Gramatyka opisowa języka polskiego ściaga
ZAGADNIENIA MATURALNE Z JĘZYKA POLSKIEGO 1

więcej podobnych podstron