plik


Programowa synteza mowy języka polskiego typu "text-to-speech" Programowa synteza mowy języka polskiego typu TTS oraz syntezator mowy polskiej DANT Witam ! Jest już dostępna do przetestowania nowa wersja syntezatora mowy DANT 1.9 (do pobrania w sekcji Do œcišgnięcia). Dopisałem bardzo dużo opcji i udoskonaliłem już istniejšce opcje, a także syntezę mowy. Znacznie rozbudowana została także możliwoœć czytania napisów do filmów zgodnie z Waszym życzeniem. Alternatywna kopia strony jest dostępna na http://www.syntezatorek.republika.pl SPIS Moja historyjka z syntezatorem mowy Ogólna historyjka o syntezie i syntezatorach mowy Zastosowanie syntezatorów mowy Syntezator przydatny każdemu posiadaczowi komputera (NOWOŒĆ!) Sposoby testowania możliwoœci syntezatorów mowy (NOWOŒĆ!) Do œcišgnięcia FAQ - czyli pytania i odpowiedzi dotyczšce syntezatora DANT Słowniczek zwišzany z syntezš mowy języka polskiego Słowniczek zwišzany z obróbkš dŸwięku Linkownia Moja historyjka z syntezatorem mowy Pewnego razu buszujšc po stronach www natrafiłem na strony z opisem polskich syntezatorów mowy. Od razu zaciekawiło mnie w jaki sposób programy te generujš mowę ludzkš i zaszokowała mnie ich kolosalna cena. Rozmyœlajšc sobie nad metodš syntezy mowy jakš mogš stosować te programy i nie majšc wówczas zielonego pojęcia o tej dziedzinie informatyki wymyœliłem własnš metodę jakš ja bym zastosował piszšc taki program. Minšł pewien czas, aż któregoœ dnia zdecydowałem się napisać taki program na własnej, eksperymentalnej metodzie syntezy mowy. Po bardzo wielu godzinach żmudnego mówienia do mikrofonu w celu utworzenia odpowiednich próbek głosowych i po wymyœleniu różnych czarodziejskich sztuczek programistycznych udało mi się w końcu stworzyć własny syntezator mowy. W tym miejscu pragnę przeprosić wszystkie osoby, które zmuszone były słuchać dŸwięki jakie z siebie wydawałem tworzšc potrzebne próbki głosowe i podziękować im, że mimo tego co słyszeli nie zwštpili w mojš poczytalnoœć. Pragnę także podziękować mojej Justynie za to, że również œmiało wypowiedziała pare słów do mikrofonu dzięki czemu poczułem się lepiej piszšc ten syntezator. Rozbudowa i naturalizacja syntezy trwa nadal dzięki wszystkim życzliwym ludziom, którzy swoim poparciem, uwagami i dobrymi słowami przyczyniajš się do udoskonalania tego syntezatora i dodajš mi chęci do dalszego kontynuowania prac nad realizacjš nowych rozwišzań i pomysłów. Mój adres kontaktowy witam@konto.pl Zrzuty ekranowe okien głównych tego syntezatora w najnowszej wersji: Opcje dotyczšce czytania napisów filmowych: Kliknij tutaj, aby zobaczyć oryginalne rozmiary tych zrzutów ekranowych. Zalecam uruchamianie programu w windows klasy NT, jak np. XP lub 2000 ponieważ program był pisany głównie z myœlš o użytkownikach systemu Win XP. Lista niektórych, najważniejszych zalet, które charakteryzujš syntezator mowy o nazwie DANT: dowolny dobór klawiszy aktywujšcych oraz wiele ustawień dotyczšcych sposobu pracy syntezatora mowy. akcentowanie wyrazów pytajšcych, wyrazów kończšcych zdanie oraz wyrazów zakończonych wykrzyknikiem. możliwoœć czytania napisów filmowych oraz autosynchronizacji czytanych napisów z odtwarzarkami SubEdit Player i VPlayer. automatyczne czytanie ze schowka, możliwoœć literowania, pauzy (chwilowej i trwałej), czytania separatorów, pozycji myszy, aktualnej godziny i inne. możliwoœć przyspieszania, spowalniania, zgłaœniania i œciszania czytania oraz możliwoœć przewijania czytanego tekstu w dwóch trybach (stronicowym i o ustalonš liczbę znaków). możliwoœć czytania tytułu aktywnego okna obcej aplikacji oraz adresu aktualnie aktywnej strony internetowej w przeglšdarce Internet Explorer. możliwoœć pracy syntezatora bezpoœrednio z płyty CD z autouruchomieniem po włożeniu płyty do napędu bez potrzeby instalowania programu oraz możliwoœć zainstalowania programu na dysk twardy i ustawienia automatycznego uruchamiania przy starcie systemu. syntezator składa liczby poprawnie je czytajšc w zakresie od 0 do 999999999999, a pozostałe literuje. poprawnie czyta wyjštki typu "tarzan, zamarznšć, klient", a także typu "krzak, przeceniony, także, strzała, twarz". rozpoznaje i czyta ponad 100 skrótów języka polskiego (np. "tzn.","dr","MHz","zł"). synteza odbywa się w tle. Historia innowacji i zmian wprowadzanych do syntezatora DANT: Ostatnio wprowadzone zmiany i nowoœci (w wersji 1.9): zmieniony został wyglšd i poprawiony sposób działania całego programu. dopracowana została synteza mowy przez dodanie akcentowania wyrazów kończšcych zdanie, wyrazów z wykrzyknikiem oraz poprawienie akcentu wyrazów pytajšcych. dopisane zostały nowe opcje konfiguracyjne programu (m.in. automatyczne obniżanie czytanego tekstu w oknie, okreœlanie czasów odstępów wyrazów i zdań, ustawianie wyglšdu po uruchomieniu). dopisana została możliwoœć przedstawienia syntezatora w formie małego okna mogšcego pozostawać zawsze na wierzchu. dla użytkowników systemu windows 98 syntezator dopracowany został pod kštem pracy w tle innych okien systemu. Dzięki temu program działa z takim efektem jak pracujšc wielowštkowo pod windows XP. wyeliminowany został ukryty błšd z podgłaœnianiem syntezy oraz mały błšd z czytaniem napisów filmowych. cały syntezator można teraz ukryć do paska systemowego obok zegara i pracować z niewidocznym programem oraz przełšczać się do opcji programu z poziomu ikony. Linki do pozostałych opisów wprowadzanych innowacji w starszych wersjach syntezatora DANT: Innowacje i zmiany wprowadzone w wersji 1.8 Innowacje i zmiany wprowadzone w wersji 1.7 Innowacje i zmiany wprowadzone w wersji 1.6 Innowacje i zmiany wprowadzone w wersji 1.5 Innowacje i zmiany wprowadzone w wersjach najstarszych Wymagania syntezatora DANT: Program pisałem na komputerze z procesorem Celeron 366MHz zatem minimalne wymagania programu sš następujšce: Procesor Celeron 366Mhz - powinno płynnie działać także na wolniejszych; Opcja czytania napisów do filmu wymaga szybszego komputera (jednoczesne odtwarzanie filmu i synteza bardzo obcišżajš procesor); CD-ROM - program jest dostarczany na płycie CD w wersji bezpoœrednio uruchamianej z CD i w wersji instalacyjnej na dysk twardy; 1MB wolnej przestrzeni na dysku twardym - a jeœli chcemy zainstalować syntezator na dysk to potrzebne jest ok. 10MB. System operacyjny Windows. Zalecam klasy NT jak windows XP lub 2000, gdyż syntezator pisany był z myœlš o nowoczesnym œrodowisku systemowym jakim jest obecnie Windows XP. Oczywiœcie działajšca karta muzyczna. Według moich obliczeń syntezator wykorzystuje ok. 20 MB pamięci RAM, gdyż od wersji 1.7 synteza jest generowana korzystajšc z jej zasobów. Cały syntezator zajmuje obecnie ok. 10 MB i jest przystosowany do uruchamiania z CD zatem nie trzeba go instalować na dysk twardy za każdym razem, gdy użytkownik usišdzie przy innym komputerze. Oczywiœcie w razie potrzeby syntezator można zainstalować i uruchomić także z dysku twardego. Mam nadzieję, że dzięki osobom chcšcym korzystać z tego syntezatora mowy polskiej moje chęci na udoskonalanie go nie wygasnš lecz nadal będš na tyle duże, że pewnego dnia najtańszy program tego typu wyprzedzi jakoœciowo inne drogie syntezatory. Zawartoœć tej witryny oraz udostępniane programy majš charakter informacyjny i nie stanowiš oferty handlowej w rozumieniu art.66par.1 Kodeksu Cywilnego oraz w rozumieniu art. 543 Kodeksu Cywilnego. Ogólna historyjka o syntezie i syntezatorach mowy Pierwsze badania nad syntezš mowy zostały zainicjowane już w roku 1773 przez Ch.G.Kratzensteina - profesora fizjologii w Kopenhadze, który zrealizował urzšdzenie generujšce dŸwięki samogłoskowe wykorzystujšc w tym celu rezonans specjalnych tub połšczonych z organowymi piszczałkami. Maszyna ta pozwalała na doœć ograniczone, niemniej jednak realne wytworzenie mowy syntetycznej. Dokładny opis "maszyny mówišcej" umieœcił Wolfgang von Kempelen w ksišżce "Mechanismus der menschlichen Sprache nebst Beschreibung einer sprechenden Maschine" (1791).W 1835 urzšdzenie to zostało zrekonstruowane na podstawie tej ksišżki i zaprezentowane przez Wheatstone'a w Dublinie jako nowsza wersja "maszyny mówišcej".W Londynie w 1846 roku Joseph Faber zaprezentował urzšdzenie nazwane jako "Euphonia", które jako pierwsze generowało nie tylko mowę ludzkš, ale także œpiew. Podobne urzšdzenie, jednak generujšce dŸwięk bardziej przybliżony do naturalnej mowy ludzkiej zaprezentował w 1937 roku R.R.Riesz w Stanach Zjednoczonych.Na poczštku dwudziestego wieku postęp techniczny umożliwił wykorzystanie zjawisk elektrycznych przy budowie syntezatora mowy. Pierwsze takie urzšdzenie elektryczne zostało wykonane przez Homera Dudley'a i zaprezentowane pod nazwš "VODER" (ang. voice demonstrator) w Nowym Yorku w 1939 roku. Wszystkie te urzšdzenia służyły głównie rozrywce jednak w planach było wykorzystanie ich w telekomunikacji. Nowy kierunek rozwoju tego typu urzšdzeń nadał Frank Cooper tworzšc w 1950 roku tzw. Pattern Playback , który to sczytywał przy pomocy odbitej wišzki œwiatła tekst a następnie przetwarzał go na mowę.Od 1970 roku dalszy rozwój syntezy mowy był bezpoœrednio zwišzany z technologiš komputerowš. Komputery umożliwiły tworzenie syntezatorów mowy dla praktycznych celów dzięki czemu większe grono naukowców na œwiecie zainteresowało się zmienianiem tekstu na mowę. Najnowsze osišgnięcia naukowców pozwalajš już nie tylko na wytwarzanie mowy ludzkiej, lecz także umożliwiajš dokładne ustalenie płci oraz wieku osoby wypowiadajšcej słowa. Można przykładowo okreœlić, że wytwarzana mowa odpowiada kobiecie w wieku 40 lat, dziecku w wieku 15 lat lub mężczyŸnie w wieku 25 lat. Zastosowanie syntezatorów mowy Obecnie zastosowanie syntezatorów mowy staje się coraz szersze. Syntezatory mowy sš bardzo pomocne dla osób niewidomych i niedowidzšcych jednak sš one także niezastšpione w innych sytuacjach. Otóż coraz częœciej spotyka się możliwoœć głosowej komunikacji maszyny z człowiekiem. Przykładem może być bankofon, czyli urzšdzenie umożliwiajšce klientowi uzyskiwanie za poœrednictwem telefonu informacji o stanie własnego konta. W niedalekiej przyszłoœć bankofony będš powszechnš ofertš wszystkich polskich banków. Syntezatory mowy sš wykorzystywane w serwerach fonicznych, gdzie służš one do przekazania rozmaitych informacji użytkownikowi. Mogš to być przykładowo informacje dotyczšce repertuaru kin, aktualnych ofert cenowych i asortymentowych, ogłoszeń, różnych porad, regulaminów, godzin otwarcia, aktualnych kursów walut i papierów wartoœciowych, potrzebnych dokumentów w działalnoœci gospodarczej, wyrobienia dowodu osobistego, paszportu, prawa jazdy itd. Zatem syntezator mowy umożliwia przekazanie użytkownikowi głosem (np. drogš telefonicznš) wszelkiego typu pożšdanej informacji i może to być usługa dostępna przez całš dobę. Obecnie większoœć sieci telefonów komórkowych posiada tzw. usługę dostępu głosowego wykorzystujšcš technologię text to speech (TTS) do odsłuchiwania wiadomoœci elektronicznych, czyli na przykład wiadomoœci email. Coraz częœciej spotyka się także wykorzystanie technologi TTS w słownikach. Przykładem takiego słownika może być wielojęzyczny słownik Babylon, który korzysta z technologii TTS do poprawnego czytania haseł. Dodatkowo obecnie coraz bardziej popularny staje się nowy standard VoiceXML umożliwiajšcy prowadzenie dialogu między rozmówcš, a komputerem z oprogramowaniem rozpoznajšcym mowę oraz zamieniajšcym tekst na mowę. Syntezator przydatny każdemu posiadaczowi komputera Jak zdšżyłem się przekonać syntezatory mowy mogš być pomocne i przydatne wielu osobom przynależšcych do przeróżnych grup społecznych. Okazuje się, bowiem, że taki niewielki program znacznie potrafi ułatwić życie każdemu posiadaczowi komputera. Na podstawie własnych obserwacji osoby najbardziej zainteresowane tš tematykš mogę przedstawić następujšco: studenci, uczniowie i wszyscy czytajšcy dużo z monitora - syntezator pozwala oszczędzać wzrok i potrafi czytać tekst szybciej niż ludzkie oko, ponadto syntezator mowy się nie męczy natomiast oczy ludzkie czytajšc tekst z ekranu monitora męczš się bardzo szybko. osoby niewidome i niedowidzšce - przyjęto, że głównie dla nich tworzy się tego typu programy, gdyż syntezatory mowy sš często pomostem między osobš niewidomš, a bogactwem informacji zawartym w komputerze i Internecie. multimedialiœci, czyli osoby korzystajšcy z syntezatorów mowy do rozrywki i zabawy - przykładem może być wprowadzona opcja czytania napisów do filmów w moim syntezatorze, która obecnie cieszy się szerokim zainteresowaniem. kadra naukowa - zainteresowanie syntezš mowy wykazujš także nauczyciele (być może majšcy stycznoœć z osobami niepełnosprawnymi) oraz osoby pracujšce w różnych instytutach szkół wyższych (przypuszczalnie badajšcych problematykę syntezy). osoby leniwe, którym po prostu nie chce się czytać to co przeczytać muszš. Sposoby testowania możliwoœci syntezatorów mowy Piszšc własny syntezator mowy poznałem, co tak naprawdę sprawia trudnoœci programom w wypowiedzeniu i w jaki sposób można ocenić zdolnoœci wymowy tekstu dowolnego syntezatora. Przeciętny człowiek myœli zwykle o wpisaniu kilku trudnych zdań do wypowiedzenia przez istotę ludzkš i sprawdzeniu jak sobie poradzi z tym syntezator. Otóż okazuje się, że wypowiedzenie zdań w stylu: "Lojalna Jola, Jola nielojalna", "W Szczebrzeszynie chrzšszcz brzmi w trzcinie", "Król Karol kupił królowej Karolinie korale koloru koralowego", "Grzegorz Brzęczyszczykiewicz", "Szedł Sasza suchš szosš" lub "stół z powyłamywanymi nogami" wbrew pozorom nie stanowi większego problemu dla większoœci syntezatorów ( tak przy okazji jak ktoœ zna inne to chętnie poznam ). Co zatem może sprawić trudnoœci w wymowie ? Chcšc dobrze przetestować dowolny syntezator mowy radzę zwrócić uwagę na poniższe aspekty. CZYTANIE LICZB. Na poczštek najlepiej sprawdzić czy syntezator potrafi składać liczby na postać mówionš czy też je po prostu literuje jako cyfry. Przykładowo weŸmy liczbę "1204009": fatalnie, gdy syntezator przeczyta liczbę jako "jeden dwa zero cztery zero zero dziewięć", dobrze, jeœli syntezator przeczyta "jeden milion dwieœcie cztery tysišce dziewięć", a już najlepiej, gdy przeczyta w sposób jeszcze bardziej inteligentny pomijajšc zbędne "jeden" przed słowem "milion". Z czytaniem liczb po przecinku - liczb ułamkowych różnie bywa i nie zawsze jest pożšdane, a w szczególnoœci, gdy mamy do czynienia z cišgiem liczb całkowitych oddzielonych od siebie przecinkiem. Czytanie wówczas dwóch takich liczb całkowitych oddzielonych przecinkiem będzie mylšce. CZYTANIE WYJĽTKÓW. Język polski jest bardzo oporny, jeœli chodzi o reguły czytania wyrazów i podobnie jak w języku angielskim niektóre wyrazy mogš odbiegać w wymowie od wszelkich przyjętych zasad. Syntezator mowy powinien rozpoznawać, że ma do czynienia z takim nietypowcem i poprawnie go przeczytać odbiegajšc od ustalonych reguł. Oto parę przykładów: słowa "marznšć","zamarznšć","przymarznšł","tarzan" i inne odmiany takich słów powinien przeczytać nie składajšc "rz" w "ż" słowa "klient", "klientowi","kliencki" i inne tego typu odmiany powinien czytać rozdzielajšc fragment "kli" od "ent" lub przedłużajšc literę "i", aby było jš właœciwie słychać. ROZPOZNAWANIE SKRÓTÓW. Myœlę, że fajnie jest, jeœli syntezator przykładowe skróty "np.", "inż."Kg ","MHz ","p.n.e.","n.p.m.", "tel." czy "tzn." przeczyta rozwijajšc je odpowiednio, czyli jako "na przykład", "inżynier", "kilogramów", "megaherców", "przed naszš erš", "nad poziomem morza", "telefon" czy tez "to znaczy". Piszšc własny syntezator doliczyłem się około 120 takich fundamentalnych skrótów, więc myœlę, że jest to znaczšce tym bardziej że w codziennym piœmie pojawiajš się nadzwyczaj często. LITEROWANIE INICJAŁÓW I SKRÓTÓW NAZW. Bardzo często pojawia się problem ze sposobem przeczytania pewnych wyrazów złożonych z pierwszych liter nazw jakiegoœ okreœlenia (np. nazwy firmy, przedmiotu lub terminu). Ważne jest, aby syntezator potrafił przeliterować napotkanš nietypowš nazwę zamiast czytać jš jako niezrozumiałe słowo. Przykładem możš być skróty SDK, MS, IE, WWW - powinny być one literowane, a nie czytane składowo. TEST TYPU "SZOK I PRZERAŻENIE". Aby dobrze przetestować syntezator mowy najlepiej jest wprowadzić tekst ciężki dla niego do przełknięcia. Jaka to mogłaby być treœć ? Proponowałbym wypróbować: wprowadzenie tekstu maksymalnie długiego - z tego co mi wiadomo najdłuższym polskim wyrazem nierozłšcznym jest "konstantynopolitańczykiewiczówianeczka". W języku polskim dłuższych wyrazów raczej nie można spotkać, zatem szybkie i poprawne przeczytanie wyrazu takich rozmiarów dobrze œwiadczy o syntezatorze. wprowadzenie tekstu składajšcego się ze znaków niealfabetycznych - dobry syntezator powinien poradzić sobie z różnymi dziwnymi znakami w œrodku tekstu i je w miarę możliwoœci przeczytać. Przykładem może być cišg "Só@#$!saf$~'%_+-\{q". wprowadzenie dowolnego tekstu i przyspieszenie mowy w celu wychwycenia momentu gdy mowa przestaje być zrozumiała - podobny test pożna wykonać spowalniajšc test. Syntezator powinien czytać zrozumiale w jak najszerszym wachlarzu wprowadzonych zmian. AKCENTOWANIE. Akcentowanie wyrazów jest bardzo trudne do osišgnięcia w syntezatorze, natomiast akcentowanie całych zdań to już wykonanie arcydzieła. Testujšc sposób akcentowania wyrazów przez syntezator mowy najlepiej posłużyć się analogicznymi przykładami: słowa "mama", "tata", "alibaba" posiadajš dwie jednakowe sylaby sšsiadujšce ze sobš, jednak mimo to sylaby te powinny być czytane w różny sposób (na ogół pierwszy fonem bardziej akcentowany niż drugi) - nie powinny one brzmieć tak samo. słowa krótkie typu "na", "do", "za" lub "pod" nie powinny brzmieć jakby były wyjęte z innych wyrazów. Natomiast testujšc sposób akcentowania całych zdań najlepiej jest wpisać klika zdań zakończonych znakiem zapytania i kilka zakończonych wykrzyknikiem. Radzę także zwrócić uwagę czy zdanie zakończone kropkš brzmi inaczej niż to same zdanie bez kropki kończšcej. Powinno oczywiœcie być słyszalne akcentowanie w duł wyrazu kończšcego zdanie. OBCIĽŻALNOŒĆ SYSTEMU. Zwykle bywa tak, że im syntezator więcej potrafi przeczytać i jest inteligentniejszy w wyłapywaniu tekstu z obcych okien systemu operacyjnego tym bardziej obcišża procesor i spowalnia pracę komputera. Warto zwrócić uwagę na to jak system zachowuje się podczas pracy syntezatora i czy swobodnie można wykonywać inne zadania na komputerze. Istotne jest także sprawdzenie czy skróty klawiszowe obsługujšce syntezator mowy nie przeszkadzajš w normalnej pracy z innš aplikacjš. Do œcišgnięcia Poniżej udostępniam najnowszš instalacyjnš wersję testowš mojego syntezatora mowy DANT 1.9. Serwer 3 Instalka_DANT.rar (8 MB) Serwer 4 (alternatywny - niezalecany) Instalka_DANT.exe (3 MB - rar) Instalka_DANT.r00 (3 MB - rar) Instalka_DANT.r01 (2 MB - rar) Pozostałe serwery z programem powinny być udostępnione za parę dni. Syntezator poprawnie rozpoznaje najnowszš odtwarzarkę SubEdit Player dostępnš na stronie http://alfa.imi.pcz.czest.pl/~subedit : SubEdit Player w wersji instalacyjnej. (762 kB ) SubEdit Player w wersji spakowanej zipem. (664 kB ) Aby syntezator kontrolował poprawnie pracę odtwarzarki VPLAYER odtwarzarka ta musi być jednš z następujšcych wersji dostępnych ze strony http://www.vplayer.prv.pl : VPlayer (alpha 2000) wersja 0.5e (372 kB) VPlayer (alpha 2000) wersja 0.5d (373 kB) VPlayer (alpha 2000) wersja 0.5c (373 kB) VPlayer (alpha 2000) wersja 0.5b (370 kB) VPlayer (alpha 2000) wersja 0.5a (360 kB) VPlayer (alpha 2000) wersja 0.4h (498 kB) Przy zwiększonym ruchu œcišganie z serwera 4 (alternatywnego) może zakończyć się blokadš strony przez godzinę w wyniku przekroczenia godzinnego limitu transferu dlatego zalecam œcišganie z serwera 1 ,2 lub 3. Dziękuję wszystkim życzliwym ludziom, którzy udostępniajš mi miejsce na własnych serwerach. Dzięki tym osobom można ten program pobierać już z trzech różnych mirrorów. Jeœli chcesz także udostępnić mi do 10 MB na swoim serwerze w roli kolejnego mirrora to byłym bardzo wdzięczny, a w zamian mogę w razie potrzeby umieszczać na stronie jakieœ banery reklamowe. Obecnie strona jest odwiedzana œrednio 75 razy na dzień i zajmuje już czołowe miejsca w wynikach największych wyszukiwarek takich jak www.google.com, www.yahoo.com, www.wp.pl , www.wow.pl oraz www.netsprint.pl po wpisaniu hasła "syntezator mowy". Jeœli strona www.syntezatorek.republika.pl jest dostępna, a próba pobierania pliku z serwera 4 nadal powoduje wyœwietlenie "Przekroczono godzinny limit transferu" należy w opcjach internetowych przeglšdarki (z menu "Narzędzia") kliknšć "usuń pliki" a następnie "Usuń całš zawartoœć online". W każdej sprawie można się ze mnš skontaktować poprzez email witam@konto.pl Dodatkowe informacje o użytkowaniu syntezatora DANT sš dostępne w dziale FAQ - czyli pytania i odpowiedzi dotyczšce syntezatora DANT. Zawartoœć tej witryny oraz udostępniane programy majš charakter informacyjny i nie stanowiš oferty handlowej w rozumieniu art.66par.1 Kodeksu Cywilnego oraz w rozumieniu art. 543 Kodeksu Cywilnego. Mały słowniczek zwišzany z syntezš mowy języka polskiego Abrewiacja – skrót wyrazu lub grupy wyrazów w piœmie, jak np., itd., itp. Afereza – zanik poczštkowej głoski lub grupy głosek w wyrazie. Afiks – jest to czšstka wyrazu. Afiksacja – tworzenie wyrazów pochodnych przez dodawanie afiksów do wyrazów podstawowych. Afrykata – spółgłoska zwarto–szczelinowa (c, dz, cz, ć, dŸ). Alfabet polski – zbiór wszystkich znaków literowych pisma używanego w języku polskim. Kolejnoœć jest następujšca: a, š, b, c, ć, d, e, ę, f, g, h, i, j, k, l, ł, m, n, ń, o, ó, p, (q), r, s, œ, t, u, (v), w, x, y, z, Ÿ, ż. Litery q, v, x stosujemy tylko w pisowni wyrazów obcych oraz we wzorach matematycznych. Litery š, ę, ń i y w języku polskim nie rozpoczynajš wyrazów. Alofon – głoska różnišca się od innej głoski tylko cechš fonetycznš, nie funkcjš. Alograf – wariant graficzny litery. Apokopa – zanik głoski na końcu wyrazu. Artykulacja – ruchy i układ narzšdów mowy podczas wymawiania poszczególnych głosek. Aspiracja – przydech dajšcy w wyniku słaby dŸwięk h, towarzyszšcy artykulacji niektórych głosek. Aspiraty – spółgłoski przydechowe, np. ph, th, kh, dh, gh w systemie danego języka, przeciwstawiajšce się spółgłoskom czystym p, t, k, d, g. Asybilacja – wytwarzanie się w końcowej fazie artykulacji spółgłoski zwartej szczeliny, której rezultatem sš np. polskie spółgłoski ć, dŸ, powstałe z dawnych t', d'. Dwuznak – znak podwójny, składajšcy się z dwóch elementów, w szczególnoœci połšczenie dwóch liter oznaczajšce jednš głoskę, np. sz, rz, ch, dz. Dyftong – dwugłoska – zespół dwóch elementów samogłoskowych, z których tylko jeden jest podstawš sylaby, np. autor. Eufonia – harmonijne, przyjemne brzmienie głosek. Fonem – najmniejsza dajšca się wydzielić jednostka systemu fonologicznego. Jest to zespół współwystępujšcych cech dystynktywnych charakteryzujšcych dany dŸwięk w okreœlonym systemie językowym. Fonetyka – dział nauki o języku obejmujšcy badanie dŸwięków mowy. Fonologia – nauka o funkcjach dŸwięków w mowie. Geminaty – spółgłoski podwojone, np. panna, lekki. Głoska – najmniejsza głoœna artykulacja powtarzajšca się w toku mowy. Mowa składa się z głosek. Głoski mówimy i słyszymy. Zapisujemy głoski za pomocš liter. Implozja – poczštkowy moment artykulacji spółgłosek zwartych. Interakcyjny System Telefoniczny (IST) – system komunikacyjny nie stawiajšcy użytkownikowi żadnych dodatkowych wymagań sprzętowych prócz telefonu. Interesujšca informacja użytkownikowi zostaje przekazana wyłšcznie za pomocš głosu. Ponieważ systemy takie muszš być interakcyjne, to użytkownik powinien przekazywać do systemu polecenia lub wskazania, jakie informacje go interesujš. Jotacja – pojawienie się spółgłoski “j” w wyrazach, najczęœciej przed samogłoskami nagłosowymi i między samogłoskami. Kontrakcja – œcišgnięcie dwóch występujšcych obok siebie samogłosek w jednš. Litera – znak graficzny oznaczajšcy okreœlonš głoskę (pisany, drukowany, wykuty, wykonany z jakiegoœ materiału), zespół liter danego języka stanowi alfabet. Mazurzenie – wymowa ogólnopolskich spółgłosek sz, ż, cz, dŸ, jak s, z, c, dz występujšca w niektórych dialektach polskich. Monoftong – pojedyncza samogłoska. Mocja – różnorodnoœć końcówek gramatycznych pozostajaca w zwiazku z rodzajem gramatycznym, np. nowy, nowa, nowe, nowi. Morfologia – dział gramatyki obejmujšcy fleksję i słowotwórstwo; nauka o budowie i odmianie wyrazów. Ortoepia – nauka poprawnego mówienia i poprawnego używania form językowych. Ortofonia – nauka poprawnego wymawiania. Samogłoska – głoska dŸwięczna, otwarta, mogšca tworzyć sylabę. Serwer foniczny – serwer do przekazywania poprzez łšcza telefonii stacjonarnej bšdŸ komórkowej, informacji o charakterze audio tekstowym. Sonanty – półsamogłoski – grupa fonemów stojšcych na pograniczu między samogłoskami i spółgłoskami, np. spółgłoski półotwarte, płynne – r, l, nosowe – m, n. Spiranty – spółgłoski szczelinowe, np. f, w, s, z, sz, Ÿ, ż, œ. Spółgłoska – konsonant – głoska tworzšca sylabę w połšczeniu z samogłoskš. Sylaba – zgłoska – czšstka fonacji odpowiadajšca taktowi wydechu. Składa się z samogłoski lub z samogłoski połšczonej ze spółgłoskš. Sylaba jest otwarta, kiedy jest zakończona samogłoskš lub zamknięta, jeżeli kończy się spółgłoskš. Synkopa – zanik nie akcentowanej głoski lub grupy głosek wewnštrz wyrazu. VoiceXML – nowy standard stosowany przy oprogramowywaniu aplikacji mowy. Jest to język, który definiuje sposób konstruowania i prowadzenie dialogu pomiędzy rozmówcš, a komputerem z oprogramowaniem rozpoznajšcym mowę oraz zamieniajšcym tekst na mowę. VoiceXML jest dostatecznie elastyczny, by umożliwić tworzenie treœci głosowych w technologii webowej lub budowę aplikacji dla centrów rozpoznawania wywołań opartych na technice telefonicznej. Mały słowniczek zwišzany z obróbkš dŸwięku Aliasing - niekorzystne zjawisko które zachodzi podczas próbkowania dŸwięku, polega ono na nakładaniu na sygnał niepożšdanych częstotliwoœci harmonicznych; Amplituda - wartoœć o jakš fala (sygnał) wznosi się lub opada względem zera; Analogowy sygnał - sygnał w postaci przebiegu cišgłego, w którym dane sš przedstawiane jako wielkoœci fizyczne; Barwa dŸwięku - obecnoœć okreœlonych częstotliwoœci składowych, które decydujš o brzmieniu poszczególnych instrumentów lub głosu ludzkiego; Całkowite pasmo przenoszenia - zakres częstotliwoœci jaki jest w stanie przetworzyć dane urzšdzenie przetwarzajšce dŸwięk; Cyfrowy sygnał - sygnał który jest wyrażony w postaci próbek zapisanych cyfrowo, wyraża on swoimi wartoœciami amplitudę(przebieg) sygnału; Częstotliwoœci harmoniczne - decydujšce o barwie dŸwięku sš składowymi widma akustycznego o częstotliwoœciach równych wielokrotnoœci tonu podstawowego; Częstotliwoœć odcięcia - parametr, który okreœla częstotliwoœć jakiej nie jest w stanie przenieœć okreœlone urzšdzenie; Częstotliwoœć próbkowania - wartoœć, którš wyrażamy w hercach, okreœla ona ile razy w przecišgu jednej sekundy została pobrana próbka sygnału analogowego do procesu kwantyzacji; Decybel - jednostka głoœnoœci, jeden decybel to minimalna zmiana głoœnoœci jakš może rozróżnić ludzkie ucho, skala w decybelach jest skalš logarytmicznš, co wynika z właœciwoœci ludzkiego ucha; Delay - opóŸnienie sygnału przetworzonego w stosunku do Ÿródłowego; Digitalizacja – (cyfryzacja) proces zamiany sygnału analogowego na cyfrowy; Dithering - proces , którego zadaniem jest dodanie do sygnału cyfrowego tzw. szumu linearyzujšcego, który maskuje szum kwantyzacji; Dopplera efekt - zmiana częstotliwoœci fali słyszanej przez słuchacza w przypadku poruszania się względem Ÿródła dŸwięku, przy zbliżaniu się do Ÿródła dŸwięku dŸwięk słyszany staje się wyższy, przy oddalaniu niższy; Dynamika - stosunek sygnałów o najniższym i najwyższym poziomie, jakie można zapisać na noœniku lub sprzęcie przy użyciu danej technologii, wartoœć dynamiki jest podawana w decybelach (dB); Echo - odbicie dŸwięku od przeszkody i powrót do miejsca transmisji, stosowane w obróbce dŸwięku przy pomocy procedur umieszczonych w programach do obróbki dŸwięku; Elektroakustyka - dział akustyki zajmujšcy się problematykš przetwarzania energii akustycznej w elektrycznš i odwrotnie; Equalizer - korektor; Filtr - procedura w programie, układ elektroniczny lub obwód, które służš do wzmacniania lub odcinania pewnych okreœlonych częstotliwoœci, istniejš filtry pasywne (bez wzmacniacza) i aktywne (ze wzmacniaczem); Filtr dolnoprzepustowy - filtr tłumišcy (odcinajšcy) częstotliwoœci powyżej ustalonej częstotliwoœci odcięcia; Filtr górnoprzepustowy - filtr tłumišcy (odcinajšcy) częstotliwoœci poniżej ustalonej częstotliwoœci odcięcia; Filtr przeciwszumowy - filtr służšcy do redukcji szumów, czyli odcina najwyższe pasmo akustyczne; Full duplex - tryb pracy karty dŸwiękowej pozwalajšcy jej na jednoczesne nagrywanie i odtwarzanie dŸwięku; Fuzz - (przester) efekt sprzętowy lub programowy umożliwiajšcy kontrolowane przesterowanie sygnału; Generator fal dŸwiękowych - układ elektroniczny lub procedura w programie potrafišca wytworzyć przebieg sygnału o różnym kształcie amplitudy (przede wszystkim sinusoidalnym, trójkštnym, piłokształtnym lub kwadratowym), można potem takie przebiegi nakładać na siebie tworzšc zróżnicowane pod względem charakterystyki przebiegi; Kwantyzacja - wyrównywanie pobranych i pomierzonych wartoœci do wartoœci najbliższego przedziału kwantowania, zaokršglanie ich do pełnych liczb; Miernik wysterowania - (VU-meter) miernik dokonujšcy pomiarów poziomu szczytów sygnałowych trwajšcych minimum 10 ms, umożliwia dokładnš kontrolę dynamiki sygnału; Nadpróbkowanie - (oversampling) dodatkowe próbkowanie sygnału pomiędzy próbkami zasadniczymi, zwiększajšce precyzję procesu próbkowania i ułatwiajšce zmniejszenie szumów kwantyzacji. Wykonuywane jest poprzez obliczanie dodatkowych wartoœci na podstawie już istniejšcych; Pasmo przenoszenia - zakres częstotliwoœci jakie może przenieœć i odtworzyć dane urzšdzenie; Próbka – (sample) potoczne okreœlenie krótkiego fragmentu nagrania cyfrowego, służšcego do tworzenia muzyki w samplerach lub syntezatorach cyfrowych; Próbkowanie - okresowe dokonywanie pomiaru poziomu sygnału analogowego w celu przetworzenia go na impulsowy sygnał cyfrowy; Przesterowanie - wprowadzenie urzšdzenia w stan uniemożliwiajšcy liniowe przeniesienie sygnału; Przetwornik AC - układ przetwarzajšcy sygnał analogowy (A) na postać cyfrowš (C); Przetwornik CA - układ przetwarzajšcy sygnał cyfrowy (C) na postać analogowš (A); Rozdzielczoœć próbkowania - wyrażana w bitach wartoœć okreœlajšca dokładnoœć z jakš przybliżane sš wartoœci poziomów sygnału analogowego; Szum - napięcie zakłócajšce, zjawisko akustyczne wywołane sygnałami o nieuporzšdkowanych przebiegach w szerokim zakresie częstotliwoœci; Szum kwantowania - (szum granularny) szum powstajšcy na skutek niedokładnoœci przebiegu sygnału cyfrowego, wynikajšcej z zaokršglania (kwantowania) wartoœci próbek; Szum spoczynkowy - wytwarzany jest przez urzšdzenie nieobcišżone tzn. gdy nie przepływa przez nie sygnał; Wzmacniacz - urzšdzenie służšce do wzmacniania mocy sygnału doprowadzonego na jego wejœcie; Zniekształcenia liniowe - zniekształcenia wprowadzajšce opóŸnienia fazowe lub zakłócajšce pierwotny kształt widma sygnału; Zniekształcenia nieliniowe - pojawiajš się gdy urzšdzenie nie jest w stanie przetworzyć sygnału w sposób proporcjonalny, w skrajnych przypadkach obcinajšc nawet szczyty sygnałów; Najciekawsze linki Strony z informacjami o syntezie mowy i syntezatorach oraz z przykładowymi samplami dŸwiękowymi syntezatorów: POLSKIE: http://kdn.idn.org.pl/syntezatory/index.html - opis programowych syntezatorów mowy Spiker, SynTalk, Lektor i SPEAK oraz sprzętowych syntezatorów mowy Apollo i SMP http://harpo14.poznan.mtl.pl - opis syntezatorów mowy Juno, Kubuœ, Spiker, SynTalk i Apollo 2. http://www.harpo.com.pl/al.htm - Auto-Lektor firmy Harpo, czyli urzšdzenie do czytania głosem syntetycznym pisma drukowanego. http://www.kognitywistyka.net - strona poœwięcona głównie naukom kognitywnym z bardzo bogatym zbiorem informacji dotyczšcych sztucznej inteligencji i problematyki mózgu - zawiera liczne ciekawe artykuły i mnóstwo interesujšcych linków. Między innymi w dziale sztucznej inteligencji znaleŸć można linki do sporej liczby stron z informacjami o innych syntezatorach mowy. http://luke.of.pl - prywatna strona Łukasza O. - twórcy syntezatora mowy typu text-to-speech napisanego w ramach pracy magisterskiej [ pozdrawiam :) ] http://www.olafson.prv.pl - prywatna strona o syntezie i analizie sygnałów mowy. http://www.pjwstk.edu.pl/~kszklanny/syntezam.htm - artykuł Kszysztofa Sz. z opisem metod syntezy mowy. http://www.ipnet.pl/sf/index.htm - opis serwerów fonicznych z wykorzystaniem syntezatorów mowy typu text to speech. http://www.pckurier.pl/webmaster/2000/kwiecien/domalewski/voxml.html - opis języka VoxML do tworzenia serwisów głosowych umożliwiajšcego samodzielne budowanie aplikacji głosowych. http://www.pckurier.pl/webmaster/2000/maj/domalewski/voxml2.html - druga częœć opisu głosowego systemu sieciowego opartego o język VoxML. Artykuł opisuje jak przy pomocy programu VoxML SDK będšcego symulatorem przeglšdarki głosowej i umożliwiajšcego konwersję kodu Ÿródłowego serwisu głosowego zaprojektować głosowy internetowy serwis www. http://www.networld.pl/artykuly/21870.html - inny artykuł poœwięcony nowemu standardowi VoiceXML - językowi stosowanemu przy oprogramowywaniu aplikacji mowy. ŒWIATOWE: http://www.ling.su.se/staff/hartmut/kemplne.htm - angielska strona œwietnie opisujšca historię syntezatorów mowy - zawiera zdjęcia i schematy dawnych "maszyn mówišcych" oraz krótkie sample demonstrujšce ich możliwoœci. http://www.festvox.org/history/klatt.html - angielska strona zawierajšca dużš iloœć sampli demonstrujšcych możliwoœci syntezatorów mowy różnych typów z różnych okresów rozwoju tej dziedziny. http://www.ling.su.se/staff/hartmut/manipul.htm - strona zawiera sample demonstrujšce syntezę mowy po szwecku ze zmianš płci i wieku z Instytutu Lingwistyki Uniwersytetu Sztokholmskiego. Strony wielkich œwiatowych instytucji zajmujšcych się dziedzinš syntezy mowy z możliwoœciš zdalnego testowania ich produktów (po wprowadzeniu tekstu otrzymujemy zsyntezowanš mowę czytajšcš ten tekst w danym języku) : http://www.scansoft.com/realspeak/demo/ - potężna firma o œwiatowym zasięgu demonstruje możliwoœci swoich syntezatorów mowy o syntezie najlepszej jakoœci (moja opinia) z możliwoœciš wyboru jednego z wielu języków œwiata - w tym także języka polskiego. Niestety według danych z www.chip.de syntezator tej firmy o nazwie RealSpeak(TM) jest wyceniony do sprzedaży na sumę ok. 1000 euro. Uwaga zdalnie generowana synteza mowy polskiej nie akceptuje polskich fontów. Przesył w formacie WAVE. http://www.elantts.com/accueil.html - prezentacja syntezy mowy text-to-speech firmy ElanSpeech dostępna w języku polskim, francuskim, angielskim, hiszpańskim, brazylijskim, niemieckim, ruskim, włoskim i holenderskim. Uwaga zdalnie generowana synteza mowy polskiej nie akceptuje polskich fontów. Przesył w formacie WAVE. http://www.festvox.org/voicedemos.html - opcjonalna synteza języka angielskiego w odmianie amerykańskiej i brytyjskiej oraz języka hiszpańskiego - niestety brak języka polskiego http://www.naturalvoices.att.com/demos - laboratorium AT&T Natural Voices (TM) demonstruje syntezę text-to-speech dla języka angielskiego, niemieckiego, francuskiego i koreańskiego. Alternatywna strona AT&T Lab's Natural Voices (TM) z demonstracjš syntezy jest dostępna na http://www.research.att.com/~ttsweb/cgi-bin/ttsdemo http://www.bell-labs.com/project/tts/index.html - labolatorium Bell Labs prezentuje projekty oparte na technologii text-to-speech - dostępna jest zdalna synteza dla języka angielskiego, niemieckiego, chińskiego, hiszpańskiego, francuskiego i włoskiego. Można dokładnie okreœlić rodzaj syntezy mowy, czyli synteza mężczyzny, kobiety lub dziecka oraz format przesyłanego pliku ( .aiff, .wav, .au ). http://www.flexvoice.com/demo.html - zdalna demonstracja syntezatora FlexVoice dla języka angielskiego i węgierskiego - dostępne 4 różne głosy. http://www.tik.ee.ethz.ch/cgi-bin/w3svox - zdalna demonstracja syntezatora SVOX tylko dla języka niemieckiego z Technicznego Instytutu Informatyki i Telekomunikacji TIK w Niemczech. Przesył w formatach au, wav, voc, aiff i raw. http://www.fonix.com/downloads/ttsdemo.php - zdalna demonstracja syntezatora korporacji Fonix (R) tylko dla języka angielskiego. http://wwwtios.cs.utwente.nl/say/index.html - zdalna demonstracja syntezy mowy języka angielskiego będšcej osišgiem Tele-Informatic Open System Uniwersytetu Twente z Holandii. Polskie strony kierowane do osób niewidomych: http://kdn.idn.org.pl - serwer Komputer Dla Niewidomych opisujšcy dokładnie sprzęt i oprogramowanie pomocne osobom niewidomym i słabowidzšcym. http://www.pzn.org.pl - strona Polskiego Zwišzku Niewidomych. http://www.idn.org.pl - serwer Internet Dla Niepełnosprawnych. http://harpo14.poznan.mtl.pl - opis produktów dla osób niewidomych i niedowidzšcych m.in. drukarki brailowskie, elektroniczne notatniki i dyktafony, lupy elektroniczne, brailowskie maszyny do pisania, monitory (linijki) brailowskie, powiększalniki telewizyjne, OCR, programy powiększajšce no i oczywiœcie syntezatory mowy. http://samisobie.clan.pl - Stowarzyszenie Internetowej Społecznoœci Osób Niepełnosprawnych. Zawiera wiele materiałów informacyjnych posegregowanych tematycznie. Ich cennik na programy i urzšdzenia dla niedowidzšcych jest udostępniony na stronie http://samisobie.clan.pl/syntmowy.htm SONDA Co sšdzisz o tej stronce ? Byle tak dalej. Jest OK. Nic nie sšdzę. Nic ciekawego. Strasznie nudna. Zobacz wyniki [ Czytaj księgę goœci ] [ Wpisz się do księgi ]

Wyszukiwarka

Podobne podstrony:
OBRÓBKA DŹWIĘKU I FILMÓW
CP W1 I NS lato2011 obróbka dźwięku
14 Rejestracje i obróbka dźwięku na potrzeby produkcjiid543
CP W3 I NS lato2011 obróbka dźwięku
slownik terminow zwiazanych z ksiazka elektroniczna
slownik podstawowych pojęć związanych z kulturą żydowską
Dział 8 uprawnienia pracowników związane z rodzicielstwem
Wyświetlacz MMI z 6 kanałowym procesorem dźwięku (9VD)
Słownik PUA

więcej podobnych podstron