1.2.1. Pierwsze koncepcje systemów syntezy mowy
Kategoryzacja systemów syntezy mowy łączy się z ciągłym poszukiwaniem satysfakcjonujących rozwiązań. Każda technologia jest w jakiś sposób od siebie zależna. Należy przez to rozumieć, że każda kolejna technika tworzenia systemów TTS łączy się wnioskami wyciągniętymi z niepowodzeń poprzednich rozwiązań.
Każdy rodzaj systemu TTS to tak naprawdę inna droga prowadząca do osiągnięcia tego samego rozwiązania: wygenerowania syntetycznej mowy. Od samego początku głównym problemem, nad jakimi zmagali się twórcy systemów TTS była jakość wypowiedzi.
Pierwszą popularną metodologią tworzenia systemów TTS była, wymieniona wcześniej, metoda formantowa. Jakość mowy generowana tą metodą jest najgorszą pod względem jakości metodą komputerową. Generowanie mowy tą metodą polega na tworzeniu filtrów, za pomocą których generowane są dźwięki o częstotliwościach odpowiadającym konkretnym głoskom (tzw. fonemów1). Generowanie wypowiedzi polega zatem na wygenerowaniu głosek w odpowiedniej kolejności i połączeniu icl i^lletoda nie uwzględnia tzw. alofonów2, stąd też dźwięki często zlewają się ze sobą.
Bardzo szybko okazało się, że metoda formantowa nie pozwoli wygenerować mowy, która będzie podobna do mowy ludzkiej. Stąd też rozwijały się nowe koncepcje. Jedną z teoretycznych koncepcji, która przez długi czas była rozpatrywana jest metoda artykulacyjna. Jej założeniem było utworzenie mowy, bazując na budowie ludzkiego aparatu mowy. Twórcy metody określili, że do stworzenia syntetycznej mowy ludzkiej konieczne jest użycie około sześćdziesięciu zależnych parametrów. Założenie to okazało się zaporą w rozwoju tej koncepcji. Efektem tego było przeistoczenie się metody artykulacyjnej w koncepcję czysto teoretyczną, w praktyce nigdy nierozpowszechnioną.
1.2.2. Konkatenacyjne systemy syntezy mowy
Metoda konkatenacyjna, która spopularyzowała systemy T yła rozwijana od początku lat 90. dwudziestego wieku. Metoda ta okapla się na tyle efektywna, że była rozwijana i implementowana przez blisko czterdzieści laJ^_lej forma ulegała zmianie, była oparta o te same, niezmienne reguły. Atutem tej metody jest nie tylko możliwość generowania mowy dobrej jakości ^ ale także łatwość jej generowania. Syntezatory opierające swoje działanie na tej metodzli_azywane są syntezatorami drugiej generacji [9].
5
fonem — najmniejsza jednostka mowy, która można rozróżnić w danym języku
alofon — realizacja fonemu, jego inna reprezentacja dźwiękowa, która zależy od pozycji fonemu w wyrazie