tzw. funkcja kosztu szacująca, która kombinacja rekordów z bazy pozwoli osiągnąć najlepszy efekt [9].
Działanie tej funkcji polega w praktyce na oszacowaniu kilku możliwych wariantów połączeń difonów (lub trifonów) występujących w korpusie i porównaniu ich efektywności. Efektem działania funkcji jest wybór odpowiednich jednostek akustycznych z korpusu[5]. System syntezy mowy łączy je ze sobą, tworząc w tej sposób możliwie najlepszą jakościowo wypowiedź.
1.2.4. Systemy syntezy mowy oparte na ukrytych modelach Markowa
Najnowocześniejsza i jednocześnie najbardziej obiecująca metoda tworzenia systemów syntezy opiera się na ukrytych modelach Markowa (Hidden Markov Model (HMM)). Wraz z|^|ednio opisaną metodą Unit Selection, metoda HMM wchodzi w skład tzw. technik trzeciej generacji w tworzeniu systemów TTS[9]. HMM jest koncepcją w pełni matematyczną, należy do metod statystycznych[5]. Wiele prac nad mechanizmami TTS sprowadzało się do prób wykorzystania metod statystycznych do udoskonalania jakości generowanych wypowiedzi. Praktyka jednak pokazała, że najefektywniejszym sposobem jest wykorzystanie ukrytych modeli Markowa[9].
W metodzie tej system syntezy mowy opiera się na modelu, który nie jest znany od samego początku, lecz tworzony jest wraz z działaniem syntezatora mowy. Działanie, które ma na celu tworzenie odpowiedniego modelu, zwane jest treningiem syntezatora mowy. Do treningu wykorzystywane są ukryte modele Markowa, które są statystyczną metodą klasyfikowania sekwencji zdarzeń, w tym przypadku łączenia się jednostek akustycznych[5].
Trening polega na podawaniu syntezatorowi mowy kolejnych wypowiedzi uczących z bazy, która ma nauczyć mechanizm TTj(^j)jik prawidłowo konstruować wypowiedzi. Do przeprowadzenia treningu niezbędne są odpowiednio skonstruowane słowniki oraz ukryte modele Markowa, które w efektywny sposób poz\jC^| na kategoryzowanie jednostek akustycznej z bazy treningowej. W późniejszym etapie opracowywane są teksjC^jtóre mają na celu weryfikację teg|C^|y trening przeprowadzony na mechanizmie był efektywny.
W efekcie, syntezatory stworzone z wykorzystaniem HMM charakteryzują się bardzo wysoką jakością. Wypowiedzi generowane przez te mechanizmy często przypominają głos ludzki. Najważniejszym etapem tworzenia tych systemów jest odpowiednie przygotowanie modeli i przeprowadzenie treningów, za pomocą odpowiednich algorytmów, które pozwolą na stworzenie efektywnego modelu służącego do budowania wypowiedz|C-^|
7