Istotą metody konkatenacyjnej jest łączenie ze sobą difonów1 i trifonów2, które zostały wcześniej nagrane[5]. O jakości generowanej mowy decyduje jakość nagrań i wielkość bazy difonów/trifonów. W tej metodzie istnieją zależności pomiędzy bazą dźwięków a działaniem syntezatora:
• im baza jest
więksjC-^!-)
m wypowiedzi generowane są dłużej, ale wzrasta ich jakość
• im baza jest mniejsąj^iym wygenerowane wypowiedzi zawierają więcej błędów, ale generowanie wypowiedzi jest szybsze.
Wnioskiem z zastosowań metody konkatenacyjnej jest fakt, że tylko urządzenia posiadające odpowiednio duże zasoby sprzętowe mogą korzystać z systemów TTS o zadowalającej jakości. Prace koncepcyjne nad tą metodą w głównej mierze dotyczyły optymalizacji mechanizmu i baz. Początkowo do budowania syntezatora używano baz sylab, która pozwala na uzyskanie dobrych rezultatów. Problemem okazała się wielkość korpusu. Baza zawierająca wystarczająco wiele kombinacji sylab zawierałaby setki tysięcy wpisów. Stąd też narodził się pomysł wykorzystania difonów, których składanie daje zadowalające efekty już przy korpusie posiadającym 1500 elementów.
Koncepcja dotycząca wykorzystania trifonów podyktowana była zwiększaniem jakości mowy, ponieważ łączenie trzech sąsiadujących głosek pozwala na dokładniejsze oddanie ich kontekstu. Mimo tego samo brzmienie mowy syntezowanej metodą konkatenacyjną nie jest idealne. Wynika to przede wszystkim z tego, że nagrania difonów i trifonów nie są w stanie przechowywać kontekstu wypowiedzi i zawsze brzmią tak samo.
Łączenia wyrazów brzmią różnie w zależności od kontekstu zdania. Tych różnic metoda konkatenacyjna nie przewiduje, dlatego też wypowiedzi generowane tą metodą są zrozumiałe i - przy odpowiednio dużej bazie - dokładne [5], jednak zazwyczaj brzmią sztucznie.
1.2.3. Korpusowe systemy syntezy mowy
Metoda korpusowa, znana również pod nazwą Unit Selection, jest rozwinięciem metody konkatenacyjnej. Metoda powstała jako odpowiedź na problem braku różnych kontekstów dla tych samych difonów[9] (główny problem metody konkatenacyjnej, opisany w punkcie 1.2.2).
Metoda korpusowa zakłada istnienie bazy difonów wraz z wariantami. Oznacza to możliwość wystąpienia danego difonu w bazie kilka lub nawet kilkaset razy. Dla rozwiązania problemu generowania wymowy i wyboru odpowiednich difonów lub trifonów liczona jest
difon — pojęcie z dziedziny fonetyki, oznacza przejście pomiędzy dwoma sąsiadującymi głoskami; pojęcie zwykle używane do określenia nagrania przejść pomiędzy głoskami
trifon — pojęcie z dziedziny fonetyki, zbieżne z pojęciem difon, z tą różnicą, że określa przejście pomiędzy trzema sąsiadującymi ze sobą głoskami