Systemy Dialogowe
Sprawozdanie z ćwiczenia laboratoryjnego nr 3
Temat laboratorium:
SYNTEZA SYGNAŁU MOWY METODĄ KONKATENACJI
Wykonała:
Anna Grzeszyk
I0I1S1
Prowadzący:
Dr inż. Andrzej Wiśniewski
1. Podział słowa z ćwiczenia nr 2 na spółgłoski i samogłoski
Skorzystałam w tym punkcie ze słowa wymyślonego w ćwiczeniu nr 2 o brzmieniu
„sztukowań”. W tym celu podzieliłam słowo na dwie części: spółgłoski (sztkwń) oraz samogłoski
(uoa). Aby wyciągnąć wnioski z utworzonych dźwięków, posłużę się poza zwykłym odsłuchaniem
również wykresami dźwięków.
Złączenie samych spółgłosek i samych samogłosek sprawia, iż dźwięki stają się
nierozróżnialne, a dodatkowe trzaski między nimi potęgują ten efekt. Można również zauważyć, że
przy spółgłoskach bezdźwięcznych trudno jest wyznaczyć prawidłowo ich ramkę, aby były w ogóle
słyszalne w zlepku spółgłosek. Połączenie takie nie brzmi zbyt dobrze, lecz nie trzeba słuchać
dźwięku, aby przekonać się o jego niskich walorach słuchowych. Już na wykresach widzimy, bardzo
dużą nierównomierność w sygnale, nagłe spadki, potem gwałtowne górki (są to momenty złączeń
ramek, wtedy też słyszymy trzaski). Szczególnie ciekawie wygląda wykres dla samogłosek –środkowe
złączenie nijak nie pasuje do reszty głosek, ze względu na wyższe dźwięki. Widzimy więc, że nie jest
łatwo połączyć zlepek głosek w rozpoznawalny dla ucha ciąg. Jednakże jak wyglądać będzie złączenie
dla słowa naturalnego?
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
-0.15
-0.1
-0.05
0
0.05
0.1
Przebieg otrzymanego sygnału dla spółgłosek
A
m
p
lit
u
d
a
Czas [s]
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
-0.2
-0.15
-0.1
-0.05
0
0.05
0.1
0.15
Przebieg otrzymanego sygnału dla samogłosek
A
m
p
lit
u
d
a
Czas [s]
2. Synteza słowa za pomocą fonemów, difonów i trifonów
Do wykonania tego ćwiczenia posłużyłam się nagraniami z ćwiczenia 3 oraz dogranymi
słowami, aby uzyskać odpowiednie trifony. Dla słownika: ('picie', 'pies', 'snieg', ‘siedziec’, ‘brzeg’)
utworzyłam słowo:
PIEG
Zostało ono zbudowane trzy razy na bazie następujących części:
Fonemy:
p – i – e – g
Difony:
_p – pi – ie – eg – g_
Trifony:
_pi-pie-ieg-eg_
Fonemy zaczerpnęłam ze słów picie, pies, siedzieć oraz śnieg. Difony powstały ze słów: picie,
pies, siedzieć, śnieg, brzeg. Natomiast trifony, jakie utworzyłam zostały zapożyczone z następujących
słów: picie, pies, śnieg, brzeg.
Po przebytej analizie rozpoczęłam podział słów na ramki z niezbędnymi dźwiękami. Na
początek wczytałam wszystkie pliki dźwiękowe, potrzebne na niniejszym laboratorium, łącznie z
nagraniem, które jest zapisem mowy oryginalnej zsyntezowanego słowa. Następnie, przy użyciu
programu Audacity, wskazującego numer próbki rozpoczęcia i zakończenia zaznaczenia, wybrałam
ramki, które moim zdaniem najlepiej pasują do potrzeb słowa. Dla difonów i trifonów starałam się,
aby przedziały końcowe wypadały w połowie litery, aby móc dokonywać płynnych złączeń dźwięków.
Dokładne znalezienie odpowiedniej ramki wymaga poświęcenia czasu, jest najbardziej
pracochłonnym i jednocześnie najważniejszym elementem w niniejszym ćwiczeniu. Nie da się
kontynuować ćwiczenia z nieprawidłowościami.
Po dokładnym dopasowaniu dźwięków i ich odsłuchaniu zauważyłam, iż najlepsze złączenie
udało się otrzymać poprzez sklejenie dwóch trifonów, jednakże szczegółowe wnioski znajdują się w
kolejnych punktach tego sprawozdania.
3. Fonemy
Fonem jest najmniejszą jednostką fonetyczną, jaką będziemy się zajmować. Utworzyliśmy
wektor mieszczący wszystkie ramki. Następnie odsłuchuję sygnał i sprawdzam, czy złączenie jest dla
mnie satysfakcjonujące. Mierzę długość złączenia, a także długość powstałego słowa w sekundach.
Na powyższych wykresach widzimy, iż złączenie zostało dokonane dosyć płynnie, bowiem nie
widzę znacznych różnic w przebiegu sygnału, poza większą głośnością fragmentu niosącego
samogłoski „ie”. Przybliżenie pozwala nam zauważyć, że jednak wyraźnych złączeń jest więcej i
niezbędne może się okazać w tej sytuacji oknowanie Hanninga. Odtworzenie dźwięku daje nam do
odsłuchania plik dźwiękowy zawierający fonemy. Jednakże z całą pewnością stwierdzić mogę, że
wyraz został przeze mnie rozpoznany, mimo dużych problemów tak nagranego dźwięku z syntezą
mowy, to rozpoznawalność stoi na dosyć wysokim poziomie.
Kolejnym etapem w reprezentacji syntezy mowy było usunięcie trzasków w pojawiającym się
sygnale dźwiękowym. W miejscu złączeń przemnożyłam wartość próbki dźwięku przez okno
Hanninga, dzięki czemu otrzymujemy filtr tłumiący całkowicie środek wybranego przedziału, a
przepuszczający jego brzegi. Poniżej znajduje się realizacja oknowania dla fonemów:
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
Przebieg otrzymanego sygnału dla fonemów
A
m
p
lit
u
d
a
Czas [s]
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
Przebieg otrzymanego sygnału dla fonemów
A
m
p
lit
u
d
a
L.p. próbki
Ze względu na delikatność sygnału, stosowałam mniejsze ramki, aby nie wyciszyć zbyt mocno
sygnału i aby pozbyć się trzasków i zakłóceń. Dźwięk jest delikatnie lepszy od tego bez oknowania,
jednakże nie tak dobry, jak mowa naturalna, da się wyczuć sztuczność w układaniu zgłosek.
4. Difony
W tej chwili najpowszechniejszymi metodami syntezy mowy jest jej wersja ułożona z korpusu
właśnie difonów. Jest to złoty środek pomiędzy jakością syntezy (wyraźność i naturalność) a
wielkością słownika. Wszystkich difonów w języku polskim mamy kilkadziesiąt, wobec tego nie jest
trudnym złożenie takiego zestawu wszystkich difonów.
Jaką przewagę mają difony w moim mniemaniu? Przede wszystkim to, iż próbki jakie mamy,
pobieramy ze środka litery początkowej i końcowej. W tym wypadku eliminujemy trzaski związane z
faktem dobrania chwili ciszy też innych czynników wpływających na wynik.
W przypadku słowa pieg ramki zostały dobrane niemal idealnie i w ten sposób słyszę
wyraźnie słowo. Jeśli chodzi o syntezę, to zbliża się już ona ku poprawie, ciężko jest odróżnić w tym
momencie słuchowo różnice.
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
Przebieg otrzymanego sygnału dla fonemów po hanningu
A
m
p
lit
u
d
a
L.p. próbki
Jak widzimy, wykres ten ma bardziej spokojny przebieg, układa się podobnie do kształtów
mowy ludzkiej. W przypadku okna Hanninga, uznałam, iż będzie ono potrzebne w dwóch miejscach:
około 1200 próbki o raz około 5400. Ponieważ przy innych literach przejścia były zadowalające.
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
Przebieg otrzymanego sygnału dla difonów
A
m
p
lit
u
d
a
Czas [s]
0
1000
2000
3000
4000
5000
6000
7000
8000
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
Przebieg otrzymanego sygnału dla difonów
A
m
p
lit
u
d
a
L.p. próbki
Choć nie widać tak wielkiej zmiany odnośnie pierwszego miejsca, to około 5600 próbki
widzimy wyraźne załamanie, ponieważ uwidoczniło się nam okno i jego pasmo zaporowe.
5. Trifony
Część z trifonami okazała się być dla mnie najtrudniejsza, gdyż nie znajdowałam sposobu.
Próbowałam zaimplementować kilka sposobów rozwiązujących problem poprzez dodanie i
uśrednienie wspólnych elementów, czy też ich zerowanie. W każdym przypadku otrzymuję wynik
gorszy uzyskanego na początku. Podzieliłam trifony na dwie grupy, a wynik zaskoczył moje ucho – po
prostym połączeniu dwóch trifonów uzyskałam dźwięk niemalże identyczny z oryginałem. Dowodzi to
jakości nagrań, jakie można uzyskać poprzez syntezę za pomocą trifonów, jednakże napotykamy tutaj
na bardzo poważny problem – korpus mowy rozrasta się do tysięcy jednostek! Może to być
wyzwanie, jeśli próbujemy napisać coś nowego, może być poważną przeszkodą.
0
1000
2000
3000
4000
5000
6000
7000
8000
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
Przebieg otrzymanego sygnału dla difonów po hanningu
A
m
p
lit
u
d
a
L.p. próbki
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
Przebieg otrzymanego sygnału dla trifonów
A
m
p
lit
u
d
a
Czas [s]
Widzimy regularność dźwięku, tłumaczącą jakość utworzonego trifonu, a także, poza
pojedynczym pikiem, nie ma wyraźnych różnic pomiędzy szczytami sygnału. Z racji jakości
utworzonego dźwięku i płynności mowy – nie zastosowałam oknowania Hanninga.
6. Sygnał oryginalny
Przebieg oryginalnego sygnału wygląda następująco:
Należy uzupełnić, że przez miano oryginalny rozumiem całe słowo piegi nagrane bez
przystanków. Następnie porównamy sygnał oryginalny z przebiegami czasowymi:
Dla fonemów widzimy, iż wykresy znacząco się różnią, wobec tego nie dziwi fakt słabszej
syntezy dźwięku.
0
2000
4000
6000
8000
10000
12000
14000
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
Przebieg sygnału dla wypowiedzianego słowa pieg
A
m
p
lit
u
d
a
L.p. próbki
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
Przebieg otrzymanego sygnału dla fonemów
Czas [s]
A
m
p
lit
u
d
a
całe słowo
konkatenacja
Mimo że przy difonach zaobserwowaliśmy znaczącą poprawę syntetyki, powyższy wykres
wydaje się temu przeczyć, jednakże gdy bliżej się przyjrzeć, widzimy charakterystyczny początek i
koniec dla dźwięku, pomijając fakt, iż pliki mają różną długość.
Przypadek trifonów potwierdza regułę, iż synteza sygnału jest najlepsza dla jak największych
części zapisanej mowy. Niestety stworzenie takiego korpusu jest nie tylko pracochłonne ale i
kosztowne pamięciowo.
7. Ocena w dziedzinie częstotliwości.
Do oceny uzyskanych wyników w dziedzinie częstotliwości nadaje się najlepiej spektrogram.
Poniżej zamieszczam spektrogramy mojej wypowiedzi oraz syntezowanej wypowiedzi za pomocą
fonemów, difonów i trifonów.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
Przebieg otrzymanego sygnału dla difonów
A
m
p
lit
u
d
a
Czas [s]
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
Przebieg otrzymanego sygnału dla trifonów
A
m
p
lit
u
d
a
Czas [s]
Wykres pokazuje nam, jakie cechy ma wypowiedź, bowiem spektrogram należy do słowa
przeze mnie wypowiedzianego. Będzie on porównywany do syntetycznych sygnałów.
W przypadku fonemów, widzimy wyraźniejszą kwantyzację spektrogramu, a poza tym
kompletną odwrotność pierwszego. Wobec tego utwierdza to nas na drodze do wyeliminowania
fonemów w syntezie mowy. Spójrzmy na difony:
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
0.55
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
x 10
4
Time
F
re
q
u
e
n
c
y
(
H
z
)
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
x 10
4
Time
F
re
q
u
e
n
c
y
(
H
z
)
Nasycenie barw odpowiada temu ze słowa mówionego, charakterystyczne punkty również
możemy znaleźć. Jednak czy będzie to najbardziej podobna wersja spektrogramu? Poniżej mamy
obraz dla trifonów.
Myślę, iż widać wyraźnie, że w przypadku syntezy mowy trifony okazały się być nie tylko
najlepsze pod względem słuchowym, ale przede wszystkim pod względem czasowym i
częstotliwościowym. Miały one najbardziej zbliżone zakresy, wobec tego udowodniliśmy dobitnie
słuszność używania dłuższych zgłosek.
0.05
0.1
0.15
0.2
0.25
0.3
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
x 10
4
Time
F
re
q
u
e
n
c
y
(
H
z
)
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
0.55
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
x 10
4
Time
F
re
q
u
e
n
c
y
(
H
z
)