background image

 

 

 

 

 

 

 

Systemy Dialogowe

 

Sprawozdanie z ćwiczenia laboratoryjnego nr 3 

Temat laboratorium: 

SYNTEZA SYGNAŁU MOWY METODĄ KONKATENACJI 

 

 

 

 

 

 

 

Wykonała: 

Anna Grzeszyk 

I0I1S1 

Prowadzący: 

Dr inż. Andrzej Wiśniewski 

background image

1.  Podział słowa z ćwiczenia nr 2 na spółgłoski i samogłoski 

 

Skorzystałam w tym punkcie ze słowa wymyślonego w ćwiczeniu nr 2 o brzmieniu 

„sztukowań”.  W tym celu podzieliłam słowo na dwie części: spółgłoski (sztkwń) oraz samogłoski 
(uoa).  Aby wyciągnąć wnioski z utworzonych dźwięków, posłużę się poza zwykłym odsłuchaniem 
również wykresami dźwięków. 

 

 

Złączenie samych spółgłosek i samych samogłosek sprawia, iż dźwięki stają się 

nierozróżnialne, a dodatkowe trzaski między nimi potęgują ten efekt. Można również zauważyć, że 
przy spółgłoskach bezdźwięcznych trudno jest wyznaczyć prawidłowo ich ramkę, aby były w ogóle 
słyszalne w zlepku spółgłosek. Połączenie takie nie brzmi zbyt dobrze, lecz nie trzeba słuchać 
dźwięku, aby przekonać się o jego niskich walorach słuchowych. Już na wykresach widzimy, bardzo 
dużą nierównomierność w sygnale, nagłe spadki, potem gwałtowne górki (są to momenty złączeń 
ramek, wtedy też słyszymy trzaski). Szczególnie ciekawie wygląda wykres dla samogłosek –środkowe 
złączenie nijak nie pasuje do reszty głosek, ze względu na wyższe dźwięki. Widzimy więc, że nie jest 
łatwo połączyć zlepek głosek w rozpoznawalny dla ucha ciąg. Jednakże jak wyglądać będzie złączenie 
dla słowa naturalnego? 

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

-0.15

-0.1

-0.05

0

0.05

0.1

Przebieg otrzymanego sygnału dla spółgłosek

A

m

p

lit

u

d

a

Czas [s]

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

-0.2

-0.15

-0.1

-0.05

0

0.05

0.1

0.15

Przebieg otrzymanego sygnału dla samogłosek

A

m

p

lit

u

d

a

Czas [s]

background image

2.  Synteza słowa za pomocą fonemów, difonów i trifonów 

 

Do wykonania tego ćwiczenia posłużyłam się nagraniami z ćwiczenia 3 oraz dogranymi 

słowami, aby uzyskać odpowiednie trifony. Dla słownika: ('picie', 'pies', 'snieg', ‘siedziec’, ‘brzeg’) 
utworzyłam słowo: 

PIEG 

Zostało ono zbudowane trzy razy na bazie następujących części: 

Fonemy: 

p – i – e – g 

Difony: 

_p – pi – ie – eg – g_ 

Trifony: 

_pi-pie-ieg-eg_ 

 

Fonemy zaczerpnęłam ze słów picie, pies, siedzieć oraz śnieg. Difony powstały ze słów: picie, 

pies, siedzieć, śnieg, brzeg. Natomiast trifony, jakie utworzyłam zostały zapożyczone z następujących 
słów: picie, pies, śnieg, brzeg. 

Po przebytej analizie rozpoczęłam podział słów na ramki z niezbędnymi dźwiękami. Na 

początek wczytałam wszystkie pliki dźwiękowe, potrzebne na niniejszym laboratorium, łącznie z 
nagraniem, które jest zapisem mowy oryginalnej zsyntezowanego słowa. Następnie, przy użyciu 
programu Audacity, wskazującego numer próbki rozpoczęcia i zakończenia zaznaczenia, wybrałam 
ramki, które moim zdaniem najlepiej pasują do potrzeb słowa. Dla difonów i trifonów starałam się, 
aby przedziały końcowe wypadały w połowie litery, aby  móc dokonywać płynnych złączeń dźwięków. 

Dokładne znalezienie odpowiedniej ramki wymaga poświęcenia czasu, jest najbardziej 

pracochłonnym i jednocześnie najważniejszym elementem w niniejszym ćwiczeniu. Nie da się 
kontynuować ćwiczenia z nieprawidłowościami. 

Po dokładnym dopasowaniu dźwięków i ich odsłuchaniu zauważyłam, iż najlepsze złączenie 

udało się otrzymać poprzez sklejenie dwóch trifonów, jednakże szczegółowe wnioski znajdują się w 
kolejnych punktach tego sprawozdania. 

3.  Fonemy 

Fonem jest najmniejszą jednostką fonetyczną, jaką będziemy się zajmować. Utworzyliśmy 

wektor mieszczący wszystkie ramki. Następnie odsłuchuję sygnał i sprawdzam, czy złączenie jest dla 
mnie satysfakcjonujące. Mierzę długość złączenia, a także długość powstałego słowa w sekundach. 

background image

 

 

Na powyższych wykresach widzimy, iż złączenie zostało dokonane dosyć płynnie, bowiem nie 

widzę znacznych różnic w przebiegu sygnału, poza większą głośnością fragmentu niosącego 
samogłoski „ie”. Przybliżenie pozwala nam zauważyć, że jednak wyraźnych złączeń jest więcej i 
niezbędne może się okazać w tej sytuacji oknowanie Hanninga. Odtworzenie dźwięku daje nam do 
odsłuchania plik dźwiękowy zawierający fonemy. Jednakże z całą pewnością stwierdzić mogę, że 
wyraz został przeze mnie rozpoznany, mimo dużych problemów tak nagranego dźwięku z syntezą 
mowy, to rozpoznawalność stoi na dosyć wysokim poziomie. 

Kolejnym etapem w reprezentacji syntezy mowy było usunięcie trzasków w pojawiającym się 

sygnale dźwiękowym. W miejscu złączeń przemnożyłam wartość próbki dźwięku przez okno 
Hanninga, dzięki czemu otrzymujemy filtr tłumiący całkowicie środek wybranego przedziału, a 
przepuszczający jego brzegi. Poniżej znajduje się realizacja oknowania dla fonemów: 

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

Przebieg otrzymanego sygnału dla fonemów

A

m

p

lit

u

d

a

Czas [s]

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

Przebieg otrzymanego sygnału dla fonemów

A

m

p

lit

u

d

a

L.p. próbki

background image

 

Ze względu na delikatność sygnału, stosowałam mniejsze ramki, aby nie wyciszyć zbyt mocno 

sygnału i aby pozbyć się trzasków i zakłóceń. Dźwięk jest delikatnie lepszy od tego bez oknowania, 
jednakże nie tak dobry, jak mowa naturalna, da się wyczuć sztuczność w układaniu zgłosek. 

4.  Difony 

W tej chwili najpowszechniejszymi metodami syntezy mowy jest jej wersja ułożona z korpusu 

właśnie difonów. Jest to złoty środek pomiędzy jakością syntezy (wyraźność i naturalność) a 
wielkością słownika. Wszystkich difonów w języku polskim mamy kilkadziesiąt, wobec tego nie jest 
trudnym złożenie takiego zestawu wszystkich difonów. 

Jaką przewagę mają difony w moim mniemaniu? Przede wszystkim to, iż próbki jakie mamy, 

pobieramy ze środka litery początkowej i końcowej. W tym wypadku eliminujemy trzaski związane z 
faktem dobrania chwili ciszy też innych czynników wpływających na wynik. 

W przypadku słowa pieg ramki zostały dobrane niemal  idealnie i w ten sposób słyszę 

wyraźnie słowo.  Jeśli chodzi o syntezę, to zbliża się już ona ku poprawie, ciężko jest odróżnić w tym 
momencie słuchowo różnice. 

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

Przebieg otrzymanego sygnału dla fonemów po hanningu

A

m

p

lit

u

d

a

L.p. próbki

background image

 

 

Jak widzimy, wykres ten ma bardziej spokojny przebieg, układa się podobnie do kształtów 

mowy ludzkiej. W przypadku okna Hanninga, uznałam, iż będzie ono potrzebne w dwóch miejscach: 
około 1200 próbki o raz około 5400. Ponieważ przy innych literach przejścia były zadowalające. 

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

Przebieg otrzymanego sygnału dla difonów

A

m

p

lit

u

d

a

Czas [s]

0

1000

2000

3000

4000

5000

6000

7000

8000

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

Przebieg otrzymanego sygnału dla difonów

A

m

p

lit

u

d

a

L.p. próbki

background image

 

Choć nie widać tak wielkiej zmiany odnośnie pierwszego miejsca, to około 5600 próbki 

widzimy wyraźne załamanie, ponieważ uwidoczniło się nam okno i jego pasmo zaporowe. 

5.  Trifony 

Część z trifonami okazała się być dla mnie najtrudniejsza, gdyż nie znajdowałam sposobu. 

Próbowałam zaimplementować kilka sposobów rozwiązujących problem poprzez dodanie i 
uśrednienie wspólnych elementów, czy też ich zerowanie. W każdym przypadku otrzymuję wynik 
gorszy uzyskanego na początku. Podzieliłam trifony na dwie grupy, a wynik zaskoczył moje ucho – po 
prostym połączeniu dwóch trifonów uzyskałam dźwięk niemalże identyczny z oryginałem. Dowodzi to 
jakości nagrań, jakie można uzyskać poprzez syntezę za pomocą trifonów, jednakże napotykamy tutaj 
na bardzo poważny problem – korpus mowy rozrasta się do tysięcy jednostek! Może to być 
wyzwanie, jeśli próbujemy napisać coś nowego, może być poważną przeszkodą. 

 

0

1000

2000

3000

4000

5000

6000

7000

8000

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

Przebieg otrzymanego sygnału dla difonów po hanningu

A

m

p

lit

u

d

a

L.p. próbki

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Przebieg otrzymanego sygnału dla trifonów

A

m

p

lit

u

d

a

Czas [s]

background image

Widzimy regularność dźwięku, tłumaczącą jakość utworzonego trifonu, a także, poza 

pojedynczym pikiem, nie ma wyraźnych różnic pomiędzy szczytami sygnału. Z racji jakości 
utworzonego dźwięku i płynności mowy – nie zastosowałam oknowania Hanninga. 

6.  Sygnał oryginalny 

Przebieg oryginalnego sygnału wygląda następująco: 

 

Należy uzupełnić, że przez miano oryginalny rozumiem całe słowo piegi nagrane bez 

przystanków. Następnie porównamy sygnał oryginalny z przebiegami czasowymi: 

 

Dla fonemów widzimy, iż wykresy znacząco się różnią, wobec tego nie dziwi fakt słabszej 

syntezy dźwięku. 

0

2000

4000

6000

8000

10000

12000

14000

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

Przebieg sygnału dla wypowiedzianego słowa pieg

A

m

p

lit

u

d

a

L.p. próbki

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

Przebieg otrzymanego sygnału dla fonemów

Czas [s]

A

m

p

lit

u

d

a

 

 

całe słowo
konkatenacja

background image

 

Mimo że przy difonach zaobserwowaliśmy znaczącą poprawę syntetyki, powyższy wykres 

wydaje się temu przeczyć, jednakże gdy bliżej się przyjrzeć, widzimy charakterystyczny początek i 
koniec dla dźwięku, pomijając fakt, iż pliki mają różną długość. 

 

Przypadek trifonów potwierdza regułę, iż synteza sygnału jest najlepsza dla jak największych 

części zapisanej mowy. Niestety stworzenie takiego korpusu jest nie tylko pracochłonne ale i 
kosztowne pamięciowo. 

7.  Ocena w dziedzinie częstotliwości. 

Do oceny uzyskanych wyników w dziedzinie częstotliwości nadaje się najlepiej spektrogram. 

Poniżej zamieszczam spektrogramy mojej wypowiedzi oraz syntezowanej wypowiedzi za pomocą 
fonemów, difonów i trifonów. 

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

Przebieg otrzymanego sygnału dla difonów

A

m

p

lit

u

d

a

Czas [s]

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Przebieg otrzymanego sygnału dla trifonów

A

m

p

lit

u

d

a

Czas [s]

background image

 

Wykres pokazuje nam, jakie cechy ma wypowiedź, bowiem spektrogram należy do słowa 

przeze mnie wypowiedzianego. Będzie on porównywany do syntetycznych sygnałów. 

 

W przypadku fonemów, widzimy wyraźniejszą kwantyzację spektrogramu, a poza tym 

kompletną odwrotność pierwszego. Wobec tego utwierdza to nas na drodze do wyeliminowania 
fonemów w syntezie mowy. Spójrzmy na difony: 

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

0.55

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

x 10

4

Time

F

re

q

u

e

n

c

y

 (

H

z

)

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

x 10

4

Time

F

re

q

u

e

n

c

y

 (

H

z

)

background image

 

Nasycenie barw odpowiada temu ze słowa mówionego, charakterystyczne punkty również 

możemy znaleźć. Jednak czy będzie to najbardziej podobna wersja spektrogramu? Poniżej mamy 
obraz dla trifonów. 

 

Myślę, iż widać wyraźnie, że w przypadku syntezy mowy trifony okazały się być nie tylko 

najlepsze pod względem słuchowym, ale przede wszystkim pod względem czasowym i 
częstotliwościowym. Miały one najbardziej zbliżone zakresy, wobec tego udowodniliśmy dobitnie 
słuszność używania dłuższych zgłosek. 

 

0.05

0.1

0.15

0.2

0.25

0.3

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

x 10

4

Time

F

re

q

u

e

n

c

y

 (

H

z

)

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

0.55

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

x 10

4

Time

F

re

q

u

e

n

c

y

 (

H

z

)