GrzeszykAnna I0I1S1 cw4 spr

background image

Systemy Dialogowe

Sprawozdanie z ćwiczenia laboratoryjnego nr 3

Temat laboratorium:

SYNTEZA SYGNAŁU MOWY METODĄ KONKATENACJI

Wykonała:

Anna Grzeszyk

I0I1S1

Prowadzący:

Dr inż. Andrzej Wiśniewski

background image

1. Podział słowa z ćwiczenia nr 2 na spółgłoski i samogłoski

Skorzystałam w tym punkcie ze słowa wymyślonego w ćwiczeniu nr 2 o brzmieniu

„sztukowań”. W tym celu podzieliłam słowo na dwie części: spółgłoski (sztkwń) oraz samogłoski
(uoa). Aby wyciągnąć wnioski z utworzonych dźwięków, posłużę się poza zwykłym odsłuchaniem
również wykresami dźwięków.

Złączenie samych spółgłosek i samych samogłosek sprawia, iż dźwięki stają się

nierozróżnialne, a dodatkowe trzaski między nimi potęgują ten efekt. Można również zauważyć, że
przy spółgłoskach bezdźwięcznych trudno jest wyznaczyć prawidłowo ich ramkę, aby były w ogóle
słyszalne w zlepku spółgłosek. Połączenie takie nie brzmi zbyt dobrze, lecz nie trzeba słuchać
dźwięku, aby przekonać się o jego niskich walorach słuchowych. Już na wykresach widzimy, bardzo
dużą nierównomierność w sygnale, nagłe spadki, potem gwałtowne górki (są to momenty złączeń
ramek, wtedy też słyszymy trzaski). Szczególnie ciekawie wygląda wykres dla samogłosek –środkowe
złączenie nijak nie pasuje do reszty głosek, ze względu na wyższe dźwięki. Widzimy więc, że nie jest
łatwo połączyć zlepek głosek w rozpoznawalny dla ucha ciąg. Jednakże jak wyglądać będzie złączenie
dla słowa naturalnego?

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

-0.15

-0.1

-0.05

0

0.05

0.1

Przebieg otrzymanego sygnału dla spółgłosek

A

m

p

lit

u

d

a

Czas [s]

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

-0.2

-0.15

-0.1

-0.05

0

0.05

0.1

0.15

Przebieg otrzymanego sygnału dla samogłosek

A

m

p

lit

u

d

a

Czas [s]

background image

2. Synteza słowa za pomocą fonemów, difonów i trifonów

Do wykonania tego ćwiczenia posłużyłam się nagraniami z ćwiczenia 3 oraz dogranymi

słowami, aby uzyskać odpowiednie trifony. Dla słownika: ('picie', 'pies', 'snieg', ‘siedziec’, ‘brzeg’)
utworzyłam słowo:

PIEG

Zostało ono zbudowane trzy razy na bazie następujących części:

Fonemy:

p – i – e – g

Difony:

_p – pi – ie – eg – g_

Trifony:

_pi-pie-ieg-eg_

Fonemy zaczerpnęłam ze słów picie, pies, siedzieć oraz śnieg. Difony powstały ze słów: picie,

pies, siedzieć, śnieg, brzeg. Natomiast trifony, jakie utworzyłam zostały zapożyczone z następujących
słów: picie, pies, śnieg, brzeg.

Po przebytej analizie rozpoczęłam podział słów na ramki z niezbędnymi dźwiękami. Na

początek wczytałam wszystkie pliki dźwiękowe, potrzebne na niniejszym laboratorium, łącznie z
nagraniem, które jest zapisem mowy oryginalnej zsyntezowanego słowa. Następnie, przy użyciu
programu Audacity, wskazującego numer próbki rozpoczęcia i zakończenia zaznaczenia, wybrałam
ramki, które moim zdaniem najlepiej pasują do potrzeb słowa. Dla difonów i trifonów starałam się,
aby przedziały końcowe wypadały w połowie litery, aby móc dokonywać płynnych złączeń dźwięków.

Dokładne znalezienie odpowiedniej ramki wymaga poświęcenia czasu, jest najbardziej

pracochłonnym i jednocześnie najważniejszym elementem w niniejszym ćwiczeniu. Nie da się
kontynuować ćwiczenia z nieprawidłowościami.

Po dokładnym dopasowaniu dźwięków i ich odsłuchaniu zauważyłam, iż najlepsze złączenie

udało się otrzymać poprzez sklejenie dwóch trifonów, jednakże szczegółowe wnioski znajdują się w
kolejnych punktach tego sprawozdania.

3. Fonemy

Fonem jest najmniejszą jednostką fonetyczną, jaką będziemy się zajmować. Utworzyliśmy

wektor mieszczący wszystkie ramki. Następnie odsłuchuję sygnał i sprawdzam, czy złączenie jest dla
mnie satysfakcjonujące. Mierzę długość złączenia, a także długość powstałego słowa w sekundach.

background image

Na powyższych wykresach widzimy, iż złączenie zostało dokonane dosyć płynnie, bowiem nie

widzę znacznych różnic w przebiegu sygnału, poza większą głośnością fragmentu niosącego
samogłoski „ie”. Przybliżenie pozwala nam zauważyć, że jednak wyraźnych złączeń jest więcej i
niezbędne może się okazać w tej sytuacji oknowanie Hanninga. Odtworzenie dźwięku daje nam do
odsłuchania plik dźwiękowy zawierający fonemy. Jednakże z całą pewnością stwierdzić mogę, że
wyraz został przeze mnie rozpoznany, mimo dużych problemów tak nagranego dźwięku z syntezą
mowy, to rozpoznawalność stoi na dosyć wysokim poziomie.

Kolejnym etapem w reprezentacji syntezy mowy było usunięcie trzasków w pojawiającym się

sygnale dźwiękowym. W miejscu złączeń przemnożyłam wartość próbki dźwięku przez okno
Hanninga, dzięki czemu otrzymujemy filtr tłumiący całkowicie środek wybranego przedziału, a
przepuszczający jego brzegi. Poniżej znajduje się realizacja oknowania dla fonemów:

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

Przebieg otrzymanego sygnału dla fonemów

A

m

p

lit

u

d

a

Czas [s]

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

Przebieg otrzymanego sygnału dla fonemów

A

m

p

lit

u

d

a

L.p. próbki

background image

Ze względu na delikatność sygnału, stosowałam mniejsze ramki, aby nie wyciszyć zbyt mocno

sygnału i aby pozbyć się trzasków i zakłóceń. Dźwięk jest delikatnie lepszy od tego bez oknowania,
jednakże nie tak dobry, jak mowa naturalna, da się wyczuć sztuczność w układaniu zgłosek.

4. Difony

W tej chwili najpowszechniejszymi metodami syntezy mowy jest jej wersja ułożona z korpusu

właśnie difonów. Jest to złoty środek pomiędzy jakością syntezy (wyraźność i naturalność) a
wielkością słownika. Wszystkich difonów w języku polskim mamy kilkadziesiąt, wobec tego nie jest
trudnym złożenie takiego zestawu wszystkich difonów.

Jaką przewagę mają difony w moim mniemaniu? Przede wszystkim to, iż próbki jakie mamy,

pobieramy ze środka litery początkowej i końcowej. W tym wypadku eliminujemy trzaski związane z
faktem dobrania chwili ciszy też innych czynników wpływających na wynik.

W przypadku słowa pieg ramki zostały dobrane niemal idealnie i w ten sposób słyszę

wyraźnie słowo. Jeśli chodzi o syntezę, to zbliża się już ona ku poprawie, ciężko jest odróżnić w tym
momencie słuchowo różnice.

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

Przebieg otrzymanego sygnału dla fonemów po hanningu

A

m

p

lit

u

d

a

L.p. próbki

background image

Jak widzimy, wykres ten ma bardziej spokojny przebieg, układa się podobnie do kształtów

mowy ludzkiej. W przypadku okna Hanninga, uznałam, iż będzie ono potrzebne w dwóch miejscach:
około 1200 próbki o raz około 5400. Ponieważ przy innych literach przejścia były zadowalające.

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

Przebieg otrzymanego sygnału dla difonów

A

m

p

lit

u

d

a

Czas [s]

0

1000

2000

3000

4000

5000

6000

7000

8000

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

Przebieg otrzymanego sygnału dla difonów

A

m

p

lit

u

d

a

L.p. próbki

background image

Choć nie widać tak wielkiej zmiany odnośnie pierwszego miejsca, to około 5600 próbki

widzimy wyraźne załamanie, ponieważ uwidoczniło się nam okno i jego pasmo zaporowe.

5. Trifony

Część z trifonami okazała się być dla mnie najtrudniejsza, gdyż nie znajdowałam sposobu.

Próbowałam zaimplementować kilka sposobów rozwiązujących problem poprzez dodanie i
uśrednienie wspólnych elementów, czy też ich zerowanie. W każdym przypadku otrzymuję wynik
gorszy uzyskanego na początku. Podzieliłam trifony na dwie grupy, a wynik zaskoczył moje ucho – po
prostym połączeniu dwóch trifonów uzyskałam dźwięk niemalże identyczny z oryginałem. Dowodzi to
jakości nagrań, jakie można uzyskać poprzez syntezę za pomocą trifonów, jednakże napotykamy tutaj
na bardzo poważny problem – korpus mowy rozrasta się do tysięcy jednostek! Może to być
wyzwanie, jeśli próbujemy napisać coś nowego, może być poważną przeszkodą.

0

1000

2000

3000

4000

5000

6000

7000

8000

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

Przebieg otrzymanego sygnału dla difonów po hanningu

A

m

p

lit

u

d

a

L.p. próbki

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Przebieg otrzymanego sygnału dla trifonów

A

m

p

lit

u

d

a

Czas [s]

background image

Widzimy regularność dźwięku, tłumaczącą jakość utworzonego trifonu, a także, poza

pojedynczym pikiem, nie ma wyraźnych różnic pomiędzy szczytami sygnału. Z racji jakości
utworzonego dźwięku i płynności mowy – nie zastosowałam oknowania Hanninga.

6. Sygnał oryginalny

Przebieg oryginalnego sygnału wygląda następująco:

Należy uzupełnić, że przez miano oryginalny rozumiem całe słowo piegi nagrane bez

przystanków. Następnie porównamy sygnał oryginalny z przebiegami czasowymi:

Dla fonemów widzimy, iż wykresy znacząco się różnią, wobec tego nie dziwi fakt słabszej

syntezy dźwięku.

0

2000

4000

6000

8000

10000

12000

14000

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

Przebieg sygnału dla wypowiedzianego słowa pieg

A

m

p

lit

u

d

a

L.p. próbki

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

Przebieg otrzymanego sygnału dla fonemów

Czas [s]

A

m

p

lit

u

d

a

całe słowo
konkatenacja

background image

Mimo że przy difonach zaobserwowaliśmy znaczącą poprawę syntetyki, powyższy wykres

wydaje się temu przeczyć, jednakże gdy bliżej się przyjrzeć, widzimy charakterystyczny początek i
koniec dla dźwięku, pomijając fakt, iż pliki mają różną długość.

Przypadek trifonów potwierdza regułę, iż synteza sygnału jest najlepsza dla jak największych

części zapisanej mowy. Niestety stworzenie takiego korpusu jest nie tylko pracochłonne ale i
kosztowne pamięciowo.

7. Ocena w dziedzinie częstotliwości.

Do oceny uzyskanych wyników w dziedzinie częstotliwości nadaje się najlepiej spektrogram.

Poniżej zamieszczam spektrogramy mojej wypowiedzi oraz syntezowanej wypowiedzi za pomocą
fonemów, difonów i trifonów.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

Przebieg otrzymanego sygnału dla difonów

A

m

p

lit

u

d

a

Czas [s]

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Przebieg otrzymanego sygnału dla trifonów

A

m

p

lit

u

d

a

Czas [s]

background image

Wykres pokazuje nam, jakie cechy ma wypowiedź, bowiem spektrogram należy do słowa

przeze mnie wypowiedzianego. Będzie on porównywany do syntetycznych sygnałów.

W przypadku fonemów, widzimy wyraźniejszą kwantyzację spektrogramu, a poza tym

kompletną odwrotność pierwszego. Wobec tego utwierdza to nas na drodze do wyeliminowania
fonemów w syntezie mowy. Spójrzmy na difony:

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

0.55

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

x 10

4

Time

F

re

q

u

e

n

c

y

(

H

z

)

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

x 10

4

Time

F

re

q

u

e

n

c

y

(

H

z

)

background image

Nasycenie barw odpowiada temu ze słowa mówionego, charakterystyczne punkty również

możemy znaleźć. Jednak czy będzie to najbardziej podobna wersja spektrogramu? Poniżej mamy
obraz dla trifonów.

Myślę, iż widać wyraźnie, że w przypadku syntezy mowy trifony okazały się być nie tylko

najlepsze pod względem słuchowym, ale przede wszystkim pod względem czasowym i
częstotliwościowym. Miały one najbardziej zbliżone zakresy, wobec tego udowodniliśmy dobitnie
słuszność używania dłuższych zgłosek.

0.05

0.1

0.15

0.2

0.25

0.3

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

x 10

4

Time

F

re

q

u

e

n

c

y

(

H

z

)

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

0.55

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

x 10

4

Time

F

re

q

u

e

n

c

y

(

H

z

)


Wyszukiwarka

Podobne podstrony:
ćw4-spr , Politechnika
ćw4-spr, Politechnika Lubelska, Studia, Semestr 6, sem VI, semestr6.5
I0I1S1 Grzeszyk Lab2v2
spr cw4, Podstawy konstrukcji maszyn(1)
I0I1S1 GrzeszykAnna Lab3
I0I1S1 Grzeszyk Lab2v2
cw4 Zespół Klinefeltera
Spr[1] adm i uznanie adm
08 03 KPGO Spr z realizacji
17 Rozp Min Zdr w spr szk czyn Nieznany
OS gr03 cw4 id 340946 Nieznany
przetworka spr ostatnie
cw4 badanie drgan skretnych
as spr 5 id 69978 Nieznany (2)
metr spr 5
belka spr podl
078c rozp zm rozp min gosp w spr szkolenia w dziedzinie bhp

więcej podobnych podstron