mat-am-2

Teoria wytwarzania dźwięków mowy

Schemat zastępczy układu wytwarzania dźwięków mowy

Formanty numeruje się: F1, F2, F3 itd., a odpowiadające im częstotliwości w Hz oznacza się jako F1, F2, F3

Największe znaczenie mają dwie wnęki jamy ustnej wynikające z obecności

języka (dwa formanty F1 i F2),

inne wnęki - jama gardłowa, ustna i nosowa.

Podstawowe założenie teorii wytwarzania dźwięków mowy:

Niezależność rezonansowych właściwości i charakterystyk efektorów

artykulacyjnych i źródła tonu krtaniowego

Parametry formantowe zależą zarówno od tonu krtaniowego jak i od

właściwości rezonansowych organu mowy - traktu głosowego

Wyznaczenie struktury formantowej widma sygnału mowy:

uśrednianie kształtu jego obwiedni w przedziałach częstotliwości o szerokości 250-300 Hz (w zakresie dolnym widma < 1500 Hz) oraz 500-700 Hz (w górnym zakresie >2500 Hz) – ogólnie: powinno to być realizowane przy pomocy filtracji zbliżonej do przypadku zastosowania filtrów o stałej dobroci.

struktura formantowa samogłosek w mowie ciągłej zależy także od fonemu

poprzedzającego

stała czasowa słuchu: narastanie 20-30 ms, zanikanie 100-200 ms

Mechanizm wytwarzania dźwięków mowy jako proces kształtowania

widma tonu krtaniowego (impulsów krtaniowych)

a) elektryczny układ zastępczy

b) czwórnikowy układ zastępczy dla głosek nienosowych

c) przebiegi czasowe

d) charakterystyki częstotliwościowe, kolejno: tonu krtaniowego,

traktu głosowego, sygnału wynikowego

Płaszczyzna F1-F2 dla polskich samogłosek (trójkąt samogłosek). Podane są przykłady dla kilkunastu wypowiedzi oraz obliczone na ich podstawie obszary klasyfikacji. Posłużono się tutaj metodyką reguły optymalnej: założenie o gaussowskim charakterze rozkładów prawdopodobieństwa dla częstotliwości formantowych F1 i F2 (rozkład dwuwymiarowy). Granice obszarów są dyskryminantami

–

liniami,

których

wartości

funkcji

gęstości

prawdopodobieństwa sąsiadujących klas samogłosek są sobie równe. Jest to jedna z metod identyfikacji nieznanej samogłoski (klasyfikator parametryczny).

Przykładowe parametry formantowe:

Fonem

częstotliwości [Hz] poziomy względne [dB}

210 2750 3500 4200

0 -15 -15 -27

380 2640 3000 3600

0 -12 -16 -20

780 1150 2700 3500

0 -7 -25 -25

240 1550 2400 3300

0 -12 -20 -30

400 730 2300 3200

0 -3 -30 -35

270 615 2200 3150

0 -13 -40 -50

600 1700 2900 4100

-9 0 -2 -10

- 2300 2900 3600

- -9 -8 0

500 1700 2500 4200

-12 0 -10 -17

- 1750 2950 4300

- -6 -10 0

Dendryt binarnych cech dystynktywnych fonemów polskich. Linia ciągła

oznacza obecność cech podanej po lewej stronie rysunku, linia przerywana brak tej cechy.