Teoria wytwarzania dźwięków mowy
Schemat zastępczy układu wytwarzania dźwięków mowy
Formanty numeruje się: F1, F2, F3 itd., a odpowiadające im częstotliwości w Hz oznacza się jako F1, F2, F3
Największe znaczenie mają dwie wnęki jamy ustnej wynikające z obecności
języka (dwa formanty F1 i F2),
inne wnęki - jama gardłowa, ustna i nosowa.
Podstawowe założenie teorii wytwarzania dźwięków mowy:
Niezależność rezonansowych właściwości i charakterystyk efektorów
artykulacyjnych i źródła tonu krtaniowego
Parametry formantowe zależą zarówno od tonu krtaniowego jak i od
właściwości rezonansowych organu mowy - traktu głosowego
Wyznaczenie struktury formantowej widma sygnału mowy:
uśrednianie kształtu jego obwiedni w przedziałach częstotliwości o szerokości 250-300 Hz (w zakresie dolnym widma < 1500 Hz) oraz 500-700 Hz (w górnym zakresie >2500 Hz) – ogólnie: powinno to być realizowane przy pomocy filtracji zbliżonej do przypadku zastosowania filtrów o stałej dobroci.
struktura formantowa samogłosek w mowie ciągłej zależy także od fonemu
poprzedzającego
stała czasowa słuchu: narastanie 20-30 ms, zanikanie 100-200 ms
Mechanizm wytwarzania dźwięków mowy jako proces kształtowania
widma tonu krtaniowego (impulsów krtaniowych)
a) elektryczny układ zastępczy
b) czwórnikowy układ zastępczy dla głosek nienosowych
c) przebiegi czasowe
d) charakterystyki częstotliwościowe, kolejno: tonu krtaniowego,
traktu głosowego, sygnału wynikowego
Płaszczyzna F1-F2 dla polskich samogłosek (trójkąt samogłosek). Podane są przykłady dla kilkunastu wypowiedzi oraz obliczone na ich podstawie obszary klasyfikacji. Posłużono się tutaj metodyką reguły optymalnej: założenie o gaussowskim charakterze rozkładów prawdopodobieństwa dla częstotliwości formantowych F1 i F2 (rozkład dwuwymiarowy). Granice obszarów są dyskryminantami
–
liniami,
w
których
wartości
funkcji
gęstości
prawdopodobieństwa sąsiadujących klas samogłosek są sobie równe. Jest to jedna z metod identyfikacji nieznanej samogłoski (klasyfikator parametryczny).
Przykładowe parametry formantowe:
Fonem
częstotliwości [Hz] poziomy względne [dB}
i
210 2750 3500 4200
0 -15 -15 -27
e
380 2640 3000 3600
0 -12 -16 -20
a
780 1150 2700 3500
0 -7 -25 -25
y
240 1550 2400 3300
0 -12 -20 -30
o
400 730 2300 3200
0 -3 -30 -35
u
270 615 2200 3150
0 -13 -40 -50
w
600 1700 2900 4100
-9 0 -2 -10
sz
- 2300 2900 3600
- -9 -8 0
h
500 1700 2500 4200
-12 0 -10 -17
z
- 1750 2950 4300
- -6 -10 0
Dendryt binarnych cech dystynktywnych fonemów polskich. Linia ciągła
oznacza obecność cech podanej po lewej stronie rysunku, linia przerywana brak tej cechy.