mat am 1

background image

Podstawowe wiadomości na temat sygnału mowy

i traktu głosowego

Artykulacja - praca organów mowy (wiązadeł głosowych, języka, jamy ustnej, i nosowej)
potrzebna do wytworzenia dźwięków mowy.
Fonem - minimalny segment dźwiękowy mowy, który może odróżniać znaczenie, lub inaczej
klasa dźwięków mowy danego języka o różnicach wynikających wyłącznie z charakteru
indywidualnej wymowy lub kontekstu.
Alofon - wariant fonemu odróżniający się od innego alofonu cechami fonetycznymi a nie
funkcją.
Diafon - przejście międzyfonemowe (inaczej difon, tranzem)
Mikrofonem - jednostka sygnału mowy o stałej długości czasowej (ok. 20-40 ms).
Formant - obszar koncentracji energii w widmie danego dźwięku mowy
lub inaczej: taki zakres widma, którego obwiednia zawiera maksimum.
Cechy dystynktywne - cechy pozwalające na rozróżnienie.
Ekstrakcja parametrów - procedura wydzielania z sygnału cech reprezentowanych przez
wartości liczbowe (jest to element analizy sygnałów).
Redundancja - nadmiarowość w odniesieniu do informacji.
Logatomy - (ang. nonsense sylables) - sylaby służące do badania wyrazistości mowy w
testach odsłuchowych.
MFCC - (skrót od ang. Mel Function Cepstral Coeficients) wektor współczynników mel-
cepstralnych - cepstrum obliczone na podstawie melowej skali częstotliwości.
HMM - (skrót od ang. Hidden Markov Model) ukryty model Markowa używany w
algorytmach do rozpoznawania mowy.
ANN - (skrót od ang. Artificial Neural Network) sztuczne sieci neuronowe – stosowane jako
algorytmy konekcyjne do klasyfikacji.
GMM - (skrót od ang. Gaussian Mixture Model) modelowanie rozkładów
prawdopodobieństwa przy pomocy sumy rozkładów gaussowskich
SVM - (skrót od ang. Support Vector Machine) algorytm maszyny wektorów wsparcia do
klasyfikacji opartej na analizie regionu granicznego
Wokodery
- urządzenia służące do ograniczania objętości informacyjnej sygnału mowy
metodą ekstrakcji parametrów i następnie po przesłaniu parametrów przez kanał
telekomunikacyjny dokonujące resyntezy tego sygnału.

background image

Narządy mowy w przekroju








Cechy mowy:
semantyczne - związane z treścią wypowiedzi
osobnicze - pozwalające rozpoznać osobę mówiącą
emocjonalne - pozwalające rozpoznać emocje osoby mówiącej; także stan zdrowia lub status
społeczny
prozodyczne - odnoszące się do akcentu, głośności, intonacji, długości dżwięków i pauz

Złożoność analizy sygnału mowy:
- zakres dynamiki
- rozdzielczość częstotliwościowa i czasowa
- uwzględnienie czułości narządu słuchu
- możliwość uczenia się i dostosowywania do zmiennych warunków (np. efekt "coctail
party")

background image

Zakresy częstotliwości podstawowej tonu krtaniowego dla głosek dźwięcznych:
bas 80-320 Hz
baryton 100-400 Hz
tenor 120-480 Hz
alt 160-640 Hz
mezzosopran 200-800 Hz
sopran 240-960 Hz

Analogie elektryczno-akustyczne:

prąd <-> prędkość objętościowa U:

U=v

.

A


v
- prędkość liniowa drgań cząstek środowiska
A - pole powierzchni przekroju poprzecznego układu akustycznego


definicja ogólna:

impedancja akustyczna:

Z

a

=p/U


p
- ciśnienie akustyczne


W dziedzinie czasu sygnał mowy można opisać jako splot:

p(t)=e(t)*m(t)


e(t)
– sygnał pobudzenia
m(t) – odpowiedź impulsowa układu biernych efektorów artykulacyjnych (traktu

głosowego)

W dziedzinie zespolonej (transformacja Laplace'a) sygnał mowy można opisać:

p(s)=E(s)

.

M(s)


E(s)
- pobudzenie
M(s) – transformata Laplace'a odpowiedzi impulsowej układu biernych efektorów

artykulacyjnych (traktu głosowego)

s=

σσσσ

+j

ω

ωω

ω

- częstotliwość zespolona

σσσσ

- tlumienie,

ω

ωω

ω

- pulsacja


na okręgu jednostkowym (transformacja Fouriera)

p(j

ω

ωω

ω

)=E(j

ω

ωω

ω

)

.

M(j

ω

ωω

ω

)


lub para równań:

|p(f)|=|E(f)|*|M(f)|

- amplitudowe

φ[

φ[

φ[

φ[

p(f)]=

φ[

φ[

φ[

φ[

E(f)]+

φ[

φ[

φ[

φ[

M(f)]

- fazowe


zalezności fazowe jednak nie mają wpływu na percepcję mowy

background image

Uproszczony schemat traktu głosowego w przekroju

Wykres krzywych izofonicznych z zaznaczonym obszarem

zajmowanym przez naturalny sygnał mowy

background image

Cztery podstawowe grupy polskich fonemów:

I. dźwięki o charakterze quasiperiodycznym:

1) samogłoski sylabiczne (a, e, i, o, u, y)
2) samogłoski niesylabiczne (j, ł)
3) spółgłoski nosowe (m, n, ń, ą, ę)
4) spółgłoski boczne (l)

II. dźwięki o charakterze przebiegów nieperiodycznych - szumowych:

1) spółgłoski bezdźwięczne trące (f, s, sz, ś, h)
2) spółgłoski bezdźwięczne zwarto-trące (c, ć, cz)

III. dźwięki o charakterze przebiegów nieperiodycznych - quasi-impulsowych:

1) spółgłoski zwarte dźwięczne (b, d, g)
2) spółgłoski zwarte bezdźwięczne (p, t, k)

IV. dźwięki o charakterze przebiegów będących superpozycją quasiperiodycznych i nieperiodycznych:

1) spółgłoski trące dźwięczne (w, z, ż, ź)
2) spółgłoski zwarto-trące dźwięczne dz, dż, dź)



Wyszukiwarka

Podobne podstrony:
mat am 9 id 282446 Nieznany
mat am 7
mat am 4 id 282444 Nieznany
mat-am-2
mat-am-1
mat am 3
mat-am-7
mat am 6
mat am
mat am 5
mat am 1
tul cyl montaz, AM mat, Remonty
Inne materiały, mat-potęgi, am*an=am+n

więcej podobnych podstron