System automatycznego rozpoznawania mowy

Temat 2: Reprezentacja czasowa i częstotliwościowa

Reprezentacja fizyczna sygnału mowy

Fala podłużna

Moc dźwięku wyraża się w skali logarytmicznej

gdzie:
- moc dźwięku wyrażona w
,

- moc najsłabszego dźwięku

słyszalnego przez ucho ludzkie.

Normalna rozmowa -60dB,

szept - 46 dB; krzyk - 86 dB; 140dB - ból

Ucho ludzkie: od ok. 20 Hz do ok. 20 kHz

najbardziej wrażliwe: z zakresu 1 - 4 kHz.

Charakterystyka ucha - logarytmiczna w dziedzinie częstotliwości

taka sama ilość informacji przenoszona jest w oktawach:

50 - 100 Hz i 10 - 20 kHz

Człowiek słyszy dźwięki z zakresu 10 oktaw.

Naturalnie brzmiąca mowa wymaga pasma ok. 3.2 kHz

Zakres częstotliwości jest zredukowany do 16% (3.2 z 20 kHz)

sygnał wciąż zawiera 80% informacji dźwięku oryginalnego (8 z 10 oktaw).

Reprezentacja sygnału mowy w dziedzinie czasu

Sygnał analogowy

Sygnał cyfrowy: konwersja A/C (ang. A/D)

Dwie operacje konwersji A/D:

Próbkowanie

Oznaczenia:
- częstotliwość próbkowania

- okres próbkowania

- częstotliwość najwyższej składowej widma sygnału

Zasada próbkowania:

dowolny sygnał analogowy jest dokładnie określony przez równoodległe próbki dostarczane z częstotliwością
.

Dla częstotliwości mniejszych (ang. andersampling) - aliasing

Składowe dla
są obserwowane jako składowe dla
.

Fałszywa składowa jest dodawana do rzeczywistej składowej

Przykład

Załóżmy
6 kHz

Sygnał zawiera składową o częstotliwości 4 kHz

Składowa o częstotliwości 4 kHz dodana zostanie do wartości składowej 2 kHz

Przetwornik A/D należy poprzedzić dolnoprzepustowym filtrem, wtedy w sygnale nie będzie składowych o

Znacząca część energii:

mowa wysokiej jakości:
kHz

dźwięk, który może usłyszeć człowiek:
kHz i 16 bitów

Wymaga to przesyłania 44.1 kHz *16 b = 706 kb/s

w magnetofonach cyfrowych (DAT): 48 kHz

dla mowy telefonicznej (300Hz - 3000Hz)
kHz;

przyjmuje się 8 kHz

Kwantyzacja

Stosunek sygnał - zakłócenie (ang. signal to noise ratio, SNR)

Definicja:

Najczęściej: kwantyzacja równomierna

b - liczba bitów reprezentacji próbki

wtedy SNR(w dB)=6b -7,2

czyli wzrost o 1 bit reprezentacji powoduje wzrost SNR o 6 dB

Skutki dla mowy:

Nie ma sensu aby SNR dla błędów kwantowania był większy niż SNR dla zakłóceń tła:

wzmocnienie sygnału przed kwantyzacją - aby wykorzystać cały zakres amplitudy zapewniany przez b bitów

W systemach wyłącznie głosowych:

Techniki akwizycji sygnału analogowego w postaci cyfrowej:

standardy LPC10 i CELP, prędkość 2-6 kbitów/s),

Microsoft - pliki z danymi dźwiękowymi - standard RIFF - Resource Interchange File Format - zwykle rozszerzenie .wav.

Multimedia

odtwarzacze: Windows Media Player, Sound Player

Popularne formaty dźwiękowe: .wav, .mid, .mp3, .asf, .wma, .ra.

Reprezentacja sygnału mowy

Charakterystyki mowy - proces wytwarzania i percepcji mowy

Wytwarzanie mowy: model żródło-filtr.

Źródło (sygnał wymuszenia):

samogłosek, spółgłosek płynnych, spółgłosek nosowych, głoski

niesylabicznej j, głoski drżącej r;

Filtr (trakt głosowy) - filtr o skończonej odpowiedzi impulsowej

Sygnał mowy: splot wymuszenia i odpowiedzi impulsowej filtru.

Proces percepcji: nieliniowy (logarytmiczny) analizator widma mowy

Założenie podstawowe:

sygnał mowy quasi-stacjonarny w krótkim (ok. 10 ms) okresie czasu

Najczęściej wykorzystywana charakterystyka:

widmo częstotliwościowe - charakterystyka amplitudowa - FFT dla segmentu (ramki) sygnału mowy.

Niewystarczająca rozdzielczość częstotliwościowa widma

(proporcjonalna do liczby próbek w segmencie)

Rozsądna rozdzielczość:

sygnał o długości 25 - 30 ms (czyli ok. 250 próbek)

Można pogodzić powyższe sprzeczne wymagania:

analiza sygnału wydzielonego przez nakładające się ramki.

Sygnał mowy - sekwencja ramek - z ramki pojedyncza obserwacja

Obserwacja - wektor - współrzędne to współczynniki:

Predykcja liniowa

Założenie:
-ta próbka sygnału może być prognozowana za pomocą liniowej kombinacji
poprzednich próbek:

Jest to równoważne założeniu, że trakt głosowy modelowany jest za pomocą filtru rekursywnego o transmitancji:

gdzie
jest liczbą biegunów transmitancji oraz
.

Dobór współczynników filtru
:

Minimalizują błąd średniokwadratowy predykcji filtru dla analizowanej ramki.

Agorytm Levinsona-Durbina (matlab)

Metoda autokorelacyjna (biuletyn nr 12)

Cepstrum predykcji liniowej

Transformata Fouriera logarytmu widma tego sygnału

Współczynniki cepstrum:

Liczby współczynników cepstrum i filtru mogą być różne

Zaleta współczynników cepstrum: mała korelacja wzajemna.

W modelach HMM: macierz kowariancji w postaci diagonalnej.

Bank filtrów

Ucho ludzkie - nieliniowa analiza widma sygnału mowy.

Zastosowanie nieliniowego przetwarzania częstotliwości zwiększa skuteczność systemów rozpoznawania mowy.

Alternatywa predykcji liniowej - analiza nieliniowa - prosta do wykonania w dziedzinie częstotliwości.

Bank filtrów - bazuje na przekształceniu FFT - bank filtrów liniowych w dziedzinie częstotliwości, o liczbie kanałów równej liczbie próbek analizowanego sygnału.

Idea: prążki widma FFT łączy się w mniejszą liczbę przedziałów częstotliwości (kanałów)

Popularna metoda: skala mel (ang. mel-scale) - bazuje na doświadczalnym związku między częstotliwością czystego tonu harmonicznego i częstotliwością postrzeganą przez człowieka.

Jednostka częstotliwości postrzeganej: mel (Moore, 1989).

Zależność między mel i Hz:

Filtry są równomiernie rozłożone w częstotliwościowej skali mel.

0x08 graphic
W kanałach filtry mają trójkątne charakterystyki amplitudowe

Przykład

Bank 20 filtrów

każdy o szerokości pasma 300 mel

przesuniętych względem siebie o 150 mel.

Zastosowanie banku filtrów polega na wyznaczeniu:

Można zastąpić widmo amplitudowe widmem mocy.

Sumy ważone to parametry banku filtrów.

Najczęściej liczba kanałów z przedziału [12, 20].

Parametry banku filtrów są wysoce skorelowane:

konieczność stosowania pełnej macierzy kowariancji

Transformacja cepstralna parametrów banku filtrów

Współczynniki cepstralne w skali mel

(ang. Mel-Frequency Cepstral Coefficients, MFCC)

Dyskretne przekształcenie kosinusowe logarytmów parametrów banku filtrów:

Zaleta współczynników MFCC:

uniezależnienie sygnału mowy od wpływu kanału transmisji.

Wydzielanie segmentu za pomocą ramki

Przekształcenie Fouriera do sekwencji ramek:

krótkookresowe przekształceni Fouriera

(ang. Short-Time Fourier Transform, STFT)

Ramka - jeden okres sygnału okresowego

Zastosowanie ramki (okna prostokątnego) - nieciągłości przetwarzanego sygnału - fałszywe wysokie częstotliwości w widmie.

Wygładzenie nieciągłości i usunięcie z widma fałszywych prążków - okna zwężające (tłumiące skrajne próbki).

Okno Hamminga:

Wygładzanie to straty w rozdzielczości widma - kolejny argument za nakładaniem ramek.

Energia sygnału

Dla sekwencji próbek sygnału mowy

przed wykonaniem na próbkach jakiejkolwiek operacji

Sygnał mowy podczas emisji przez usta jest tłumiony około 6 dB na oktawę.

Stosuje się dla wysokich częstotliwości kompensację przez zastosowanie preemfazy pierwszego rzędu:

- współczynnik preemfazy

(najczęściej z zakresu 0,95 do 1,0).

Dynamika sygnałów

Założenie: statystyczna niezależność kolejnych wektorów obserwacji

W rzeczywistości: każda ramka sygnału mowy jest zależna od poprzedniej

Rozszerzenie wektora obserwacji - różnice parametrów statycznych

W szczególności są to współczynniki regresji I i II rzędu.

- współczynnik regresji pierwszego rzędu w
-tym momencie czasu,

do
- współczynniki statyczne,

- długość okna regresji.

Ta sama formuła zastosowana w stosunku do współczynników regresji pierwszego rzędu wyznacza wartości współczynników regresji drugiego rzędu.

Dla niektórych zastosowań:

Współczynniki regresji pierwszego i drugiego rzędu są wyznaczane dla wszystkich parametrów statycznych łącznie z energią (czasem nawet znajomość wartości energii jest mniej przydatna niż jej regresja pierwszego i drugiego rzędu).