561


Temat 2: Reprezentacja czasowa i częstotliwościowa

Reprezentacja fizyczna sygnału mowy

Fala podłużna

Moc dźwięku wyraża się w skali logarytmicznej

0x01 graphic

gdzie: 0x01 graphic
- moc dźwięku wyrażona w 0x01 graphic
,

0x01 graphic
- moc najsłabszego dźwięku

słyszalnego przez ucho ludzkie.

Normalna rozmowa -60dB,

szept - 46 dB; krzyk - 86 dB; 140dB - ból

Ucho ludzkie: od ok. 20 Hz do ok. 20 kHz

najbardziej wrażliwe: z zakresu 1 - 4 kHz.

Charakterystyka ucha - logarytmiczna w dziedzinie częstotliwości

taka sama ilość informacji przenoszona jest w oktawach:

50 - 100 Hz i 10 - 20 kHz

Człowiek słyszy dźwięki z zakresu 10 oktaw.

Naturalnie brzmiąca mowa wymaga pasma ok. 3.2 kHz

Zakres częstotliwości jest zredukowany do 16% (3.2 z 20 kHz)

sygnał wciąż zawiera 80% informacji dźwięku oryginalnego (8 z 10 oktaw).

Reprezentacja sygnału mowy w dziedzinie czasu

Sygnał analogowy

Sygnał cyfrowy: konwersja A/C (ang. A/D)

Dwie operacje konwersji A/D:

Próbkowanie

Oznaczenia: 0x01 graphic
- częstotliwość próbkowania

0x01 graphic
- okres próbkowania 0x01 graphic

0x01 graphic
- częstotliwość najwyższej składowej widma sygnału

Zasada próbkowania:

dowolny sygnał analogowy jest dokładnie określony przez równoodległe próbki dostarczane z częstotliwością 0x01 graphic
.

Dla częstotliwości mniejszych (ang. andersampling) - aliasing

Składowe dla 0x01 graphic
są obserwowane jako składowe dla 0x01 graphic
.

Fałszywa składowa jest dodawana do rzeczywistej składowej

Przykład

Załóżmy 0x01 graphic
6 kHz

Sygnał zawiera składową o częstotliwości 4 kHz

Składowa o częstotliwości 4 kHz dodana zostanie do wartości składowej 2 kHz

Przetwornik A/D należy poprzedzić dolnoprzepustowym filtrem, wtedy w sygnale nie będzie składowych o 0x01 graphic

Znacząca część energii:

mowa wysokiej jakości: 0x01 graphic
kHz

dźwięk, który może usłyszeć człowiek: 0x01 graphic
kHz i 16 bitów

Wymaga to przesyłania 44.1 kHz *16 b = 706 kb/s

w magnetofonach cyfrowych (DAT): 48 kHz

dla mowy telefonicznej (300Hz - 3000Hz) 0x01 graphic
kHz;

przyjmuje się 8 kHz

Kwantyzacja

Stosunek sygnał - zakłócenie (ang. signal to noise ratio, SNR)

Definicja: 0x01 graphic

Najczęściej: kwantyzacja równomierna

b - liczba bitów reprezentacji próbki

wtedy SNR(w dB)=6b -7,2

czyli wzrost o 1 bit reprezentacji powoduje wzrost SNR o 6 dB

Skutki dla mowy:

Nie ma sensu aby SNR dla błędów kwantowania był większy niż SNR dla zakłóceń tła:

wzmocnienie sygnału przed kwantyzacją - aby wykorzystać cały zakres amplitudy zapewniany przez b bitów

W systemach wyłącznie głosowych:

Techniki akwizycji sygnału analogowego w postaci cyfrowej:

standardy LPC10 i CELP, prędkość 2-6 kbitów/s),

Microsoft - pliki z danymi dźwiękowymi - standard RIFF - Resource Interchange File Format - zwykle rozszerzenie .wav.

Multimedia

odtwarzacze: Windows Media Player, Sound Player

Popularne formaty dźwiękowe: .wav, .mid, .mp3, .asf, .wma, .ra.


Reprezentacja sygnału mowy

Charakterystyki mowy - proces wytwarzania i percepcji mowy

Wytwarzanie mowy: model żródło-filtr.

Źródło (sygnał wymuszenia):

samogłosek, spółgłosek płynnych, spółgłosek nosowych, głoski

niesylabicznej j, głoski drżącej r;

Filtr (trakt głosowy) - filtr o skończonej odpowiedzi impulsowej

Sygnał mowy: splot wymuszenia i odpowiedzi impulsowej filtru.

Proces percepcji: nieliniowy (logarytmiczny) analizator widma mowy

Założenie podstawowe:

sygnał mowy quasi-stacjonarny w krótkim (ok. 10 ms) okresie czasu

Najczęściej wykorzystywana charakterystyka:

widmo częstotliwościowe - charakterystyka amplitudowa - FFT dla segmentu (ramki) sygnału mowy.


Niewystarczająca rozdzielczość częstotliwościowa widma

(proporcjonalna do liczby próbek w segmencie)

Rozsądna rozdzielczość:

sygnał o długości 25 - 30 ms (czyli ok. 250 próbek)

Można pogodzić powyższe sprzeczne wymagania:

analiza sygnału wydzielonego przez nakładające się ramki.

Sygnał mowy - sekwencja ramek - z ramki pojedyncza obserwacja

Obserwacja - wektor - współrzędne to współczynniki:


Predykcja liniowa

Założenie: 0x01 graphic
-ta próbka sygnału może być prognozowana za pomocą liniowej kombinacji 0x01 graphic
poprzednich próbek:

0x01 graphic
.

Jest to równoważne założeniu, że trakt głosowy modelowany jest za pomocą filtru rekursywnego o transmitancji:

0x01 graphic

gdzie 0x01 graphic
jest liczbą biegunów transmitancji oraz 0x01 graphic
.

Dobór współczynników filtru 0x01 graphic
:

Minimalizują błąd średniokwadratowy predykcji filtru dla analizowanej ramki.

Agorytm Levinsona-Durbina (matlab)

Metoda autokorelacyjna (biuletyn nr 12)


Cepstrum predykcji liniowej

Transformata Fouriera logarytmu widma tego sygnału

Współczynniki cepstrum:

0x01 graphic
. (4.9)

Liczby współczynników cepstrum i filtru mogą być różne

Zaleta współczynników cepstrum: mała korelacja wzajemna.

W modelach HMM: macierz kowariancji w postaci diagonalnej.

Bank filtrów

Ucho ludzkie - nieliniowa analiza widma sygnału mowy.

Zastosowanie nieliniowego przetwarzania częstotliwości zwiększa skuteczność systemów rozpoznawania mowy.

Alternatywa predykcji liniowej - analiza nieliniowa - prosta do wykonania w dziedzinie częstotliwości.

Bank filtrów - bazuje na przekształceniu FFT - bank filtrów liniowych w dziedzinie częstotliwości, o liczbie kanałów równej liczbie próbek analizowanego sygnału.

Idea: prążki widma FFT łączy się w mniejszą liczbę przedziałów częstotliwości (kanałów)

Popularna metoda: skala mel (ang. mel-scale) - bazuje na doświadczalnym związku między częstotliwością czystego tonu harmonicznego i częstotliwością postrzeganą przez człowieka.

Jednostka częstotliwości postrzeganej: mel (Moore, 1989).

Zależność między mel i Hz:

0x01 graphic

0x08 graphic
0x01 graphic


Filtry są równomiernie rozłożone w częstotliwościowej skali mel.

0x08 graphic
W kanałach filtry mają trójkątne charakterystyki amplitudowe

Przykład

Bank 20 filtrów

każdy o szerokości pasma 300 mel

przesuniętych względem siebie o 150 mel.

Zastosowanie banku filtrów polega na wyznaczeniu:

Można zastąpić widmo amplitudowe widmem mocy.

Sumy ważone to parametry banku filtrów.

Najczęściej liczba kanałów z przedziału [12, 20].

Parametry banku filtrów są wysoce skorelowane:

konieczność stosowania pełnej macierzy kowariancji

Transformacja cepstralna parametrów banku filtrów

Współczynniki cepstralne w skali mel

(ang. Mel-Frequency Cepstral Coefficients, MFCC)

Dyskretne przekształcenie kosinusowe logarytmów parametrów banku filtrów:

0x01 graphic
dla 0x01 graphic

Zaleta współczynników MFCC:

uniezależnienie sygnału mowy od wpływu kanału transmisji.


Wydzielanie segmentu za pomocą ramki

Przekształcenie Fouriera do sekwencji ramek:

krótkookresowe przekształceni Fouriera

(ang. Short-Time Fourier Transform, STFT)

Ramka - jeden okres sygnału okresowego

Zastosowanie ramki (okna prostokątnego) - nieciągłości przetwarzanego sygnału - fałszywe wysokie częstotliwości w widmie.

Wygładzenie nieciągłości i usunięcie z widma fałszywych prążków - okna zwężające (tłumiące skrajne próbki).

Okno Hamminga:

0x01 graphic
dla 0x01 graphic
.

Wygładzanie to straty w rozdzielczości widma - kolejny argument za nakładaniem ramek.


Energia sygnału

Dla sekwencji próbek sygnału mowy 0x01 graphic

0x01 graphic
.

przed wykonaniem na próbkach jakiejkolwiek operacji

Sygnał mowy podczas emisji przez usta jest tłumiony około 6 dB na oktawę.

Stosuje się dla wysokich częstotliwości kompensację przez zastosowanie preemfazy pierwszego rzędu:

0x01 graphic
,

0x01 graphic
- współczynnik preemfazy

(najczęściej z zakresu 0,95 do 1,0).

Dynamika sygnałów

Założenie: statystyczna niezależność kolejnych wektorów obserwacji

W rzeczywistości: każda ramka sygnału mowy jest zależna od poprzedniej

Rozszerzenie wektora obserwacji - różnice parametrów statycznych


W szczególności są to współczynniki regresji I i II rzędu.

0x01 graphic

0x01 graphic
- współczynnik regresji pierwszego rzędu w 0x01 graphic
-tym momencie czasu,

0x01 graphic
do 0x01 graphic
- współczynniki statyczne,

0x01 graphic
- długość okna regresji.

Ta sama formuła zastosowana w stosunku do współczynników regresji pierwszego rzędu wyznacza wartości współczynników regresji drugiego rzędu.

Dla niektórych zastosowań:

0x01 graphic

Współczynniki regresji pierwszego i drugiego rzędu są wyznaczane dla wszystkich parametrów statycznych łącznie z energią (czasem nawet znajomość wartości energii jest mniej przydatna niż jej regresja pierwszego i drugiego rzędu).

8

2

3

5

3

6

7

8

10

0x01 graphic

0x01 graphic



Wyszukiwarka

Podobne podstrony:
Porownanie 3820 a 561
561
Rozporzadzenie 561 2006 czas pracy kierowcy
560 561
561
561
561
561
561
Diora MDS 561
561
561, Transport drogowy
561
561
Porownanie 3820 a 561
Wytyczne do 561 Trybunału Sprawiedliwości
Wytyczne ETS art 12 r 561
560 561

więcej podobnych podstron