Temat 2: Reprezentacja czasowa i częstotliwościowa
Reprezentacja fizyczna sygnału mowy
Fala podłużna
Moc dźwięku wyraża się w skali logarytmicznej
gdzie:
- moc dźwięku wyrażona w
,
- moc najsłabszego dźwięku
słyszalnego przez ucho ludzkie.
Normalna rozmowa -60dB,
szept - 46 dB; krzyk - 86 dB; 140dB - ból
Ucho ludzkie: od ok. 20 Hz do ok. 20 kHz
najbardziej wrażliwe: z zakresu 1 - 4 kHz.
Charakterystyka ucha - logarytmiczna w dziedzinie częstotliwości
taka sama ilość informacji przenoszona jest w oktawach:
50 - 100 Hz i 10 - 20 kHz
Człowiek słyszy dźwięki z zakresu 10 oktaw.
Naturalnie brzmiąca mowa wymaga pasma ok. 3.2 kHz
Zakres częstotliwości jest zredukowany do 16% (3.2 z 20 kHz)
sygnał wciąż zawiera 80% informacji dźwięku oryginalnego (8 z 10 oktaw).
Reprezentacja sygnału mowy w dziedzinie czasu
Sygnał analogowy
Sygnał cyfrowy: konwersja A/C (ang. A/D)
Dwie operacje konwersji A/D:
Próbkowanie
Kwantyzacja
Próbkowanie
Oznaczenia:
- częstotliwość próbkowania
- okres próbkowania
- częstotliwość najwyższej składowej widma sygnału
Zasada próbkowania:
dowolny sygnał analogowy jest dokładnie określony przez równoodległe próbki dostarczane z częstotliwością
.
Dla częstotliwości mniejszych (ang. andersampling) - aliasing
Składowe dla
są obserwowane jako składowe dla
.
Fałszywa składowa jest dodawana do rzeczywistej składowej
Przykład
Załóżmy
6 kHz
Sygnał zawiera składową o częstotliwości 4 kHz
Składowa o częstotliwości 4 kHz dodana zostanie do wartości składowej 2 kHz
Przetwornik A/D należy poprzedzić dolnoprzepustowym filtrem, wtedy w sygnale nie będzie składowych o
Znacząca część energii:
dla sygnałów dźwięcznych: do 4 kHz
dla sygnałów szumowych i plozyjnych: do 8-10 kHz
mowa wysokiej jakości:
kHz
dźwięk, który może usłyszeć człowiek:
kHz i 16 bitów
Wymaga to przesyłania 44.1 kHz *16 b = 706 kb/s
w magnetofonach cyfrowych (DAT): 48 kHz
dla mowy telefonicznej (300Hz - 3000Hz)
kHz;
przyjmuje się 8 kHz
Kwantyzacja
Stosunek sygnał - zakłócenie (ang. signal to noise ratio, SNR)
Definicja:
Najczęściej: kwantyzacja równomierna
b - liczba bitów reprezentacji próbki
wtedy SNR(w dB)=6b -7,2
czyli wzrost o 1 bit reprezentacji powoduje wzrost SNR o 6 dB
Skutki dla mowy:
Nie ma sensu aby SNR dla błędów kwantowania był większy niż SNR dla zakłóceń tła:
dla mowy telefonicznej: 36 dB, czyli 7 bitów (stosuje się 8 bitów)
dla mowy wysokiej jakości: 60-65 dB - 11 lub 12 bitów
wzmocnienie sygnału przed kwantyzacją - aby wykorzystać cały zakres amplitudy zapewniany przez b bitów
W systemach wyłącznie głosowych:
redukuje się również dokładność segmentowania z 16 do 12 bitów na próbkę
8 bitów na próbkę: krok kwantyzacji nie jest równy - companding
Techniki akwizycji sygnału analogowego w postaci cyfrowej:
kodowanie PCM, DPCM, ADPCM,
kwantyzacja logarytmiczna,
kodowanie LPC (usunięcie redundancji,
standardy LPC10 i CELP, prędkość 2-6 kbitów/s),
kompresja sygnału.
Microsoft - pliki z danymi dźwiękowymi - standard RIFF - Resource Interchange File Format - zwykle rozszerzenie .wav.
Multimedia
odtwarzacze: Windows Media Player, Sound Player
Popularne formaty dźwiękowe: .wav, .mid, .mp3, .asf, .wma, .ra.
Reprezentacja sygnału mowy
Charakterystyki mowy - proces wytwarzania i percepcji mowy
Wytwarzanie mowy: model żródło-filtr.
Źródło (sygnał wymuszenia):
pseudookresowy ciąg impulsów dla głosek dźwięcznych
samogłosek, spółgłosek płynnych, spółgłosek nosowych, głoski
niesylabicznej j, głoski drżącej r;
szum biały dla bezdźwięcznych głosek trących, zwartych i zwarto-trących;
suma powyższych wymuszeń dla dźwięcznych głosek trących, zwartych, zwarto-trących.
Filtr (trakt głosowy) - filtr o skończonej odpowiedzi impulsowej
Sygnał mowy: splot wymuszenia i odpowiedzi impulsowej filtru.
Proces percepcji: nieliniowy (logarytmiczny) analizator widma mowy
Założenie podstawowe:
sygnał mowy quasi-stacjonarny w krótkim (ok. 10 ms) okresie czasu
Najczęściej wykorzystywana charakterystyka:
widmo częstotliwościowe - charakterystyka amplitudowa - FFT dla segmentu (ramki) sygnału mowy.
Niewystarczająca rozdzielczość częstotliwościowa widma
(proporcjonalna do liczby próbek w segmencie)
dla typowych częstotliwości próbkowania (8 - 16 kHz)
10 ms segmentu sygnału
Rozsądna rozdzielczość:
sygnał o długości 25 - 30 ms (czyli ok. 250 próbek)
Można pogodzić powyższe sprzeczne wymagania:
analiza sygnału wydzielonego przez nakładające się ramki.
Sygnał mowy - sekwencja ramek - z ramki pojedyncza obserwacja
Obserwacja - wektor - współrzędne to współczynniki:
przekształcenia Fouriera FFT,
liniowego kodowania predykcyjnego LPC,
cepstralne w częstotliwościowej skali mel MFCC (ang. Mel Frequency Cepstral Coefficients).
Predykcja liniowa
Założenie:
-ta próbka sygnału może być prognozowana za pomocą liniowej kombinacji
poprzednich próbek:
.
Jest to równoważne założeniu, że trakt głosowy modelowany jest za pomocą filtru rekursywnego o transmitancji:
gdzie
jest liczbą biegunów transmitancji oraz
.
Dobór współczynników filtru
:
Minimalizują błąd średniokwadratowy predykcji filtru dla analizowanej ramki.
Agorytm Levinsona-Durbina (matlab)
Metoda autokorelacyjna (biuletyn nr 12)
Cepstrum predykcji liniowej
Transformata Fouriera logarytmu widma tego sygnału
Współczynniki cepstrum:
. (4.9)
Liczby współczynników cepstrum i filtru mogą być różne
Zaleta współczynników cepstrum: mała korelacja wzajemna.
W modelach HMM: macierz kowariancji w postaci diagonalnej.
Bank filtrów
Ucho ludzkie - nieliniowa analiza widma sygnału mowy.
Zastosowanie nieliniowego przetwarzania częstotliwości zwiększa skuteczność systemów rozpoznawania mowy.
Alternatywa predykcji liniowej - analiza nieliniowa - prosta do wykonania w dziedzinie częstotliwości.
Bank filtrów - bazuje na przekształceniu FFT - bank filtrów liniowych w dziedzinie częstotliwości, o liczbie kanałów równej liczbie próbek analizowanego sygnału.
Idea: prążki widma FFT łączy się w mniejszą liczbę przedziałów częstotliwości (kanałów)
Popularna metoda: skala mel (ang. mel-scale) - bazuje na doświadczalnym związku między częstotliwością czystego tonu harmonicznego i częstotliwością postrzeganą przez człowieka.
Jednostka częstotliwości postrzeganej: mel (Moore, 1989).
Zależność między mel i Hz:
Filtry są równomiernie rozłożone w częstotliwościowej skali mel.
W kanałach filtry mają trójkątne charakterystyki amplitudowe
Przykład
Bank 20 filtrów
każdy o szerokości pasma 300 mel
przesuniętych względem siebie o 150 mel.
Zastosowanie banku filtrów polega na wyznaczeniu:
widma amplitudowego za pomocą FFT,
oddzielnie dla każdego kanału w banku: sumy współczynników widma amplitudowego ważonych odpowiadającym im wartościami charakterystyk amplitudowych filtru trójkątnego.
Można zastąpić widmo amplitudowe widmem mocy.
Sumy ważone to parametry banku filtrów.
Najczęściej liczba kanałów z przedziału [12, 20].
Parametry banku filtrów są wysoce skorelowane:
konieczność stosowania pełnej macierzy kowariancji
Transformacja cepstralna parametrów banku filtrów
Współczynniki cepstralne w skali mel
(ang. Mel-Frequency Cepstral Coefficients, MFCC)
Dyskretne przekształcenie kosinusowe logarytmów parametrów banku filtrów:
dla
- logarytmy parametrów banku filtrów,
- liczba kanałów (filtrów) w banku filtrów,
- liczba wymaganych współczynników cepstrum.
Zaleta współczynników MFCC:
uniezależnienie sygnału mowy od wpływu kanału transmisji.
Wydzielanie segmentu za pomocą ramki
Przekształcenie Fouriera do sekwencji ramek:
krótkookresowe przekształceni Fouriera
(ang. Short-Time Fourier Transform, STFT)
Ramka - jeden okres sygnału okresowego
Zastosowanie ramki (okna prostokątnego) - nieciągłości przetwarzanego sygnału - fałszywe wysokie częstotliwości w widmie.
Wygładzenie nieciągłości i usunięcie z widma fałszywych prążków - okna zwężające (tłumiące skrajne próbki).
Okno Hamminga:
dla
.
Wygładzanie to straty w rozdzielczości widma - kolejny argument za nakładaniem ramek.
Energia sygnału
Dla sekwencji próbek sygnału mowy
.
przed wykonaniem na próbkach jakiejkolwiek operacji
Sygnał mowy podczas emisji przez usta jest tłumiony około 6 dB na oktawę.
Stosuje się dla wysokich częstotliwości kompensację przez zastosowanie preemfazy pierwszego rzędu:
,
- współczynnik preemfazy
(najczęściej z zakresu 0,95 do 1,0).
Dynamika sygnałów
Założenie: statystyczna niezależność kolejnych wektorów obserwacji
W rzeczywistości: każda ramka sygnału mowy jest zależna od poprzedniej
Rozszerzenie wektora obserwacji - różnice parametrów statycznych
W szczególności są to współczynniki regresji I i II rzędu.
- współczynnik regresji pierwszego rzędu w
-tym momencie czasu,
do
- współczynniki statyczne,
- długość okna regresji.
Ta sama formuła zastosowana w stosunku do współczynników regresji pierwszego rzędu wyznacza wartości współczynników regresji drugiego rzędu.
Dla niektórych zastosowań:
Współczynniki regresji pierwszego i drugiego rzędu są wyznaczane dla wszystkich parametrów statycznych łącznie z energią (czasem nawet znajomość wartości energii jest mniej przydatna niż jej regresja pierwszego i drugiego rzędu).
8
2
3
5
3
6
7
8
10