T1 Rys Wytwarzanie, Wisniewski.Andrzej, Analiza.Obrazow.I.Sygnalow, Materialy


ANALIZA OBRAZÓW CYFROWYCH

I SYGNAŁU MOWY (cz. 2)

TREŚĆ PRZEDMIOTU

Tematyka

wykł.

lab.

Wytwarzanie mowy. Charakterystyka sygnału mowy, reprezentacja czasowa i częstotliwościowa

2

2

Modelowanie sygnału mowy. Ukryte modele Markowa.

2

2

Rozpoznawanie mowy i mówcy

2

2

Synteza mowy

2

2

Temat 1:

Wytwarzanie i percepcja sygnału mowy

Komunikacja pomiędzy człowiekiem operatorem i maszyną upodabnia się - w sensie zakresu, charakteru i tematyki - do komunikacji pomiędzy ludźmi.

Sygnał mowy jest najszybszym i najbardziej naturalnym sposobem porozumiewania się między ludźmi.

Cechy komunikowania się za pomocą sygnału mowy:

Sygnał mowy zwiększa komfort pracy operatora, wpływając na jej jakość.

Rola wejścia głosowego będzie rosła wraz z rozwojem technologii w automatyce i robotyce.

Przy komunikacji w przeciwną stronę (wyjście głosowe) nie jest to tak oczywiste - człowiek dużo efektywniej posługuje się wzrokiem, najszybciej i najwięcej analizuje oczyma.

Synteza mowy znajduje zastosowanie tam, gdzie nie może być wykorzystany wzrok: w komunikacji z ludźmi niewidzącymi lub przy przekazywaniu informacji za pomocą telefonu.


Wytwarzanie mowy

System głosowy człowieka

0x08 graphic


Schemat funkcjonalny systemu głosowego

0x08 graphic


Proces wytwarzania dźwięków mowy:

Dwa zasadnicze składniki wytwarzania mowy:

  1. Pobudzenie - tworzy dźwięk przez wprawienie powietrza w szybki ruch.

  1. Trakt głosowy - kształtuje dźwięk.

Ad 1. Pobudzenie: trzy podstawowe postaci

struny głosowe składają się z wiązadła i mięśni, które nimi sterują; otwór umożliwiający przepływ powietrza przez struny głosowe nazywa się głośnią.

Dwa sposoby działania strun głosowych:

Częstotliwość cyklu zamykania/otwierania strun głosowych jest podstawową częstotliwością wytworzonego dźwięku (wysokość głosu).

Wibracje wytwarzają ton podstawowy (krtaniowy, ang. pitch)

Ton krtaniowy odznacza się bogatym widmem, w którym harmoniczne są tłumione w przybliżeniu o 12 dB na oktawę, ale mimo tego są wyraźnie widoczne nawet harmoniczne o częstotliwości 30-krotnie wyższej od częstotliwości podstawowej, zależnej od okresu drgań strun głosowych.

Ton podstawowy zmienia swoją częstotliwość wpływając na intonację wypowiedzi i melodykę głosu. Zakres tych zmian zależy od płci, wieku i cech osobniczych i jest ograniczony. Częstotliwość podstawowa i jej modulacja są cechami umożliwiającymi identyfikację osoby mówiącej.

Im dłuższe struny głosowe tym niższy głos

Typowe częstotliwości cyklu:

mężczyźni: ok. 125 Hz; kobiety: ok. 250 Hz

Im bardziej napięta struna głosowa tym wyższy głos i tym krótszy okres

Mowa różni się od oddychania tym, że w pewnym punkcie na drodze wprawia się powietrze w szybki ruch lub wibracje.

zamknięcie w pewnym miejscu traktu głosowego a następnie uwolnienie powietrza - \p\: zamknięte wargi

plozja może być połączona z wibracją strun głosowych: dźwięczność i plozja; \b\ - zamknięte wargi i dźwięczność.

Ad 2) Trakt głosowy

Prosty (uproszczony) model: jednorodna rura

Ponieważ kanał głosowy jest rezonatorem akustycznym, można go opisać za pomocą częstotliwości, dla których jego częstotliwościowa charakterystyka amplitudowa posiada maksima zwane formantami.

Te częstotliwości rezonansowe nazywane są częstotliwościami formantowymi.

Można pokazać, że trakt głosowy modelowany jako jednorodna rura może być opisany za pomocą transmitancji posiadającej wyłącznie bieguny.

W terminach teorii sterowania: pobudzenie - wejście 0x01 graphic
,

trakt głosowy - transmitancja 0x01 graphic

sygnał mowy (mowa) - wyjście 0x01 graphic

Kształt widma sygnału określany jest przez charakterystykę częstotliwościową 0x01 graphic
lub 0x01 graphic
.

W modelu uproszczonym głosek dźwięcznych sygnał wejściowy jest sekwencją impulsów o okresie 0x01 graphic
- tzw. ton krtaniowy lub podstawowy. W efekcie w widmie sygnału mowy występują kształtowane przez trakt głosowy (charakterystykę częstotliwościową)

prążki odległe o 0x01 graphic
Hz.


W rzeczywistości system głosowy różni się od rury jednorodnej:

Braki modelu:

0x01 graphic
ma zera - zwykle jedno zero w zakresie 1-2 kHz

Przyjmuje się zazwyczaj, że systemy analizy mowy są filtrami wyłącznie biegunowymi, identycznymi dla wszystkich dźwięków mowy.

Znacząca część energii:

Na rysunku pokazano model artykulacji sygnału mowy.

Podczas artykulacji mowy:

0x01 graphic

W porównaniu z prawie biernym procesem generacji drgań głosowych (tonu krtaniowego), proces formowania dźwięków w trakcie głosowym jest aktywnie sterowany przez mięśnie krtani i kontrolowany przez układ nerwowy. Intonacja i modulacja głosu również umożliwiają identyfikację mówcy.

Wynikowe widmo określonej głoski dźwięcznej powstaje jako nałożenie charakterystyki częstotliwościowej traktu głosowego na widmo tonu krtaniowego. W rezultacie powstaje widmo o kształcie zależnym od konfiguracji narządów mowy w chwili artykulacji danej głoski, odmienne dla każdej głoski i umożliwiające jej identyfikację.

System percepcji mowy

0x08 graphic
Schemat ucha człowieka


Ucho zewnętrzne: zbiera dźwięki

Ucho środkowe: drgania błony bębenkowej są przekształcane na oscylacje cieczy w uchu wewnętrznym

Ucho wewnętrzne:

Punkt największych drgań ślimaka (a właściwie błony podstawnej) zależy od częstotliwości dźwięku

0x08 graphic

Ruchy błony podstawnej powodują zgięcia włosków w ślimaku i wytwarzają impulsy elektryczne w nerwie(3000 włosków w ślimaku, 30 000 włókien nerwowych)

Percepcja dźwięku jest możliwa dzięki następującym jego cechom:

Tembr dźwięku jest zdeterminowany przez kształt fali dźwiękowej. Jednak ze względu na to, że ucho ludzkie jest niewrażliwe na fazę sygnału, taki sam tembr może posiadać wiele różnych fal dźwiękowych.

Przykład

0x01 graphic

0x01 graphic

0x08 graphic

0x08 graphic
0x08 graphic

Charakterystyka ucha -

logarytmiczna w dziedzinie częstotliwości

taka sama ilość informacji przenoszona jest w oktawach:

50 - 100 Hz i 10 - 20 kHz

(oktawa jest zakresem częstotliwości, którego górna granica jest dwukrotnie większa niż dolna).

Człowiek słyszy dźwięki z zakresu 10 oktaw

Naturalnie brzmiąca mowa wymaga pasma ok. 3.2 kHz

Zakres częstotliwości jest zredukowany do 16% (3.2 z 20 kHz) - sygnał wciąż zawiera 80% informacji dźwięku oryginalnego (8 z 10 oktaw)

Ucho jest przyzwyczajone do słuchania częstotliwości podstawowej wzbogaconej harmonicznymi: złożenie dźwięków sinusoidalnych o częstotliwościach 1 i 3 kHz brzmi naturalnie i przyjemnie, a dla częstotliwości 1 i 3.1 kHz brzmi nieprzyjemnie.

W celu realizowania prostszych i tańszych systemów automatycznego rozpoznawania mowy, wydobywa się i opisuje cechy, zakłócenia i deformacje sygnału mowy, których ucho człowieka nie rejestruje i nie analizuje.

W szczególności dotyczy to następujących problemów.

1. Można ograniczyć pasmo sygnału mowy, tzn. wyciąć fragmenty widma poniżej 300 Hz i powyżej 3500 Hz. Nie prowadzi to do zauważalnego obniżenia zrozumiałości sygnału mowy. Wystarczający dla wielu zastosowań poziom zrozumiałości można osiągnąć przy paśmie o szerokości 1000 Hz wokół tzw. środka widma sygnału mowy równego w przybliżeniu 1750 Hz.

2. Rozdzielczość częstotliwościowa słuchu jest ograniczona. Oznacza to maskowanie równocześnie występujących dźwięków o bliskich częstotliwościach. Można traktować ucho jako zestaw filtrów pasmowych o szerokości pasm odpowiadających tzw. pasmom krytycznym. Szerokość tych pasm wzrasta wraz ze wzrostem częstotliwości środkowej filtru. Przyjmuje się zwykle, że w zakresie dolnych częstotliwości do około 800 Hz szerokość wynosi 50 - 100 Hz, a dla częstotliwości wyższych rośnie w przybliżeniu logarytmicznie i osiąga przy f=8000 Hz wartość 500 - 1800 Hz. Powyższe dane dotyczą słyszenia jednousznego, przy słyszeniu dwuusznym pasma krytyczne są węższe i stanowią około 50% podanych wartości.

3. Precyzja w określaniu częstotliwości maksimum widma sygnału zależy od wartości tej częstotliwości. Dla częstotliwości sygnału 700 Hz ucho lokalizuje maksimum z dokładnością 10 Hz, a dla f=2000 Hz - z dokładnością 20 Hz. Formantowa struktura wielu głosek (występowanie jednego lub więcej maksimów w widmie głoski) ma związek z tą własnością.

4. Zmienna jest rozdzielczość amplitudowa słuchu. W pobliżu częstotliwości formantowych dostrzegalne zmiany poziomu głośności wynoszą około 3 dB, a dla słabych dźwięków - 6 dB.

5. Wykrywanie krótkotrwałych zmian poziomu sygnału jest utrudnione. Z powodu dużej stałej czasowej narządu słuchu (20 - 30 ms przy narastaniu i 200 - 250 ms przy opadaniu natężenia sygnału) nie są wykrywane zmiany głośności mniejsze niż 100 dB/s i trwające krócej niż 20 ms.

Reprezentacja sygnału mowy w dziedzinie

czasu i częstotliwości

Fizyka sygnału mowy

Dźwięk to fala podłużna

Pomiarom podlega:

- zmiana ciśnienia dźwięku, czyli amplituda dźwięku

- moc (intensywność) - zmienia się jak kwadrat ciśnienia

Siła dźwięku wyraża się w skali logarytmicznej

0x01 graphic
[dB]

gdzie:

0x01 graphic
- zmiana ciśnienia wywołana przez mierzony dźwięk

0x01 graphic
- najmniejsza zmiana ciśnienia wytwarzająca słyszalny dźwięk (0x01 graphic
)

lub

0x01 graphic
[dB]

gdzie:

0x01 graphic
- moc mierzonego dźwięku

0x01 graphic
- moc najsłabszego dźwięku słyszalnego przez ucho.

Normalna rozmowa -60dB

szept - 46 dB; krzyk - 86 dB; 140dB - ból

Ucho ludzkie: od ok. 20 Hz do ok. 20 kHz

najbardziej wrażliwe: z zakresu 1 - 4 kHz

Tworzenie cyfrowego systemu dźwiękowego wymaga odpowiedzi na dwa pytania: jak dobrze ma brzmieć oraz jaka powinna być prędkość przesyłania danych.

Wyróżnia się trzy kategorie systemów akustycznych:

  1. muzyka o wysokiej wierności - najważniejsza jest jakość dźwięku,

  2. komunikacja telefoniczna - wymaga naturalnie brzmiącej mowy i małej prędkości przesyłania danych,

  3. mowa skompresowana - najważniejsza jest mała prędkość przesyłania danych, pewne pogorszenie jakości dźwięku może być dopuszczalne.

Techniki stosowane w procesie akwizycji sygnału analogowego w postaci cyfrowej:

Microsoft:

ogólna strukturę plików dźwiękowych w środowisku Windows - standard RIFF (Resource Interchange File Format), zwykle z rozszerzeniem .wav.

Multimedia

odtwarzacze: Windows Media Player, Sound Player (odtwarza nie tylko pliki dźwiękowe)

Najbardziej popularne formaty dźwiękowe: .wav, .mid, .mp3, .asf, .wma, .ra.

Sygnał mowy w dziedzinie czasu

Sygnał analogowy:

Sygnał cyfrowy:

Dwie operacje konwersji A/D:

Próbkowanie

Przekształca zmienną niezależną z ciągłej na dyskretną w czasie

Oznaczenia:

0x01 graphic
- częstotliwość próbkowania

0x01 graphic
- okres próbkowania

0x01 graphic

0x01 graphic
- częstotliwość najwyższej składowej widma sygnału

Zasada próbkowania:

dowolny sygnał analogowy jest dokładnie określony przez równoodległe próbki

dostarczane z częstotliwością 0x01 graphic

Twierdzenie Nyquista:

aby nie utracić informacji zawartej w sygnale ciągłym (odtworzyć go z sygnału cyfrowego) należy przebieg próbkować z częstotliwością przynajmniej dwukrotnie większą od częstotliwości najwyższej harmonicznej zawartej w tym sygnale.

Ciąg próbek sygnału nie określa jednoznacznie (bez dodatkowych informacji) ciągłego w czasie sygnału.

0x08 graphic
Przykład

0x01 graphic
0x01 graphic

0x01 graphic

0x08 graphic

ale te same punkty mogą reprezentować inny przebieg

0x01 graphic

0x08 graphic

0x08 graphic
0x01 graphic

Ogólnie:

0x01 graphic
0x01 graphic
- dowolna liczba całkowita

Gdy nie jest spełniony warunek 0x01 graphic
(undersampling)

powstaje zjawisko aliasingu

Składowe dla 0x01 graphic
są obserwowane jako składowe dla

0x01 graphic
.

Fałszywa składowa jest dodawana do prawdziwej składowej

Przykład

Załóżmy 0x01 graphic
6 kHz

Sygnał zawiera składową o częstotliwości 4 kHz

Składowa o częstotliwości 4 kHz dodana zostanie do wartości składowej 2 kHz

antyaliasing:

- zagwarantować, że w sygnale nie ma składowych powyżej zadanej częstotliwości: należy przepuścić sygnał przez filtr dolnoprzepustowy o częstotliwości odcięcia równej tej zadanej,

- zakres słyszalności: 20 - 20.000 Hz: częstotliwość odcięcia filtru antyaliasingowego jest 20 kHz, po filtrze występuje konwerter AD o częstotliwości próbkowania 40 kHz

- dla dźwięków mowy stosuje się filtr antyaliasingowy o częstotliwości odcięcia 4 kHz, po którym występuje konwerter o częstotliwości próbkowania 8 kHz

Przetwornik A/D należy poprzedzić dolnoprzepustowym filtrem, wtedy w sygnale nie będzie składowych o 0x01 graphic

Techniki wieloczęstotliwościowe

sygnał zawiera głos z zakresu (100 Hz - 3 kHz), ale też niepożądane dźwięki z zakresu (3 - 32 kHz)

Wynik jest taki sam jak otrzymany za pomocą złożonego filtru analogowego i próbkowaniu 8 kHz.

mowa wysokiej jakości: 0x01 graphic
20 kHz

zapisanie i odtworzenie dowolnego dźwięku, który może usłyszeć człowiek: 0x01 graphic
44,1 kHz

w magnetofonach cyfrowych (DAT): 0x01 graphic
48 kHz

dla mowy telefonicznej (300Hz - 3200Hz) 0x01 graphic
6,4 kHz;

przyjmuje się 8 kHz

Kwantyzacja

Przekształca zmienną zależną (np. napięcie) z ciągłej na dyskretną

Kwantyzacja dodaje błąd losowy do sygnału:

rozkład równomierny w zakresie [-½ ½]LSB

wartość średnia=0,

odchylenie standardowe=0x01 graphic
LSB (LSB - least significant bit)

Przykład

Kwantyzator dodaje do sygnału zakłócenie losowe o odchyleniu standardowym:

8-bitowy:

0x01 graphic
pełnej skali wartości

12-bitowy:

0x01 graphic
pełnej skali wartości

16-bitowy:

0x01 graphic
pełnej skali wartości

Liczba bitów określa dokładność danych

Ma sens zdanie: zwiększono dokładność pomiarów z 8 do 12 bitów

Decyzja o liczbie bitów dla próbki zależy od:

- wielkości zakłóceń już obecnych w sygnale analogowym

- wielkości zakłóceń dopuszczalnych w sygnale cyfrowym

Stosunek sygnał - zakłócenie

(ang. signal to noise ratio, SNR)

Definicja:

moc sygnału

0x08 graphic
moc błędu kwantyzacji

Najczęściej: kwantyzacja równomierna

n - liczba bitów reprezentacji próbki

wtedy

SNR=6n -7,2 [dB]

czyli

wzrost o 1 bit reprezentacji powoduje wzrost SNR o 6 dB

20 bitów wystarczy, aby pokryć cały zakres słyszalności

120 dB (od progu słyszenia do progu bólu),

gdy ten zakres ma być zapisany na n bitach, wtedy

20 log102n=120,

stąd

n=120/(20 log102) = 20

Skutki dla mowy:

Nie ma sensu, aby SNR dla błędów kwantowania był większy niż SNR dla zakłóceń tła:

n=70/(20 log102) = 11,7

wzmacnia się sygnał przed kwantyzacją - aby wykorzystać cały zakres amplitudy zapewniany przez b bitów

W systemach wyłącznie głosowych:

Dla częstotliwości próbkowania 8 kHz oraz dokładności segmentowania 8 bitów/próbkę, prędkość przesyłania danych jest 64 kbitów/s - mowa wymaga mniej niż 10% danych niezbędnych przy przesyłaniu muzyki hi-fi.


Reprezentacja sygnału mowy w czasie

Charakterystyki mowy - proces wytwarzania i percepcji mowy

Wytwarzanie mowy: model źródło-filtr.

Źródło (sygnał wymuszenia):

Filtr (trakt głosowy) - filtr o skończonej odpowiedzi impulsowej

Sygnał mowy: splot wymuszenia i odpowiedzi impulsowej filtru

Proces percepcji: nieliniowy (logarytmiczny) analizator widma mowy

Założenie podstawowe:

sygnał mowy quasi-stacjonarny w krótkim (ok. 10 ms) okresie czasu

Najczęściej wykorzystywana charakterystyka:

widmo częstotliwościowe - charakterystyka amplitudowa - FFT dla segmentu (ramki) sygnału mowy.

Dla sekwencji próbek sygnału mowy 0x01 graphic

Energia sygnału (krótkookresowa)

0x01 graphic

przed wykonaniem na próbkach jakiejkolwiek operacji

Sygnał mowy podczas emisji przez usta jest tłumiony około 6 dB na oktawę.

Stosuje się dla wysokich częstotliwości kompensację przez zastosowanie preemfazy pierwszego rzędu:

0x01 graphic
,

0x01 graphic
- współczynnik preemfazy

(najczęściej z zakresu 0,95 do 1,0).

Sygnał 0x01 graphic
o zerowej wartości średniej:

0x01 graphic

0x01 graphic
dla 0x01 graphic

Wartość największa M:

0x01 graphic

Liczba przejść przez zero PPZ:

0x01 graphic

gdzie:

0x01 graphic

Wykrywanie sygnału mowy - ciszy np. za pomocą energii i przejść przez zero

Analiza autokorelacyjna (krótkookresowa)

Przebiegi mowy powtarzają się w przybliżeniu (nie dokładnie) w każdym cyklu głośni. Okres powtórzeń, czyli częstotliwość podstawową, można wyznaczyć za pomocą funkcji autokorelacji, która jest iloczynem sygnału i jego opóźnionej wersji:

0x01 graphic

gdzie k jest opóźnieniem

W praktyce, szczególnie ze względu na niestacjonarność sygnałów mowy, należy ograniczyć zakres sumowania do N punktów dla zdigitalizowanych przebiegów sygnałów mowy. Wydzielenie segmentu może być zrealizowane za pomocą okna.

Dla funkcji okresowych w funkcji autokorelacji wystąpi wiele szczytów (lokalnych maksimów) odpowiadających okresowi i jego wielokrotności. Dla sygnału mowy szczyty pojawią się dla częstotliwości pobudzenia i jego kolejnych harmonicznych.

Wobec tego funkcja autokorelacji może być stosowana do estymacji częstotliwości podstawowej przebiegów sygnału mowy oraz do określania jego dźwięczności lub bezdźwięczności (przebieg przypadkowy da płaską funkcję autokorelacji).

Reprezentacja sygnału mowy w dziedzinie częstotliwości

Najważniejszym narzędziem przetwarzania sygnałów cyfrowych jest dyskretne przekształcenie Fouriera (ang. Discrete Fourier Transform, DFT).

Jean Baptiste Joseph Fourier (1768-1830) - Institut de France - protest Joseph Louis Lagrange i zgoda Pierre Simon de Laplace - efekt Gibbsa.

DFT wyznacza rozkład zadanego sygnału na sygnały sinusoidalne, zatem jest procedurą wykorzystywaną do wyznaczenia zawartości harmonicznej (częstotliwościowej) sygnału dyskretnego.

Dla sygnałów dyskretnych jest to rozkład dokładny matematycznie.

Dlaczego stosuje się rozkład na składowe sinusoidalne, a nie na przykład na sygnały prostokątne czy trójkątne?

Ostatecznym celem dekompozycji jest uproszczenie i głębsze zrozumienie działań związanych z przetwarzaniem sygnałów. Składowe sinusoidalne są prostsze niż sygnał oryginalny, ponieważ odpowiedzią układów liniowych na sygnał sinusoidalny jest również sygnał sinusoidalny, który ma tę samą częstotliwość, a różni się tylko amplitudą i fazą. Taką własność mają wyłącznie sygnały sinusoidalne.

W zależności od typu sygnału w czasie (ciągłe czy dyskretne, okresowe czy nieokresowe) wyróżnia się cztery kategorie przekształceń (transformat) Fouriera:

  1. dla sygnałów ciągłych okresowych - szeregi Fouriera (ang. Fourier series);

  2. dla sygnałów ciągłych nieokresowych - przekształcenie Fouriera (ang. Fourier transform);

  3. dla sygnałów dyskretnych okresowych - (dyskretny szereg Fouriera) dyskretne przekształcenie Fouriera (ang. discrete Fourier transform, DFT);

  4. dla sygnałów dyskretnych nieokresowych - przekształcenie Fouriera dla sygnałów o czasie dyskretnym (ang. discrete time Fourier transform, DTFT).

Zakłada się, ze wszystkie sygnały trwają w czasie od 0x01 graphic
do 0x01 graphic
.

Oznacza to, że sygnały o skończonej długości traktuje się jak sygnały nieskończone. Na przykład dla sygnału dyskretnego o długości N próbek przyjmuje się, że:

W cyfrowym przetwarzaniu sygnałów wykorzystywane jest dyskretne przekształcenie Fouriera (DFT), czyli założono, że sygnał analizowany jest dyskretny i okresowy (oczywiście również nieskończony).

Czy to istotne, że sygnał dyskretny zadany N próbkami jest traktowany jako sygnał nieskończony okresowy o okresie N

Czyli, że zamiast:

N-punktowy sygnał jest syntezowany z N-punktowych sinusoid

jest:

nieskończony sygnał okresowy jest syntezowany z nieskończonych sinusoid.

Zwykle nie ma to znaczenia, ale czasami ma (pewne własności DFT są niezrozumiałe, gdy sygnały są widziane jako skończone i stają się jasne, gdy uwzględni się ich okresową naturę).

0x08 graphic

0x08 graphic
Oś odciętych wykresu w dziedzinie częstotliwości może przyjmować jedną z czterech postaci:

  1. oznaczana „m” i indeksowana liczbami całkowitymi z zakresu 0x01 graphic
    (numery składowych sinusoidalnych);

  2. oznaczana „f” i indeksowana liczbami rzeczywistymi z zakresu 0x01 graphic
    (krotność częstotliwości próbkowania sygnału - ponieważ składowymi sinusoidalnymi mogą być wyłącznie sygnały o częstotliwościach między zerem i połową częstotliwości próbkowania, zwanej częstotliwością Nyquista); spełniona jest zależność 0x01 graphic
    ;

  3. oznaczana „0x01 graphic
    ” (pulsacja mierzona w rad/s) i indeksowana liczbami rzeczywistymi z zakresu 0x01 graphic
    ;

  4. oznaczana 0x01 graphic
    i indeksowana wartościami częstotliwości (fizycznych) w analizowanym sygnale (np. gdy analizowany sygnał był próbkowany z częstotliwością 8 kHz, oś odciętych w dziedzinie częstotliwości etykietowana jest liczbami z zakresu 0x01 graphic
     kHz).


Niewystarczająca rozdzielczość częstotliwościowa widma

(proporcjonalna do liczby próbek w segmencie)

Rozsądna rozdzielczość:

sygnał o długości 25 - 30 ms (czyli ok. 250 próbek)

Można pogodzić powyższe sprzeczne wymagania:

analiza sygnału wydzielonego przez nakładające się ramki.

Sygnał mowy - sekwencja ramek - z ramki pojedyncza obserwacja

Analiza częstotliwościowa (analiza Fouriera)

Transformata Fouriera

Synteza

sygnał ciągły w czasie, (zespolony), nieokresowy (impuls)

0x01 graphic

widmo ciągłe, zespolone, nieokresowe

0x01 graphic

Szereg Fouriera

Synteza

sygnał ciągły w czasie, (zespolony), okresowy

(o okresie T)

0x01 graphic

0x01 graphic

Transformata Fouriera sygnału czasu dyskretnego (okres próbkowania 0x01 graphic
)

Synteza

sygnał: dyskretny w czasie, (zespolony), nieokresowy

0x01 graphic

Analiza

widmo: ciągłe, zespolone, okresowe

0x01 graphic

Dyskretny szereg Fouriera

Synteza

sygnał: dyskretny w czasie, (zespolony), okresowy

(N próbek w okresie T),

0x01 graphic

gdzie

0x01 graphic
oraz 0x01 graphic

Analiza

widmo: dyskretne, zespolone, okresowe

0x01 graphic

Dyskretna transformata Fouriera

Synteza

sygnał: dyskretny w czasie, (zespolony), okresowy

0x01 graphic

Analiza

widmo: dyskretne, zespolone, okresowe

0x01 graphic

Praktycznie:

z dyskretnego sygnału pobiera się sekwencję (segment) N próbek - mnożenie przez okno prostokątne - to wprowadza nieciągłości na brzegach okna, które zniekształcają widmo przez dodanie fałszywych składowych o wysokich częstotliwościach.

lepsza technika: mnożenie przez okno wygładzające (trójkątne, gaussowskie, o kształcie kosinusowym, np. Hanninga, Hamminga; wszystkie dają bardzo podobny efekt).

0x01 graphic
[dB],

gdzie a i b są składową rzeczywistą i urojoną widma zespolonego.

13

8

18

3

31

3

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic



Wyszukiwarka