Instytut Telekomunikacji
Wydział Elektroniki i Technik Informacyjnych
Politechnika Warszawska
Podstawy Transmisji Cyfrowej
Podstawy Transmisji Cyfrowej
Podstawy Transmisji Cyfrowej
Podstawy Transmisji Cyfrowej
Kodowanie zródeł sygnały audio
Kodowanie zródeł sygnały audio
dr inż. Artur Janicki
email: A.Janicki@tele.pw.edu.pl
pok. 414
Zakład Systemów Teletransmisyjnych
Instytut Telekomunikacji
Wydział Elektroniki i Technik Informacyjnych PW
Agenda
Agenda
Sygnał mowy informacje ogólne, jak powstaje mowa
Analiza sygnału mowy w dziedzinie czasu i częstotliwości
Model psychoakustyczny
Cyfryzacja sygnału audio próbkowanie i kwantyzacja
Techniki kompresji predykcja
Kodowanie mowy i audio przykłady
Badanie jakości sygnału mowy
Przykłady przetwarzania sygnału mowy:
" synteza mowy,
" rozpoznawanie mowy i mówcy.
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Wyjaśnienie pojęć
Wyjaśnienie pojęć
Audio łac. słyszę
Sygnały audio w szczególności:
" sygnał mowy
" sygnały muzyczne
yródło część systemu telekomunikacyjnego, generująca
wiadomości
Kodowanie przyporządkowanie wiadomościom słów
kodowych do celów transmisji
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Sygnał mowy informacje ogólne
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Aparat artykulacyjny człowieka
Aparat artykulacyjny człowieka
1. Jama nosowa
2. Podniebienie twarde
3. Dziąsła
4. Podniebienie miękkie
5. Przednia część języka
6. Środkowa część języka
7. Języczek
8. Tylna część języka
9. Jama gardłowa
10. Nagłośnia
11. Fałszywe więzadła głosowe
12. Więzadła głosowe
13. Krtań
14. Przełyk
15. Tchawica
16. Zęby
[S. Lemmetty, HUT]
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Przydatne pojęcia&
Przydatne pojęcia&
Fonem - najmniejsza jednostka systemu dzwiękowego
danego języka, pozwalająca różnicować znaczenie
wyrazów:
(p) of pić vs. (b) of bić
Alofon jeden z fonetycznych wariantów fonemu,
zależny od jego otoczenia:
(t) w: top, stop, trzy, kot, metal, bity
Difon para fonemów
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Phonetic alphabet (IPA)
Phonetic alphabet (IPA)
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Alfabet IPA cd.
Alfabet IPA cd.
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
System fonetyczny języka polskiego
System fonetyczny języka polskiego
Samogłoski: a e i ł u Ą
Spółgłoski:
" wybuchowe: p b t d c Ô k g
" trÄ…ce: f v s z ß &! Ç Ä˜% x h
" zwarto-trÄ…ce: tís díz tíß dí&! tíÇ díĘ%
" nosowe: m nµ Ü
" boczne: l (")
" aproksymanty: j w
" drżące: r
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Dodatkowe informacje&
Dodatkowe informacje&
Jęz. polski: 38 fonemów
Jęz. angielski: 42 fonemy
Najwięcej fonemów: jęz. gruziński: 75
Najmniej fonemów: jęz. hawajski: 15
Najtrudniejszy fonem do wymówienia: Y [r: ]
Najszybciej wymowy uczÄ… siÄ™ dzieci&
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Analiza sygnału mowy
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Analiza postaci czasowej
Analiza postaci czasowej
Sygnał quasi-stacjonarny
Fragmenty dzwięczne i bezdzwięczne
Czasy trwania poszczególnych segmentów
Analiza liczby przejść przez zero (zero crossing ratio, ZCR)
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Transformata Fouriera
Transformata Fouriera
Transformata Fouriera
+"
G ( f ) = F [ g (t)] G ( f ) = g (t)e- j 2Ä„ft dt
+"
- "
Odwrotna transformata Fouriera
+"
j 2Ä„ft
-1
g (t) = F [G ( f )] g(t) =
+"G( f )e df
-"
Czemu jÄ… wykorzystujemy?
" Å‚atwa interpretacja fizyczna
" ułatwia obliczenia
" dla sygnałów okresowych można użyć T zamiast "
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Analiza widmowa
Analiza widmowa
Transformata Fouriera
Widmo amplitudowe segmentów dzwięcznych i bezdzwięcznych
Częstotliwość podstawowa = ton krtaniowy = F0
Częstotliwości formantowe
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Analiza F0
Analiza F0
= częstotliwość podstawowa, ton ktaniowy
Cecha indywidualna, nośnik intonacji, emocji, znaczenia
Typowe zakresy:
" mężczyzni: 60 200 Hz (tenorzy do 480 Hz)
" kobiety: 150 350 Hz (sopranistki do 960 Hz)
" dzieci: 300 Hz 500 Hz
Pomiar: analiza korelacji wzajemnej, cepstrum, pomiar laryngograficzny
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Inne parametry
Inne parametry
-1
Ć
Cepstrum
X (T ) = F [ln G( f )]
Mel cepstrum
+ parametry delta, delta delta
Współczynniki liniowej predykcji - LPC (Linear
Prediction Coefficients)
LAR Log Area Ratio
Momenty widmowe
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Parametry prozodyczne
Parametry prozodyczne
Czasy trwania fonemów
Pitch (~F0)
Akcentowanie
Tembr
Rytm
Energia
Pauzy
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Jak słyszymy?
Model psychoakustyczny
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Model psychoakustyczny
Model psychoakustyczny
Próg słyszalności
" Najlepiej słyszymy w zakresie 2-4 kHz
Maskowanie częstotliwościowe
[Yao Wang]
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Maskowanie częstotliwościowe - przykład
Maskowanie częstotliwościowe - przykład
Sygnał Sygnał + szum Szum
(SNR = 24 dB)
[Dr. T. Collins]
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Maskowanie czasowe
Maskowanie czasowe
[Yao Wang]
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Cyfryzacja sygnału audio
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Sygnał analogowy vs. sygnał cyfrowy
Sygnał analogowy vs. sygnał cyfrowy
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Cyfryzacja - interpolacja
Cyfryzacja - interpolacja
Cyfryzacja zamiana sygnału analogowego na cyfrowy
digital
analogue
próbkowanie kwantyzacja
FDP
x(t) x(n)
fsamp
& i z powrotem na analogowy - interpolacja
digital
D/A FDP
x(n) x^(t)
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Próbkowanie
Próbkowanie
dyskretyzacja sygnału w dziedzinie czasu
Twierdzenie Nyquista
fsamp = 2B
Typowe wartości fsamp
" 8 kHz telefonia
" 16 kHz, 22,050 kHz WAV
" 44,1 kHz, 48 kHz jakość CD
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Kwantyzacja
Kwantyzacja
Dyskretyzacja sygnału w dziedzinie wartości
Mapowanie zbioru R na skończony podzbiór R
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Kwantyzacja skalarna
Kwantyzacja skalarna
yk yk+1 xk+2 yk+2 yk+3
xk-1 yk-1 xk
xk+1 xk+3 xk+4
komórka kwantyzacji
poziomy decyzji wartości reprezentujące
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Kwantyzacja
Kwantyzacja
Charakterystyka kwantyzera; funkcja kwantyzacji
" liniowa, logarytmiczna (A-law, µ-law) i inne
BÅ‚Ä…d kwantyzacji, szum kwantyzacji
Ć
x(t) = x(t) + e(t)
SNRdB E" 6* R[dB]
(dla kwantyzera równomiernego)
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Charakterystyka kwantyzera
Charakterystyka kwantyzera
Ć
x = Q(x)
Kwantyzer równomierny:
z A.M.Kondoz "Digital Speech", Wiley 1994
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Kwantyzacja nierównomierna
Kwantyzacja nierównomierna
z A.M.Kondoz "Digital Speech", Wiley 1994
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Charaktyrystyka kwantyzera logarytmicznego (A-law)
Charaktyrystyka kwantyzera logarytmicznego (A-law)
[Hanzo et al.]
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Kwantyzacja
Kwantyzacja
Kwantyzery adaptacyjne
Inne podejście kwantyzacja wektorowa (VQ)
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Techniki kompresji sygnału audio predykcja.
Kodowanie sygnału mowy i audio.
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Idea predykcji
Idea predykcji
x(n) x^(n)
Q
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Idea predykcji
Idea predykcji
x^(n)
x(n) e(n) e^(n)
Q
- +
xp(n)
xp(n)
Predykcja, kodowanie predykcyjne
Skąd korzyść?
SNR = Gp * SNRq
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Jak przeprowadzać predykcję?
Jak przeprowadzać predykcję?
x^(n)
x(n) e(n) e^(n)
Q
- +
xp(n)
xp(n)
P
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Jak przeprowadzać predykcję?
Jak przeprowadzać predykcję?
x^(n)
x(n) e(n) e^(n)
Q
- +
x^(n)
xp(n)
xp(n)
P
+
P
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Jak przeprowadzać predykcję?
Jak przeprowadzać predykcję?
x^(n)
x(n) e(n) e^(n)
Q
- +
x^(n)
+
xp(n)
P
xp(n)
P
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Projektowanie predyktora
Projektowanie predyktora
xp(n) = x^(n-1)
" DPCM Differential PCM
xp(n) = a1 x^(n-1)
" ADPCM Adaptive Differential PCM G.721
xp(n) = a1 x^(n-1) + a2 x^(n-2)+& + ap x^(n-p)
" liniowa predykcja rzędu p
" LPC Linear Prediction Coding
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
LP Predykcja liniowa
LP Predykcja liniowa
Jak obliczyć współczynniki predykcji?
p
Ć
x(n) = -
"a x(n - k)
k
k =1
Ć
µ (n) = x(n) - x(n)
p
2
E =
"µ (n) = "[x(n) +"a x(n - k)]2
k
n n k =1
"E
k = 1..p, = 0
"ak
n0 + N -Ä -1
R(Ä ) =
aTR = -[R(1) R(2) ... R( p)]
"x(n)x(n + Ä ), Ä = 0..k
n=n0
- algorytm Levinsona-Durbina, algorytm Schura
- interpretacja filtru predykcyjnego
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Predykcja długookresowa (LTP)
Predykcja długookresowa (LTP)
przewidywanie wektora N próbek
~(n.. n + N -1) = g * x(n -Ä .. n + N -1-Ä )
x
przesyłane parametry:
Ä offset
g gain
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Błędy LPC i LTP przy kodowaniu mowy
Błędy LPC i LTP przy kodowaniu mowy
[Hanzo et al.]
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Kodowanie mowy: PCM G.711
Kodowanie mowy: PCM G.711
PCM = Pulse Code Modulation, modulacja kodowo-
impulsowa
każda próbka kwantowana niezależnie
fs = 8 kHz, 8 bitów/próbkę
kwantyzer: A-law lub µ-law
µ
µ
µ
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Kodowanie mowy: koder LP, wokoder
Kodowanie mowy: koder LP, wokoder
model zródło-filtr
przykład kodera 2,4 kb/s:
przykład kodera 1,2 kb/s:
muzyka? niekoniecznie&
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Koder GSM 06.10, LPC-LTP-RPE
Koder GSM 06.10, LPC-LTP-RPE
wejście z 13 próbek (13 x 3 bitów / 5 ms)
konwertera A/D
kodowanie
subsampling
- -
APCM
strumień
cyfrowy
obliczanie energii
LPC LTP
13 kb/s
i parametrów RPE
obliczanie obliczanie
współczynników współczynników
2 parametry RPE (8 bitów / 5 ms)
LPC LPC
2 parametry LTP (9 bitów / 5 ms)
8 współczynników LPC (36 bitów / 20 ms)
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
multiplexing
Koder AMR CELP
Koder AMR CELP
" CELP Code Excited Linear Prediction
" Analiza przez syntezÄ™
" Ważenie percepcyjne
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Inne kodery mowy
Inne kodery mowy
G.723.1
5,6 / 6,3 kb/s, ACELP/MP-MLQ, ramka 30 ms (4 x 60 pr.), opózn. 37,5 ms
LD-CELP
16 kb/s, opóznienie 0,675 ms, 1024 wektorów
Speex
2 44 kb/s, oparty o CELP; VAD, VBR
iLBC - Internet Low Bitrate Codec,
13,33 / 15,2 kbit/s, ramka (20 / 30 ms)
Skype?
iLBC, iSAC?
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Kodowanie sygnału audio MPEG1 Layer 3
Kodowanie sygnału audio MPEG1 Layer 3
80
70
60
5
bits
50 5
5
bits
40 5
bits
4 4 4
bits
4
30 Próg
4
bits bits bits
3
bits słyszenia
2 2
bits
20
bits
Próg
bits bits
maskowania
10
Częstotlowość
[Hz]
0
5000 10000 15000
-10
Średnia liczba bitów na próbkę = 3,92
-20
Stopień kompresji = 16:3,92 = 4,1:1
-30
[Dr. T. Collins]
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Poziom ci
Å›
nienia d
z
wi
Ä™
ku [dB-SPL]
MPEG standard
MPEG standard
CD audio, stereo: 1400 kb/s !!!
MPEG1 oferuje stopień kompresji:
1:4 Layer 1 (odpowiada 384 kb/s dla sygnału stereo)
1:6...1:8 Layer 2 (odpowiada 256..192 kb/s dla sygnału stereo)
1:10...1:12 Layer 3 (odpowiada 128..112 kb/s dla sygnału stereo)
MPEG1 Layer 3 oferuje:
telefoniczna 2.5 kHz mono 8 kb/s 96:1
lepiej niż SV 4.5 kHz mono 16 kb/s 48:1
lepiej niż radio AM 7.5 kHz mono 32 kb/s 24:1
lepiej niż radio FM 11 kHz stereo 56...64 kb/s 26...24:1
prawie-CD 15 kHz stereo 96 kb/s 16:2
CD >15 kHz stereo 112..128kb/s 14..12:1
[Fraunhoffer Inst.]
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Jakość kodeków mowy - podsumowanie
Jakość kodeków mowy - podsumowanie
[Cox et al., + Arisona State Univ.]
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Badanie jakości sygnału audio
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
SNR jako kryterium oceny
SNR jako kryterium oceny
SNR Signal to Noise Ratio, S/N
Czy jest to kryterium miarodajne?
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Metody badania jakości sygnału mowy i audio
Metody badania jakości sygnału mowy i audio
Metody subiektywne
" z wykorzystaniem słuchaczy, np. MOS (Mean Opinion Score), uśredniona opinia
słuchaczy
" Metody konwersacyjne, odsłuchowe, kategoryzacyjne, np.:
- ACR Absolute Category Rating
- DCR Degradation Category Rating
- PC Pair Comparison
" Badanie wyrazistości (zdaniowa, wyrazowa, logatomowa)
Metody obiektywne
" Wyznaczenie odległości pomiędzy wybranymi parametrami sygnału mowy
oryginalnej i przetworzonej
" Zastosowanie modelu psychoakustycznego
" Np. PESQ (mowa), PEAQ (audio), PSQM
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Badanie wyrazistości
Badanie wyrazistości
Wyrazistość logatomowa
" logatomy, np..
szypi, mijka, ben, chryszcze
Wyrazistość wyrazowa
Wyrazistość zdaniowa
" wykorzystuje np.. zdania nieprzewidywalne znaczeniowo
(Semantically Unpredictable Sentences SUS), np.
Umysł grzęznie pod marcowym wiadrem.
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Listy logatomowe
Listy logatomowe
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Metoda obliczeniowa: E-model
Metoda obliczeniowa: E-model
Opracowany przez ETSI
Wyznaczanie parametru R:
R = R0 - Is - Id - Ie + A
R0 stosunek mocy sygnału do mocy szumu
Is zniekształcenia pojawiające się razem z sygnałem, np. szum kwantyzacji
Id - zniekształcenia wynikające z opóznień
Ie zniekształcenia transmisyjne wnoszone np. przez kodery
A składnik korekcyjny, zależny od specyfiki dostępu do łącza
Zależność oceny MOS i wyrazistości od parametru R
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Przykłady przetwarzania
sygnału mowy
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Przetwarzanie sygnału audio - przykłady
Przetwarzanie sygnału audio - przykłady
Synteza mowy
Rozpoznawanie sygnału mowy
Rozpoznawanie mówcy
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Przetwarzanie sygnału audio - przykłady
Przetwarzanie sygnału audio - przykłady
Synteza mowy
Rozpoznawanie sygnału mowy
Rozpoznawanie mówcy
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Synteza mowy
Synteza mowy
Cel: zamiana tekstu pisanego na sygnal mowy, czyli
stworzenie systemu Text-to-Speech (TTS)
Po co? Aby poprawić komunikację
Problemy:
" naturalność mowy syntetycznej
" konieczność uwzględnienia wiedzy nt.
- języka
- dziedziny
Metody:
" synteza artykulacyjna:
- model: zródło + filtr
" synteza konkatenacyjna:
- łączenie elementów akustycznych
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Schemat blokowy systemu TTS
Schemat blokowy systemu TTS
tekst
normalizacja tekstu
transkrypcja fonetyczna POS tagging
podział na frazy
sterowanie iloczasem
akcenty wyrazowe
sterowanie intonacjÄ…
akcenty zdaniowe
sterowanie energiÄ…
synteza akustyczna
mowa
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Przykład historyczny :&
:&
:&
:&
Przykład historyczny :&
:&
:&
:&
Christian Kratzenstein, 1779, St. Petersburg
Wolfgang von Kempelen, 1791, Wiedeń
Charles Wheatstone, 1800
[Flanagan 1972]
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Synteza mowy bardziej współcześnie
Synteza mowy bardziej współcześnie
Model zródło - filtr
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Synteza przez konkatenacjÄ™
Synteza przez konkatenacjÄ™
t
input signal
analysis:
modification:
short-term
analysis
signals
synthesis:
t
synthetic
signal
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
+
+
+
Przykłady TTS język angielski
Przykłady TTS język angielski
AT&T
Lernout & Hauspie
Lucent Technologies
Microsoft SAPI
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Przykłady TTS, cd.
Przykłady TTS, cd.
niemiecki
francuski
hiszpański
włoski
rosyjski
polski (Elan)
polski (ScanSoft)
chiński
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Przetwarzanie sygnału audio - przykłady
Przetwarzanie sygnału audio - przykłady
Synteza mowy
Rozpoznawanie sygnału mowy
Rozpoznawanie mówcy
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Rozpoznawanie sygnału mowy
Rozpoznawanie sygnału mowy
Gdzie używane?
Parametryzacja sygnału mowy
Używane metody:
" DP/DTW dynamiczne programowanie / Dynamic Time Warping
" NN najbliższy sąsiad
" VQ kwantyzacja wektorowa
" ANN sztuczne sieci neuronowe
" HMM ukryte modele Markova
Wpływ szumu otoczenia, wariantowości wymowy itd.
Słowa izolowane / mowa ciągła; zamknięty / otwarty
słownik; jeden / wielu mówców
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Ukryte modele Markova - HMM
Ukryte modele Markova - HMM
Philip Jackson, Univ. of Surrey
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Przykład użycia modeli HMM rozpoznawanie izolowanych słów
Przykład użycia modeli HMM rozpoznawanie izolowanych słów
Philip Jackson,
Univ. of Surrey
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Przetwarzanie sygnału audio - przykłady
Przetwarzanie sygnału audio - przykłady
Synteza mowy
Rozpoznawanie sygnału mowy
Rozpoznawanie mówcy
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Rozpoznawanie mówcy
Rozpoznawanie mówcy
Gdzie używane?
Parametryzacja sygnału mowy
Zależne lub niezależne od tekstu
(Text-dependent / independent)
Identyfikacja vs. weryfikacja mówcy
Używane metody:
" NN najbliższy sąsiad
" VQ kwantyzacja wektorowa
" ANN sztuczne sieci neuronowe
" HMM ukryte modele Markova
" GMM kombinacja liniowa rozkładów normalnych
Wpływ szumu, stanu zdrowia mówcy, starzenia się
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Przetwarzanie sygnału mowy - przykłady
Przetwarzanie sygnału mowy - przykłady
Kodowanie, kompresja mowy
Synteza mowy
Rozpoznawanie sygnału mowy
Rozpoznawanie mówcy
Rozpoznawanie emocji
Ewaluacja jakości głosu
Transformacja głosu
Poprawa jakości sygnału mowy
&
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Podsumowanie
Podsumowanie
Sygnał mowy informacje ogólne, jak powstaje mowa
Analiza sygnału mowy w dziedzinie czasu i częstotliwości
Model psychoakustyczny
Cyfryzacja sygnału audio próbkowanie i kwantyzacja
Techniki kompresji predykcja
Kodowanie mowy i audio przykłady
Badanie jakości sygnału mowy
Przykłady przetwarzania sygnału mowy:
" synteza mowy,
" rozpoznawanie mowy i mówcy.
2006 Instytut Telekomunikacji PW Artur Janicki, ZST IT PW
Wyszukiwarka
Podobne podstrony:
PodstawyProgramowania W02W02 AK1 BiernatAire W02W02 manual ES v 1Instrukcja GECO G 203 P01P S v03 w02 POL469 W02 SKiTI wprowadzenie podstawowe pojeciaTO2 ETK W02 MetodaKlasyczna cz1Instrukcja GECO G 203 P00 S v02 w02 POLw02 2 KlasyfikacjeIMiU W02 Dobór napedu UEMw02inf2 w02w02 PodstPrzy zycieW02 MPiSwięcej podobnych podstron