analiza i synteza mowy

background image

Opracował:
Adam
Kupr yjanow

ANALIZA I SYNTEZA

MOWY

background image



Metody detekcji samogłosek



Algor ytmy modyfikacji czasu tr wania sygnału

Plan wykładu

background image



Zastosowania:



Telefonia - kodowanie mowy



Analiza sygnału mowy - segmentacja



Rozpoznawanie samogłosek



Systemy rozpoznawanie mowy



DETEKCJA SAMOGŁOSEK

background image



Metody statystyczne najczęściej progowe:



Analiza energii sygnału + liczby przejść przez zero:



Spectral Peaks Energy



Sectral Band Energy Cumulating (Sbec)



Peak-valley difference (PVD)



Metody inteligentne -> parametr yzacja sygnału + klasyfikator:



SVM



Sztuczne sieci neuronowe

METODY DETEKCJI SAMOGŁOSEK

background image



Samogłoski:



wysoki poziom energii



charakterystyczne piki w widmie



niewielka liczba przejść przez zero



Spółgłoski:



niski poziom energii



płaskie widmo



wysoka liczba przejść przez zero



Prosta progowa analiza nie daje dobr ych rezultatów!

Analiza energii sygnału

background image

Trójkątne Filtry melowe

background image

BANK filtrów Skali melowej

background image

SPECTRAL BAND ENERGY CUMULATING

(SBEC)

i – numer filtru

E

i

(t) – energia sygnału i-tego filtru

E

i

(t) – średnia energia sygnału i-tego filtru

t – numer analizowanej ramki

α

i

współczynnik wagi i-tego filtru

)

(

)

(

)

(

24

1

t

E

t

E

t

SBEC

i

i

i

i

=

=

α

background image



Maksima w przebiegu SBEC(t) wyższe od war tości progu
odpowiadają miejscom występowania głosek dźwięcznych



War tość progu podlega adaptacji



W zwiększenia skuteczności analizowane są tylko fragmenty
tr wające dłużej niż 32 ms



Algor ytm wykazuje duża liczbę błędów typu false-positive

SPECTRAL BAND ENERGY CUMULATING

(SBEC)

background image

REC (REDUCED ENERGY CUMULATING)

REC

LF

(t) – parametr REC(t) wyznaczony dla częstotliwości

poniżej 1 kHz

REC

HF

(t) – parametr REC(t) wyznaczony dla częstotliwości

powyżej 1 kHz

Warunek analizy maksimów parametru REC(t):

)

(

)

(

)

(

24

1

t

E

t

E

t

REC

i

i

i

i

=

=

α

REC

(

t

)

=

REC

LF

(

t

)

+

REC

HF

(

t

)

ms

t

t

REC

t

REC

LF

15

5

.

0

)

(

)

(

background image



Analiza sygnału w ramkach czasowych



Algor ytm opar ty na analizie parametru PVD (peak-valley
dif ference)



Wyznaczenie modelu samogłoski VM:



wyznaczenie średniego widma amplitudowego dla zbioru samogłosek



znalezienie szczytów w uśrednionym widmie



stworzenie wektora VM zawierającego 1 w miejscach szczytów w
pozostałych miejscach

PEAK VALLEY-DIFFERENCE (PVD)

=

=

=

=

=

1

0

1

0

1

0

1

0

))

(

1

(

)))

(

1

(

)

(

(

)

(

))

(

)

(

(

)

,

(

N

k

N

k

n

i

N

k

k

VM

k

VM

k

A

k

VM

k

VM

k

A

A

VM

PVD

background image

MODEL VM

background image



Wygładzenie war tości PVD



Znalezienie szczytów w przebiegu PVD



Samogłoski występują w ramkach dla któr ych war tość PVD
jest większe od 70% najbliższego szczytu

PVD – ALGORY TM DETEKCJI

Podjęcie

decyzji

Ramka

wejściowa

background image

PVD – ALGORY TM DETEKCJI

background image



Założenia:



Brak zmiany wysokości dźwięku



Wprowadzanie jak najmniejszej liczby nieksztaceń:



Nieciągłości fazy i częstotliwości



Trzasków



Powtarzania transientów



Osiągnięcie największego możliwego podobieństwa sygnału
wejściowego



Zastosowania:



Synteza mowy



Dopasowanie czasu trwania wypowiedzi np. audio booki, audycje
radiowe i telewizyjne



Testy percepcji mowy



Wspomaganie procesu rozumienia mowy przez osoby z pogorszoną
rozdzielczością czasową słuchu



Modyfikacja brzmienia mowy



ALGORY TMY MODYFIKACJI CZASU

TRWANIA SYGNAŁU

background image



Algor ytmy działające po stronie czasu:



OLA (Overlap and Add)



SOLA (Synchronous Overlap and Add)



PSOLA (Pitch-synchronous Overlap and Add)



WSOLA (Waveform Similarity Overlap and Add)



PAOLA (Peak Alignment Overlap and Add)



Algor ytmy działające po stronie widma:



FD-PSOLA



Wokoder-fazowy

ALGORY TMY MODYFIKACJI CZASU

TRWANIA SYGNAŁU

background image

Ts = α · Ta

gdzie Ts – przesunięcie czasowe syntezy,

Ta – przesunięcie czasowe analizy,

α – współczynnik skali.

ALGORY TMY – WSPÓŁCZYNNIK SKALI

background image

ALGORY TM OLA

background image

ALGORY TM OLA - ANALIZA

background image



Dla danego wsp. skali stały rozmiar zakładki



Obszar y zakładek są przemiksowywane z cross-fadem

ALGORY TM OLA - SYNTEZA

background image



Zalety:



Niewielka złożoność obliczeniowa



Szybki



Wady:



Sygnał wynikowy jest niskiej jakości



Słyszalne są trzaski na łączeniach ramek



Występują nieciągłości fazy i częstotliwości

ALGORY TM OLA

background image

ALGORY TM SOLA

background image

ALGORY TM SOLA - ANALIZA

background image



Wyznaczanie funkcji korelacji skrośnej dla sygnałów zakładki

ALGORY TM SOLA-SYNTEZA

background image



Znalezienie pozycji maksimum funkcji

ALGORY TM SOLA - SYNTEZA

background image



Korekta obszaru zakładki



Dla każdej ramki obszar zakładki jest inny

ALGORY TM SOLA

background image



Zalety:



Wysoka jakość zmodyfikowanego dźwięku



Nie słyszalne są nieciągłości w sygnale



Wady:



Konieczność liczenia funkcji korelacji (wymaga wielu obliczeń)



Zmienna wartość współczynnika skali

ALGORY TM SOLA

background image

ALGORY TM WOKODERA FAZOWEGO

background image

ALGORY TM WOKODERA FAZOWEGO -

ANALIZA

background image



Okienkowanie oknem hamminga



Obliczanie FFT dla ramki



Modyfikacji fazy zgodnie ze wzorem:

gdzie n = {1 ,2,…,N},

- nowa war tość fazy
- stara war tość fazy
- parametr zależny od zmian
- współczynnik skali



Modyfikacja fazy pozwala zachować jej ciągłość

ALGORY TM WOKODERA FAZOWEGO-

SYNTEZA

φ

(

n

)

ni

=

φ

(

n

)

i

+ ∆

φ

(

n

)

α

φ

(

n

)

ni

φ

(

n

)

i

φ

(

n

)

φ

(

n

)

i

α

background image



Sumowanie okien bez cross-fade

ALGORY TM WOKODERA FAZOWEGO-

SYNTEZA

background image



Zalety:



Zachowanie ciągłości fazy



Dość dobra jakość dźwięku



Niewielka złożoność obliczeniowa



Wady



W sygnale wynikowym słyszalny jest efekt metalicznego „brzęczenia”

ALGORY TM WOKODERA FAZOWEGO

background image



Subiektywna – wykonanie testów z udziałem grupy eksperckiej



Obiektywna – wyznaczenie parametru opisującego jakość nagrania
po modyfikacji

X ( Ta

X ( Ta

X ( Ta

X ( Ta

u

u

u

u

, w

, w

, w

, w

k

k

k

k

)

)

)

) – w i d m o a m p l i t u d o w e j e d n e j r a m k i s yg n a ł u w e j ś c i o w e g o x ( n )

x ( n )

x ( n )

x ( n )

Y

Y

Y

Y ( α Ta

( α Ta

( α Ta

( α Ta

u

u

u

u

, w

, w

, w

, w

k

k

k

k

)))) - w i d m o a m p l i t u d o w e j e d n e j r a m k i s yg n a ł u z m o d y f i ko w a n e g o y ( n )

y ( n )

y ( n )

y ( n )

u

u

u

u – n u m e r r a m k i
P

P

P

P – n u m e r p i e r w s z e j i o s t a t n i e j r a m k i , k t ó r e s ą w y ł ą c z o n e z p r o c e s u a n a l i z y w c e l u

w ye l i m i n o w a n i a b ł ę d ó w

Ta

Ta

Ta

Ta

u

u

u

u

- p r z e s u n i ę c i e c z a s o w e s y n te z y d l a r a m k i n u m e r u

u

u

u

α

α

α

α ---- w s p ó ł c z y n n i k s k a l i

OCENA JAKOŚCI ZMODYFIKOWANEGO

SYNGAŁU

∑ ∑

∑ ∑

=

=

=

=

=

1

1

0

2

1

1

0

2

|

)

,

(

|

|]

)

,

(

|

|

)

,

(

[|

P

U

P

u

N

k

k

u

P

U

P

u

N

k

k

u

k

u

Ta

X

Ta

X

Ta

Y

Dm

ω

ω

ω

α

background image



Pellegrino

F., Andre-obreht R., From vocalic detection to automatic

emergence of vowel systems, Proc. ICASSP’97, p. 1651-1652.



Dorran, D., Lawlor, R., Coyle, E. (2003). High quality time-scale
modification of speech using a peak alignment overlap-add
alogroithm (PAOLA).



Ergoul, O., Karagoz, I. (1997). Time-scale modification of speech
signals for language-learning impaired children.



Grofit, S., Lavner, Y. (2008). Time-Scale Modification of Audio
Signals Using Enhanced WSOLA With Management of Transients,
IEEE Trans. On audio, speech, and language processing, vol. 16, no.
1 .



Laroche, J. (1999). Improved Phase Vocoder Time-Scale
Modification of Audio, IEEE Trans. On audio, speech, and language
processing, vol. 7 no. 3.



Nejime, Y., Aritsuka, T., Imamura, T., Ifukube, T., Matsushima J.
(1996). A por table digital speech-rate conver ter for hearing
impairment, IEEE Trans. Rehabil. Eng., vol. 4, no. 2, pp. 73–83.



Zolzer, U. (2005). DAFX Digital Audio Ef fects, Wiley.

BIBLIOGRAFIA


Wyszukiwarka

Podobne podstrony:
Analiza i synteza słuchowa, logopedia, ćw. mowy, języka słuchu fon
Lab5 Analiza sygnalu mowy Lab5 Nieznany
Ćwiczenia usprawniające analizę i syntezę wzrokową oraz orientację przestrzenną(1), Ćwiczenia uspraw
Techniki analizy sygnału mowy, Wisniewski.Andrzej, Analiza.Obrazow.I.Sygnalow, Materialy
CWICZENIA USPRAWNIAJĄCE ANALIZĘ I SYNTEZĘ SŁUCHOWĄ
Analiza i synteza wojny w Wietnamie
ĆWICZENIA USPRAWNIAJĄCE ANALIZĘ I SYNTEZĘ SŁUCHOWĄ, MOWA CZYTANIE LITERY
analiza i synteza nadawanie nazw maska karnawałowa
ANALIZA I SYNTEZA WZROKOWA I SŁUCHOWA ĆWICZENIA U DZIECI, MATERIAŁY DO ZAJĘĆ, KONSPEKTY I SCENARIUSZ
Test do?dania poziomu analizy i syntezy słuchowej wyrazów I Styczek
ZESTAW ĆWICZEŃ ANALIZY I SYNTEZY 1
zaburzenia analizy i syntezy wzrokowej, Pedagogika dziecka o specjalnych potrzebach edukacyjnych
Test do badania poziomu analizy i syntezy słuchowej wyrazów-Styczek(1), Pedagogika
Ćwiczenia usp.analize i synteze wzrokowa, Nauka pomoce, polski
Analiza i synteza wzrokowo-ruchowa i orientacja przestrzenna, zestaw ćwiczeń
Rozwijanie analizy i syntezy słuchowej oraz słuchowo wzrokowej
Badanie poziomu analizy i syntezy wzrokowej ucznia
Ćwiczenia usprawniające analizę i syntezę wzrokową oraz orientację przestrzenną
analiza i synteza sluchowa

więcej podobnych podstron