Opracował:
Adam
Kupr yjanow
ANALIZA I SYNTEZA
MOWY
Metody detekcji samogłosek
Algor ytmy modyfikacji czasu tr wania sygnału
Plan wykładu
Zastosowania:
Telefonia - kodowanie mowy
Analiza sygnału mowy - segmentacja
Rozpoznawanie samogłosek
Systemy rozpoznawanie mowy
…
DETEKCJA SAMOGŁOSEK
Metody statystyczne najczęściej progowe:
Analiza energii sygnału + liczby przejść przez zero:
Spectral Peaks Energy
Sectral Band Energy Cumulating (Sbec)
Peak-valley difference (PVD)
Metody inteligentne -> parametr yzacja sygnału + klasyfikator:
SVM
Sztuczne sieci neuronowe
METODY DETEKCJI SAMOGŁOSEK
Samogłoski:
wysoki poziom energii
charakterystyczne piki w widmie
niewielka liczba przejść przez zero
Spółgłoski:
niski poziom energii
płaskie widmo
wysoka liczba przejść przez zero
Prosta progowa analiza nie daje dobr ych rezultatów!
Analiza energii sygnału
Trójkątne Filtry melowe
BANK filtrów Skali melowej
SPECTRAL BAND ENERGY CUMULATING
(SBEC)
i – numer filtru
E
i
(t) – energia sygnału i-tego filtru
E
i
(t) – średnia energia sygnału i-tego filtru
t – numer analizowanej ramki
α
i
– współczynnik wagi i-tego filtru
)
(
)
(
)
(
24
1
t
E
t
E
t
SBEC
i
i
i
i
−
=
∑
=
α
Maksima w przebiegu SBEC(t) wyższe od war tości progu
odpowiadają miejscom występowania głosek dźwięcznych
War tość progu podlega adaptacji
W zwiększenia skuteczności analizowane są tylko fragmenty
tr wające dłużej niż 32 ms
Algor ytm wykazuje duża liczbę błędów typu false-positive
SPECTRAL BAND ENERGY CUMULATING
(SBEC)
REC (REDUCED ENERGY CUMULATING)
REC
LF
(t) – parametr REC(t) wyznaczony dla częstotliwości
poniżej 1 kHz
REC
HF
(t) – parametr REC(t) wyznaczony dla częstotliwości
powyżej 1 kHz
Warunek analizy maksimów parametru REC(t):
)
(
)
(
)
(
24
1
t
E
t
E
t
REC
i
i
i
i
−
=
∑
=
α
REC
(
t
)
=
REC
LF
(
t
)
+
REC
HF
(
t
)
≥
∆
≥
ms
t
t
REC
t
REC
LF
15
5
.
0
)
(
)
(
Analiza sygnału w ramkach czasowych
Algor ytm opar ty na analizie parametru PVD (peak-valley
dif ference)
Wyznaczenie modelu samogłoski VM:
wyznaczenie średniego widma amplitudowego dla zbioru samogłosek
znalezienie szczytów w uśrednionym widmie
stworzenie wektora VM zawierającego 1 w miejscach szczytów w
pozostałych miejscach
PEAK VALLEY-DIFFERENCE (PVD)
∑
∑
∑
∑
−
=
−
=
−
=
−
=
−
−
⋅
−
⋅
=
1
0
1
0
1
0
1
0
))
(
1
(
)))
(
1
(
)
(
(
)
(
))
(
)
(
(
)
,
(
N
k
N
k
n
i
N
k
k
VM
k
VM
k
A
k
VM
k
VM
k
A
A
VM
PVD
MODEL VM
Wygładzenie war tości PVD
Znalezienie szczytów w przebiegu PVD
Samogłoski występują w ramkach dla któr ych war tość PVD
jest większe od 70% najbliższego szczytu
PVD – ALGORY TM DETEKCJI
Podjęcie
decyzji
Ramka
wejściowa
PVD – ALGORY TM DETEKCJI
Założenia:
Brak zmiany wysokości dźwięku
Wprowadzanie jak najmniejszej liczby nieksztaceń:
Nieciągłości fazy i częstotliwości
Trzasków
Powtarzania transientów
Osiągnięcie największego możliwego podobieństwa sygnału
wejściowego
Zastosowania:
Synteza mowy
Dopasowanie czasu trwania wypowiedzi np. audio booki, audycje
radiowe i telewizyjne
Testy percepcji mowy
Wspomaganie procesu rozumienia mowy przez osoby z pogorszoną
rozdzielczością czasową słuchu
Modyfikacja brzmienia mowy
…
ALGORY TMY MODYFIKACJI CZASU
TRWANIA SYGNAŁU
Algor ytmy działające po stronie czasu:
OLA (Overlap and Add)
SOLA (Synchronous Overlap and Add)
PSOLA (Pitch-synchronous Overlap and Add)
WSOLA (Waveform Similarity Overlap and Add)
PAOLA (Peak Alignment Overlap and Add)
Algor ytmy działające po stronie widma:
FD-PSOLA
Wokoder-fazowy
ALGORY TMY MODYFIKACJI CZASU
TRWANIA SYGNAŁU
Ts = α · Ta
gdzie Ts – przesunięcie czasowe syntezy,
Ta – przesunięcie czasowe analizy,
α – współczynnik skali.
ALGORY TMY – WSPÓŁCZYNNIK SKALI
ALGORY TM OLA
ALGORY TM OLA - ANALIZA
Dla danego wsp. skali stały rozmiar zakładki
Obszar y zakładek są przemiksowywane z cross-fadem
ALGORY TM OLA - SYNTEZA
Zalety:
Niewielka złożoność obliczeniowa
Szybki
Wady:
Sygnał wynikowy jest niskiej jakości
Słyszalne są trzaski na łączeniach ramek
Występują nieciągłości fazy i częstotliwości
ALGORY TM OLA
ALGORY TM SOLA
ALGORY TM SOLA - ANALIZA
Wyznaczanie funkcji korelacji skrośnej dla sygnałów zakładki
ALGORY TM SOLA-SYNTEZA
Znalezienie pozycji maksimum funkcji
ALGORY TM SOLA - SYNTEZA
Korekta obszaru zakładki
Dla każdej ramki obszar zakładki jest inny
ALGORY TM SOLA
Zalety:
Wysoka jakość zmodyfikowanego dźwięku
Nie słyszalne są nieciągłości w sygnale
Wady:
Konieczność liczenia funkcji korelacji (wymaga wielu obliczeń)
Zmienna wartość współczynnika skali
ALGORY TM SOLA
ALGORY TM WOKODERA FAZOWEGO
ALGORY TM WOKODERA FAZOWEGO -
ANALIZA
Okienkowanie oknem hamminga
Obliczanie FFT dla ramki
Modyfikacji fazy zgodnie ze wzorem:
gdzie n = {1 ,2,…,N},
- nowa war tość fazy
- stara war tość fazy
- parametr zależny od zmian
- współczynnik skali
Modyfikacja fazy pozwala zachować jej ciągłość
ALGORY TM WOKODERA FAZOWEGO-
SYNTEZA
φ
(
n
)
ni
=
φ
(
n
)
i
+ ∆
φ
(
n
)
α
φ
(
n
)
ni
φ
(
n
)
i
∆
φ
(
n
)
φ
(
n
)
i
α
Sumowanie okien bez cross-fade
ALGORY TM WOKODERA FAZOWEGO-
SYNTEZA
Zalety:
Zachowanie ciągłości fazy
Dość dobra jakość dźwięku
Niewielka złożoność obliczeniowa
Wady
W sygnale wynikowym słyszalny jest efekt metalicznego „brzęczenia”
ALGORY TM WOKODERA FAZOWEGO
Subiektywna – wykonanie testów z udziałem grupy eksperckiej
Obiektywna – wyznaczenie parametru opisującego jakość nagrania
po modyfikacji
X ( Ta
X ( Ta
X ( Ta
X ( Ta
u
u
u
u
, w
, w
, w
, w
k
k
k
k
)
)
)
) – w i d m o a m p l i t u d o w e j e d n e j r a m k i s yg n a ł u w e j ś c i o w e g o x ( n )
x ( n )
x ( n )
x ( n )
Y
Y
Y
Y ( α Ta
( α Ta
( α Ta
( α Ta
u
u
u
u
, w
, w
, w
, w
k
k
k
k
)))) - w i d m o a m p l i t u d o w e j e d n e j r a m k i s yg n a ł u z m o d y f i ko w a n e g o y ( n )
y ( n )
y ( n )
y ( n )
u
u
u
u – n u m e r r a m k i
P
P
P
P – n u m e r p i e r w s z e j i o s t a t n i e j r a m k i , k t ó r e s ą w y ł ą c z o n e z p r o c e s u a n a l i z y w c e l u
w ye l i m i n o w a n i a b ł ę d ó w
Ta
Ta
Ta
Ta
u
u
u
u
- p r z e s u n i ę c i e c z a s o w e s y n te z y d l a r a m k i n u m e r u
u
u
u
α
α
α
α ---- w s p ó ł c z y n n i k s k a l i
OCENA JAKOŚCI ZMODYFIKOWANEGO
SYNGAŁU
∑ ∑
∑ ∑
−
−
=
−
=
−
−
=
−
=
−
=
1
1
0
2
1
1
0
2
|
)
,
(
|
|]
)
,
(
|
|
)
,
(
[|
P
U
P
u
N
k
k
u
P
U
P
u
N
k
k
u
k
u
Ta
X
Ta
X
Ta
Y
Dm
ω
ω
ω
α
Pellegrino
F., Andre-obreht R., From vocalic detection to automatic
emergence of vowel systems, Proc. ICASSP’97, p. 1651-1652.
Dorran, D., Lawlor, R., Coyle, E. (2003). High quality time-scale
modification of speech using a peak alignment overlap-add
alogroithm (PAOLA).
Ergoul, O., Karagoz, I. (1997). Time-scale modification of speech
signals for language-learning impaired children.
Grofit, S., Lavner, Y. (2008). Time-Scale Modification of Audio
Signals Using Enhanced WSOLA With Management of Transients,
IEEE Trans. On audio, speech, and language processing, vol. 16, no.
1 .
Laroche, J. (1999). Improved Phase Vocoder Time-Scale
Modification of Audio, IEEE Trans. On audio, speech, and language
processing, vol. 7 no. 3.
Nejime, Y., Aritsuka, T., Imamura, T., Ifukube, T., Matsushima J.
(1996). A por table digital speech-rate conver ter for hearing
impairment, IEEE Trans. Rehabil. Eng., vol. 4, no. 2, pp. 73–83.
Zolzer, U. (2005). DAFX Digital Audio Ef fects, Wiley.
BIBLIOGRAFIA