OpracowaÅ‚: ANALIZA I SYNTEZA Adam Kupryjanow MOWY Plan wykÅ‚adu Metody detekcji samogÅ‚osek Algorytmy modyfikacji czasu trwania sygnaÅ‚u DETEKCJA SAMOGAOSEK Zastosowania: Telefonia - kodowanie mowy Analiza sygnaÅ‚u mowy - segmentacja Rozpoznawanie samogÅ‚osek Systemy rozpoznawanie mowy & METODY DETEKCJI SAMOGAOSEK Metody statystyczne najczęściej progowe: Analiza energii sygnaÅ‚u + liczby przejść przez zero: Spectral Peaks Energy Sectral Band Energy Cumulating (Sbec) Peak-valley difference (PVD) Metody inteligentne -> parametryzacja sygnaÅ‚u + klasyfikator: SVM Sztuczne sieci neuronowe Analiza energii sygnaÅ‚u SamogÅ‚oski: wysoki poziom energii charakterystyczne piki w widmie niewielka liczba przejść przez zero SpółgÅ‚oski: niski poziom energii pÅ‚askie widmo wysoka liczba przejść przez zero Prosta progowa analiza nie daje dobrych rezultatów! TrójkÄ…tne Filtry melowe BANK filtrów Skali melowej SPECTRAL BAND ENERGY CUMULATING (SBEC) 24 SBEC(t) = Ä…i Ei (t) - E (t) i " i=1 i numer filtru Ei(t) energia sygnaÅ‚u i-tego filtru Ei(t) Å›rednia energia sygnaÅ‚u i-tego filtru t numer analizowanej ramki Ä…i współczynnik wagi i-tego filtru SPECTRAL BAND ENERGY CUMULATING (SBEC) Maksima w przebiegu SBEC(t) wy\sze od wartoÅ›ci progu odpowiadajÄ… miejscom wystÄ™powania gÅ‚osek dzwiÄ™cznych Wartość progu podlega adaptacji W zwiÄ™kszenia skutecznoÅ›ci analizowane sÄ… tylko fragmenty trwajÄ…ce dÅ‚u\ej ni\ 32 ms Algorytm wykazuje du\a liczbÄ™ bÅ‚Ä™dów typu false-positive REC (REDUCED ENERGY CUMULATING) 24 REC(t) = Ä…i Ei (t) - E (t) i " i=1 REC(t) = RECLF(t)+ RECHF (t) RECLF (t) parametr REC(t) wyznaczony dla czÄ™stotliwoÅ›ci poni\ej 1 kHz RECHF(t) parametr REC(t) wyznaczony dla czÄ™stotliwoÅ›ci powy\ej 1 kHz Warunek analizy maksimów parametru REC(t): RECLF (t) Å„Å‚ e" 0.5 ôÅ‚ REC(t) òÅ‚ ôÅ‚"t e" 15ms ół PEAK VALLEY-DIFFERENCE (PVD) Analiza sygnaÅ‚u w ramkach czasowych Algorytm oparty na analizie parametru PVD (peak-valley difference) N -1 N -1 "(A(k) Å"VM (k)) "(A(k) Å"(1-VM (k))) k =0 k =0 PVD(VM , A) = - n-1 N -1 "VM (k) "(1-VM (k)) i=0 k =0 Wyznaczenie modelu samogÅ‚oski VM: wyznaczenie Å›redniego widma amplitudowego dla zbioru samogÅ‚osek znalezienie szczytów w uÅ›rednionym widmie stworzenie wektora VM zawierajÄ…cego 1 w miejscach szczytów w pozostaÅ‚ych miejscach MODEL VM PVD ALGORYTM DETEKCJI WygÅ‚adzenie wartoÅ›ci PVD Znalezienie szczytów w przebiegu PVD SamogÅ‚oski wystÄ™pujÄ… w ramkach dla których wartość PVD jest wiÄ™ksze od 70% najbli\szego szczytu PodjÄ™cie Ramka decyzji wejÅ›ciowa PVD ALGORYTM DETEKCJI ALGORYTMY MODYFIKACJI CZASU TRWANIA SYGNAAU ZaÅ‚o\enia: Brak zmiany wysokoÅ›ci dzwiÄ™ku Wprowadzanie jak najmniejszej liczby nieksztaceÅ„: NieciÄ…gÅ‚oÅ›ci fazy i czÄ™stotliwoÅ›ci Trzasków Powtarzania transientów OsiÄ…gniÄ™cie najwiÄ™kszego mo\liwego podobieÅ„stwa sygnaÅ‚u wejÅ›ciowego Zastosowania: Synteza mowy Dopasowanie czasu trwania wypowiedzi np. audio booki, audycje radiowe i telewizyjne Testy percepcji mowy Wspomaganie procesu rozumienia mowy przez osoby z pogorszonÄ… rozdzielczoÅ›ciÄ… czasowÄ… sÅ‚uchu Modyfikacja brzmienia mowy & ALGORYTMY MODYFIKACJI CZASU TRWANIA SYGNAAU Algorytmy dziaÅ‚ajÄ…ce po stronie czasu: OLA (Overlap and Add) SOLA (Synchronous Overlap and Add) PSOLA (Pitch-synchronous Overlap and Add) WSOLA (Waveform Similarity Overlap and Add) PAOLA (Peak Alignment Overlap and Add) Algorytmy dziaÅ‚ajÄ…ce po stronie widma: FD-PSOLA Wokoder-fazowy ALGORYTMY WSPÓACZYNNIK SKALI Ts = Ä… · Ta gdzie Ts przesuniÄ™cie czasowe syntezy, Ta przesuniÄ™cie czasowe analizy, Ä… współczynnik skali. ALGORYTM OLA ALGORYTM OLA - ANALIZA ALGORYTM OLA - SYNTEZA Dla danego wsp. skali staÅ‚y rozmiar zakÅ‚adki Obszary zakÅ‚adek sÄ… przemiksowywane z cross-fadem ALGORYTM OLA Zalety: Niewielka zÅ‚o\oność obliczeniowa Szybki Wady: SygnaÅ‚ wynikowy jest niskiej jakoÅ›ci SÅ‚yszalne sÄ… trzaski na Å‚Ä…czeniach ramek WystÄ™pujÄ… nieciÄ…gÅ‚oÅ›ci fazy i czÄ™stotliwoÅ›ci ALGORYTM SOLA ALGORYTM SOLA - ANALIZA ALGORYTM SOLA-SYNTEZA Wyznaczanie funkcji korelacji skroÅ›nej dla sygnałów zakÅ‚adki ALGORYTM SOLA - SYNTEZA Znalezienie pozycji maksimum funkcji ALGORYTM SOLA Korekta obszaru zakÅ‚adki Dla ka\dej ramki obszar zakÅ‚adki jest inny ALGORYTM SOLA Zalety: Wysoka jakość zmodyfikowanego dzwiÄ™ku Nie sÅ‚yszalne sÄ… nieciÄ…gÅ‚oÅ›ci w sygnale Wady: Konieczność liczenia funkcji korelacji (wymaga wielu obliczeÅ„) Zmienna wartość współczynnika skali ALGORYTM WOKODERA FAZOWEGO ALGORYTM WOKODERA FAZOWEGO - ANALIZA ALGORYTM WOKODERA FAZOWEGO- SYNTEZA Okienkowanie oknem hamminga Obliczanie FFT dla ramki Modyfikacji fazy zgodnie ze wzorem: Ć(n)ni = Ć(n)i + "Ć(n)Ä… gdzie n = {1,2,& ,N}, Ć(n)ni - nowa wartość fazy Ć(n)i - stara wartość fazy "Ć(n) Ć(n)i - parametr zale\ny od zmian Ä… - współczynnik skali Modyfikacja fazy pozwala zachować jej ciÄ…gÅ‚ość ALGORYTM WOKODERA FAZOWEGO- SYNTEZA Sumowanie okien bez cross-fade ALGORYTM WOKODERA FAZOWEGO Zalety: Zachowanie ciÄ…gÅ‚oÅ›ci fazy Dość dobra jakość dzwiÄ™ku Niewielka zÅ‚o\oność obliczeniowa Wady W sygnale wynikowym sÅ‚yszalny jest efekt metalicznego brzÄ™czenia OCENA JAKOÅšCI ZMODYFIKOWANEGO SYNGAAU Subiektywna wykonanie testów z udziaÅ‚em grupy eksperckiej Obiektywna wyznaczenie parametru opisujÄ…cego jakość nagrania po modyfikacji U -P-1 N -1 " "[|Y(Ä…Ta ,Ék ) | - | X (Tau ,Ék ) |]2 u u=P k=0 Dm = U -P-1 N -1 " "| X (Tau ,Ék ) |2 u=P k=0 X(Tau , wk ) widmo amplitudowe jednej ramki sygnaÅ‚u wejÅ›ciowego x(n) X(Tau , wk ) x(n) X(Tau , wk ) x(n) X(Tau , wk ) x(n) Y(Ä…Tau,wk) - widmo amplitudowe jednej ramki sygnaÅ‚u zmodyfikowanego y(n) Y(Ä…Tau,wk) y(n) Y(Ä…Tau,wk) y(n) Y(Ä…Tau,wk) y(n) u numer ramki u u u P numer pier wszej i ostatniej ramki, które sÄ… wyÅ‚Ä…czone z procesu analizy w celu P P P wyeliminowania bÅ‚Ä™dów Tau - przesuniÄ™cie czasowe syntezy dla ramki numer u Tau u Tau u Tau u Ä…- współczynnik skali Ä…- Ä…- Ä…- BIBLIOGRAFIA Pellegrino F., Andre-obreht R., From vocalic detection to automatic emergence of vowel systems, Proc. ICASSP 97, p. 1651-1652. Dorran, D., Lawlor, R., Coyle, E. (2003). High quality time-scale modification of speech using a peak alignment overlap-add alogroithm (PAOLA). Ergoul, O., Karagoz, I. (1997). Time-scale modification of speech signals for language-learning impaired children. Grofit, S., Lavner, Y. (2008). Time-Scale Modification of Audio Signals Using Enhanced WSOLA With Management of Transients, IEEE Trans. On audio, speech, and language processing, vol. 16, no. 1. Laroche, J. (1999). Improved Phase Vocoder Time-Scale Modification of Audio, IEEE Trans. On audio, speech, and language processing, vol. 7 no. 3. Nejime, Y., Aritsuka, T., Imamura, T., Ifukube, T., Matsushima J. (1996). A portable digital speech-rate converter for hearing impairment, IEEE Trans. Rehabil. Eng., vol. 4, no. 2, pp. 73 83. Zolzer, U. (2005). DAFX Digital Audio Effects, Wiley.