WOJSKOWA AKADEMIA TECHNICZNA
im. JarosÅ‚awa DÄ…browskiego
SYSTEMY DIALOGOWE
SPRAWOZDANIE Z Ä†WICZENIA nr 3
Temat: UrzÄ…dzenie automatycznego rozpoznawania sygnaÅ‚u mowy
metodÄ… rozpoznawania wzorcÃ³w
(projekt dla maÅ‚ego sÅ‚ownika)
WykonaÅ‚: plut. pchor. RadosÅ‚aw WOyNIAK
Grupa: I9G1S1
1
1. TREÅšÄ† ZADANIA
1) ZaÅ‚oÅ¼enia:
- maÅ‚y sÅ‚ownik wyrazÃ³w rozpoznawanych: 10 sÅ‚Ã³w,
- jednostka fonetyczna: caÅ‚e sÅ‚owo.
2) PrzygotowaÄ‡ dane:
- sformuÅ‚owaÄ‡ sÅ‚ownik wyrazÃ³w rozpoznawanych;
- dokonaÄ‡ rejestracji wszystkich sÅ‚Ã³w (kaÅ¼de sÅ‚owo 15-krotnie, w
oddzielnym pliku .wav);
- do rejestracji przyjÄ…Ä‡: fs = 22050 Hz, 16 bitÃ³w/prÃ³bka, kodowanie
PCM, mono;
3) ZdefiniowaÄ‡ wzÃ³r testowy(obserwacja) (wspÃ³Å‚rzÄ™dne wektora obserwacji,
np.: energia, dÅ‚ugoÅ›Ä‡ liczba prÃ³bek, liczba przejÅ›Ä‡ przez zero,
wspÃ³Å‚czynniki FFT (widmo) od 3 do 10, wspÃ³Å‚czynniki LPC, itp.)
4) OpracowaÄ‡ procedurÄ™ uczenia - utworzyÄ‡ wzorce sÅ‚Ã³w:
- zdefiniowaÄ‡ wzorzec,
- okreÅ›liÄ‡ ciÄ…g uczÄ…cy,
- dokonaÄ‡ estymacji parametrÃ³w wzorcÃ³w
5) OpracowaÄ‡ procedurÄ™ rozpoznawania
6) DokonaÄ‡ weryfikacji i testowania urzÄ…dzenia:
- okreÅ›liÄ‡ ciÄ…g testowy
- wyznaczyÄ‡ statystyki rozpoznawania (estymatory
prawdopodobieÅ„stwa poprawnego rozpoznania, analiza bÅ‚Ä™dÃ³w
rozpoznawania)
- zaproponowaÄ‡ kierunki zmian w celu poprawienia jakoÅ›ci
zbudowanego urzÄ…dzenia ARM
DokonaÄ‡ implementacji urzÄ…dzenia w Å›rodowisku MATLAB.
2
2. WYNIKI
W celu realizacji zadania zostaÅ‚ sformuÅ‚owany sÅ‚ownik skÅ‚adajÄ…cy siÄ™ z 10
wyrazÃ³w (nagranych po 15 razy kaÅ¼dy). Zgodnie z zaleceniami kaÅ¼dy wyraz zostaÅ‚
zapisany w oddzielnym pliku typu wav. Przy nagrywaniu przyjÄ…Å‚em czÄ™stotliwoÅ›Ä‡
prÃ³bkowania wynoszÄ…cÄ… 22kHz, rozdzielczoÅ›Ä‡ 16bitÃ³w na prÃ³bkÄ™ oraz tryb mono.
Nagrane wyrazy to:
·ð beta;
·ð koc;
·ð drukarka;
·ð borowiki;
·ð komputer;
·ð daktyloskopia;
·ð mysz;
·ð rower;
·ð spacja;
·ð wideo;
System rozpoznawania wyrazÃ³w zostaÅ‚ zaimplementowany zgodnie z
uproszczonÄ… strukturÄ… rozpoznawania sygnaÅ‚u mowy metodÄ… rozpoznawania
wzorcÃ³w.
PROCEDURA
UCZENIA
WZORCE
rozpoznana
UKAAD UKAAD
PORÃ“WNANIA DECYZYJNY
mowa
tryb rozpoznawania
tryb uczenia
OBSERWA-
CJA
ANALIZA
SYGNAAU
sygnaÅ‚
mowy
Rys.1. Uproszczona struktura rozpoznawania sygnaÅ‚u mowy metodÄ…
rozpoznawania wzorcÃ³w.
3
%tryb uczenia
for i=1:L
ocena=0;
for j=1:5
%nazwy plikow ujednolicone
z=wavread([deblank(A(i,:)) int2str(j)]);%nazwy plikÃ³w odpowiadaja
zawartosci
z=z/max(abs(z)); %wartosci amplitud w zakresie [-1,+1]
dlugosc=length(z); %pomiar dlugosci dzwieku
E=z'*z; %pomiar energii
z1=z(2:dlugosc); %wspolczynnik do wzoru na ppz
z2=z(1:dlugosc-1); %wspolczynnik do wzoru na ppz
PPZ = sum(abs(sign(z1)-sign(z2)))/2; %oblcizenie liczby przejsc
przez zero
MAX=max(abs(z)); %wartosc max
LPC=sum(abs(lpc(z,12))); %wspolczynnik LPC z 12
parametry=[dlugosc,E,PPZ,MAX,LPC]; %wektor obserwacji
parametry=parametry.*wagi; %wymnoÅ¼enie wektora przez odpowiednie
wagi
ocena=ocena+parametry;
end;
tablica_ocen(i,:)=ocena/5;
end;
tablica_wynikowa=sum(tablica_ocen')*0.05;%dopuszczalna roznica wartosci
elementow miedzy wzorcem testowym i rozpoznowalnym
Rys.2. Listing fragmentu kodu programu odpowiedzialnego za tryb uczenia siÄ™
wyrazÃ³w przez system.
W trybie testowym do budowy wektora obserwacji wykorzystane zostaÅ‚y takie
wartoÅ›ci jak:
·ð dÅ‚ugoÅ›Ä‡ sygnaÅ‚u prÃ³bki;
·ð energiÄ™ sygnaÅ‚u:
N
2
E =ð log
åðz(ðn)ð
n=ð1
·ð liczbÄ™ przejÅ›Ä‡ przez zero PPZ
N
1
PPZ =ð sign[ðz(ðn)ð]ð-ð sign[ðz(ðn -ð1)ð]ð
åð
2
n=ð2
gdzie:
sign[ðz(ðn)ð]ð =ð 1 dla z(ðn)ð>ð 0
sign[ðz(ðn)ð]ð =ð -ð1 dla z(ðn)ðÅð 0
·ð wartoÅ›Ä‡ najwiÄ™kszÄ… M
M =ð maxz(ðn)ð
1ÅðnÅðN
·ð wspÃ³Å‚czynniki LPC (p=12);
Po obliczeniu wyÅ¼ej wymienionych wartoÅ›ci dla kaÅ¼dego sÅ‚owa wzorcowego,
zostaÅ‚y one wymnoÅ¼one przez odpowiednie wagi w celu polepszenia ich
charakterystyk.
wagi=[1 0.8 0.5 0.2 0.1]
Kolejne liczby wektora wagi odpowiadajÄ… wartoÅ›ciÄ… wektora obserwacji.
wagi=[dlugosc, Energia, PPZ, MAX, LPC]
4
NastÄ™pnie dla kaÅ¼dego wyrazu obliczana jest Å›rednia wszystkich parametrÃ³w.
Po zakoÅ„czeniu etapu uczenia siÄ™ sumuje tablice ocen i wymnaÅ¼am przez
wspÃ³Å‚czynnik 0,05, dziÄ™ki czemu otrzymuje dopuszczalnÄ… rÃ³Å¼nicÄ™ wartoÅ›ci
elementÃ³w, ktÃ³rÄ… wykorzystam do porÃ³wnania wzorca testowego z rozpoznanym.
%tryb rozpoznawania
for i=1:L
for j=6:15
%nazwy plikow ujednolicone
z=wavread([deblank(A(i,:)) int2str(j)]);%nazwy plikÃ³w odpowiadaja
zawartosci
z=z/max(abs(z)); %wartosci amplitud w zakresie [-1,+1]
dlugosc=length(z); %pomiar dlugosci dzwieku
E=z'*z; %pomiar energii
z1=z(2:dlugosc); %wspolczynnik do wzoru na ppz
z2=z(1:dlugosc-1); %wspolczynnik do wzoru na ppz
PPZ = sum(abs(sign(z1)-sign(z2)))/2; %oblcizenie liczby przejsc
przez zero
MAX=max(abs(z)); %wartosc max
LPC=sum(abs(lpc(z,12))); %wspolczynnik LPC z 12
parametry2=[dlugosc,E,PPZ,MAX,LPC]; %wektor z badanymi wartosciami
parametry2=parametry2.*wagi; %wymnoÅ¼enie wektora przez odpowiednie
wagi
if sum((tablica_ocen(i,:)-
parametry2)')<=tablica_wynikowa(i)%porownanie wzorca testowego z wyrazami
badanymi
tablica_koncowa(j-5,i)=1; %uzupelnianie tablicy poprawnym
rozpozanniem
end;
end;
end;
display('tablica przedstawiajaca wynik rozpoznania,kolumny to odzielne
wyrazy');
tablica_koncowa
rozpoznane=0;
nie_rozpoznane=0;
for i=1:10
for j=1:10
if tablica_koncowa(i,j)==1 %odczytanie wartosci z tablic w celu
obliczenia rozpoznawalnosci
rozpoznane=rozpoznane+1;
else
nie_rozpoznane=nie_rozpoznane+1;
end;
end;
end;
rozpoznane
nie_rozpoznane
display('Wynik procentowy badania');
zgodnosc=(rozpoznane)/(rozpoznane+nie_rozpoznane)*100%
Rys.3. Listing fragmentu kodu programu odpowiedzialnego za tryb rozpoznawania
wyrazÃ³w przez system oraz opracowanie i wyÅ›wietlenie wynikÃ³w.
5
W procesie rozpoznawania podobnie jak w etapie uczenia, takÅ¼e obliczam
poprzednio wymienionych wartoÅ›ci dla kaÅ¼dego sÅ‚owa rozpoznawanego, oraz w celu
polepszenia wykrywania zostajÄ… one wymnoÅ¼one przez odpowiednie wagi.
Sam etap porÃ³wnywania wzorca testowego i rozpoznanego polega na
odejmowaniu tablicy zbadanych wyrazÃ³w wzorcowych od kolejnych wyrazÃ³w
badanych i porÃ³wnaniu z dopuszczalnÄ… rÃ³Å¼nicÄ™ wartoÅ›ci elementÃ³w, ktÃ³rÄ… uzyskaÅ‚em
po etapie uczenia.
Rys. 5. Zrzut ekranu uzyskanych obliczeÅ„ i wynikÃ³w.
KoÅ„cowy etap polegaÅ‚ na podliczeniu poprawnych i niepoprawnych
rozpoznaÅ„, obliczeniu procentowego rozpoznania wyrazÃ³w oraz wyÅ›wietleniu
wynikÃ³w.
6
3. WNIOSKI i SPOSTRZEÅ»ENIA.
Cel Ä‡wiczenia zostaÅ‚ osiÄ…gniÄ™ty, poniewaÅ¼ udaÅ‚o siÄ™ zaprojektowaÄ‡ i wykonaÄ‡
urzÄ…dzenie automatycznego rozpoznawania sygnaÅ‚u mowy zgodnie z uproszczonÄ…
strukturÄ… rozpoznawania sygnaÅ‚u mowy metodÄ… rozpoznawania wzorcÃ³w. Wynik
82% poprawnie rozpoznanych wyrazÃ³w jest zadowalajÄ…cy przy wykorzystaniu 5
wskaznikÃ³w. DziÄ™ki temu, Å¼e sÅ‚ownik skÅ‚adaÅ‚ siÄ™ z maÅ‚ej liczby wyrazÃ³w,
zdecydowaÅ‚em siÄ™ na rozpoznawanie wyrazÃ³w w pierwszej kolejnoÅ›ci na podstawie
ich dÅ‚ugoÅ›ci wartoÅ›ci energii sygnaÅ‚u. Jest to jedna z najÅ‚atwiejszych metod przy tak
maÅ‚ej liczbie wyrazÃ³w. Jednak wynik nadal nie byÅ‚ wystarczajÄ…cy, dlatego posÅ‚uÅ¼yÅ‚em
siÄ™ takÅ¼e w liczbÄ… przejÅ›Ä‡ przez zero, wartoÅ›ciÄ… maksymalnÄ… M oraz
wspÃ³Å‚czynnikami LPC. Zapewnie wykorzystanie kolejnych wskaznikÃ³w jak np.
wspÃ³Å‚czynniki FFT (widmo) lub obliczanie energii sygnaÅ‚u dla kolejnych czÄ™Å›ci
wyrazÃ³w.
BÅ‚Ä™dy w wykryciu wyrazÃ³w byÅ‚y spowodowane najprawdopodobniej nienajlepszej
jakoÅ›ci sprzÄ™tem do nagrywania oraz brakiem odpowiedniego, wyciszonego miejsca
do nagrywania. NiedoskonaÅ‚oÅ›ci wy wykrywaniu moÅ¼na takÅ¼e poszukiwaÄ‡ w
podobieÅ„stwie wykorzystanych wyrazÃ³w (ich dÅ‚ugoÅ›ci liczby prÃ³bek).
W celu poprawy jakoÅ›ci zbudowanego urzÄ…dzenia moÅ¼na by byÅ‚o oprÃ³cz dodania
wyÅ¼ej wspomnianych wskaznikÃ³w, takÅ¼e sprÃ³bowaÄ‡ zwiÄ™kszyÄ‡ liczbÄ™ wzorcowych
wyrazÃ³w.
7