Wojskowa Akademia Techniczna

Zadanie 1.

Zarejestrowane słowo stanowi L-próbkowy sygnał



s , gdzie



. Będziemy analizować

sygnał



s pozyskany w środowisku umiarkowanie zakłóconym. Usunąć ciszę z sygnału



s ,

wykonać wykres tego sygnału w funkcji czasu,

1. Przetwarzanie wstępne: z powodu takich czynników jak ofset konwertera A/D i szumu

o częstotliwości 50 (60) Hz w sygnale, digitalizowany sygnał mowy ma niezerową
wartość średnią, niezbędną dla wielu sposobów przetwarzania. Utworzyć sygnał



z o

zerowej wartości średniej:









 







dla



Wykonać wykres sygnału



z w funkcji czasu.

Rozwiązanie:

[s, fs] = wavread(

'lab2_shortV1.wav'

);

%wczytwanie pliku

ts=1/fs;

L=length(sig);

t_sygnalu=ts*(L-1);

os_czasu=0:ts:t_sygnalu;

u = ((1/L)*sum(s,

'double'

));

z=zeros(1,L);

for

j=1 : L

z(j)=s(j) - u;

end

;

W powyższym rozwiązaniu po wczytaniu pliku dźwiękowego wyznaczam czas całkowitego
sygnału (t_sygnalu), który jest potrzebny do wykonania wykresu przebiegu czasowego
oryginalnego sygnału.
Jako pierwszy wyrysowywany jest wykres przedstawiający L-próbkowy sygnał s(i) w funkcji
czasu:

0.1

0.2

0.3

0.4

0.5

0.6

0.7

-1

-0.8

-0.6

-0.4

-0.2

0.2

0.4

0.6

0.8

Przebieg czasowy oryginalnego sygnału

czas [s]

śc

i p

ró

Następnie zgodnie z wzorami:









 







dla



Wyznaczam z(i):

u = ((1/L)*sum(s,

'double'

));

z=zeros(1,L);

for

j=1 : L

z(j)=s(j) - u;

end

;

Otrzymamy wykres sygnału z(i) o zerowej wartości średniej w funkcji czasu:

0.1

0.2

0.3

0.4

0.5

0.6

0.7

-1.2

-1

-0.8

-0.6

-0.4

-0.2

0.2

0.4

0.6

0.8

Przebieg czasowy sygnału z(i)

czas [s]

śc

i p

ró

Zadanie drugie:

2. Sygnał



z podzielić na ramki (segmenty) o długości



256. Dla każdej ramki

wyznaczyć:



wartość największą M

 

max







energię sygnału

 





log



współczynniki LPC (przyjąć p=12)



liczbę przejść przez zero PPZ

 

 

















sign

PPZ

gdzie:

 

 

 

 

 

dla

sign

dla

sign











Rozwiązanie:

T = zeros(1,256);

M = zeros(1,256);

x=1;

W_rows=floor(L/256);

M=zeros(W_rows,1);

E=zeros(W_rows,1);

PPZ=zeros(W_rows,1);

LPC=zeros(W_rows,13);

W=zeros(W_rows,256);

tmp=zeros(1,256);

p=12;

for

i=1:1:W_rows

sumsig=0;

for

i2=1:1:256;

W(i,i2)=z(x);

tmp(1,i2)=z(x)*z(x);

(i2>1)

sumsig=sumsig+abs(sign(z(x))-sign(z(x-1)));

end

;

x=x+1;

end

;

M(i)=max(abs(W(i,:)));

E(i)=log10(sum(tmp,

'double'

));

LPC(i,:)=lpc(W(i,:),p);

PPZ(i)=0.5*sumsig;

end

;

l_ram=1:1:W_rows;

Po podzieleniu sygnału na ramki uzyskałem 57 pełnych ramek które przechowywane są w
zmiennej W.

Kolejno wyznaczam dla każdej ramki:
-wartość największą: zgodnie ze wzorem

 

max





, odpowiada temu zapis w kodzie:

M(i)=max(abs(W(i,:)));

-energię sygnału: zgodnie ze wzorem

 





log

, odpowiada temu zapis w kodzie:

E(i)=log10(sum(tmp,

'double'

));

-współczynniki LPC dla p=12: odpowiada temu zapis w kodzie:

LPC(i,:)=lpc(W(i,:),p);

-liczbę przejść przez zero: zgodnie ze wzorem

 

 

















sign

PPZ

Odpowiadający temu zapis w kodzie:

PPZ(i)=0.5*sumsig;
gdzie
sumsig=sumsig+abs(sign(z(x))-sign(z(x-1)));

Następnie wyświetlone zostają kolejno wykresy:
-Maksymalnych wartości w poszczególnych ramkach
-Energia sygnału w poszczególnych ramkach
-Wykres obrazujący liczbę przejść przez zero w poszczególnych ramkach

0.5

1.5

Wykres maksymalnych wartości w poszczególnych ramkach

numer ramki

ść

ię

-3

-2

-1

Energia sygnału w poszczególnych ramkach

numer ramki

ał

100

Wykres obrazujący PPZ w poszczególnych ramkach

numer ramki

lic

jś

Obserwując wykres wartości maksymalnych oraz wykres energii sygnału, zauważyć możemy
że oba wykresy zachowują się podobnie z tym że dla wartości maksymalnych bliskich zeru
energia przyjmuje wartości ujemne. Na wykresie wartości maksymalnych możemy także
zaobserwować dużą różnicę pomiędzy wartościami maksymalnymi fonemów e1 oraz e2 nad
pozostałymi fonemami.
Za to na wykresie obrazującym ilość przejść przez zero możemy zaobserwować zależność
pomiędzy gęstością sygnału a ilością ppz.
Wartości największe i najmniejsze spośród wszystkich ramek:
M

max

= 1.0046

min

= 0.0161

max

= 1.3729

min

= -2.4928

PPZ

max

= 99

PPZ

min

= 4

Wykresy prezentujące współczynniki LPC dla poszczególnych ramek:

-3

-2

-1

ść

Nr ramki

Współczynniki LPC 2,3,4 dla poszczególnych ramek

-3

-2

-1

ść

Nr ramki

Współczynniki LPC 5,6,7 dla poszczególnych ramek

-2

-1.5

-1

-0.5

0.5

1.5

ść

Nr ramki

Współczynniki LPC 8,9,10 dla poszczególnych ramek

Zadanie trzecie

3. Wyznaczyć i porównać spektrogramy sygnału



z :



pokazać wpływ oknowania (przyjąć okna: prostokątne i Hamminga)



dobrać szerokość i przekrycie okien.

Wykresy sygnału z(i) po zastosowaniu spektrogramu dla stałej szerokości 1024, okna
Hamminga oraz zmiennego przekrycia.

Time

Okno Hamminga nfft=1024 noverlap=32

0.1

0.2

0.3

0.4

0.5

0.6

5000

10000

Time

Okno Hamminga nfft=1024 noverlap=128

0.1

0.2

0.3

0.4

0.5

0.6

5000

10000

Time

Okno Hamminga nfft=1024 noverlap=512

0.1

0.2

0.3

0.4

0.5

0.6

5000

10000

Wykresy sygnału z(i) po zastosowaniu spektrogramu dla zmiennej szerokości, okna
Hamminga oraz stałego przekrycia wynoszącego 128.

Time

Okno Hamminga nfft=256 noverlap=128

0.1

0.2

0.3

0.4

0.5

0.6

5000

10000

Time

Okno Hamminga nfft=512 noverlap=128

0.1

0.2

0.3

0.4

0.5

0.6

5000

10000

Time

Okno Hamminga nfft=1024 noverlap=128

0.1

0.2

0.3

0.4

0.5

0.6

5000

10000

Wykresy sygnału z(i) po zastosowaniu spektrogramu dla stałej szerokości 1024 i 512, okna
Hamminga oraz bardzo zróżnicowanego przekrycia.

Time

Okno Hamminga nfft=1024 noverlap=1020

0.1

0.2

0.3

0.4

0.5

0.6

5000

10000

Time

Okno Hamminga nfft=512 noverlap=8

0.1

0.2

0.3

0.4

0.5

0.6

5000

10000

Wykresy sygnału z(i) po zastosowaniu spektrogramu dla stałej szerokości 1024 i 512, okna
prostokątnego oraz bardzo zróżnicowanego przekrycia.

Time

Okno Prostokatne nfft=1024 noverlap=1020

0.1

0.2

0.3

0.4

0.5

0.6

5000

10000

Time

Okno Prostokatne nfft=512 noverlap=8

0.1

0.2

0.3

0.4

0.5

0.6

5000

10000

Powyżej wyrysowane są spektrogramy kolejno pod wpływem okna Hamminga, pod
wpływem okna prostokątnego dla zmiennych szerokości i przekrycia. Jak możemy zauważyć
spektrogram pod wpływem okna Hamminga jest bardziej posiada lepszą rozdzielczość

częstotliwości, niż pod wpływem okna prostokątnego lecz jest gorszy pod względem
rozdzielczości amplitudowej.

Zadanie czwarte

4. Wybrać i narysować pięć ramek, po jednej z każdego z fonemów zarejestrowanego

słowa. Dla każdej ramki:

a) dokonać analizy autokorelacyjnej [xcorr(sig)];
b) wyznaczyć 256-punktowe FFT z oknem Hamminga. Narysować widmo

amplitudowe dla częstotliwości z zakresu









;

c) dokonać analizy formantów dla fonemów (tam gdzie to możliwe) za pomocą

poniższych metod:

Metoda I:

 wyznaczyć widmo amplitudowe

[

abs(fft(sig)];

 wyznaczyć widmo amplitudowe

[

abs(fft(hamming(256) .* sig))];

 wyznaczyć widmo mocy

[

10 log10(abs(fft(hamming(256) .* sig)))];

Metoda II:

 wyznaczyć widmo predykcji liniowej:

a=lpc(hamming(256) .* sig, 16);
h=abs(1 ./ fft([a zeros(1,256-17)]));

Wykonać wykresy widm i wyznaczyć częstotliwości formantowe (porównać

wyniki w/w metod);

d) ramki rozszerzyć o 256 próbki zerowe i dla takiej ramki wyznaczyć widmo

512-punktowe („nowa” ramka powinna składać się z 256 próbek „starej”
ramki w otoczeniu 128 próbek zerowych z przodu i z tyłu analizowanego
sygnału mowy; zastosować 512-punktowe okno Hamminga); narysować
wykres widma amplitudowego, porównać z widmem z punktu b)

Rozwiązanie

ramka_s=zeros(1,256);

ramka_e1=zeros(1,256);

ramka_d=zeros(1,256);

ramka_2e=zeros(1,256);

ramka_m=zeros(1,256);

ramka_s(1,1:256)=z(2560:2815);

ramka_e1(1,1:256)=z(4608:4863);

ramka_d(1,1:256)=z(7936:8191);

ramka_2e(1,1:256)=z(8960:9215);

ramka_m(1,1:256)=z(11008:11263);

ramka=abs(fft(Hamming(256).*ramka_s'));

ramka1=abs(fft(Hamming(256).*ramka_e1'));

ramka2=abs(fft(Hamming(256).*ramka_d'));

ramka3=abs(fft(Hamming(256).*ramka_2e'));

ramka4=abs(fft(Hamming(256).*ramka_m'));

a1=lpc(hamming(256) .* ramka_s', 16);

a2=lpc(hamming(256) .* ramka_e1', 16);

a3=lpc(hamming(256) .* ramka_d', 16);

a4=lpc(hamming(256) .* ramka_2e', 16);

a5=lpc(hamming(256) .* ramka_m', 16);

h1=abs(1 ./ fft([a1 zeros(1,256-17)]));

h2=abs(1 ./ fft([a2 zeros(1,256-17)]));

h3=abs(1 ./ fft([a3 zeros(1,256-17)]));

h4=abs(1 ./ fft([a4 zeros(1,256-17)]));

h5=abs(1 ./ fft([a5 zeros(1,256-17)]));

ramka_s1=zeros(1,512);
ramka_e11=zeros(1,512);

ramka_d1=zeros(1,512);

ramka_2e1=zeros(1,512);

ramka_m1=zeros(1,512);

ramka_s1(128:383)=ramka_s(1:256);

ramka_e11(128:383)=ramka_e1(1:256);

ramka_d1(128:383)=ramka_d(1:256);

ramka_2e1(128:383)=ramka_2e(1:256);

ramka_m1(128:383)=ramka_m(1:256);

ramka_s1=abs(fft(Hamming(512).*ramka_s1'));

ramka_e11=abs(fft(Hamming(512).*ramka_e11'));

ramka_d1=abs(fft(Hamming(512).*ramka_d1'));

ramka_2e1=abs(fft(Hamming(512).*ramka_2e1'));

ramka_m1=abs(fft(Hamming(512).*ramka_m1'));

Pierwszym zadaniem było wybranie i wyrysowanie pięciu przykładowych ramek, po jednej
dla każdego fonemu.

Na początek zadeklarowałem zerowe macierze dla każdej ramki

ramka_s=zeros(1,256);

ramka_e1=zeros(1,256);

ramka_d=zeros(1,256);

ramka_2e=zeros(1,256);

ramka_m=zeros(1,256);

Następnie przepisuję wybrane zakresy sygnału z(i) do uprzednio
zadeklarowanych macierzy

ramka_s(1,1:256)=z(2560:2815);

ramka_e1(1,1:256)=z(4608:4863);

ramka_d(1,1:256)=z(7936:8191);

ramka_2e(1,1:256)=z(8960:9215);

ramka_m(1,1:256)=z(11008:11263);

2550

2600

2650

2700

2750

2800

2850

-0.2

-0.15

-0.1

-0.05

0.05

0.1

0.15

0.2

Ramka dla fonemu ś

Nr próbki

ść

ró

4600

4650

4700

4750

4800

4850

4900

-0.8

-0.6

-0.4

-0.2

0.2

0.4

0.6

Ramka dla fonemu e1

Nr próbki

ść

ró

7900

7950

8000

8050

8100

8150

8200

-0.06

-0.04

-0.02

0.02

0.04

0.06

0.08

Ramka dla fonemu d

Nr próbki

ść

ró

8950

9000

9050

9100

9150

9200

9250

-0.8

-0.6

-0.4

-0.2

0.2

0.4

0.6

Ramka dla fonemu e2

Nr próbki

ść

ró

1.1

1.105

1.11

1.115

1.12

1.125

1.13

x 10

-0.2

-0.15

-0.1

-0.05

0.05

0.1

0.15

Ramka dla fonemu m

Nr próbki

ść

ró

Kolejnym do wykonania zadaniem było wykonanie analizy autokorelacyjnej
[xcorr(sig)].

2600

2650

2700

2750

2800

-0.5

0.5

Autokorelacja dla ramki fonemu ś

Czestotliwosc

4650

4700

4750

4800

4850

-5

Autokorelacja dla ramki fonemu e1

Czestotliwosc

7950

8000

8050

8100

8150

-0.2

-0.15

-0.1

-0.05

0.05

0.1

0.15

0.2

Autokorelacja dla ramki fonemu d

Czestotliwosc

9000

9050

9100

9150

9200

-20

-15

-10

-5

Autokorelacja dla ramki fonemu e2

Czestotliwosc

1.105

1.11

1.115

1.12

1.125

x 10

-1

-0.5

0.5

1.5

Autokorelacja dla ramki fonemu m

Czestotliwosc

Na powyższych wykresach możemy zaobserwować że maksima znajdują się w tych samych
położeniach  fonemów.  Dodatkowo  warto  zwrócić  uwagę  na  różnicę  pomiędzy  wartościami
osiąganymi dla  fonemów e1 i e2 a fonemami ś, d oraz m. Jak widać na wykresie najmniejszą
wartość  osiągnął  fonem  d.  Jako  że  druga  połowa  sygnału  jest  odbiciem  lustrzanym  lewej
części wykresu zamieściłem tylko jedną połówkę wykresu.

Następnym  punktem  do  wykonania  było  wyznaczenie  256-punktowego  FFT  z  oknem
Hamminga.
Zostało to wykonane za pomocą następującego kodu:

ramka=abs(fft(Hamming(256).*ramka_s'));

ramka1=abs(fft(Hamming(256).*ramka_e1'));

ramka2=abs(fft(Hamming(256).*ramka_d'));

ramka3=abs(fft(Hamming(256).*ramka_2e'));

ramka4=abs(fft(Hamming(256).*ramka_m'));

2560

2580

2600

2620

2640

2660

2680

0.5

1.5

2.5

3.5

Widmo amplitudowe dla fonemu ś w zakresie [0,fs/2]

Czestotliwosc

4620

4640

4660

4680

4700

4720

Widmo amplitudowe dla fonemu e1 w zakresie [0,fs/2]

Czestotliwosc

7940

7960

7980

8000

8020

8040

8060

0.5

1.5

2.5

3.5

Widmo amplitudowe dla fonemu d w zakresie [0,fs/2]

Czestotliwosc

8960

8980

9000

9020

9040

9060

9080

Widmo amplitudowe dla fonemu e2 w zakresie [0,fs/2]

Czestotliwosc

1.102

1.104

1.106

1.108

1.11

1.112

x 10

0.5

1.5

2.5

3.5

4.5

Widmo amplitudowe dla fonemu m w zakresie [0,fs/2]

Czestotliwosc

Kolejnym krokiem do wykonania było narysowanie widma amplitudowego za pomocą wzoru
[abs(fft(sig)];

2560

2580

2600

2620

2640

2660

2680

0.5

1.5

2.5

3.5

Widmo amplitudowe dla ramki fonemu ś

Czestotliwosc

4620

4640

4660

4680

4700

4720

Widmo amplitudowe dla ramki fonemu e1

Czestotliwosc

7940

7960

7980

8000

8020

8040

8060

0.5

1.5

2.5

3.5

Widmo amplitudowe dla ramki fonemu d

Czestotliwosc

8960

8980

9000

9020

9040

9060

9080

Widmo amplitudowe dla ramki fonemu e2

Czestotliwosc

2560

2580

2600

2620

2640

2660

2680

-40

-35

-30

-25

-20

-15

-10

-5

Widmo mocy dla ramki fonemu ś

Czestotliwosc

)

1.102

1.104

1.106

1.108

1.11

1.112

x 10

Widmo amplitudowe dla ramki fonemu m

Czestotliwosc

Następnie wyznaczam widmo mocy ze wzoru [10 log10(abs(fft(hamming(256) .* sig)))];

4620

4640

4660

4680

4700

4720

-30

-25

-20

-15

-10

-5

Widmo mocy dla ramki fonemu e1

Czestotliwosc

)

7940

7960

7980

8000

8020

8040

8060

-35

-30

-25

-20

-15

-10

-5

Widmo mocy dla ramki fonemu d

Czestotliwosc

)

8960

8980

9000

9020

9040

9060

9080

-20

-15

-10

-5

Widmo mocy dla ramki fonemu e2

Czestotliwosc

)

1.102

1.104

1.106

1.108

1.11

1.112

x 10

-35

-30

-25

-20

-15

-10

-5

Widmo mocy dla ramki fonemu m

Czestotliwosc

)

2560

2580

2600

2620

2640

2660

2680

Widmo predykcji liniowej dla ramki fonemu ś

Czestotliwosc

)

Drugą metodą analizy formantów dla fonemów jest widmo predykacji liniowej, wykonane
przy zastosowaniu poniższych wzorów

a=lpc(hamming(256) .* sig, 16);
h=abs(1 ./ fft([a zeros(1,256-17)]));

Kod odpowiadający za wykonanie tego podpunktu:

a1=lpc(hamming(256) .* ramka_s', 16);

a2=lpc(hamming(256) .* ramka_e1', 16);

a3=lpc(hamming(256) .* ramka_d', 16);

a4=lpc(hamming(256) .* ramka_2e', 16);

a5=lpc(hamming(256) .* ramka_m', 16);

h1=abs(1 ./ fft([a1 zeros(1,256-17)]));

h2=abs(1 ./ fft([a2 zeros(1,256-17)]));

h3=abs(1 ./ fft([a3 zeros(1,256-17)]));

h4=abs(1 ./ fft([a4 zeros(1,256-17)]));

h5=abs(1 ./ fft([a5 zeros(1,256-17)]));

4620

4640

4660

4680

4700

4720

100

Widmo predykcji liniowej dla ramki fonemu e1

Czestotliwosc

)

7940

7960

7980

8000

8020

8040

8060

100

Widmo predykcji liniowej dla ramki fonemu d

Czestotliwosc

)

1.102

1.104

1.106

1.108

1.11

1.112

x 10

100

120

140

160

180

200

Widmo predykcji liniowej dla ramki fonemu m

Czestotliwosc

)

Analizując otrzymane wykresy zarówno jak w metodzie 1 jak i 2 możemy zaobserwować że
ilość maksymalnych wartości lokalnych dla fonemów e1 i e2 jest znacząco większa od
pozostałych. Co za tym idzie dla samogłosek uzyskamy o więcej maksymalnych wartości
lokalnych.
Jak można zauważyć wyniki są zbliżone pod względem wielkości częstotliwości
formantowych, w szczególności na początkach i końcach widm, za to różnicą którą możemy
zauważyć w metodzie 1 w stosunku do metody drugiej to to że w 1 metodzie na środku widm
uzyskaliśmy częstotliwości formantowe.

Ostatnim  podpunktem  do  wykonania  było  rozszerzenie  ramek  o  256  zerowych  próbek  i  dla
takiej  ramki  wyznaczyć  widmo  512-punktowe  („nowa”  ramka  powinna  składać  się  z  256
próbek  „starej”  ramki  w  otoczeniu  128  próbek  zerowych  z  przodu  i  z  tyłu  analizowanego
sygnału mowy; zastosować 512-punktowe okno Hamminga). Oraz narysować wykres widma
amplitudowego.

Wykonałem to za pomocą poniższego kodu:

ramka_s1=zeros(1,512);

ramka_e11=zeros(1,512);

ramka_d1=zeros(1,512);

ramka_2e1=zeros(1,512);

ramka_m1=zeros(1,512);

2560

2580

2600

2620

2640

2660

2680

0.5

1.5

2.5

3.5

Okna Hamminga[512] dla fonemu ś dla f = [0,fs/2]

Czestotliwosc

ramka_s1(128:383)=ramka_s(1:256);

ramka_e11(128:383)=ramka_e1(1:256);

ramka_d1(128:383)=ramka_d(1:256);

ramka_2e1(128:383)=ramka_2e(1:256);

ramka_m1(128:383)=ramka_m(1:256);

ramka_s1=abs(fft(Hamming(512).*ramka_s1'));

ramka_e11=abs(fft(Hamming(512).*ramka_e11'));

ramka_d1=abs(fft(Hamming(512).*ramka_d1'));

ramka_2e1=abs(fft(Hamming(512).*ramka_2e1'));

ramka_m1=abs(fft(Hamming(512).*ramka_m1'));

4620

4640

4660

4680

4700

4720

Okna Hamminga[512] dla fonemu e1 dla f = [0,fs/2]

Czestotliwosc

7940

7960

7980

8000

8020

8040

8060

0.5

1.5

2.5

3.5

Okna Hamminga[512] dla fonemu d dla f = [0,fs/2]

Czestotliwosc

8960

8980

9000

9020

9040

9060

9080

Okna Hamminga[512] dla fonemu e2 dla f = [0,fs/2]

Czestotliwosc

1.102

1.104

1.106

1.108

1.11

1.112

x 10

Okna Hamminga[512] dla fonemu m dla f = [0,fs/2]

Czestotliwosc