Bazując na tych obserwacjach stworzono algorytm rozpoznawania natężenia emocji podstawowej. Wejście algorytmu stanowią: obiekty zbioru treningowego danej klasy CUk, model mowy neutralnej (centroid) Xn oraz nieznany obiekt z określoną klasą podstawową xn. Następnie obliczane są odległości d pomiędzy centroidem mowy neutralnej, a każdym obiektem ze zbioru treningowego CUk. Odległości te są sortowane malejąco. Bazując na nich, zbiór dzielony jest na trzy podzbiory intensywności. Podzbiór, którego odległość centroidu od centroidu mowy neutralnej jest największa, uznawany jest za zbiór najwyższych intensywności, podzbiór z najmniejszą odległością, jako intensywność najniższa, zaś podzbiór przejściowy, jako emocja podstawowa. Dla każdego podzbioru wyznaczany jest centroid według wzoru 3:
fik = -jy- Xj dla k = {1,2,3} (3)
k 4fi^n+1
gdzie: /ik - centroid podzbioru k, Nk - liczność podzbioru k.
Zastosowanie metody najbliższej średniej (ang. nearest mean), której istotą jest zastąpienie wszystkich próbek konkretnej klasy ich wartością średnią (centroidem), ogranicza przede wszystkim czasochłonność obliczeń. Teraz nieznany obiekt xn porównywany jest tylko z centroidami konkretnych podzbiorów, a zatem wykonywane są tylko trzy operacje obliczania odległości. Nieznany obiekt przypisywany jest do klasy intensywności na podstawie najmniejszej odległości od centroidu.
Algorytm wyjściowy
W poprzednich podrozdziałach szczegółowo opisane zostały kolejne elementy finalnego algorytmu rozpoznawania mowy emocjonalnej. Składa się on z pięciu modułów, tworzących kolejne poziomy struktury hierarchicznej:
1. Poziom zerowy - wejście modułu stanowi wypowiedź emocjonalna (wektor cech), która następnie podlega procesowi klasyfikacji określającej płeć mówcy. Wyjście modułu stanowi wypowiedź z określoną płcią (męska, żeńska).
2. Poziom pierwszy - wejście modułu stanowi wypowiedź określonej płci, która następnie poddawana jest segmentacji. Każda wypowiedź trwająca dłużej niż 3s dzielona jest na 3-sekundowe segmenty.
3. Poziom drugi - wejście modułu stanowią fragmenty wypowiedzi, które następnie poddawane są osobnej klasyfikacji z wykorzystaniem klasyfikatora k-NN, a dodatkowo liczba klasyfikatorów, przypadająca na jeden fragment uzależniona jest od liczby grup cech wykorzystywanych w badaniach.
17