głosowania, ale nie każdy głos jest liczony jednakowo. Dla każdego ucznia (klasyfikator konkretnej grupy cech) określa się wagi wi,W2, wm, co pozwala nadać priorytet lepszym uczniom. Decyzja podejmowana jest wtedy na podstawie równania ??.
r< = Y.Wjdji (1)
3=1
Z = ar^max[r{] (2)
Problem stanowi sposób dobierania właściwych wag, podejście to wymaga umiejętności ocenienia (albo przynajmniej porównania) klasyfikatorów bazowych. W niniejszej pracy wagi zostały dobrane doświadczalnie, na podstawie błędu poszczególnych klasyfikatorów.
Segmentacja mowy
Biorąc pod uwagę założenie zmienności stanów emocjonalnych w trakcie wypowiedzi zastosowano segmentację mowy. Założono bazową długość fragmentu 3 s - w tym czasie stan nie powinien ulec zmianie. Podobne podejście autorka zastosowała w [13], gdzie wypowiedź dzielona była na trzy fragmenty o równej długości: początek, środek i koniec wypowiedzi. Następnie dokonywana była oddzielna klasyfikacja każdego z fragmentów, a wynik rozpoznawania uzyskiwano za pomocą głosowania równoprawnego. Ponieważ w wykorzystywanym w niniejszej pracy korpusie mowy zdarzają się również krótsze fragmenty mowy (krótkie wypowiedzi, pojedyncze słowa), a niekiedy tylko dźwięki (śmiech, krzyk, pisk), tego typu segmentacja nie może zostać wykorzystana. Dlatego też zastosowano podział na 3-sekundowe fragmenty. W przypadku, gdy wypowiedź jest krótsza niż 3 s, pozostaje ona niepodzielona. Jeśli jednak wypowiedź jest dłuższa, całość zostaje podzielona na fragmenty 3-sekundowe oraz fragment dopełniający (mający co najmniej 500 ms). Jeśli fragment końcowy jest krótszy niż 500 ms, zostaje on dodany do ostatniego fragmentu 3-sekundowego. Następnie każdy z nich zostaje poddany indywidualnej klasyfikacji przy użyciu algorytmu k-NN.
Rozpoznawanie intensywności emocji podstawowych
Ostatni poziom klasyfikatora stanowi algorytm rozpoznawania intensywności emocji podstawowych. Jak już wcześniej wspominano, według Plutchika każda z pierwotnych emocji może być odczuwana w trzech stopniach natężenia (np. gniew: irytacja, gniew, furia). Intuicyjna zależność podobieństwa mowy neutralnej i emocjonalnej stanowi hipotezę, na podstawie której opracowano algorytm rozpoznawania natężenia emocji. Można zauważyć, że wraz ze wzrostem natężenia konkretnej emocji, podobieństwo głosu do mowy neutralnej spada. Zależność tę autorka prezentowała między innymi w [1]. Zauważona została proporcjonalna zmiana konturu częstotliwości podstawowej względem mowy neutralnej.
16