Istnieją przesłanki wskazujące na niezależność prozodiow od rasy, kultury, relign, a także od języka natywnego mówcy. Liczne badania wskazują, że korelaty emocji podstawowych w różnych kulturach są podobne ze względu na uniwersalne zjawiska fizjologiczne [7]. Aczkolwiek wielu naukowców neguje tezę uniwersalności mowy emocjonalnej. W badaniach [8] przeprowadzonych na grupie wolontariuszy z Hiszpanii i Szwecji udowodniono, jak trudno jest rozpoznać emocje w głosie mówcy innej narodowości. Najlepsze wyniki osiągnięto dla smutku i wyniosły one zaledwie 53%, inne emocje rozpoznawane były z dokładnością niższą niż 30%. Należy przy tym podkreślić, że wyniki badań tego samego spektrum emocji u osób tej samej narodowości, średnio wahają się w granicach 55 - 60% [8]. Stosunkowo niska rozpoznawalność wiąże się z występowaniem podobnych zjawisk fizjologicznych dla danych stanów, co prowadzi do podobieństw cech akustycznych. Należy dodatkowo wziąć pod uwagę, że na ludzką ocenę wypływa również kontekst wypowiedzi. Dlatego, przy analizie komputerowej dokonywanej wyłącznie na podstawie cech akustycznych, nie należy oczekiwać lepszych rezultatów. Mimo to, w związku z szeroką dostępnością sygnału mowy również przy dużej odległości oraz przy komunikacji za pomocą urządzeń teleinformatycznych, jest to ważny element tego typu rozważań.
Automatyczne rozpoznawanie to proces klasyfikacji analizowanych danych (wzorców), w oparciu o wiedzę zgromadzoną w systemie informatycznym, bazując na narzuconych lub odkrytych przez ten system regułach [9]. Wspólnym mianownikiem problemów tej dziedziny jest algorytm obejmujący pewne zasadnicze fazy (rys. 2). Ponieważ rozpoznawanie emocji jest tematem wpisującym się w schemat ogólnej metodologii automatycznego rozpoznawania, algorytm ten jest wykorzystywany w podjętych badaniach.
Rysunek 2. Algorytm rozpoznawania wzorców
Pierwszy krok algorytmu to akwizycja danych, którą w przypadku niniejszej pracy stanowi baza mowy emocjonalnej. Następny krok to przygotowanie danych do dalszej analizy, czyli tzw.
5