Komunikacja interpersonalna to nieodzowny element ludzkiego życia. Rozmowa dostarcza słuchaczowi zarówno informacji lingwistycznych, jak i określa charakterystykę biologiczno -psychologiczną mówcy. Wydobycie obu rodzajów informacji poprawia jakość komunikacji. Ważnym elementem konwersacji jest ocena stanu emocjonalnego rozmówcy, który możemy również z niej odczytać.
W dzisiejszych czasach, kiedy komputery są częścią naszego życia, poszukuje się rozwiązań mających na celu polepszenie komunikacji człowiek-komputer/człowiek-robot (HCI/HRI). Dlatego też powstają nowoczesne technologie rozpoznawania ludzkiej mowy. Systemy, które dodatkowo rozpoznawałyby stany emocjonalne użytkownika, byłyby bardziej naturalne i wiarygodne. Toteż komputerowe rozpoznawanie emocji stało się istotnym trendem badawczym.
Odczucia wyrażane są zarówno poprzez procesy werbalne jak i niewerbalne. Sygnały takie jak mowa [1], mimika twarzy [2], kontakt wzrokowy, gesty [3] oraz stan fizjologiczny organizmu (elektroencefalografia EEG, elektromiografia EMG, reakcja skórno-galwaniczna GSR, temperatura skóry, rytm i długości wydechów czy ciśnienie tętnicze) [4] stanowią wejście systemów rozpoznawania emocji. Ludzki głos, najłatwiej dostępny z wyżej wymienionych sygnałów, jest również szeroko stosowany jako źródło informacji na temat stanu emocjonalnego mówcy.
Niniejsze rozważania dotyczą rozpoznawania stanów emocjonalnych wyrażanych głosem. Autorka skupiła się głównie na mowie spontanicznej, dotychczas powszechnie zastępowanej mową odegraną. Na potrzeby zrealizowanych badań zgromadzone zostały nagrania audio z nośnikiem emocjonalnym, stanowiące kompleksową bazę wejściową. Opierając się na kole Roberta Plutchika stworzono modele emocji podstawowych oraz wtórnych, będących wariacjami stanów podstawowych. Autorka przedstawiła nowatorski sposób klasyfikacji emocji spontanicznych stosując przy tym zarówno powszechnie znane deskryptory sygnału
1