brało udział piętnaście prawidłowo słyszących osób rożnej płci, w wieku od 21 do 58 lat. Zadaniem uczestników badania było dokonanie oceny nagrania i zakwalifikowanie do jednej z wybranych grup (klas). Proces ten odbywał przy pomocy stworzonego do tego celu oprogramowania. Osoba oceniająca odsłuchiwała nagrania jedno po drugim i dokonywała wyboru, który kolejno zapisywany był w bazie danych. Każdą z próbek można było odtworzyć dowolną ilość razy przed dokonaniem ostatecznej oceny, jednakże po dokonaniu wyboru, nie było możliwości powrotu do danego nagrania. Na tej podstawie sporządzono wyniki rozpoznawania poszczególnych emocji przez każdą z osób. Średnie rozpoznawanie wyniosło 82,6% w zakresie od 63% do 93%. Należy jednak podkreślić, że wzór stanowiły próby ocenione przez autorkę i studentów psychologii, a ocena ta również jest subiektywna. Dlatego też próbki, które wielokrotnie etykietowano niezgodnie z oceną ekspertów, zostały włączone do zbioru stanowiącego niejednoznacznie określone stany. Emocje ocenione zgodnie przez co najmniej dziesięć osób, zostały sklasyfikowane jako czyste stany prototypowe. Część z nich stanowi zbiór treningowy, część zbiór testowy niniejszych badań. Podczas procesu etykietowania wolontariusze zostali poproszeni dodatkowo o oznaczenie intensywności (natężenia) czterech podstawowych stanów emocjonalnych (gniew, radość, strach i smutek) w skali od jednego (najniższe natężenie) do 3 (najwyższe natężenie). W ten sposób uzyskano etykiety diad emocjonalnych.
4.2. Deskryptory sygnału mowy
Jednym z najistotniejszych kroków jest ilościowy opis przedmiotu badań, czyli identyfikacja cech obiektu, które niosą informacje, wystarczające do efektywnej klasyfikacji. W poniższej tabeli dokonano zestawienia deskryptorów sygnału mowy wykorzystanych podczas prowadzonych badań.
Zestawienie deskryptorów mowy wykorzystanych w niniejszych badaniach
Grupa cech |
Opis cechy |
Średnia wartość F0 Maksymalna wartość F0 Minimalna wartość F0 Mediana F0 Odchylenie standardowe F0 Zakres F0 |
10