Aktywacja poleceń głosowych w kabinie pojazdu – charakterystyka jakości głosu kierowcy
Wprowadzenie
Obecnie współczesne pojazdy wyposażone są w systemy automatycznego rozpoznawania mowy. Jednym z najlepszych i
dobrze osadzonych systemów rozpoznawania mowy jest system MyFordTouch znajdujący się w kabinie pojazdu marki Ford.
System umożliwia sterowanie poleceniami głosowymi systemów multimedialnych, a także nawigacji. Charakteryzuje się
wysokim stopniem zrozumiałości mowy. Jego aktywacja odbywa się przez naciśnięcie specjalnego przycisku, po wciśnięciu
którego osoba może wydawać słowne polecenia. Co więcej takich systemów postaje coraz więcej.
Powstaje jednak pytanie, czy wszystkie osoby mogą z takiego systemu korzystać? Aby odpowiedzieć na to pytanie, należy
zbadać charakterystykę głosu mówcy. Wymaga to wiedzy z zakresu medycyny i techniki.
MyFordTouch:
http://media.ford.com/images/10031/MyFord_English_LR.pdf
Parametry
Parametry, które pozwalają ocenić jakość głosu są między innymi: średnia częstotliwość podstawowa, współczynnik HNR
(ang. Harmonic-To Noise Ratio), współczynnik Jitter, Shimmer. Jeżeli wartości tych parametrów przekraczają określone
wartości prezentowane w tabeli 1, wówczas może to świadczyć o patologii głosu. A w tym wypadku jakość głosu może być
nie najlepsza np. chrypka, co może wpłynąć na wynik rozpoznawania mowy, a więc zmniejszyć jego dokładność.
Tabela 1. Parametry normatywne głosu – przedłużona fonacja samogłoski [i] oraz [a]
Parametr
Wartość
Średnia częstotliwość podstawowa
Kobiety:
Mężczyźni:
Dzieci:
Jitter [%]
Względna zmienność częstotliwości
podstawowej (z okresu na okres) w
obrębie analizowanej próbki głosu.
1.040%
Shimmer [%]
Współczynnik Shimmer stosowany jest
do określenia zmienności amplitudy tonu
podstawowego w kolejnych cyklach w
stosunku do amplitudy średniej tonu
podstawowego.
3.810%
HNR
20 dB
Więcej o głosie:
http://www.fon.hum.uva.nl/praat/manual/Voice.html
Parametry formantów to parametry wyznaczone na podstawie przeprowadzonej analizy częstotliwościowej. Jeżeli
wyznaczymy parametry częstotliwościowe – formanty samogłosek, wówczas będziemy mogli odnieść się do procesu
prawidłowości artykulacji mówcy, oraz do stanu emocjonalnego mówcy np. nadmierny stres.
Program Praat:
http://www.fon.hum.uva.nl/praat/
Program służy do analizy głosu. Pozwala wyznaczyć przytoczone parametry.
Aby wczytać plik wave do programu Praat należy:
Po otwarciu pliku wybrać opcję: View and Edit.
Powinno się pojawić następujące okno:
Aby wyznaczyć parametry należy zaznaczyć nagranie:
Następnie można wyznaczyć poszczególne parametry głosu poprzez wybranie opcji Menu (Spectrum-Show Spectrogram):
Podobnie dla opcji menu Pitch, Intensity, Formant, Pulses.
Następnie należy odczytać i zinterpretować raport głosu poprzez wciśnięcie opcji menu: Pulses->Voice Report. Tutaj
mieszczą się niezbędne do analizy wartości parametrów.
POLECENIA DO WYKONANIA
1.
Należy ocenić jakość sygnału mowy mówcy na podstawie oceny zgodności wyznaczonych wartości parametrów
takich jak średnia częstotliwość podstawowa, współczynnik HNR (ang. Harmonic-To Noise Ratio), współczynnik
Jitter, Shimmer, z wartościami normatywnymi w tabeli 1.
2.
Należy określić stan emocjonalny kierowcy na podstawie częstotliwości formantowych.