Technika rozpoznawania
mowy przesz³a ze cile
strze¿onych rejonów
wysoko postawionej
biurokracji i s³u¿b
specjalnych do domu
i kieszeni szarego
obywatela. Dzi uk³ady
rozpoznaj¹ce mowê
znajdziemy w telefonach
komórkowych,
systemach biurowych
(dyktafony) i sieciach
telefonicznych, a firmy
ze wiatowej czo³ówki
intensywnie pracuj¹ nad
wprowadzeniem ich
w innym sprzêcie
powszechnego u¿ytku.
J
est to sprawa doæ wie¿a: np. pierw-
szy rozpoznaj¹cy mowê wyrób po-
wszechnego u¿ytku opracowany
przez Philipsa (g³osowe wybieranie
numerów w telefonie samochodowym) zo-
sta³ wprowadzony komercyjnie w 1994 r., a sy-
stem dla terminali komórkowych dopiero pod
koniec 1999 r., w pierwszej wersji terminala Xe-
nium. Nieco wczeniejsze by³o pierwsze pro-
fesjonalne oprogramowanie do dyktowania
tekstu komputerom oraz komercyjne systemy
rozpoznawania mowy w telefonii przewodowej.
Obecnie Philips oferuje systemy rozpozna-
wania mowy dla PC w 13 jêzykach, a system
rozpoznawania mowy jest podstawowym ele-
mentem wyposa¿enia komórek tej firmy.
Oprócz telefonów komórkowych, nastêpnym
obszarem zastosowañ konsumenckich bêd¹
telefony DECT i urz¹dzenia RTV.
Uk³ady rozpoznawania mowy wspó³pracuj¹
zwykle z systemami rejestracji wiadomoci
g³osowych. Ale nie tylko. Rozwi¹zaniem per-
spektywicznym jest powi¹zanie funkcji g³oso-
wych, telefonicznych, internetowych i mu-
zycznych w jednym urz¹dzeniu do sterowa-
nia g³osem. Podstawowe systemy rozpo-
znawania reaguj¹ na g³os jednego u¿ytkow-
nika i na pocz¹tku musz¹ siê go nauczyæ (co
ma du¿o zalet a niewiele wad _ z³odziej
w ¿aden sposób nie uruchomi telefonu), ale
ze wzrostem dostêpnoci du¿ych pamiêci
rozwinie siê to do rozwi¹zañ bardziej uni-
ROZPOZNAWANIE MOWY
Radioelektronik Audio-HiFi-Video 10/2001
wersalnych. Wydaje siê jednak, ¿e ³atwiej
bêdzie wtedy przenieæ niektóre mo¿liwoci
obs³ugi g³osowej do sieci telefonicznej lub in-
ternetu, gdzie jest dostêp do wiêkszych mo-
cy obliczeniowych.
Rozpoznanie g³osu sk³ada siê z identyfikacji
i weryfikacji. Identyfikacja oznacza okrelanie
sporód mo¿liwych u¿ytkowników (np. do-
mowników) osoby, która mówi, weryfikacja _
sprawdzenie czy osoba mówi¹ca jest t¹,
która powinna mówiæ. Rozpoznanie mowy
polega na statystycznej analizie g³osu i okre-
leniu jego charakterystyki, zbudowaniu mo-
delu i wykorzystaniu go do rozpoznawania
wymawianych s³ów, czyli _ rozpoznanie wzor-
ców bez zapisywania regu³ rozpoznania.
W Europie sprawa upraszcza siê o tyle, ¿e
wiêkszoæ jêzyków europejskich ma ze sob¹
wiele wspólnego i mo¿na do nich stosowaæ
te same techniki rozpoznawania. Liczba fo-
nemów, czyli najmniejszych elementów mo-
wy (np. dwiêk d w s³owie sad odró¿niaj¹-
ce je od sak czy sam) wynosi tu 40
÷
50 i zna-
jomoæ jednego jêzyka wystarczy do rozpo-
znania innego. Tonalna chiñszczyzna wpro-
wadza wiêcej problemów.
Zastosowania
Badania koncentruj¹ siê obecnie na trzech
perspektywicznych zastosowaniach:
q
Sterowanie g³osowe _ przeznaczone do
sterowania funkcjami przy u¿yciu pojedyn-
czych s³ów (wybór parametru i jego wielko-
ci z menu sterowania telewizora, wybór nu-
meru telefonu itp.).
q
Telefoniczne systemy informacyjne - dzwo-
ni¹cy ¿¹da us³ug informacyjnych (informacji
katalogowej, danych z rozk³adu jazdy czy
lotów) korzystaj¹c z jêzyka naturalnego. Choæ
bardziej skomplikowane, okaza³y siê na tyle
potrzebne, ¿e s¹ ju¿ u¿ywane od ponad 5 lat.
q
Systemy dyktowania _ gdzie mowa w jê-
zyku naturalnym jest przekszta³cana na tekst.
Zaczê³o siê od systemów dla okrelonych
grup zawodowych (prawnicy, radiolodzy),
obecne ukierunkowanie to u¿ytkownicy pe-
cetów. Tu, jeli system nie ma okrelonego
u¿ytkownika, Philips stosuje rejestracjê s³ów
wypowiadanych przez wszystkich mo¿liwych
u¿ytkowników.
Przeciêtny u¿ytkownik najszybciej napotka
system rozpoznawania mowy, nabywaj¹c
jeden z najnowszych modeli terminali ko-
mórkowych ró¿nych firm. Niektóre firmy ofe-
ruj¹ z tym systemem tylko czêæ nowych
modeli, inne (np. Philips) _ wszystkie, uzna-
j¹c go za standard.
Aby rozpoznawanie mowy mog³o w telefonie
dzia³aæ, u¿ytkownik musi najpierw zareje-
strowaæ etykiety s³owne czyli dowolne, krót-
kie (do 2 s) s³owa, imiona itd. Nagrywa siê je
w pamiêci Flash telefonu wiêcej ni¿ jeden raz
(na ogó³ dwukrotnie) i urednia, aby stworzyæ
wzorzec g³osowy, zapisywany nastêpnie
w pamiêci dla póniejszego porównywania.
Wzorzec dopuszcza pewne odchylenia, bo
identyczne wypowiedzenie nawet tak krótkie-
go s³owa jest praktycznie niemo¿liwe. Chy-
ba, ¿e jedna z np. dwóch wypowiedzi branych
do wzorca odchyla siê od poprzedniej bar-
dziej ni¿ zdefiniowane granice odstêpstw _
wtedy procedura nauki koñczy siê niepowo-
dzeniem i trzeba j¹ powtórzyæ jeszcze raz. Ta-
ki sam skutek mo¿e mieæ wysoki poziom za-
k³óceñ akustycznych (ha³asu). Im lepsze al-
gorytmy i szybsze przetwarzanie przez pro-
cesor sygna³owy, tym jakoæ rozpoznawania
jest lepsza. Obecny poziom sukcesu rozpo-
znawania to 98% przy 50 etykietach g³oso-
wych, ale trwa walka o osi¹gniêcie 100%.
Podczas np. g³osowego wybierania numeru
telefonu odbywa siê porównanie wzorca g³o-
sowego zapamiêtanego w pamiêci telefonu
z wypowiedzianym poleceniem. O tym, czy
polecenie zosta³o rozpoznane czy te¿ nie, de-
cyduje procesor telefonu. Jeli jego odpo-
wied jest pozytywna, telefon przystêpuje
do wybierania numeru.
W telefonie GSM jest to wiêc w miarê proste.
Trudniejsze jest w systemach interaktywnej
odpowiedzi g³osowej IVR (Interactive Voice
Response) wymagaj¹cych interpretacji natu-
ralnej mowy u¿ytkownika. Tu nie mo¿na siê
obejæ bez serwera o du¿ej mocy obliczenio-
wej. Stosuje siê kilka metod. W pierwszej, pro-
ces rozpoznawania mowy zaczyna siê od
ekstrakcji cech, polegaj¹cy na obliczaniu ze-
stawu parametrów widmowych sygna³u mo-
wy dla ka¿dej ramki czasowej (10 do 20 ms)
i u¿ywaniu tych cech do wyszukiwania s³ów.
W drugiej, sygna³ mowy jest przesy³any do
serwera sieciowego, który interpretacjê i roz-
poznanie przeprowadza w sieci. W trzeciej
(opracowana przez Philipsa metoda DSR, Di-
stributed Speech Recognition, czyli rozpro-
szone rozpoznawanie mowy), ekstrakcjê
cech przeprowadza siê ju¿ w telefonie komór-
kowym (terminalu), który przesy³a do ser-
wera same tylko cechy a rozpoznaniem mo-
wy zajmuje siê serwer. Trzecia metoda wyma-
ga wprawdzie mniejszej prêdkoci transmisji
Perspektywa wygl¹da wiêc ³adnie, a ca³kowi-
ty g³osowy interfejs obs³ugi telefonu jest ce-
lem realnym w okresie kilku lat, pod warun-
kiem dogadania siê operatorów i producen-
tów sprzêtu. ¯e to jest mo¿liwe, wiadczy
przyk³ad systemu Bluetooth.
Potencjalnie wielkim rynkiem jest te¿ prze-
mys³ motoryzacyjny. Oprócz standardowego
ju¿ g³osowego sterowania telefonów zosta-
n¹ zastosowane us³ugi wbudowane w samo-
chód (np. sterowanie klimatyzacj¹, radiem,
CD) _ ale równie¿ np. uruchamianie rozruchu
czy te¿ inne funkcje nie wp³ywaj¹ce na bez-
pieczeñstwo ruchu. Mo¿na sobie wyobraziæ
wersjê uruchamiania g³osem przeznaczon¹
tylko dla kierowcy jednego a okrelonego, czy
te¿ tylko dla osób dopuszczonych do u¿ytko-
wania pojazdu - wtedy przed z³odziejami
stanie problem pokonywalny tylko rzucaj¹c¹
siê w oczy metod¹ konwencjonaln¹, tzn.
przy u¿yciu ci¹gnika, dwigu i lawety. Ale
np. dyktowanie poczty elektronicznej w ruchu
szybko nie nast¹pi ze wzglêdu na bardzo du-
¿¹ moc obliczeniow¹, niezbêdn¹ do rozumie-
nia mowy naturalnej. Przetwarzanie trzeba
poddaæ kompresji i przenieæ do sieci, a to
stwarza problemy zwi¹zane choæby z tra-
ceniem sygna³u w tunelach czy pod mosta-
mi. (opr. lk)
n
ni¿ przy normalnym rozpoznawaniu mowy
i zapewnia wiêksz¹ odpornoæ na zak³ócenia,
ale brak formalnego standardu utrudnia jej
rozpowszechnianie.
Niedocenian¹ dawniej przeszkod¹ w rozsze-
rzaniu mo¿liwoci zastosowañ systemów ste-
rowania g³osem w telefonii komórkowej GSM
jest powolne przyjmowanie siê WAP, a ofero-
wany zakres us³ug jest ograniczony dostêp-
nym pasmem. Operatorzy licz¹ na wiêksze
w przysz³oci rozpowszechnienie siê GPRS
i UMTS, ale zabranie im przez europejskie
rz¹dy (polski te¿) du¿ych pieniêdzy za op³a-
ty licencyjne (utopiono je w bud¿etach, a mo-
g³y pójæ na inwestycje rozwojowe) ka¿e i na
to patrzeæ sceptycznie. WAP móg³by rozwi¹-
zaæ problem sterowania g³osem skomplikowa-
nej nawigacji, uzyskiwania informacji pogodo-
wych, gie³dowych itd. Etykieta g³osowa np.
odbierz pocztê steruje przegl¹dark¹, by zlo-
kalizowaæ odpowiedni serwis, a pakiety da-
nych wygenerowane tam przez etykiety s¹ in-
terpretowane przez serwery internetowe,
które zwrotnie przesy³aj¹ ¿¹dane dane do
u¿ytkownika. Dane te s¹ wywietlane na
ekranie terminala (metoda powiedz / zo-
bacz). Ka¿dy wola³by zobaczyæ rozk³ad jazdy
czy tablicê notowañ gie³dowych, ni¿ s³uchaæ
cyferek podawanych monotonnym g³osem...
Radioelektronik Audio-HiFi-Video 10/2001