2001 10 18

background image

18

Technika rozpoznawania

mowy przesz³a ze œciœle

strze¿onych rejonów

wysoko postawionej

biurokracji i s³u¿b

specjalnych do domu

i kieszeni szarego

obywatela. Dziœ uk³ady

rozpoznaj¹ce mowê

znajdziemy w telefonach

komórkowych,

systemach biurowych

(dyktafony) i sieciach

telefonicznych, a firmy

ze œwiatowej czo³ówki

intensywnie pracuj¹ nad

wprowadzeniem ich

w innym sprzêcie

powszechnego u¿ytku.

J

est to sprawa doœæ œwie¿a: np. pierw-

szy rozpoznaj¹cy mowê wyrób po-

wszechnego u¿ytku opracowany

przez Philipsa (g³osowe wybieranie

numerów w telefonie samochodowym) zo-

sta³ wprowadzony komercyjnie w 1994 r., a sy-

stem dla terminali komórkowych dopiero pod

koniec 1999 r., w pierwszej wersji terminala Xe-

nium. Nieco wczeœniejsze by³o pierwsze pro-

fesjonalne oprogramowanie do dyktowania

tekstu komputerom oraz komercyjne systemy

rozpoznawania mowy w telefonii przewodowej.

Obecnie Philips oferuje systemy rozpozna-

wania mowy dla PC w 13 jêzykach, a system

rozpoznawania mowy jest podstawowym ele-

mentem wyposa¿enia ”komórek” tej firmy.

Oprócz telefonów komórkowych, nastêpnym

obszarem zastosowañ konsumenckich bêd¹

telefony DECT i urz¹dzenia RTV.

Uk³ady rozpoznawania mowy wspó³pracuj¹

zwykle z systemami rejestracji wiadomoœci

g³osowych. Ale nie tylko. Rozwi¹zaniem per-

spektywicznym jest powi¹zanie funkcji g³oso-

wych, telefonicznych, internetowych i mu-

zycznych w jednym urz¹dzeniu do sterowa-

nia g³osem. Podstawowe systemy rozpo-

znawania reaguj¹ na g³os jednego u¿ytkow-

nika i na pocz¹tku musz¹ siê go nauczyæ (co

ma du¿o zalet a niewiele wad _ z³odziej

w ¿aden sposób nie uruchomi telefonu), ale

ze wzrostem dostêpnoœci du¿ych pamiêci

rozwinie siê to do rozwi¹zañ bardziej uni-

ROZPOZNAWANIE MOWY

Radioelektronik Audio-HiFi-Video 10/2001

r

ELEKTRON

IKA w RÓ¯NYCH ZASTOSOWANIACH

wersalnych. Wydaje siê jednak, ¿e ³atwiej

bêdzie wtedy przenieœæ niektóre mo¿liwoœci

obs³ugi g³osowej do sieci telefonicznej lub in-

ternetu, gdzie jest dostêp do wiêkszych mo-

cy obliczeniowych.

Rozpoznanie g³osu sk³ada siê z identyfikacji

i weryfikacji. Identyfikacja oznacza okreœlanie

spoœród mo¿liwych u¿ytkowników (np. do-

mowników) osoby, która mówi, weryfikacja _

sprawdzenie czy osoba mówi¹ca jest t¹,

która powinna mówiæ. Rozpoznanie mowy

polega na statystycznej analizie g³osu i okre-

œleniu jego charakterystyki, zbudowaniu mo-

delu i wykorzystaniu go do rozpoznawania

wymawianych s³ów, czyli _ rozpoznanie wzor-

ców bez zapisywania regu³ rozpoznania.

W Europie sprawa upraszcza siê o tyle, ¿e

wiêkszoœæ jêzyków europejskich ma ze sob¹

wiele wspólnego i mo¿na do nich stosowaæ

te same techniki rozpoznawania. Liczba fo-

nemów, czyli najmniejszych elementów mo-

wy (np. dŸwiêk ”d” w s³owie sad odró¿niaj¹-

ce je od sak czy sam) wynosi tu 40

÷

50 i zna-

jomoœæ jednego jêzyka wystarczy do rozpo-

znania innego. Tonalna chiñszczyzna wpro-

wadza wiêcej problemów.

Zastosowania

Badania koncentruj¹ siê obecnie na trzech

perspektywicznych zastosowaniach:

q

Sterowanie g³osowe _ przeznaczone do

sterowania funkcjami przy u¿yciu pojedyn-

czych s³ów (wybór parametru i jego wielko-

œci z menu sterowania telewizora, wybór nu-

meru telefonu itp.).

q

Telefoniczne systemy informacyjne - dzwo-

ni¹cy ¿¹da us³ug informacyjnych (informacji

katalogowej, danych z rozk³adu jazdy czy

lotów) korzystaj¹c z jêzyka naturalnego. Choæ

bardziej skomplikowane, okaza³y siê na tyle

potrzebne, ¿e s¹ ju¿ u¿ywane od ponad 5 lat.

q

Systemy dyktowania _ gdzie mowa w jê-

zyku naturalnym jest przekszta³cana na tekst.

Zaczê³o siê od systemów dla okreœlonych

grup zawodowych (prawnicy, radiolodzy),

obecne ukierunkowanie to u¿ytkownicy pe-

cetów. Tu, jeœli system nie ma okreœlonego

u¿ytkownika, Philips stosuje rejestracjê s³ów

wypowiadanych przez wszystkich mo¿liwych

u¿ytkowników.

Przeciêtny u¿ytkownik najszybciej napotka

system rozpoznawania mowy, nabywaj¹c

jeden z najnowszych modeli terminali ko-

mórkowych ró¿nych firm. Niektóre firmy ofe-

ruj¹ z tym systemem tylko czêœæ nowych

modeli, inne (np. Philips) _ wszystkie, uzna-

j¹c go za standard.

Aby rozpoznawanie mowy mog³o w telefonie

dzia³aæ, u¿ytkownik musi najpierw zareje-

strowaæ ”etykiety s³owne” czyli dowolne, krót-

kie (do 2 s) s³owa, imiona itd. Nagrywa siê je

w pamiêci Flash telefonu wiêcej ni¿ jeden raz

(na ogó³ dwukrotnie) i uœrednia, aby stworzyæ

wzorzec g³osowy, zapisywany nastêpnie

w pamiêci dla póŸniejszego porównywania.

Wzorzec dopuszcza pewne odchylenia, bo

identyczne wypowiedzenie nawet tak krótkie-

go s³owa jest praktycznie niemo¿liwe. Chy-

ba, ¿e jedna z np. dwóch wypowiedzi branych

do wzorca odchyla siê od poprzedniej bar-

dziej ni¿ zdefiniowane granice odstêpstw _

wtedy procedura nauki koñczy siê niepowo-

dzeniem i trzeba j¹ powtórzyæ jeszcze raz. Ta-

ki sam skutek mo¿e mieæ wysoki poziom za-

k³óceñ akustycznych (ha³asu). Im lepsze al-

gorytmy i szybsze przetwarzanie przez pro-

cesor sygna³owy, tym jakoœæ rozpoznawania

jest lepsza. Obecny poziom sukcesu rozpo-

znawania to 98% przy 50 etykietach g³oso-

wych, ale trwa walka o osi¹gniêcie 100%.

Podczas np. g³osowego wybierania numeru

telefonu odbywa siê porównanie wzorca g³o-

background image

sowego zapamiêtanego w pamiêci telefonu

z wypowiedzianym poleceniem. O tym, czy

polecenie zosta³o rozpoznane czy te¿ nie, de-

cyduje procesor telefonu. Jeœli jego odpo-

wiedŸ jest pozytywna, telefon przystêpuje

do wybierania numeru.

W telefonie GSM jest to wiêc w miarê proste.

Trudniejsze jest w systemach interaktywnej

odpowiedzi g³osowej IVR (Interactive Voice

Response) wymagaj¹cych interpretacji natu-

ralnej mowy u¿ytkownika. Tu nie mo¿na siê

obejœæ bez serwera o du¿ej mocy obliczenio-

wej. Stosuje siê kilka metod. W pierwszej, pro-

ces rozpoznawania mowy zaczyna siê od

”ekstrakcji cech”, polegaj¹cy na obliczaniu ze-

stawu parametrów widmowych sygna³u mo-

wy dla ka¿dej ramki czasowej (10 do 20 ms)

i u¿ywaniu tych cech do wyszukiwania s³ów.

W drugiej, sygna³ mowy jest przesy³any do

serwera sieciowego, który interpretacjê i roz-

poznanie przeprowadza w sieci. W trzeciej

(opracowana przez Philipsa metoda DSR, Di-

stributed Speech Recognition, czyli rozpro-

szone rozpoznawanie mowy), ekstrakcjê

cech przeprowadza siê ju¿ w telefonie komór-

kowym (terminalu), który przesy³a do ser-

wera same tylko cechy a rozpoznaniem mo-

wy zajmuje siê serwer. Trzecia metoda wyma-

ga wprawdzie mniejszej prêdkoœci transmisji

Perspektywa wygl¹da wiêc ³adnie, a ca³kowi-

ty g³osowy interfejs obs³ugi telefonu jest ce-

lem realnym w okresie kilku lat, pod warun-

kiem dogadania siê operatorów i producen-

tów sprzêtu. ¯e to jest mo¿liwe, œwiadczy

przyk³ad systemu Bluetooth.

Potencjalnie wielkim rynkiem jest te¿ prze-

mys³ motoryzacyjny. Oprócz standardowego

ju¿ g³osowego sterowania telefonów zosta-

n¹ zastosowane us³ugi wbudowane w samo-

chód (np. sterowanie klimatyzacj¹, radiem,

CD) _ ale równie¿ np. uruchamianie rozruchu

czy te¿ inne funkcje nie wp³ywaj¹ce na bez-

pieczeñstwo ruchu. Mo¿na sobie wyobraziæ

wersjê uruchamiania g³osem przeznaczon¹

tylko dla kierowcy jednego a okreœlonego, czy

te¿ tylko dla osób dopuszczonych do u¿ytko-

wania pojazdu - wtedy przed z³odziejami

stanie problem pokonywalny tylko rzucaj¹c¹

siê w oczy metod¹ konwencjonaln¹, tzn.

przy u¿yciu ci¹gnika, dŸwigu i lawety. Ale

np. dyktowanie poczty elektronicznej w ruchu

szybko nie nast¹pi ze wzglêdu na bardzo du-

¿¹ moc obliczeniow¹, niezbêdn¹ do rozumie-

nia mowy naturalnej. Przetwarzanie trzeba

poddaæ kompresji i przenieœæ do sieci, a to

stwarza problemy zwi¹zane choæby z tra-

ceniem sygna³u w tunelach czy pod mosta-

mi. (opr. lk)

n

ni¿ przy normalnym rozpoznawaniu mowy

i zapewnia wiêksz¹ odpornoœæ na zak³ócenia,

ale brak formalnego standardu utrudnia jej

rozpowszechnianie.

Niedocenian¹ dawniej przeszkod¹ w rozsze-

rzaniu mo¿liwoœci zastosowañ systemów ste-

rowania g³osem w telefonii komórkowej GSM

jest powolne przyjmowanie siê WAP, a ofero-

wany zakres us³ug jest ograniczony dostêp-

nym pasmem. Operatorzy licz¹ na wiêksze

w przysz³oœci rozpowszechnienie siê GPRS

i UMTS, ale zabranie im przez europejskie

rz¹dy (polski te¿) du¿ych pieniêdzy za op³a-

ty licencyjne (utopiono je w bud¿etach, a mo-

g³y pójœæ na inwestycje rozwojowe) ka¿e i na

to patrzeæ sceptycznie. WAP móg³by rozwi¹-

zaæ problem sterowania g³osem skomplikowa-

nej nawigacji, uzyskiwania informacji pogodo-

wych, gie³dowych itd. Etykieta g³osowa np.

”odbierz pocztê” steruje przegl¹dark¹, by zlo-

kalizowaæ odpowiedni serwis, a pakiety da-

nych wygenerowane tam przez etykiety s¹ in-

terpretowane przez serwery internetowe,

które zwrotnie przesy³aj¹ ¿¹dane dane do

u¿ytkownika. Dane te s¹ wyœwietlane na

ekranie terminala (metoda ”powiedz / zo-

bacz”). Ka¿dy wola³by zobaczyæ rozk³ad jazdy

czy tablicê notowañ gie³dowych, ni¿ s³uchaæ

cyferek podawanych monotonnym g³osem...

Radioelektronik Audio-HiFi-Video 10/2001


Wyszukiwarka

Podobne podstrony:
2001 10 26
10 18
2001 04 18
10 18 86
2001 10 38
2001 04 18 0750
2001 03 18
kazusy - umowa o pracę na 10 i 18.11.11, prawo 11-12
Wykład 10 - 18.04.12, II rok, Immunologia
Dz.U.2010.200.1326 zmiana z dnia 2010.10.18
2001 10 04
2001 10 10
2001 10 45
2001 10 08
2001 10 24
Dz U 2010 200 1326 zmiana z dnia 2010 10 18
gleba ćw 2011-10-18, gleboznawstwo, notatki

więcej podobnych podstron