5391


Podstawowe problemy wprowadzania głosowej informacji do komputera (zewnętrzne, akustyczne, techniczne, metodologiczne, ekonomiczne).

Wprowadzanie sygnału mowy do systemu jej rozpoznawania.

Problemy zewnętrzne i akustyczne przy wprowadzaniu mowy do komputera.

Przetwarzanie sygnału mowy na postać cyfrową.

Problem wyboru najistotniejszych parametrów sygnału mowy i ich ekstracji.

Dostępne na rynku oprogramowanie do głosowej komunikacji człowieka z komputerem i wymagania sprzętowe.

Problemy ekonomiczne.

0x08 graphic

Wprowadzanie sygnału mowy do systemu jej rozpoznawania.

Systemy rozpoznawania mowy można podzielić na cyfrowe, analogowe oraz hybrydowe, przy czym kryterium podziału tkwi w naturze sygnału wewnątrz systemu. Sygnał wejściowy jest bowiem zawsze sygnałem analogowym. Sygnał zaś wyjściowy (wynik rozpoznania) jest cyfrowy. A zatem wprowadzany sygnał mowy musimy rozpatrywać tutaj w postaci analogowej, czyli takiej jaka jest na wyjściu przetwornika elektroakustycznego.

Metoda analogowa wprowadzania informacji do komputera

Wstępne analogowe przetwarzanie sygnału mowy można zrealizować do etapu filtracji dolnoprzepustowej, odcinającej wszystkie składowe sygnału powyżej częstotliwości Nyquista w celu uniknięcia nakładania się widm. Po tym filtrze może znajdować się już układ przetwarzania analogowo-cyfrowego. Pełny sygnał, bez żadnych zmian i korekt, może być przesłany do komputera, dokonującego wszystkich dalszych niezbędnych transformacji.

0x01 graphic
Rys.1 Najprostszy system wprowadzania mowy do komputera.

Taka droga postępowania charakterystyczna jest dla systemów, w których mamy do dyspozycji dużą moc obliczeniową i możemy ją bez ograniczeń angażować dla potrzeb systemu rozpoznawania mowy. Istota problemu tkwi w ogromnej objętości informacyjnej sygnału mowy. A zatem schemat przetwarzania przedstawiony na rysunku stawia przed częścią cyfrową systemu bardzo wysokie wymagania, które jeszcze przed - dajmy na to - kilkunastu laty, nie mogły być spełnione, a już na pewno nie w stopniu satysfakcjonującym ekonomicznie.

0x08 graphic

Problemy zewnętrzne i akustyczne przy wprowadzaniu mowy do komputera.

Procesy odbioru informacji dźwiękowej przez komputery, ze względu na sam sygnał mowy, muszą nawiązywać do zjawisk wiążących się z naturalnym sposobem wytwarzania i percepcji mowy przez człowieka. Podstawową przyczyną jest struktura akustyczna sygnału mowy. Analogie słyszenia komputera i człowieka mają raczej charakter umowny, symboliczny, co jest szczególnie widoczne po przejściu sygnału przez układ analogowo-cyfrowy. Do podstawowych bloków odpowiadających za kolejne fazy przetwarzania sygnału odbieranego przez komputer należą:

Funkcję przetwornika elektroakustycznego spełnia mikrofon. Przetwarzanie elektroakustyczne to zamiana energii fali dźwiękowej na energię sygnału elektrycznego. O ile przetwarzanie energii elektrycznej na mechaniczną i akustycznej na mechaniczną, oraz odwrotnie - odbywa się bezpośrednio, to zamiana energii akustycznej na elektryczną (i odwrotnie) musi postępować za pośrednictwem energii mechanicznej. Jednym z najważniejszych parametrów mikrofonu jest jego skuteczność. Jest to wielkość i jednocześnie podstawowa cecha, która określa ilościowo proces przetwarzania elektroakustycznego, wskazując na wartość otrzymanego efektu elektrycznego w stosunku do wartości ciśnienia akustycznego.

Bardzo ważnym zagadnieniem związanym z wprowadzaniem informacji akustycznej zarówno w przypadku ARM jak i ARG jest wpływ otoczenia akustycznego na skuteczność procesu "słyszenia" i rozpoznawania.

Jednym z najważniejszych problemów jest nakładanie się szumów otoczenia na sygnały akustyczne mowy. Jeżeli w systemie wykorzystywany jest szerokopasmowy mikrofon o dużej czułości to naturalnym jego następstwem jest odbieranie wszystkich dźwięków z bezpośredniego otoczenia operatora systemu. Istnieją 2 sposoby rozwiązania tego problemu:

Kolejnym etapem we wprowadzaniu informacji głosowej do komputera jest przetwarzanie wstępne.

Przetwarzanie wstępne, będąc częścią procesu obróbki sygnału mowy, powinno być stosowane z uwzględnieniem informacji o parametrach sygnału na wyjściu przetwornika oraz o dalszych wymaganych metodach analizy. Przetwarzanie wstępne ma na celu przystosowanie sygnału w sposób jak najmniej skomplikowany i tani do dalszych operacji przetwarzania i analiz. Może obejmować zarówno dziedzinie czasu jak i dziedzinę częstotliwości. Przykładem przetwarzania wstępnego w dziedzinie czasu jest wybór ("wycinanie") odcinków sygnału, o których wiadomo a priori, że są nieużyteczne dla dalszych analiz lub zawierają zbyt wiele wartości składowych zakłócających. Realizacja tej procedury jest możliwa w przypadku analizy przeprowadzanej nie w czasie rzeczywistym , lecz z wykorzystaniem pośrednich nośników sygnału, np. magnetofonów. Niekiedy do procedur wstępnego przetwarzania zalicza się dyskretyzację sygnałów analogowych. W systemach ARM przyjmuje się że przetwarzanie wstępne będzie obejmować postać analogową systemu. Dla tak określonego zakresu wstępnego przetwarzania zasadnicze znaczenie mają:

Inne bardziej wyrafinowane metody i techniki wstępnej obróbki sygnału:

Filtracja jest jedną z ważniejszych metod przetwarzania i analizy sygnałów. Umożliwia bowiem realizację wielu celów obróbki sygnałów takich jak:

0x08 graphic

Przetwarzanie sygnału mowy na postać cyfrową.

Kolejnym etapem procesu komputerowego przetwarzania sygnału mowy, po analogowych najczęściej procedurach wstępnej obróbki, jest wprowadzenie sygnału mowy do pamięci komputera. Jest to etap o zasadniczym znaczeniu, ponieważ sposób reprezentacji danych w komputerze jest wysoce abstrakcyjny i mało kojarzący się z rzeczywistością otaczającego nas świata przyrody. Ponieważ pamięć komputera składa się z tzw. komórek, w których można umieścić kody reprezentujące np. liczby z określonego przedziału wartości, odwzorowane z określoną dokładnością. Ponieważ sygnał mowy jest przebiegiem ciągłym, trwającym określony czas i przyjmującym wartości napięcia z mikrofonu zmieniające się też w sposób ciągły, to występuje oczywista konieczność przetworzenia informacji z postaci ciągłego sygnału do postaci kodów komputerowych. Przetwarzanie to składa się na ogól z 3 etapów:

Realizację przetwarzania uzyskuje się za pośrednictwem przetwornika A/C, który przetwarza wejściowy sygnał elektryczny w sygnał cyfrowy , będący sekwencją liczb aproksymujących (przybliżających) odpowiednie próbki sygnału wejściowego.

Budując np. system rozpoznawania mowy trzeba więc uporać się z obszerną listą problemów. Do wyznaczenia tej listy należy również spojrzeć na proces rozpoznawania mowy z punktu widzenia teorii systemów i wyróżnić w nim kilka hierarchicznie powiązanych poziomów.

0x01 graphic

Rys.2 Hierarchicznie powiązane poziomy percepcji mowy.

Rozpatrując problem wprowadzenia informacji głosowej do komputera najbardziej interesuje nas najniższy podstawowy poziom akustyczny, na którym pozyskiwana jest informacja o rozpoznawanym sygnale dźwiękowym. Powstają przy tym następujące problemy:

  1. W jakiej postaci należy sygnał wprowadzić do systemu?

  2. Jeśli sygnał ma być wprowadzony bezpośrednio w formie przebiegu czasowego

  • jeśli sygnał jest wprowadzany w postaci przetworzonej, to jaka ma być reguła tego przetwarzania, aby nie tracić istotnej informacji, a równocześnie nie ograniczyć informacyjnej pojemności sygnału, utrudniającej jego zmieszczenie w pamięci systemu rozpoznającego lub/i transmisję przez kanały telekomunikacyjne?

  • Jeżeli przetwarzaniem, o którym mowa w punkcie 3, jest transformacja widmowa, to jak jej dokonywać