Pytania na zaliczenie przedmiotu „systemy dialogowe”

Pytania na zaliczenie przedmiotu „systemy dialogowe”

Wyjaśnić pojęcia: dialog, użytkownik, transakcja

Dialog jest interakcją (wzajemnym oddziaływaniem, współdziałaniem

pomiędzy użytkownikiem i komputerem
w osiągnięciu szczególnego celu

Użytkownik jest osobą współdziałającą z komputerem

Transakcja to akcja użytkownika i skojarzona z nią odpowiedź komputera (lub na odwrót)

Dialog jest serią transakcji

Transakcja jest najmniejszą jednostką interakcji człowiek - komputer

Składniki interfejsu użytkownika

Interfejs użytkownika zawiera 3 podstawowe składniki:

Sterowanie - umożliwia użytkownikowi "mówienie" do komputera. Elementy sterowania są zwykle obiektami, które umożliwiają tworzenie oraz przekazywanie poleceń do systemu
Zobrazowanie - umożliwia komputerowi zwracanie się ("mówienie") do użytkownika. Może zawierać różne technologie zobrazowania informacji (zwykle wizualne, ale czasami to może być „zobrazowanie” audio lub inne)
Interakcje lub dialog - kombinacja wprowadzania poleceń do komputera z jednej strony oraz zobrazowania informacji przez komputer z drugiej strony, tworząca łącznie dialog miedzy użytkownikiem i komputerem

Architektura typowego systemu dialogowego języka mówionego

0x01 graphic

Omówić działanie systemu dialogowego języka mówionego

całością steruje sterownik dialogu: umożliwia wymianę informacji z użytkownikiem, a tym samym dostęp do bazy danych i jej uaktualnianie
interakcja składa się z sekwencji transakcji (cyklów pytanie/odpowiedź), pytania są tak projektowane, aby ograniczyć odpowiedź do określonego zbioru informacji
odpowiedź użytkownika jest przetwarzana przez urządzenie rozpoznawania mowy (URM)
wyjście URM (zwykle niejednoznaczne) jest przekształcane przez interpreter języka naturalnego - np. parser (natural language processing, NLP) - do postaci quasi-logicznej
sterownik, bazując na nowym wejściu, uaktualnia swój wewnętrzny stan i planuje następną akcję
postępowanie trwa, aż potrzeby użytkownika zostaną zaspokojone - wtedy interakcja jest przerywana

Zadania procesu projektowania SDS

specyfikowanie dialogu i sterowanie jego przebiegiem
ograniczenie zakresu rozpoznawania wypowiedzi do dziedziny aplikacji i interpretacja wyjścia urządzenia rozpoznawania mowy
generowanie odpowiedzi właściwej kontekstowo (zgodnej z dotychczasowym przebiegiem dialogu)

Pożądane własności systemu dialogowego.

- niezależność od mówcy

- stosowanie mowy ciągłej (menu ze słowami izolowanymi jest zwykle niepraktyczne)

- stosowanie swobodnego i naturalnego języka (od przypadkowych użytkowników trudno wymagać stosowania prawidłowej syntaktyki)

- zapewnienie zarządzania dialogiem (sterowanie dialogiem musi być tak zaprojektowanie, aby pogodzić swobodę użytkownika z koniecznością zachowania kontroli systemu)

Wyjaśnić pojęcia: niezależność od mówcy, mowa ciągła, słownik rozpoznawanych słów

- niezależność od mówcy - możliwość rozpoznawania słów, niezależnie od właściwości traktu głosowego osoby je wypowiadającej(ton, barwa) oraz charakterystycznych zjawiskami pozalingwistycznych

- mowa ciągła, - spontaniczna, możliwa nieprawidłowa syntaktyka, kolejne słowa wypowiadane sa po sobie, bez wyraźnych przejść oraz izolacji

- słownik rozpoznawanych słów - na podatnie wypowiadanych i przeanalizowanych słów buduje się wzorce, służące do weryfikacji mowy ludzkiej

Struktura funkcjonalna systemu dialogowego języka mówionego

0x01 graphic

Scharakteryzować metody automatycznego rozpoznawania mowy

akustyczno - fonetyczne (acoustic-phonetic approach)

Rozpoznawanie polega na sekwencyjnym dekodowaniu segmentów sygnału mowy na podstawie charakterystyk akustycznych tego sygnału i znanych związków między tymi charakterystykami i jednostkami fonetycznymi.

Sygnał mowy jest sekwencją jednostek akustycznych, które są realizacją fizyczną indeksowanych unikalną nazwą jednostek fonetycznych.

W rozpoznawaniu stosuje się fonem lub sylabę. umożliwiają rozpoznawanie sygnału mowy bez konieczności wcześniejszego tworzenia modeli akustycznych rozpoznawanych jednostek fonetycznych

rozpoznawania wzorców (pattern-recognition, template-based approach).

2 tryby pracy: t. uczenia i t. rozpoznawania

Wzorce mogą mieć postać: szablonu lub modelu statystycznego

Rozpoznawania przebiega w dwóch etapach:

-przypisanie wzoru testowego do określonego wzoru

-sekwencji jednostek fonetycznych przypisywany jest wyraz ze słownika wyrazów rozpoznawanych

Zwykle rozpoznanie jest niejednoznaczne - segmentowi sygnału mowy może być przypisany więcej niż jeden symbol fonetyczny, wyjściem programu może być : pojedyncze zdanie, lista N najlepszych, krata słów, graf słów.

Założenia metody akustyczno-fonetycznej.

istnieje skończona liczba dźwięków (symboli dźwiękowych) języka mówionego,

dźwięki są w pełni rozróżnialne poprzez zbiór charakterystyk akustycznych, które są wynikiem badań akustyczno - fonetycznych nad sygnałem mowy.

Pierwsze założenie jest spełnione: każdy dźwięk jest generowany przy określonej konfiguracji traktu głosowego. Liczba możliwych konfiguracji traktu głosowego jest nieograniczona, lecz ze względu na możliwości percepcji sygnału mowy przez człowieka, liczba rozpoznawanych dźwięków mowy w każdym znanym języku naturalnym jest skończona.

Z drugim założeniem są problemy: rozróżnialność dźwięków jest trudnym do spełnienia wymaganiem, ponieważ sygnał mowy charakteryzuje się dużą zmiennością związaną z mówcą, wpływem kanału transmisji oraz kontekstem (sąsiedztwem innych dźwięków).

Omówić automatyczne rozpoznawanie mowy metodą akustyczno-fonetyczną (schemat blokowy) Jakie jednostki fonetyczne stosowane są w rozpoznawaniu mowy metodą akustyczno-fonetyczną?

0x01 graphic
Rozpoznawanie polega na sekwencyjnym dekodowaniu segmentów sygnału mowy na

podstawie charakterystyk akustycznych tego sygnału i znanych związków między tymi charakterystykami i jednostkami fonetycznymi

W rozpoznawaniu akustyczno - fonetycznym najczęściej stosuje się najmniejszą jednostkę mowy - fonem, traktowany jako zespół cech dystynktywnych (jego realizacją fizyczną jest głoska, czyli dźwięk).

Stosowana też bywa sylaba, w której zasadniczą rolę odgrywa samogłoska.

Wymienić najczęściej wykorzystywane charakterystyki (cechy) akustyczne w rozpoznawaniu mowy metodą akustyczno-fonetyczną

pobudzeniem:

częstotliwość tonu podstawowego
energia sygnału
obecność w pobudzeniu sygnału okresowego i/lub przypadkowego, oznaczająca dźwięczność lub bezdźwięczność fonemów

filtrem (traktem głosowym):

częstotliwości formantowe, zwykle pierwsze trzy, będące maksimami lokalnymi amplitudowej charakterystyki częstotliwościowej traktu głosowego
obecność w transmitancji traktu głosowego zer charakterystycznych dla dźwięków nosowych, czyli nosowość fonemu
stosunek energii składowych wysoko- i niskoczęstotliwościowych
Wyjaśnic pojęcia: segmentacja, indeksacja, klasyfikacja

Najważniejszy i najtrudniejszy jest etap segmentacji i indeksacji, łącznie zwany klasyfikacją (ang. odpowiednio: segmentation, labelling, annotation):

najpierw wyszukiwane są fragmenty (segmenty) sygnału mowy, w których jego cechy akustyczne są stałe lub zmieniają się niewiele
następnie przypisuje się tym segmentom zgodnie z wyznaczonymi cechami akustycznymi jeden lub więcej indeksów (symboli fonetycznych)

Wykorzystuje się tutaj eksperymentalnie wyznaczone wzory odniesienia (reference pattern) dla wszystkich rozpoznawanych jednostek fonetycznych.

Omówić automatyczne rozpoznawanie mowy metodą rozpoznawania wzorców (schemat blokowy)

0x01 graphic

z wypowiedzi uczących, tworzy się wzory odniesienia, czyli wzorce (reference pattern), reprezentujące jednostki (symbole) fonetyczne, a nastepnie pozyskany z rozpoznawanej wypowiedzi wzór testowy (lub ich sekwencję) porównuje się z każdym wzorcem.

Wyjaśnić pojęcia: tryb uczenia i tryb rozpoznawania (w rozpoznawaniu mowy metodą rozpoznawania wzorców)

tryb uczenia (treningowy) - ze zbiorów wzorów testowych (test pattern), pozyskanych z wypowiedzi uczących, tworzy się wzory odniesienia, czyli wzorce (reference pattern), reprezentujące jednostki (symbole) fonetyczne
tryb rozpoznawania - pozyskany z rozpoznawanej wypowiedzi wzór testowy (lub ich sekwencję) porównuje się z każdym wzorem odniesienia, czyli wzorcem.

Scharakteryzować rodzaje wzorców w metodzie rozpoznawania wzorców.

- szablonu (template)

- modelu statystycznego (statistical model)

Podobieństwo wzoru testowego do wzorców w postaci modelu statystycznego (np. dla ukrytych modeli Markowa, HMM) zwykle wyrażane jest przez prawdopodobieństwo wygenerowania tego wzoru przez modele

Liczebność zbioru wzorców w każdym miejscu rozpoznawanej wypowiedzi może być zmniejszana, np. przez zastosowanie reguł prostej gramatyki o skończonej liczbie stanów do rozpoznawania ciągów jednostek fonetycznych

Zdefiniować (graficznie) proces Markowa o skończonej liczbie stanów i czasie dyskretnym.

0x01 graphic

Proces Markowa o skończonej liczbie stanów i czasie dyskretnym w postaci łańcucha Markowa (obserwowalnego) o trzech stanach:

przejście między stanami odbywa się w dyskretnych momentach czasu,
przejście zachodzi z zadanym prawdopodobieństwem,
w każdym stanie generowana jest określona obserwacja (symbol wyjściowy).

Jaką postać może mieć wyjście urządzenia automatycznego rozpoznawania mowy

Wyjście urządzenia automatycznego rozpoznawania mowy może przybierać jedną z poniższych postaci:

pojedyncze zdanie
lista N najlepszych zdań (najlepiej dopasowanych do sygnału wejściowego): jest to wskazane, gdy okaże się, że z powodu błędów rozpoznania zdanie najlepsze jest niegramatyczne, liczba N może być duża
krata słów: lista słów ważonych wskaźnikiem dopasowania, zwykle charakteryzuje się dużą redundancją i w efekcie długim czasem pracy procesora językowego
tzw. graf słów: rozwiązanie pośrednie (grupa N najlepszych zdań, w których wspólne części są połączone w celu utworzenia grafu) - daje to takie same możliwości jak lista N najlepszych zdań, lecz pozwala na przyśpieszenie procesu.

Narysować kratę dla przykładowego dyskretnego ukrytego modelu Markowa.

krata słów: lista słów ważonych wskaźnikiem dopasowania, zwykle charakteryzuje się dużą redundancją i w efekcie długim czasem pracy procesora językowego

Zdefiniować (graficznie) dyskretnym ukryty model Markowa (HMM)

0x01 graphic

Co to jest problem ewaluacji, dekodowania i uczenia w HMM

a) obliczanie dla danego modelu
p-stwa
wygenerowania zadanej (do rozpoznania) sekwencji obserwacji O;

b) wyznaczanie najbardziej prawdopodobnej sekwencji stanów, czyli sekwencji s, dla której p-stwo łączne
wygenerowania sekwencji obserwacji O przez model
jest największe;

c) rozwiązanie problemu odwrotnego, to znaczy estymacji parametrów modelu
dla zadanej (uczącej) sekwencji obserwacji O.

Jak wyrażane jest podobieństwo wzoru testowego do wzorców

Podobieństwo wzoru testowego do wzorców w postaci modelu statystycznego (np. dla ukrytych modeli Markowa, HMM) zwykle wyrażane jest przez prawdopodobieństwo wygenerowania tego wzoru przez modele

Do czego stosuje się modele języka w rozpoznawaniu mowy

??????????????????????????????????????????????

Jak działa układ porównania

wzór testowy (lub ich sekwencję) porównuje się z każdym wzorem odniesienia, czyli wzorcem.
przypisanie wzoru testowego (jednego lub częściej ich sekwencji) do określonego wzoru
sekwencji jednostek fonetycznych przypisywany jest wyraz ze słownika wyrazów rozpoznawanych

Jakość rozpoznawania mierzona jest wskaźnikiem dopasowania, który zwykle ma sens prawdopodobieństwa

Różnice między rozpoznawaniem mowy metodą akustyczno-fonetyczną i metodą rozpoznawania wzorców

Metoda rozpoznawania wzorców w przeciwieństwie do metody akustyczno - fonetycznej:

nie wyznacza się charakterystyk akustycznych związanych ze sposobem wytwarzania sygnału mowy
nie wydziela się z sygnału mowy segmentów o zróżnicowanej długości, odpowiadających fonemom.

Co jest wynikiem działania procesora językowego

Procesor językowy dostarcza reprezentacji znaczenia operacyjnego rozpoznanej frazy. Na obecnym etapie rozwoju umożliwia rozumienie ograniczone do podzbioru języka naturalnego i dla określonej dziedziny aplikacji (pragmatyka)

Dlaczego rozdziela się reprezentację syntaktyczną i semantyczną języka

rzeczywiste zdania są złożone: niezbędna jest rozległa wiedza do przedstawienia ich struktury gramatycznej
istotna informacja jest przekazywana w `wyspach' („o czwartej”, „z Poznania”,...)
złożoność syntaktyczna głównie leży w przestrzeni między wyspami, w nieistotnych semantycznie segmentach zdania

Co to jest przetwarzanie syntaktyczne?

Polega na rozpoznaniu struktury gramatycznej zdania, umożliwiając jednocześnie:

sprawdzenie, czy fraza wejściowa jest prawidłowo sformułowana
uproszczenie procesu określania znaczenia (rozumienia)
pomoc w wykryciu nowych i niezwykłych znaczeń rozpoznanego ciągu słów

Scharakteryzować analizę syntaktyczna pełną i częściową

W pełnej analizie musi być analizowane całe zdanie - może być potrzebna obszerna wiedza (szczególnie do modelowania niegramatyczności w wejściu mówionym)

Gdy pełna analiza całego zdania nie jest możliwa, analizuje się pewne fragmenty zdania w nadziei, że zawierają istotną informację dla jego prawidłowego zrozumienia (określenia znaczenia operacyjnego w ograniczonej dziedzinie)

Potencjalne możliwości częściowej analizy:

zwiększa odporność algorytmów na zakłócenia
przyśpiesza prawidłowe rozumienie zdań dla ograniczonej wiedzy lingwistycznej
umożliwia analizę wypowiedzi spontanicznych

Ale jest przyczyną błędnej interpretacji złożonych konstrukcji językowych

Co jest celem przetwarzania semantycznego?

Cel: określenie znaczenia operacyjnego analizowanego zdania

Opracowano wiele języków reprezentacji znaczeniowej, jednak brak jest języka jednolitego dla wszystkich zakresów NLP

Trudności powoduje fakt, że znaczenie operacyjne wypowiedzi zależy od pragmatyki aplikacji, w szczególności od:

kontekstu
celu do osiągnięcia

Najmniej rozpoznany i najtrudniejszy obszar NLP: modelowanie kontekstu i jego wykorzystanie

Cechy charakterystyczne kontekstu

nie jest czasowo zlokalizowany (jak w sygnale mowy)
jest szeroki i niezwykle silny, może sięgać odległych słów wypowiedzianych i takich, które dopiero będą wypowiedziane
może obejmować zakres wielu zdań, akapitów, nawet dokumentów

Scharakteryzować praktyczne realizacje procesu NLP(naturalny język mówiny)

0x01 graphic

rezygnują z parsera i określają znaczenie bez informacji syntaktycznych
łączą przetwarzanie syntaktyczne i semantyczne w jeden proces
nie wymagają wykorzystywania kontekstu
eliminują generator odpowiedzi w aplikacjach o kilku możliwych wyjściach
rezygnują w całości z tej struktury i przechodzą od rozpoznanych słów do znaczenia operacyjnego (system ekspertowy), wyznaczając znaczenie bez szczegółowej analizy językowej na jakimkolwiek poziomie

Omówić własności menadżera dialogu

Zadania:

interpretacja znaczenia operacyjnego wypowiedzi w oparciu o model dialogu (interakcji) i w kontekście dotychczasowych wypowiedzi
decydowanie o dalszej akcji: żądać kolejnych danych, odszukać informację, zainicjować na nowo błędnie przebiegający dialog
generowanie fraz języka naturalnego (budowa generatora nie jest tak złożona, jak pozostałych składników systemu dialogowego)

Wymienić fazy informacyjnych dialogów usługowych

W informacyjnych dialogach usługowych (dostarczanie użytkownikom przez telefon informacji o konkretnych usługach) wyróżnia się następujące fazy:

otwarcie dialogu
sformułowanie życzenia
sformułowanie odpowiedzi
zakończenie dialogu

Otwarcie i zamknięcie nie zależą od dziedziny zastosowania i są podobne dla większości dialogów języka mówionego

W dialogu między ludźmi

otwarcie : wyrazy uprzejmości (Dzień dobry, Witam, Czy mogłaby mi pani pomóc?) lub oznaki wahania (chrząknięcia, mhm)
zamknięcie: wymiana podziękowań (Dziękuję Panu, Dziękuję bardzo, Dziękuję), a następnie wymiana pozdrowień (Do widzenia)

W dialogu człowiek - komputer

otwarcie jest podobne, pojawienie się wyrazów uprzejmości zależy od „uprzejmości” systemu
zamknięcie może być prostsze: rozmówca odkłada słuchawkę telefonu.

Sformułowanie życzenia i sformułowanie odpowiedzi są zależne od zadania (identyfikacja życzenia rozmówcy, uzyskanie informacji przez przeszukanie bazy danych i wydanie żądanej informacji)

Realizacja zadania może wymagać kilku kroków pośrednich:

potwierdzenia, aby uniknąć pomyłki
naprawy, gdy doszło do pomyłki
doprecyzowania szczegółów itp

Co to jest generator mowy syntetycznej

Generator mowy syntetycznej (syntezator mowy) urządzenie (obecnie komputerowe) do zamiany tekstu w postaci symbolicznej na mowę (text to speech, TTS)

Scharakteryzować metody syntezowania sygnału mowy

Syntezatory artykulacyjne

modelowanie dynamiki traktu głosowego podczas artykulacji wypowiedzi

Informacja wejściowa: wartości wielu parametrów reprezentujących położenie (pozycję) poszczególnych części traktu głosowego (artykulatorów)
Parametry te określają kształt traktu głosowego i są wyznaczane dla jednakowych odcinków, zwykle o długości 0,5 cm, a cały trakt jest modelowany jako ciąg cylindrów (rur prostych)
Aby dokonać syntezy sygnału mowy ta złożona rura jest pobudzana przez impulsy quasiokresowe o kształcie określonym przez Rosenberga (1970) lub Fanta (1985).

Najczęściej synteza artykulacyjna występuje w dwu postaciach:

formantowa
z predykcją liniową

modelowanie bezpośrednio samego sygnału mowy (generowanie sygnału o charakterystykach akustycznych takich samych jak sygnału mowy)

Wykorzystują konkatenację segmentów sygnału mowy (jednostek fonetycznych):

jednorodnych - najczęściej difonów (stosowane ze względu na dokładność odtwarzania transjentów, które decydują o zrozumiałości sygnału mowy)
zróżnicowanych: fonemy, difony, sylaby i inne

Omówić model traktu głosowego w postaci tuby akustycznej.

0x08 graphic

Sygnał emitowany przez usta można wyznaczyć jako rozwiązanie równania ciśnienia fali dźwiękowej wzdłuż traktu głosowego (równania Webstera).W celu wygenerowania ciągu fonemów należy zapewnić zmianę w czasie wartości parametrów artykulacyjnych. Wadą metody jest jej złożoność i w konsekwencji duża ilość obliczeń

Scharakteryzować syntezatory artykulacyjne.

Bazują na reprezentacji traktu głosowego. Początkowo wykorzystywały szereg dynamicznie sterowanych filtrów analogowych, a nowoczesne systemy są modelowane na komputerach cyfrowych.

Informacja wejściowa: wartości wielu parametrów reprezentujących położenie (pozycję) poszczególnych części traktu głosowego (artykulatorów).

Parametry te określają kształt traktu głosowego i są wyznaczane dla jednakowych odcinków, zwykle o długości 0,5 cm, a cały trakt jest modelowany jako ciąg cylindrów (rur prostych)

Aby dokonać syntezy sygnału mowy ta złożona rura jest pobudzana przez impulsy quasiokresowe o kształcie określonym przez Rosenberga (1970) lub Fanta (1985).

Omówić syntezę formantową

Wykorzystuje model pobudzenie - filtr
Trakt głosowy człowieka modelowany jest za pomocą zestawu filtrów rezonansowych, które kształtują jego przybliżoną częstotliwościową charakterystykę amplitudową
Częstotliwości rezonansowe tych filtrów są równe częstotliwościom formantów, które charakteryzują kolejne fragmenty sygnału mowy syntezowanej wypowiedzi
Do wygenerowania zrozumiałej mowy wystarczy znajomość trajektorii pierwszych trzech formantów, do wygenerowania wysokiej jakości sygnału mowy: trajektorie czterech lub pięciu formantów.

Syntezatory modelujące sygnał mowy

Wykorzystują konkatenację segmentów sygnału mowy (jednostek fonetycznych):

jednorodnych - najczęściej difonów (stosowane ze względu na dokładność odtwarzania transjentów, które decydują o zrozumiałości sygnału mowy)
zróżnicowanych: fonemy, difony, sylaby i inne

Przykład syntezy konkatenacyjnej: syntezator zbudowany przez France Telecom

Wykorzystuje algorytm PSOLA (ang. The Pitch Synchronous OverLap and Add), który umożliwia:

płynne łączenie segmentów, odpowiadających jednostkom fonetycznym
zmianę wysokości dźwięku
zmianę długości (czasu trwania) poszczególnych segmentów

Omówić stosowane w syntezie sygnału mowy jednostki fonetyczne

Sygnał mowy jest sekwencją jednostek akustycznych Transkrypcja fonetyczna jest sekwencją jednostek fonetycznych jednostka fonetyczna= jednostka akustyczna + unikalna nazwa W rozpoznawaniu akustyczno - fonetycznym najczęściej stosuje się najmniejszą jednostkę mowy - fonem. Fonem jest traktowany jako zespół cech dystynktywnych (jego realizacją fizyczną jest głoska, czyli dźwięk) Stosowana też bywa sylaba, w której zasadniczą rolę odgrywa samogłoska

Omówić syntezę konkatenacyjna na przykładzie algorytmu PSOLA.

syntezator zbudowany przez France Telecom, wykorzystuje algorytm PSOLA (ang. The Pitch Synchronous OverLap and Add), który umożliwia:

płynne łączenie segmentów, odpowiadających jednostkom fonetycznym
zmianę wysokości dźwięku
zmianę długości (czasu trwania) poszczególnych segmentów

Synteza mowy konkatenacyjnej generuje mowę poprzez sklejanie ze sobą elementów akustycznych powstałych z naturalnej mowy (fony, difony, trifony, sylaby). Dużą zaletą tego rodzaju syntezy jest niewielki rozmiar bazy danych, z uwagi na mała objętość jednostek akustycznych. Bardzo często używana jest konkatenacja difonów, która umożliwia dobrą jakość syntezy mowy przy wykorzystaniu korpusu zawierającego około 1500 jednostek.

Omówić syntezę korpusową

Modyfikacją syntezy konkatenacyjnej jest synteza korpusowa (zasobowa), w której łączy się segmenty sygnału mowy o długości dobieranej kaŜdorazowo dla przekształcanego tekstu. Kryterium doboru jest jakość generowanego sygnału (definiuje się wskaźniki jakości). Z zasobu mowy wybierane są różnorodne jednostki fonetyczne: difony, trifony, sylaby, wyrazy, frazy (grupy wyrazowe) czy nawet całe zdania. Jednostki fonetyczne występują w zasobie wielokrotnie w róŜnych kontekstach. Generowany sygnał mowy jest konkatenacją różnych jednostek fonetycznych. Istnieje wiele różnych możliwości złożenia pożądanego sygnału mowy. Dobór jednostek fonetycznych oceniany jest za pomocą funkcji kosztu (estymacji), uwzględniającej zarówno czas trwania poszczególnych fragmentów jak i cechy prozodyczne mowy. Proces obliczeniowy jest dość złożony. Obecnie syntezą korpusową zajmuje się wiele firm (np.: AT&T, SpeechWorks, ScanSoft). Przygotowany dla języka angielskiego zasób mowy ma rozmiar ok. 200 MB. W Polsce syntezą korpusową zajmuje się firma IVO Software z Gdyni. Wydaje się, że właśnie ta technika ma szanse rozwinąć się w przyszłości. Obecnie są prowadzone badania nad udoskonaleniem zasobu mowy (aby pokrył wszystkie zjawiska fonetyczne w danym języku) i funkcji estymacji. Synteza korpusowa jest obecnie wykorzystywana w systemach dialogowych portali głosowych.

Architektura systemu dialogowego języka mówionego

0x08 graphic

Co to jest portal głosowy

Portal głosowy - system wyposażony w technologie automatycznego rozpoznawania mowy i syntezy mowy. Osoba, która zadzwoni do portalu głosowego może za pomocą krótkich, mówionych fraz wybrać interesują ją opcję. Portal głosowy może prowadzić równolegle wiele rozmów i być dostępny przez 24 godziny na dobę. Dzięki najnowszym technologiom głosowym, takim jak: automatyczne rozpoznawanie mowy i synteza mowy portale głosowe pozwalają realizować projekty do tej pory nieosiągalne

Omówić charakterystyki reprezentujące sygnał mowy w dziedzinie częstotliwości.

Najważniejszym narzędziem przetwarzania sygnałów cyfrowych jest dyskretne przekształcenie Fouriera (ang. Discrete Fourier Transform, DFT).

W zależności od typu sygnału w czasie (ciągłe czy dyskretne, okresowe czy nieokresowe) wyróżnia się cztery kategorie przekształceń (transformat) Fouriera:

dla sygnałów ciągłych okresowych - szeregi Fouriera (ang. Fourier series);
dla sygnałów ciągłych nieokresowych - przekształcenie Fouriera (ang. Fourier transform);
dla sygnałów dyskretnych okresowych - (dyskretny szereg Fouriera) dyskretne przekształcenie Fouriera (ang. discrete Fourier transform, DFT);
dla sygnałów dyskretnych nieokresowych - przekształcenie Fouriera dla sygnałów o czasie dyskretnym (ang. discrete time Fourier transform, DTFT)

W cyfrowym przetwarzaniu sygnałów wykorzystywane jest dyskretne przekształcenie Fouriera (DFT), czyli założono, że sygnał analizowany jest dyskretny i okresowy (oczywiście również nieskończony).

Dyskretna transformata Fouriera

Synteza

sygnał: dyskretny w czasie, (zespolony), okresowy

0x01 graphic

Analiza

widmo: dyskretne, zespolone, okresowe

0x01 graphic

Wymienić etapy i zadania budowy systemu rozpoznawania mowy.

przygotowanie danych:

tworzenie słownika,
wybór jednostki fonetycznej (tworzenie plików z transkrypcją fonetyczną),
definiowanie gramatyki,
kodowanie danych (scenariusz rejestracji);

tworzenie modeli jednostek fonetycznych:

zdefiniowanie modeli
estymacja parametrów modeli

opracowanie procedur rozpoznawania
weryfikacja i testowanie systemu:

rozpoznawanie danych testowych,
praca w czasie rzeczywistym.

Sygnał mowy jest nośnikiem wiadomości (komendy), zakodowanej w postaci sekwencji symboli (sygnałów) dźwiękowych.

Zadaniem systemu jest rozpoznawanie sygnału mowy, czyli wyznaczenie odwzorowania między sekwencją pozyskanych z tego sygnału charakterystyk a odpowiadającą mu transkrypcją, będącą sekwencją symboli graficznych.

Niezbędnym uzupełnieniem systemu rozpoznawania mowy są procedury uczenia, które wykorzystując znane sygnały mowy i ich transkrypcje wyznaczają parametry modeli jednostek fonetycznych (słów).

Co to jest portal głosowy?

(system VoiceXML)

VoiceXML
VXML

Porównanie portalu głosowego z przeglądarką internetową

0x08 graphic

CEL:

Integracja zasobów sieci komputerowych z prostymi w obsłudze aparatami telefonicznymi, zwykłymi lub komórkowymi (około 1,5 miliarda ludzi korzysta z aparatów telefonicznych, w tym ponad 300 milionów w sieci telefonii komórkowej) oraz telefonii VoIP.

Portal wyposażony w technologie automatycznego rozpoznawania mowy i syntezy mowy.

Portal głosowy (system VoiceXML) składa się z dwóch zasadniczych części:

-serwera aplikacji (ang. application server, web server) - służy do przechowywania aplikacji stworzonych przy użyciu VoiceXML (przykładowe aplikacje: interfejs baz danych, przetwarzanie transakcji, pobieranie danych i treści, logika serwisowa);

-serwera (bramy) VoiceXML

Schemat funkcjonalny portalu głosowego

0x01 graphic

Elementy składowe serwera VXML

serwer VXML (ang. VXML server, VXML gateway):

przeglądarka głosowa (ang. voice browser)

interpreter kodu VXML (jądro systemu)
interpreter kontekstu

karty telefoniczne przyłączające publiczną sieć telefoniczną (ang. PSTN).
usługi (aplikacje) umożliwiające dialog:

rozpoznawanie mowy (ang. Speech Recognition Engine, SRE),
synteza mowy (ang. TTS) - wykonuje konwersję informacji tekstowej w sygnał mowy,
rozpoznawanie sygnałów wybierania tonowego (ang. DTMF),
rejestracja i odtwarzanie plików dźwiękowych,

Struktura przeglądarki głosowej

Portal głosowy jest nie tylko systemem do prowadzenia konwersacji z komputerem, lecz przede wszystkim stanowi bazę danych z informacjami dla potencjalnych klientów serwisu. Informacje te przechowywane są w postaci tekstowej na serwerach baz danych, skąd pobierane są przez skrypty, zlokalizowane na serwerach WWW, obsługujące zapytania, np. SQL. Wyselekcjonowane wiadomości konwertowane są do postaci dźwiękowej przez przeglądarkę głosową za pomocą syntezatora TTS.

Co to jest aplikacja głosowa

Aplikacja głosowa (telefoniczna) (ang. voice application)

umożliwia rozmówcy mówienie do i słyszenie głosu z komputera za pomocą telefonu w celu zrealizowania zadań (informacyjnych, usługowych, obliczeniowych).

Aplikacja głosowa (ang. voice application): zbiór jednego lub więcej dokumentów VXML.

Dokument VXML jest zbudowany z jednego lub więcej dialogów.

Dwa główne cele większości aplikacji telefonicznych:

a) umożliwić każdemu, kto mówi i słyszy, wykorzystanie aplikacji bez uprzedniego uczenia - interfejs kierowany przez aplikację (aplikacja prowadzi użytkownika (rozmówcę) początkującego, zadając pytania, na które on odpowiada i pomagając mu osiągnąć pożądany wynik);

b) umożliwić rozmówcy doświadczonemu wykonać zadanie szybko i efektywnie - interfejs o mieszanej inicjatywie (umożliwia rozmówcy sterować dialogiem, jak również być prowadzonym przez aplikację).

Wyjaśnić pojęcie: interfejs kierowany przez aplikację, interfejs o przemiennej inicjatywie

interfejs kierowany przez aplikację (aplikacja prowadzi użytkownika (rozmówcę) początkującego, zadając pytania, na które on odpowiada i pomagając mu osiągnąć pożądany wynik) - umożliwia każdemu, kto mówi i słyszy, wykorzystanie aplikacji bez uprzedniego uczenia.

interfejs o mieszanej inicjatywie (umożliwia rozmówcy sterować dialogiem, jak również być prowadzonym przez aplikację). - umożliwia rozmówcy doświadczonemu wykonać zadanie szybko i efektywnie

Wyjaśnić pojęcie: system informacji głosowej (IVR)

System informacji głosowej IVR (ang. Interactive Voice Response) to zautomatyzowany system telefoniczny (infolinia) pracujący w trybie inbound/outbound (przyjmowanie/samodzielne nawiązywanie połączeń).

Osoba dzwoniąca po wysłuchaniu nagranych wcześniej komunikatów za pomocą aparatu z wybieraniem tonowym DTMF lub czasami za pomocą głosu (ASR, Automatic Speech Recognition)) wybiera poszczególne pozycje z menu.

Obszary zastosowania IVR

Systemy tego typu używane są w Contact Center, biurach obsługi klienta, bankach, telemarketingu, systemach teległosowania, pomoc techniczna, przyjmowanie zamówień i sprzedaż, usługi informacyjne, systemy rezerwacji.

Wymienić zadania szczegółowe realizowane w systemie IVR.

autoryzacja klienta na podstawie dowolnego identyfikatora (indywidualnego PINu, hasła, numeru telefonu wywołującego, nr faktury),
uzyskiwanie informacji bez konieczności rozmowy z operatorem, np. stan konta, stopień realizacji zamówienia, historia transakcji itp.
reagowanie na wprowadzone znaki DTMF z klawiatury telefonu,
zbieranie informacji podczas interakcji z użytkownikiem, jej przetwarzanie i reagowanie na nią,
wielojęzyczne zapowiedzi głosowe,
synteza mowy zasobów tekstowych (ang. text to speech, TTS) - w szczególności tych, których zawartość na bieżąco ulega zmianie, np. informacje o transakcjach na rachunkach, wartości liczbowe, daty, komunikaty, statusy procesów, kursy walut, wielkość salda,
nagrywanie wiadomości,
zarządzanie pocztą głosową (dystrybucje wiadomości wg ustalonych reguł, integracja z serwerami mailowymi),
przełączanie rozmowy do operatora pod dowolny numer telefonu (numer wewnętrzny w firmie, numer zewnętrzny, numer telefonu komórkowego),
wykonywanie operacji na dowolnej bazie danych (zapisywanie informacji, uaktualnianie i kasowanie wpisów w bazie, wykonywanie procedur),
wyszukiwanie informacji w bazach danych i przygotowywanie raportów (przykład: klient chce dowiedzieć się jaki jest stopień realizacji jego zamówienia, w tym celu system prosi go o wprowadzenie numeru zlecenia z klawiatury telefonu; następnie system wyszukuje w bazie odpowiedni rekord, odczytuje wartość kolumny status i w zależności od wartości tej kolumny informuje klienta że jego zlecenie jest np. zrealizowane i może się zgłosić po odbiór do firmy),
integracja z systemami klasy ERP (ang. Enterprise Resource Planning) - systemami informatycznymi wspomagającymi zarządzanie, CRM (ang. Customer Relationship Management - zarządzanie relacjami z klientem),
integracja z systemem Contact Center,
integracja z technologiami i standardami: COM, HTTP, SOAP (ang. Simple Object Access Protocol), XML, TCL (ang. Tool Command Language) itp.

0x01 graphic