Pytania na zaliczenie przedmiotu „systemy dialogowe”
Wyjaśnić pojęcia: dialog, użytkownik, transakcja
Dialog jest interakcją (wzajemnym oddziaływaniem, współdziałaniem
pomiędzy użytkownikiem i komputerem
w osiągnięciu szczególnego celu
Użytkownik jest osobą współdziałającą z komputerem
Transakcja to akcja użytkownika i skojarzona z nią odpowiedź komputera (lub na odwrót)
Dialog jest serią transakcji
Transakcja jest najmniejszą jednostką interakcji człowiek - komputer
Składniki interfejsu użytkownika
Interfejs użytkownika zawiera 3 podstawowe składniki:
Sterowanie - umożliwia użytkownikowi "mówienie" do komputera. Elementy sterowania są zwykle obiektami, które umożliwiają tworzenie oraz przekazywanie poleceń do systemu
Zobrazowanie - umożliwia komputerowi zwracanie się ("mówienie") do użytkownika. Może zawierać różne technologie zobrazowania informacji (zwykle wizualne, ale czasami to może być „zobrazowanie” audio lub inne)
Interakcje lub dialog - kombinacja wprowadzania poleceń do komputera z jednej strony oraz zobrazowania informacji przez komputer z drugiej strony, tworząca łącznie dialog miedzy użytkownikiem i komputerem
Architektura typowego systemu dialogowego języka mówionego
Omówić działanie systemu dialogowego języka mówionego
całością steruje sterownik dialogu: umożliwia wymianę informacji z użytkownikiem, a tym samym dostęp do bazy danych i jej uaktualnianie
interakcja składa się z sekwencji transakcji (cyklów pytanie/odpowiedź), pytania są tak projektowane, aby ograniczyć odpowiedź do określonego zbioru informacji
odpowiedź użytkownika jest przetwarzana przez urządzenie rozpoznawania mowy (URM)
wyjście URM (zwykle niejednoznaczne) jest przekształcane przez interpreter języka naturalnego - np. parser (natural language processing, NLP) - do postaci quasi-logicznej
sterownik, bazując na nowym wejściu, uaktualnia swój wewnętrzny stan i planuje następną akcję
postępowanie trwa, aż potrzeby użytkownika zostaną zaspokojone - wtedy interakcja jest przerywana
Zadania procesu projektowania SDS
specyfikowanie dialogu i sterowanie jego przebiegiem
ograniczenie zakresu rozpoznawania wypowiedzi do dziedziny aplikacji i interpretacja wyjścia urządzenia rozpoznawania mowy
generowanie odpowiedzi właściwej kontekstowo (zgodnej z dotychczasowym przebiegiem dialogu)
Pożądane własności systemu dialogowego.
- niezależność od mówcy
- stosowanie mowy ciągłej (menu ze słowami izolowanymi jest zwykle niepraktyczne)
- stosowanie swobodnego i naturalnego języka (od przypadkowych użytkowników trudno wymagać stosowania prawidłowej syntaktyki)
- zapewnienie zarządzania dialogiem (sterowanie dialogiem musi być tak zaprojektowanie, aby pogodzić swobodę użytkownika z koniecznością zachowania kontroli systemu)
Wyjaśnić pojęcia: niezależność od mówcy, mowa ciągła, słownik rozpoznawanych słów
- niezależność od mówcy - możliwość rozpoznawania słów, niezależnie od właściwości traktu głosowego osoby je wypowiadającej(ton, barwa) oraz charakterystycznych zjawiskami pozalingwistycznych
- mowa ciągła, - spontaniczna, możliwa nieprawidłowa syntaktyka, kolejne słowa wypowiadane sa po sobie, bez wyraźnych przejść oraz izolacji
- słownik rozpoznawanych słów - na podatnie wypowiadanych i przeanalizowanych słów buduje się wzorce, służące do weryfikacji mowy ludzkiej
Struktura funkcjonalna systemu dialogowego języka mówionego
Scharakteryzować metody automatycznego rozpoznawania mowy
akustyczno - fonetyczne (acoustic-phonetic approach)
Rozpoznawanie polega na sekwencyjnym dekodowaniu segmentów sygnału mowy na podstawie charakterystyk akustycznych tego sygnału i znanych związków między tymi charakterystykami i jednostkami fonetycznymi.
Sygnał mowy jest sekwencją jednostek akustycznych, które są realizacją fizyczną indeksowanych unikalną nazwą jednostek fonetycznych.
W rozpoznawaniu stosuje się fonem lub sylabę. umożliwiają rozpoznawanie sygnału mowy bez konieczności wcześniejszego tworzenia modeli akustycznych rozpoznawanych jednostek fonetycznych
rozpoznawania wzorców (pattern-recognition, template-based approach).
2 tryby pracy: t. uczenia i t. rozpoznawania
Wzorce mogą mieć postać: szablonu lub modelu statystycznego
Rozpoznawania przebiega w dwóch etapach:
-przypisanie wzoru testowego do określonego wzoru
-sekwencji jednostek fonetycznych przypisywany jest wyraz ze słownika wyrazów rozpoznawanych
Zwykle rozpoznanie jest niejednoznaczne - segmentowi sygnału mowy może być przypisany więcej niż jeden symbol fonetyczny, wyjściem programu może być : pojedyncze zdanie, lista N najlepszych, krata słów, graf słów.
Założenia metody akustyczno-fonetycznej.
istnieje skończona liczba dźwięków (symboli dźwiękowych) języka mówionego,
dźwięki są w pełni rozróżnialne poprzez zbiór charakterystyk akustycznych, które są wynikiem badań akustyczno - fonetycznych nad sygnałem mowy.
Pierwsze założenie jest spełnione: każdy dźwięk jest generowany przy określonej konfiguracji traktu głosowego. Liczba możliwych konfiguracji traktu głosowego jest nieograniczona, lecz ze względu na możliwości percepcji sygnału mowy przez człowieka, liczba rozpoznawanych dźwięków mowy w każdym znanym języku naturalnym jest skończona.
Z drugim założeniem są problemy: rozróżnialność dźwięków jest trudnym do spełnienia wymaganiem, ponieważ sygnał mowy charakteryzuje się dużą zmiennością związaną z mówcą, wpływem kanału transmisji oraz kontekstem (sąsiedztwem innych dźwięków).
Omówić automatyczne rozpoznawanie mowy metodą akustyczno-fonetyczną (schemat blokowy) Jakie jednostki fonetyczne stosowane są w rozpoznawaniu mowy metodą akustyczno-fonetyczną?
Rozpoznawanie polega na sekwencyjnym dekodowaniu segmentów sygnału mowy na
podstawie charakterystyk akustycznych tego sygnału i znanych związków między tymi charakterystykami i jednostkami fonetycznymi
W rozpoznawaniu akustyczno - fonetycznym najczęściej stosuje się najmniejszą jednostkę mowy - fonem, traktowany jako zespół cech dystynktywnych (jego realizacją fizyczną jest głoska, czyli dźwięk).
Stosowana też bywa sylaba, w której zasadniczą rolę odgrywa samogłoska.
Wymienić najczęściej wykorzystywane charakterystyki (cechy) akustyczne w rozpoznawaniu mowy metodą akustyczno-fonetyczną
pobudzeniem:
częstotliwość tonu podstawowego
energia sygnału
obecność w pobudzeniu sygnału okresowego i/lub przypadkowego, oznaczająca dźwięczność lub bezdźwięczność fonemów
filtrem (traktem głosowym):
częstotliwości formantowe, zwykle pierwsze trzy, będące maksimami lokalnymi amplitudowej charakterystyki częstotliwościowej traktu głosowego
obecność w transmitancji traktu głosowego zer charakterystycznych dla dźwięków nosowych, czyli nosowość fonemu
stosunek energii składowych wysoko- i niskoczęstotliwościowych
Wyjaśnic pojęcia: segmentacja, indeksacja, klasyfikacja
Najważniejszy i najtrudniejszy jest etap segmentacji i indeksacji, łącznie zwany klasyfikacją (ang. odpowiednio: segmentation, labelling, annotation):
najpierw wyszukiwane są fragmenty (segmenty) sygnału mowy, w których jego cechy akustyczne są stałe lub zmieniają się niewiele
następnie przypisuje się tym segmentom zgodnie z wyznaczonymi cechami akustycznymi jeden lub więcej indeksów (symboli fonetycznych)
Wykorzystuje się tutaj eksperymentalnie wyznaczone wzory odniesienia (reference pattern) dla wszystkich rozpoznawanych jednostek fonetycznych.
Omówić automatyczne rozpoznawanie mowy metodą rozpoznawania wzorców (schemat blokowy)
z wypowiedzi uczących, tworzy się wzory odniesienia, czyli wzorce (reference pattern), reprezentujące jednostki (symbole) fonetyczne, a nastepnie pozyskany z rozpoznawanej wypowiedzi wzór testowy (lub ich sekwencję) porównuje się z każdym wzorcem.
Wyjaśnić pojęcia: tryb uczenia i tryb rozpoznawania (w rozpoznawaniu mowy metodą rozpoznawania wzorców)
tryb uczenia (treningowy) - ze zbiorów wzorów testowych (test pattern), pozyskanych z wypowiedzi uczących, tworzy się wzory odniesienia, czyli wzorce (reference pattern), reprezentujące jednostki (symbole) fonetyczne
tryb rozpoznawania - pozyskany z rozpoznawanej wypowiedzi wzór testowy (lub ich sekwencję) porównuje się z każdym wzorem odniesienia, czyli wzorcem.
Scharakteryzować rodzaje wzorców w metodzie rozpoznawania wzorców.
- szablonu (template)
- modelu statystycznego (statistical model)
Podobieństwo wzoru testowego do wzorców w postaci modelu statystycznego (np. dla ukrytych modeli Markowa, HMM) zwykle wyrażane jest przez prawdopodobieństwo wygenerowania tego wzoru przez modele
Liczebność zbioru wzorców w każdym miejscu rozpoznawanej wypowiedzi może być zmniejszana, np. przez zastosowanie reguł prostej gramatyki o skończonej liczbie stanów do rozpoznawania ciągów jednostek fonetycznych
Zdefiniować (graficznie) proces Markowa o skończonej liczbie stanów i czasie dyskretnym.
Proces Markowa o skończonej liczbie stanów i czasie dyskretnym w postaci łańcucha Markowa (obserwowalnego) o trzech stanach:
przejście między stanami odbywa się w dyskretnych momentach czasu,
przejście zachodzi z zadanym prawdopodobieństwem,
w każdym stanie generowana jest określona obserwacja (symbol wyjściowy).
Jaką postać może mieć wyjście urządzenia automatycznego rozpoznawania mowy
Wyjście urządzenia automatycznego rozpoznawania mowy może przybierać jedną z poniższych postaci:
pojedyncze zdanie
lista N najlepszych zdań (najlepiej dopasowanych do sygnału wejściowego): jest to wskazane, gdy okaże się, że z powodu błędów rozpoznania zdanie najlepsze jest niegramatyczne, liczba N może być duża
krata słów: lista słów ważonych wskaźnikiem dopasowania, zwykle charakteryzuje się dużą redundancją i w efekcie długim czasem pracy procesora językowego
tzw. graf słów: rozwiązanie pośrednie (grupa N najlepszych zdań, w których wspólne części są połączone w celu utworzenia grafu) - daje to takie same możliwości jak lista N najlepszych zdań, lecz pozwala na przyśpieszenie procesu.
Narysować kratę dla przykładowego dyskretnego ukrytego modelu Markowa.
krata słów: lista słów ważonych wskaźnikiem dopasowania, zwykle charakteryzuje się dużą redundancją i w efekcie długim czasem pracy procesora językowego
Zdefiniować (graficznie) dyskretnym ukryty model Markowa (HMM)
Co to jest problem ewaluacji, dekodowania i uczenia w HMM
a) obliczanie dla danego modelu
p-stwa
wygenerowania zadanej (do rozpoznania) sekwencji obserwacji O;
b) wyznaczanie najbardziej prawdopodobnej sekwencji stanów, czyli sekwencji s, dla której p-stwo łączne
wygenerowania sekwencji obserwacji O przez model
jest największe;
c) rozwiązanie problemu odwrotnego, to znaczy estymacji parametrów modelu
dla zadanej (uczącej) sekwencji obserwacji O.
Jak wyrażane jest podobieństwo wzoru testowego do wzorców
Podobieństwo wzoru testowego do wzorców w postaci modelu statystycznego (np. dla ukrytych modeli Markowa, HMM) zwykle wyrażane jest przez prawdopodobieństwo wygenerowania tego wzoru przez modele
Do czego stosuje się modele języka w rozpoznawaniu mowy
??????????????????????????????????????????????
Jak działa układ porównania
wzór testowy (lub ich sekwencję) porównuje się z każdym wzorem odniesienia, czyli wzorcem.
przypisanie wzoru testowego (jednego lub częściej ich sekwencji) do określonego wzoru
sekwencji jednostek fonetycznych przypisywany jest wyraz ze słownika wyrazów rozpoznawanych
Jakość rozpoznawania mierzona jest wskaźnikiem dopasowania, który zwykle ma sens prawdopodobieństwa
Różnice między rozpoznawaniem mowy metodą akustyczno-fonetyczną i metodą rozpoznawania wzorców
Metoda rozpoznawania wzorców w przeciwieństwie do metody akustyczno - fonetycznej:
nie wyznacza się charakterystyk akustycznych związanych ze sposobem wytwarzania sygnału mowy
nie wydziela się z sygnału mowy segmentów o zróżnicowanej długości, odpowiadających fonemom.
Co jest wynikiem działania procesora językowego
Procesor językowy dostarcza reprezentacji znaczenia operacyjnego rozpoznanej frazy. Na obecnym etapie rozwoju umożliwia rozumienie ograniczone do podzbioru języka naturalnego i dla określonej dziedziny aplikacji (pragmatyka)
Dlaczego rozdziela się reprezentację syntaktyczną i semantyczną języka
rzeczywiste zdania są złożone: niezbędna jest rozległa wiedza do przedstawienia ich struktury gramatycznej
istotna informacja jest przekazywana w `wyspach' („o czwartej”, „z Poznania”,...)
złożoność syntaktyczna głównie leży w przestrzeni między wyspami, w nieistotnych semantycznie segmentach zdania
Co to jest przetwarzanie syntaktyczne?
Polega na rozpoznaniu struktury gramatycznej zdania, umożliwiając jednocześnie:
sprawdzenie, czy fraza wejściowa jest prawidłowo sformułowana
uproszczenie procesu określania znaczenia (rozumienia)
pomoc w wykryciu nowych i niezwykłych znaczeń rozpoznanego ciągu słów
Scharakteryzować analizę syntaktyczna pełną i częściową
W pełnej analizie musi być analizowane całe zdanie - może być potrzebna obszerna wiedza (szczególnie do modelowania niegramatyczności w wejściu mówionym)
Gdy pełna analiza całego zdania nie jest możliwa, analizuje się pewne fragmenty zdania w nadziei, że zawierają istotną informację dla jego prawidłowego zrozumienia (określenia znaczenia operacyjnego w ograniczonej dziedzinie)
Potencjalne możliwości częściowej analizy:
zwiększa odporność algorytmów na zakłócenia
przyśpiesza prawidłowe rozumienie zdań dla ograniczonej wiedzy lingwistycznej
umożliwia analizę wypowiedzi spontanicznych
Ale jest przyczyną błędnej interpretacji złożonych konstrukcji językowych
Co jest celem przetwarzania semantycznego?
Cel: określenie znaczenia operacyjnego analizowanego zdania
Opracowano wiele języków reprezentacji znaczeniowej, jednak brak jest języka jednolitego dla wszystkich zakresów NLP
Trudności powoduje fakt, że znaczenie operacyjne wypowiedzi zależy od pragmatyki aplikacji, w szczególności od:
kontekstu
celu do osiągnięcia
Najmniej rozpoznany i najtrudniejszy obszar NLP: modelowanie kontekstu i jego wykorzystanie
Cechy charakterystyczne kontekstu
nie jest czasowo zlokalizowany (jak w sygnale mowy)
jest szeroki i niezwykle silny, może sięgać odległych słów wypowiedzianych i takich, które dopiero będą wypowiedziane
może obejmować zakres wielu zdań, akapitów, nawet dokumentów
Scharakteryzować praktyczne realizacje procesu NLP(naturalny język mówiny)
rezygnują z parsera i określają znaczenie bez informacji syntaktycznych
łączą przetwarzanie syntaktyczne i semantyczne w jeden proces
nie wymagają wykorzystywania kontekstu
eliminują generator odpowiedzi w aplikacjach o kilku możliwych wyjściach
rezygnują w całości z tej struktury i przechodzą od rozpoznanych słów do znaczenia operacyjnego (system ekspertowy), wyznaczając znaczenie bez szczegółowej analizy językowej na jakimkolwiek poziomie
Omówić własności menadżera dialogu
Zadania:
interpretacja znaczenia operacyjnego wypowiedzi w oparciu o model dialogu (interakcji) i w kontekście dotychczasowych wypowiedzi
decydowanie o dalszej akcji: żądać kolejnych danych, odszukać informację, zainicjować na nowo błędnie przebiegający dialog
generowanie fraz języka naturalnego (budowa generatora nie jest tak złożona, jak pozostałych składników systemu dialogowego)
Wymienić fazy informacyjnych dialogów usługowych
W informacyjnych dialogach usługowych (dostarczanie użytkownikom przez telefon informacji o konkretnych usługach) wyróżnia się następujące fazy:
otwarcie dialogu
sformułowanie życzenia
sformułowanie odpowiedzi
zakończenie dialogu
Otwarcie i zamknięcie nie zależą od dziedziny zastosowania i są podobne dla większości dialogów języka mówionego
W dialogu między ludźmi
otwarcie : wyrazy uprzejmości (Dzień dobry, Witam, Czy mogłaby mi pani pomóc?) lub oznaki wahania (chrząknięcia, mhm)
zamknięcie: wymiana podziękowań (Dziękuję Panu, Dziękuję bardzo, Dziękuję), a następnie wymiana pozdrowień (Do widzenia)
W dialogu człowiek - komputer
otwarcie jest podobne, pojawienie się wyrazów uprzejmości zależy od „uprzejmości” systemu
zamknięcie może być prostsze: rozmówca odkłada słuchawkę telefonu.
Sformułowanie życzenia i sformułowanie odpowiedzi są zależne od zadania (identyfikacja życzenia rozmówcy, uzyskanie informacji przez przeszukanie bazy danych i wydanie żądanej informacji)
Realizacja zadania może wymagać kilku kroków pośrednich:
potwierdzenia, aby uniknąć pomyłki
naprawy, gdy doszło do pomyłki
doprecyzowania szczegółów itp
Co to jest generator mowy syntetycznej
Generator mowy syntetycznej (syntezator mowy) urządzenie (obecnie komputerowe) do zamiany tekstu w postaci symbolicznej na mowę (text to speech, TTS)
Scharakteryzować metody syntezowania sygnału mowy
Syntezatory artykulacyjne
modelowanie dynamiki traktu głosowego podczas artykulacji wypowiedzi
Informacja wejściowa: wartości wielu parametrów reprezentujących położenie (pozycję) poszczególnych części traktu głosowego (artykulatorów)
Parametry te określają kształt traktu głosowego i są wyznaczane dla jednakowych odcinków, zwykle o długości 0,5 cm, a cały trakt jest modelowany jako ciąg cylindrów (rur prostych)
Aby dokonać syntezy sygnału mowy ta złożona rura jest pobudzana przez impulsy quasiokresowe o kształcie określonym przez Rosenberga (1970) lub Fanta (1985).
Najczęściej synteza artykulacyjna występuje w dwu postaciach:
formantowa
z predykcją liniową
modelowanie bezpośrednio samego sygnału mowy (generowanie sygnału o charakterystykach akustycznych takich samych jak sygnału mowy)
Wykorzystują konkatenację segmentów sygnału mowy (jednostek fonetycznych):
jednorodnych - najczęściej difonów (stosowane ze względu na dokładność odtwarzania transjentów, które decydują o zrozumiałości sygnału mowy)
zróżnicowanych: fonemy, difony, sylaby i inne
Omówić model traktu głosowego w postaci tuby akustycznej.
Sygnał emitowany przez usta można wyznaczyć jako rozwiązanie równania ciśnienia fali dźwiękowej wzdłuż traktu głosowego (równania Webstera).W celu wygenerowania ciągu fonemów należy zapewnić zmianę w czasie wartości parametrów artykulacyjnych. Wadą metody jest jej złożoność i w konsekwencji duża ilość obliczeń
Scharakteryzować syntezatory artykulacyjne.
Bazują na reprezentacji traktu głosowego. Początkowo wykorzystywały szereg dynamicznie sterowanych filtrów analogowych, a nowoczesne systemy są modelowane na komputerach cyfrowych.
Informacja wejściowa: wartości wielu parametrów reprezentujących położenie (pozycję) poszczególnych części traktu głosowego (artykulatorów).
Parametry te określają kształt traktu głosowego i są wyznaczane dla jednakowych odcinków, zwykle o długości 0,5 cm, a cały trakt jest modelowany jako ciąg cylindrów (rur prostych)
Aby dokonać syntezy sygnału mowy ta złożona rura jest pobudzana przez impulsy quasiokresowe o kształcie określonym przez Rosenberga (1970) lub Fanta (1985).
Omówić syntezę formantową
Wykorzystuje model pobudzenie - filtr
Trakt głosowy człowieka modelowany jest za pomocą zestawu filtrów rezonansowych, które kształtują jego przybliżoną częstotliwościową charakterystykę amplitudową
Częstotliwości rezonansowe tych filtrów są równe częstotliwościom formantów, które charakteryzują kolejne fragmenty sygnału mowy syntezowanej wypowiedzi
Do wygenerowania zrozumiałej mowy wystarczy znajomość trajektorii pierwszych trzech formantów, do wygenerowania wysokiej jakości sygnału mowy: trajektorie czterech lub pięciu formantów.
Syntezatory modelujące sygnał mowy
Wykorzystują konkatenację segmentów sygnału mowy (jednostek fonetycznych):
jednorodnych - najczęściej difonów (stosowane ze względu na dokładność odtwarzania transjentów, które decydują o zrozumiałości sygnału mowy)
zróżnicowanych: fonemy, difony, sylaby i inne
Przykład syntezy konkatenacyjnej: syntezator zbudowany przez France Telecom
Wykorzystuje algorytm PSOLA (ang. The Pitch Synchronous OverLap and Add), który umożliwia:
płynne łączenie segmentów, odpowiadających jednostkom fonetycznym
zmianę wysokości dźwięku
zmianę długości (czasu trwania) poszczególnych segmentów
Omówić stosowane w syntezie sygnału mowy jednostki fonetyczne
Sygnał mowy jest sekwencją jednostek akustycznych Transkrypcja fonetyczna jest sekwencją jednostek fonetycznych jednostka fonetyczna= jednostka akustyczna + unikalna nazwa W rozpoznawaniu akustyczno - fonetycznym najczęściej stosuje się najmniejszą jednostkę mowy - fonem. Fonem jest traktowany jako zespół cech dystynktywnych (jego realizacją fizyczną jest głoska, czyli dźwięk) Stosowana też bywa sylaba, w której zasadniczą rolę odgrywa samogłoska
Omówić syntezę konkatenacyjna na przykładzie algorytmu PSOLA.
syntezator zbudowany przez France Telecom, wykorzystuje algorytm PSOLA (ang. The Pitch Synchronous OverLap and Add), który umożliwia:
płynne łączenie segmentów, odpowiadających jednostkom fonetycznym
zmianę wysokości dźwięku
zmianę długości (czasu trwania) poszczególnych segmentów
Synteza mowy konkatenacyjnej generuje mowę poprzez sklejanie ze sobą elementów akustycznych powstałych z naturalnej mowy (fony, difony, trifony, sylaby). Dużą zaletą tego rodzaju syntezy jest niewielki rozmiar bazy danych, z uwagi na mała objętość jednostek akustycznych. Bardzo często używana jest konkatenacja difonów, która umożliwia dobrą jakość syntezy mowy przy wykorzystaniu korpusu zawierającego około 1500 jednostek.
Omówić syntezę korpusową
Modyfikacją syntezy konkatenacyjnej jest synteza korpusowa (zasobowa), w której łączy się segmenty sygnału mowy o długości dobieranej kaŜdorazowo dla przekształcanego tekstu. Kryterium doboru jest jakość generowanego sygnału (definiuje się wskaźniki jakości). Z zasobu mowy wybierane są różnorodne jednostki fonetyczne: difony, trifony, sylaby, wyrazy, frazy (grupy wyrazowe) czy nawet całe zdania. Jednostki fonetyczne występują w zasobie wielokrotnie w róŜnych kontekstach. Generowany sygnał mowy jest konkatenacją różnych jednostek fonetycznych. Istnieje wiele różnych możliwości złożenia pożądanego sygnału mowy. Dobór jednostek fonetycznych oceniany jest za pomocą funkcji kosztu (estymacji), uwzględniającej zarówno czas trwania poszczególnych fragmentów jak i cechy prozodyczne mowy. Proces obliczeniowy jest dość złożony. Obecnie syntezą korpusową zajmuje się wiele firm (np.: AT&T, SpeechWorks, ScanSoft). Przygotowany dla języka angielskiego zasób mowy ma rozmiar ok. 200 MB. W Polsce syntezą korpusową zajmuje się firma IVO Software z Gdyni. Wydaje się, że właśnie ta technika ma szanse rozwinąć się w przyszłości. Obecnie są prowadzone badania nad udoskonaleniem zasobu mowy (aby pokrył wszystkie zjawiska fonetyczne w danym języku) i funkcji estymacji. Synteza korpusowa jest obecnie wykorzystywana w systemach dialogowych portali głosowych.
Architektura systemu dialogowego języka mówionego
Co to jest portal głosowy
Portal głosowy - system wyposażony w technologie automatycznego rozpoznawania mowy i syntezy mowy. Osoba, która zadzwoni do portalu głosowego może za pomocą krótkich, mówionych fraz wybrać interesują ją opcję. Portal głosowy może prowadzić równolegle wiele rozmów i być dostępny przez 24 godziny na dobę. Dzięki najnowszym technologiom głosowym, takim jak: automatyczne rozpoznawanie mowy i synteza mowy portale głosowe pozwalają realizować projekty do tej pory nieosiągalne
Omówić charakterystyki reprezentujące sygnał mowy w dziedzinie częstotliwości.
Najważniejszym narzędziem przetwarzania sygnałów cyfrowych jest dyskretne przekształcenie Fouriera (ang. Discrete Fourier Transform, DFT).
W zależności od typu sygnału w czasie (ciągłe czy dyskretne, okresowe czy nieokresowe) wyróżnia się cztery kategorie przekształceń (transformat) Fouriera:
dla sygnałów ciągłych okresowych - szeregi Fouriera (ang. Fourier series);
dla sygnałów ciągłych nieokresowych - przekształcenie Fouriera (ang. Fourier transform);
dla sygnałów dyskretnych okresowych - (dyskretny szereg Fouriera) dyskretne przekształcenie Fouriera (ang. discrete Fourier transform, DFT);
dla sygnałów dyskretnych nieokresowych - przekształcenie Fouriera dla sygnałów o czasie dyskretnym (ang. discrete time Fourier transform, DTFT)
W cyfrowym przetwarzaniu sygnałów wykorzystywane jest dyskretne przekształcenie Fouriera (DFT), czyli założono, że sygnał analizowany jest dyskretny i okresowy (oczywiście również nieskończony).
Dyskretna transformata Fouriera
Synteza
sygnał: dyskretny w czasie, (zespolony), okresowy
Analiza
widmo: dyskretne, zespolone, okresowe
Wymienić etapy i zadania budowy systemu rozpoznawania mowy.
przygotowanie danych:
tworzenie słownika,
wybór jednostki fonetycznej (tworzenie plików z transkrypcją fonetyczną),
definiowanie gramatyki,
kodowanie danych (scenariusz rejestracji);
tworzenie modeli jednostek fonetycznych:
zdefiniowanie modeli
estymacja parametrów modeli
opracowanie procedur rozpoznawania
weryfikacja i testowanie systemu:
rozpoznawanie danych testowych,
praca w czasie rzeczywistym.
Sygnał mowy jest nośnikiem wiadomości (komendy), zakodowanej w postaci sekwencji symboli (sygnałów) dźwiękowych.
Zadaniem systemu jest rozpoznawanie sygnału mowy, czyli wyznaczenie odwzorowania między sekwencją pozyskanych z tego sygnału charakterystyk a odpowiadającą mu transkrypcją, będącą sekwencją symboli graficznych.
Niezbędnym uzupełnieniem systemu rozpoznawania mowy są procedury uczenia, które wykorzystując znane sygnały mowy i ich transkrypcje wyznaczają parametry modeli jednostek fonetycznych (słów).
Co to jest portal głosowy?
(system VoiceXML)
VoiceXML
VXML
Porównanie portalu głosowego z przeglądarką internetową
CEL:
Integracja zasobów sieci komputerowych z prostymi w obsłudze aparatami telefonicznymi, zwykłymi lub komórkowymi (około 1,5 miliarda ludzi korzysta z aparatów telefonicznych, w tym ponad 300 milionów w sieci telefonii komórkowej) oraz telefonii VoIP.
Portal wyposażony w technologie automatycznego rozpoznawania mowy i syntezy mowy.
Portal głosowy (system VoiceXML) składa się z dwóch zasadniczych części:
-serwera aplikacji (ang. application server, web server) - służy do przechowywania aplikacji stworzonych przy użyciu VoiceXML (przykładowe aplikacje: interfejs baz danych, przetwarzanie transakcji, pobieranie danych i treści, logika serwisowa);
-serwera (bramy) VoiceXML
Schemat funkcjonalny portalu głosowego
Elementy składowe serwera VXML
serwer VXML (ang. VXML server, VXML gateway):
przeglądarka głosowa (ang. voice browser)
interpreter kodu VXML (jądro systemu)
interpreter kontekstu
karty telefoniczne przyłączające publiczną sieć telefoniczną (ang. PSTN).
usługi (aplikacje) umożliwiające dialog:
rozpoznawanie mowy (ang. Speech Recognition Engine, SRE),
synteza mowy (ang. TTS) - wykonuje konwersję informacji tekstowej w sygnał mowy,
rozpoznawanie sygnałów wybierania tonowego (ang. DTMF),
rejestracja i odtwarzanie plików dźwiękowych,
Struktura przeglądarki głosowej
Portal głosowy jest nie tylko systemem do prowadzenia konwersacji z komputerem, lecz przede wszystkim stanowi bazę danych z informacjami dla potencjalnych klientów serwisu. Informacje te przechowywane są w postaci tekstowej na serwerach baz danych, skąd pobierane są przez skrypty, zlokalizowane na serwerach WWW, obsługujące zapytania, np. SQL. Wyselekcjonowane wiadomości konwertowane są do postaci dźwiękowej przez przeglądarkę głosową za pomocą syntezatora TTS.
Co to jest aplikacja głosowa
Aplikacja głosowa (telefoniczna) (ang. voice application)
umożliwia rozmówcy mówienie do i słyszenie głosu z komputera za pomocą telefonu w celu zrealizowania zadań (informacyjnych, usługowych, obliczeniowych).
Aplikacja głosowa (ang. voice application): zbiór jednego lub więcej dokumentów VXML.
Dokument VXML jest zbudowany z jednego lub więcej dialogów.
Dwa główne cele większości aplikacji telefonicznych:
a) umożliwić każdemu, kto mówi i słyszy, wykorzystanie aplikacji bez uprzedniego uczenia - interfejs kierowany przez aplikację (aplikacja prowadzi użytkownika (rozmówcę) początkującego, zadając pytania, na które on odpowiada i pomagając mu osiągnąć pożądany wynik);
b) umożliwić rozmówcy doświadczonemu wykonać zadanie szybko i efektywnie - interfejs o mieszanej inicjatywie (umożliwia rozmówcy sterować dialogiem, jak również być prowadzonym przez aplikację).
Wyjaśnić pojęcie: interfejs kierowany przez aplikację, interfejs o przemiennej inicjatywie
interfejs kierowany przez aplikację (aplikacja prowadzi użytkownika (rozmówcę) początkującego, zadając pytania, na które on odpowiada i pomagając mu osiągnąć pożądany wynik) - umożliwia każdemu, kto mówi i słyszy, wykorzystanie aplikacji bez uprzedniego uczenia.
interfejs o mieszanej inicjatywie (umożliwia rozmówcy sterować dialogiem, jak również być prowadzonym przez aplikację). - umożliwia rozmówcy doświadczonemu wykonać zadanie szybko i efektywnie
Wyjaśnić pojęcie: system informacji głosowej (IVR)
System informacji głosowej IVR (ang. Interactive Voice Response) to zautomatyzowany system telefoniczny (infolinia) pracujący w trybie inbound/outbound (przyjmowanie/samodzielne nawiązywanie połączeń).
Osoba dzwoniąca po wysłuchaniu nagranych wcześniej komunikatów za pomocą aparatu z wybieraniem tonowym DTMF lub czasami za pomocą głosu (ASR, Automatic Speech Recognition)) wybiera poszczególne pozycje z menu.
Obszary zastosowania IVR
Systemy tego typu używane są w Contact Center, biurach obsługi klienta, bankach, telemarketingu, systemach teległosowania, pomoc techniczna, przyjmowanie zamówień i sprzedaż, usługi informacyjne, systemy rezerwacji.
Wymienić zadania szczegółowe realizowane w systemie IVR.
autoryzacja klienta na podstawie dowolnego identyfikatora (indywidualnego PINu, hasła, numeru telefonu wywołującego, nr faktury),
uzyskiwanie informacji bez konieczności rozmowy z operatorem, np. stan konta, stopień realizacji zamówienia, historia transakcji itp.
reagowanie na wprowadzone znaki DTMF z klawiatury telefonu,
zbieranie informacji podczas interakcji z użytkownikiem, jej przetwarzanie i reagowanie na nią,
wielojęzyczne zapowiedzi głosowe,
synteza mowy zasobów tekstowych (ang. text to speech, TTS) - w szczególności tych, których zawartość na bieżąco ulega zmianie, np. informacje o transakcjach na rachunkach, wartości liczbowe, daty, komunikaty, statusy procesów, kursy walut, wielkość salda,
nagrywanie wiadomości,
zarządzanie pocztą głosową (dystrybucje wiadomości wg ustalonych reguł, integracja z serwerami mailowymi),
przełączanie rozmowy do operatora pod dowolny numer telefonu (numer wewnętrzny w firmie, numer zewnętrzny, numer telefonu komórkowego),
wykonywanie operacji na dowolnej bazie danych (zapisywanie informacji, uaktualnianie i kasowanie wpisów w bazie, wykonywanie procedur),
wyszukiwanie informacji w bazach danych i przygotowywanie raportów (przykład: klient chce dowiedzieć się jaki jest stopień realizacji jego zamówienia, w tym celu system prosi go o wprowadzenie numeru zlecenia z klawiatury telefonu; następnie system wyszukuje w bazie odpowiedni rekord, odczytuje wartość kolumny status i w zależności od wartości tej kolumny informuje klienta że jego zlecenie jest np. zrealizowane i może się zgłosić po odbiór do firmy),
integracja z systemami klasy ERP (ang. Enterprise Resource Planning) - systemami informatycznymi wspomagającymi zarządzanie, CRM (ang. Customer Relationship Management - zarządzanie relacjami z klientem),
integracja z systemem Contact Center,
integracja z technologiami i standardami: COM, HTTP, SOAP (ang. Simple Object Access Protocol), XML, TCL (ang. Tool Command Language) itp.