Systemy dialogowe pytania na zaliczenie2010 OPRACOWANE

Pytania na zaliczenie przedmiotu „systemy dialogowe”

  1. Wyjaśnić pojęcia: dialog, użytkownik, transakcja

Dialog jest interakcją (wzajemnym oddziaływaniem, współdziałaniem

Użytkownik jest osobą współdziałającą z komputerem

Transakcja to akcja użytkownika i skojarzona z nią odpowiedź komputera (lub na odwrót)

Dialog jest serią transakcji

Transakcja jest najmniejszą jednostką interakcji człowiek – komputer

  1. Składniki interfejsu użytkownika

Interfejs użytkownika zawiera 3 podstawowe składniki:

  1. Architektura typowego systemu dialogowego języka mówionego

  2. Omówić działanie systemu dialogowego języka mówionego

  1. Zadania procesu projektowania SDS

  1. Pożądane własności systemu dialogowego.

- niezależność od mówcy

- stosowanie mowy ciągłej (menu ze słowami izolowanymi jest zwykle niepraktyczne)

- stosowanie swobodnego i naturalnego języka (od przypadkowych użytkowników trudno wymagać stosowania prawidłowej syntaktyki)

- zapewnienie zarządzania dialogiem (sterowanie dialogiem musi być tak zaprojektowanie, aby pogodzić swobodę użytkownika z koniecznością zachowania kontroli systemu)

  1. Wyjaśnić pojęcia: niezależność od mówcy, mowa ciągła, słownik rozpoznawanych słów

- niezależność od mówcy – możliwość rozpoznawania słów, niezależnie od właściwości traktu głosowego osoby je wypowiadającej(ton, barwa) oraz charakterystycznych zjawiskami pozalingwistycznych

- mowa ciągła, - spontaniczna, możliwa nieprawidłowa syntaktyka, kolejne słowa wypowiadane sa po sobie, bez wyraźnych przejść oraz izolacji

- słownik rozpoznawanych słów – na podatnie wypowiadanych i przeanalizowanych słów buduje się wzorce, służące do weryfikacji mowy ludzkiej

  1. Struktura funkcjonalna systemu dialogowego języka mówionego

  2. Scharakteryzować metody automatycznego rozpoznawania mowy

Rozpoznawanie polega na sekwencyjnym dekodowaniu segmentów sygnału mowy na podstawie charakterystyk akustycznych tego sygnału i znanych związków między tymi charakterystykami i jednostkami fonetycznymi.

Sygnał mowy jest sekwencją jednostek akustycznych, które są realizacją fizyczną indeksowanych unikalną nazwą jednostek fonetycznych.

W rozpoznawaniu stosuje się fonem lub sylabę. umożliwiają rozpoznawanie sygnału mowy bez konieczności wcześniejszego tworzenia modeli akustycznych rozpoznawanych jednostek fonetycznych

2 tryby pracy: t. uczenia i t. rozpoznawania

Wzorce mogą mieć postać: szablonu lub modelu statystycznego

Rozpoznawania przebiega w dwóch etapach:

-przypisanie wzoru testowego do określonego wzoru

-sekwencji jednostek fonetycznych przypisywany jest wyraz ze słownika wyrazów rozpoznawanych

Zwykle rozpoznanie jest niejednoznaczne - segmentowi sygnału mowy może być przypisany więcej niż jeden symbol fonetyczny, wyjściem programu może być : pojedyncze zdanie, lista N najlepszych, krata słów, graf słów.

  1. Założenia metody akustyczno-fonetycznej.

Pierwsze założenie jest spełnione: każdy dźwięk jest generowany przy określonej konfiguracji traktu głosowego. Liczba możliwych konfiguracji traktu głosowego jest nieograniczona, lecz ze względu na możliwości percepcji sygnału mowy przez człowieka, liczba rozpoznawanych dźwięków mowy w każdym znanym języku naturalnym jest skończona.

Z drugim założeniem są problemy: rozróżnialność dźwięków jest trudnym do spełnienia wymaganiem, ponieważ sygnał mowy charakteryzuje się dużą zmiennością związaną z mówcą, wpływem kanału transmisji oraz kontekstem (sąsiedztwem innych dźwięków).

  1. Omówić automatyczne rozpoznawanie mowy metodą akustyczno-fonetyczną (schemat blokowy) Jakie jednostki fonetyczne stosowane są w rozpoznawaniu mowy metodą akustyczno-fonetyczną?

Rozpoznawanie polega na sekwencyjnym dekodowaniu segmentów sygnału mowy na

podstawie charakterystyk akustycznych tego sygnału i znanych związków między tymi charakterystykami i jednostkami fonetycznymi

W rozpoznawaniu akustyczno – fonetycznym najczęściej stosuje się najmniejszą jednostkę mowy – fonem, traktowany jako zespół cech dystynktywnych (jego realizacją fizyczną jest głoska, czyli dźwięk).

Stosowana też bywa sylaba, w której zasadniczą rolę odgrywa samogłoska.

  1. Wymienić najczęściej wykorzystywane charakterystyki (cechy) akustyczne w rozpoznawaniu mowy metodą akustyczno-fonetyczną

  1. Wyjaśnic pojęcia: segmentacja, indeksacja, klasyfikacja

Najważniejszy i najtrudniejszy jest etap segmentacji i indeksacji, łącznie zwany klasyfikacją (ang. odpowiednio: segmentation, labelling, annotation):

Wykorzystuje się tutaj eksperymentalnie wyznaczone wzory odniesienia (reference pattern) dla wszystkich rozpoznawanych jednostek fonetycznych.

  1. Omówić automatyczne rozpoznawanie mowy metodą rozpoznawania wzorców (schemat blokowy)

z wypowiedzi uczących, tworzy się wzory odniesienia, czyli wzorce (reference pattern), reprezentujące jednostki (symbole) fonetyczne, a nastepnie pozyskany z rozpoznawanej wypowiedzi wzór testowy (lub ich sekwencję) porównuje się z każdym wzorcem.

  1. Wyjaśnić pojęcia: tryb uczenia i tryb rozpoznawania (w rozpoznawaniu mowy metodą rozpoznawania wzorców)

  1. Scharakteryzować rodzaje wzorców w metodzie rozpoznawania wzorców.

- szablonu (template)

- modelu statystycznego (statistical model)

Podobieństwo wzoru testowego do wzorców w postaci modelu statystycznego (np. dla ukrytych modeli Markowa, HMM) zwykle wyrażane jest przez prawdopodobieństwo wygenerowania tego wzoru przez modele

Liczebność zbioru wzorców w każdym miejscu rozpoznawanej wypowiedzi może być zmniejszana, np. przez zastosowanie reguł prostej gramatyki o skończonej liczbie stanów do rozpoznawania ciągów jednostek fonetycznych

  1. Zdefiniować (graficznie) proces Markowa o skończonej liczbie stanów i czasie dyskretnym.

Proces Markowa o skończonej liczbie stanów i czasie dyskretnym w postaci łańcucha Markowa (obserwowalnego) o trzech stanach:

  1. Jaką postać może mieć wyjście urządzenia automatycznego rozpoznawania mowy

Wyjście urządzenia automatycznego rozpoznawania mowy może przybierać jedną z poniższych postaci:

  1. Narysować kratę dla przykładowego dyskretnego ukrytego modelu Markowa.

krata słów: lista słów ważonych wskaźnikiem dopasowania, zwykle charakteryzuje się dużą redundancją i w efekcie długim czasem pracy procesora językowego

  1. Zdefiniować (graficznie) dyskretnym ukryty model Markowa (HMM)

  2. Co to jest problem ewaluacji, dekodowania i uczenia w HMM

a) obliczanie dla danego modelu p-stwa wygenerowania zadanej (do rozpoznania) sekwencji obserwacji O;

b) wyznaczanie najbardziej prawdopodobnej sekwencji stanów, czyli sekwencji s, dla której p-stwo łączne wygenerowania sekwencji obserwacji O przez model jest największe;

c) rozwiązanie problemu odwrotnego, to znaczy estymacji parametrów modelu dla zadanej (uczącej) sekwencji obserwacji O.

Jak wyrażane jest podobieństwo wzoru testowego do wzorców

Podobieństwo wzoru testowego do wzorców w postaci modelu statystycznego (np. dla ukrytych modeli Markowa, HMM) zwykle wyrażane jest przez prawdopodobieństwo wygenerowania tego wzoru przez modele

  1. Do czego stosuje się modele języka w rozpoznawaniu mowy

??????????????????????????????????????????????

  1. Jak działa układ porównania

Jakość rozpoznawania mierzona jest wskaźnikiem dopasowania, który zwykle ma sens prawdopodobieństwa

  1. Różnice między rozpoznawaniem mowy metodą akustyczno-fonetyczną i metodą rozpoznawania wzorców

Metoda rozpoznawania wzorców w przeciwieństwie do metody akustyczno – fonetycznej:

  1. Co jest wynikiem działania procesora językowego

Procesor językowy dostarcza reprezentacji znaczenia operacyjnego rozpoznanej frazy. Na obecnym etapie rozwoju umożliwia rozumienie ograniczone do podzbioru języka naturalnego i dla określonej dziedziny aplikacji (pragmatyka)

  1. Dlaczego rozdziela się reprezentację syntaktyczną i semantyczną języka

  1. Co to jest przetwarzanie syntaktyczne?

Polega na rozpoznaniu struktury gramatycznej zdania, umożliwiając jednocześnie:

  1. Scharakteryzować analizę syntaktyczna pełną i częściową

W pełnej analizie musi być analizowane całe zdanie - może być potrzebna obszerna wiedza (szczególnie do modelowania niegramatyczności w wejściu mówionym)

Gdy pełna analiza całego zdania nie jest możliwa, analizuje się pewne fragmenty zdania w nadziei, że zawierają istotną informację dla jego prawidłowego zrozumienia (określenia znaczenia operacyjnego w ograniczonej dziedzinie)

Potencjalne możliwości częściowej analizy:

Ale jest przyczyną błędnej interpretacji złożonych konstrukcji językowych

  1. Co jest celem przetwarzania semantycznego?

Cel: określenie znaczenia operacyjnego analizowanego zdania

Opracowano wiele języków reprezentacji znaczeniowej, jednak brak jest języka jednolitego dla wszystkich zakresów NLP

Trudności powoduje fakt, że znaczenie operacyjne wypowiedzi zależy od pragmatyki aplikacji, w szczególności od:

Najmniej rozpoznany i najtrudniejszy obszar NLP: modelowanie kontekstu i jego wykorzystanie

  1. Cechy charakterystyczne kontekstu

  1. Scharakteryzować praktyczne realizacje procesu NLP(naturalny język mówiny)

  1. Omówić własności menadżera dialogu

Zadania:

  1. Wymienić fazy informacyjnych dialogów usługowych

W informacyjnych dialogach usługowych (dostarczanie użytkownikom przez telefon informacji o konkretnych usługach) wyróżnia się następujące fazy:

Otwarcie i zamknięcie nie zależą od dziedziny zastosowania i są podobne dla większości dialogów języka mówionego

W dialogu między ludźmi

W dialogu człowiek – komputer

Sformułowanie życzenia i sformułowanie odpowiedzi są zależne od zadania (identyfikacja życzenia rozmówcy, uzyskanie informacji przez przeszukanie bazy danych i wydanie żądanej informacji)

Realizacja zadania może wymagać kilku kroków pośrednich:

  1. Co to jest generator mowy syntetycznej

Generator mowy syntetycznej (syntezator mowy) urządzenie (obecnie komputerowe) do zamiany tekstu w postaci symbolicznej na mowę (text to speech, TTS)

  1. Scharakteryzować metody syntezowania sygnału mowy

Syntezatory artykulacyjne

modelowanie dynamiki traktu głosowego podczas artykulacji wypowiedzi

Najczęściej synteza artykulacyjna występuje w dwu postaciach:

modelowanie bezpośrednio samego sygnału mowy (generowanie sygnału o charakterystykach akustycznych takich samych jak sygnału mowy)

Wykorzystują konkatenację segmentów sygnału mowy (jednostek fonetycznych):

  1. Omówić model traktu głosowego w postaci tuby akustycznej.

Sygnał emitowany przez usta można wyznaczyć jako rozwiązanie równania ciśnienia fali dźwiękowej wzdłuż traktu głosowego (równania Webstera).W celu wygenerowania ciągu fonemów należy zapewnić zmianę w czasie wartości parametrów artykulacyjnych. Wadą metody jest jej złożoność i w konsekwencji duża ilość obliczeń

  1. Scharakteryzować syntezatory artykulacyjne.

Bazują na reprezentacji traktu głosowego. Początkowo wykorzystywały szereg dynamicznie sterowanych filtrów analogowych, a nowoczesne systemy są modelowane na komputerach cyfrowych.

Informacja wejściowa: wartości wielu parametrów reprezentujących położenie (pozycję) poszczególnych części traktu głosowego (artykulatorów).

Parametry te określają kształt traktu głosowego i są wyznaczane dla jednakowych odcinków, zwykle o długości , a cały trakt jest modelowany jako ciąg cylindrów (rur prostych)

Aby dokonać syntezy sygnału mowy ta złożona rura jest pobudzana przez impulsy quasiokresowe o kształcie określonym przez Rosenberga (1970) lub Fanta (1985).

  1. Omówić syntezę formantową

  1. Syntezatory modelujące sygnał mowy

Wykorzystują konkatenację segmentów sygnału mowy (jednostek fonetycznych):

Przykład syntezy konkatenacyjnej: syntezator zbudowany przez France Telecom

Wykorzystuje algorytm PSOLA (ang. The Pitch Synchronous OverLap and Add), który umożliwia:

  1. Omówić stosowane w syntezie sygnału mowy jednostki fonetyczne

Sygnał mowy jest sekwencją jednostek akustycznych Transkrypcja fonetyczna jest sekwencją jednostek fonetycznych jednostka fonetyczna= jednostka akustyczna + unikalna nazwa W rozpoznawaniu akustyczno – fonetycznym najczęściej stosuje się najmniejszą jednostkę mowy – fonem. Fonem jest traktowany jako zespół cech dystynktywnych (jego realizacją fizyczną jest głoska, czyli dźwięk) Stosowana też bywa sylaba, w której zasadniczą rolę odgrywa samogłoska

  1. Omówić syntezę konkatenacyjna na przykładzie algorytmu PSOLA.

syntezator zbudowany przez France Telecom, wykorzystuje algorytm PSOLA (ang. The Pitch Synchronous OverLap and Add), który umożliwia:

Synteza mowy konkatenacyjnej generuje mowę poprzez sklejanie ze sobą elementów akustycznych powstałych z naturalnej mowy (fony, difony, trifony, sylaby). Dużą zaletą tego rodzaju syntezy jest niewielki rozmiar bazy danych, z uwagi na mała objętość jednostek akustycznych. Bardzo często używana jest konkatenacja difonów, która umożliwia dobrą jakość syntezy mowy przy wykorzystaniu korpusu zawierającego około 1500 jednostek.

  1. Omówić syntezę korpusową

Modyfikacją syntezy konkatenacyjnej jest synteza korpusowa (zasobowa), w której łączy się segmenty sygnału mowy o długości dobieranej kaŜdorazowo dla przekształcanego tekstu. Kryterium doboru jest jakość generowanego sygnału (definiuje się wskaźniki jakości). Z zasobu mowy wybierane są różnorodne jednostki fonetyczne: difony, trifony, sylaby, wyrazy, frazy (grupy wyrazowe) czy nawet całe zdania. Jednostki fonetyczne występują w zasobie wielokrotnie w róŜnych kontekstach. Generowany sygnał mowy jest konkatenacją różnych jednostek fonetycznych. Istnieje wiele różnych możliwości złożenia pożądanego sygnału mowy. Dobór jednostek fonetycznych oceniany jest za pomocą funkcji kosztu (estymacji), uwzględniającej zarówno czas trwania poszczególnych fragmentów jak i cechy prozodyczne mowy. Proces obliczeniowy jest dość złożony. Obecnie syntezą korpusową zajmuje się wiele firm (np.: AT&T, SpeechWorks, ScanSoft). Przygotowany dla języka angielskiego zasób mowy ma rozmiar ok. 200 MB. W Polsce syntezą korpusową zajmuje się firma IVO Software z Gdyni. Wydaje się, że właśnie ta technika ma szanse rozwinąć się w przyszłości. Obecnie są prowadzone badania nad udoskonaleniem zasobu mowy (aby pokrył wszystkie zjawiska fonetyczne w danym języku) i funkcji estymacji. Synteza korpusowa jest obecnie wykorzystywana w systemach dialogowych portali głosowych.

  1. Architektura systemu dialogowego języka mówionego

  1. Co to jest portal głosowy

Portal głosowy - system wyposażony w technologie automatycznego rozpoznawania mowy i syntezy mowy. Osoba, która zadzwoni do portalu głosowego może za pomocą krótkich, mówionych fraz wybrać interesują ją opcję. Portal głosowy może prowadzić równolegle wiele rozmów i być dostępny przez 24 godziny na dobę. Dzięki najnowszym technologiom głosowym, takim jak: automatyczne rozpoznawanie mowy i synteza mowy portale głosowe pozwalają realizować projekty do tej pory nieosiągalne

  1. Omówić charakterystyki reprezentujące sygnał mowy w dziedzinie częstotliwości.

Najważniejszym narzędziem przetwarzania sygnałów cyfrowych jest dyskretne przekształcenie Fouriera (ang. Discrete Fourier Transform, DFT).

W zależności od typu sygnału w czasie (ciągłe czy dyskretne, okresowe czy nieokresowe) wyróżnia się cztery kategorie przekształceń (transformat) Fouriera:

  1. dla sygnałów ciągłych okresowych – szeregi Fouriera (ang. Fourier series);

  2. dla sygnałów ciągłych nieokresowych – przekształcenie Fouriera (ang. Fourier transform);

  3. dla sygnałów dyskretnych okresowych – (dyskretny szereg Fouriera) dyskretne przekształcenie Fouriera (ang. discrete Fourier transform, DFT);

  4. dla sygnałów dyskretnych nieokresowych - przekształcenie Fouriera dla sygnałów o czasie dyskretnym (ang. discrete time Fourier transform, DTFT)

W cyfrowym przetwarzaniu sygnałów wykorzystywane jest dyskretne przekształcenie Fouriera (DFT), czyli założono, że sygnał analizowany jest dyskretny i okresowy (oczywiście również nieskończony).

Dyskretna transformata Fouriera

Synteza

sygnał: dyskretny w czasie, (zespolony), okresowy

Analiza

widmo: dyskretne, zespolone, okresowe

  1. Wymienić etapy i zadania budowy systemu rozpoznawania mowy.

  1. przygotowanie danych:

  1. tworzenie modeli jednostek fonetycznych:

  1. opracowanie procedur rozpoznawania

  2. weryfikacja i testowanie systemu:

Sygnał mowy jest nośnikiem wiadomości (komendy), zakodowanej w postaci sekwencji symboli (sygnałów) dźwiękowych.

Zadaniem systemu jest rozpoznawanie sygnału mowy, czyli wyznaczenie odwzorowania między sekwencją pozyskanych z tego sygnału charakterystyk a odpowiadającą mu transkrypcją, będącą sekwencją symboli graficznych.

Niezbędnym uzupełnieniem systemu rozpoznawania mowy są procedury uczenia, które wykorzystując znane sygnały mowy i ich transkrypcje wyznaczają parametry modeli jednostek fonetycznych (słów).

  1. Co to jest portal głosowy?

(system VoiceXML)

VoiceXML VXML

Porównanie portalu głosowego z przeglądarką internetową

CEL:

Integracja zasobów sieci komputerowych z prostymi w obsłudze aparatami telefonicznymi, zwykłymi lub komórkowymi (około 1,5 miliarda ludzi korzysta z aparatów telefonicznych, w tym ponad 300 milionów w sieci telefonii komórkowej) oraz telefonii VoIP.

Portal wyposażony w technologie automatycznego rozpoznawania mowy i syntezy mowy.

Portal głosowy (system VoiceXML) składa się z dwóch zasadniczych części:

-serwera aplikacji (ang. application server, web server) - służy do przechowywania aplikacji stworzonych przy użyciu VoiceXML (przykładowe aplikacje: interfejs baz danych, przetwarzanie transakcji, pobieranie danych i treści, logika serwisowa);

-serwera (bramy) VoiceXML

  1. Schemat funkcjonalny portalu głosowego

  1. Elementy składowe serwera VXML

serwer VXML (ang. VXML server, VXML gateway):

  1. Struktura przeglądarki głosowej

Portal głosowy jest nie tylko systemem do prowadzenia konwersacji z komputerem, lecz przede wszystkim stanowi bazę danych z informacjami dla potencjalnych klientów serwisu. Informacje te przechowywane są w postaci tekstowej na serwerach baz danych, skąd pobierane są przez skrypty, zlokalizowane na serwerach WWW, obsługujące zapytania, np. SQL. Wyselekcjonowane wiadomości konwertowane są do postaci dźwiękowej przez przeglądarkę głosową za pomocą syntezatora TTS.

  1. Co to jest aplikacja głosowa

Aplikacja głosowa (telefoniczna) (ang. voice application)

umożliwia rozmówcy mówienie do i słyszenie głosu z komputera za pomocą telefonu w celu zrealizowania zadań (informacyjnych, usługowych, obliczeniowych).

Aplikacja głosowa (ang. voice application): zbiór jednego lub więcej dokumentów VXML.

Dokument VXML jest zbudowany z jednego lub więcej dialogów.

Dwa główne cele większości aplikacji telefonicznych:

a) umożliwić każdemu, kto mówi i słyszy, wykorzystanie aplikacji bez uprzedniego uczenia – interfejs kierowany przez aplikację (aplikacja prowadzi użytkownika (rozmówcę) początkującego, zadając pytania, na które on odpowiada i pomagając mu osiągnąć pożądany wynik);

b) umożliwić rozmówcy doświadczonemu wykonać zadanie szybko i efektywnie – interfejs o mieszanej inicjatywie (umożliwia rozmówcy sterować dialogiem, jak również być prowadzonym przez aplikację).

  1. Wyjaśnić pojęcie: interfejs kierowany przez aplikację, interfejs o przemiennej inicjatywie

  1. Wyjaśnić pojęcie: system informacji głosowej (IVR)

System informacji głosowej IVR (ang. Interactive Voice Response) to zautomatyzowany system telefoniczny (infolinia) pracujący w trybie inbound/outbound (przyjmowanie/samodzielne nawiązywanie połączeń).

Osoba dzwoniąca po wysłuchaniu nagranych wcześniej komunikatów za pomocą aparatu z wybieraniem tonowym DTMF lub czasami za pomocą głosu (ASR, Automatic Speech Recognition)) wybiera poszczególne pozycje z menu.

  1. Obszary zastosowania IVR

Systemy tego typu używane są w Contact Center, biurach obsługi klienta, bankach, telemarketingu, systemach teległosowania, pomoc techniczna, przyjmowanie zamówień i sprzedaż, usługi informacyjne, systemy rezerwacji.

  1. Wymienić zadania szczegółowe realizowane w systemie IVR.


Wyszukiwarka

Podobne podstrony:
Systemy dialogowe - pytania na zaliczenie2010 - OPRACOWANE, WAT, SEMESTR V, systemy dialogowe
Opracowane pytania na zaliczenie
PODSTAWY PRAWOZNAWSTWA, opracowane pytania na zaliczenie Podstawy Prawoznawstwa
Opracowane pytania na zaliczenie z Podstaw Elektroenergetyki
Pytania na zaliczenie z przedmiotu SOCR semestr1 2014, SOCR-Systemy operacyjne czasu rzeczywistego
Hydrologia opracowane pytania na zaliczenie wykładów
opracowane pytania na zaliczenie z podstaw biotechnologii200, WNOŻCiK wieczorowe, semestr V, biotech
prawo geodezyjne opracowane pytania na zaliczenie
Medycyna Katastrof pytania na egzamin (opracowane)
Pytania na zaliczenie
Pytania na zaliczenie z geografii
Pytania na zaliczenie
Pytania na zaliczenie pp- ratownictwo, podstawy pielęgniarstwa
Pytania na zaliczenie
Pytania na zaliczenie
Pytania na obrone opracowane!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!, Zarządzanie UE Katowice

więcej podobnych podstron