Systemy dialogowe pytania na zaliczenie2010 OPRACOWANE

Pobierz cały dokument
Systemy dialogowe pytania na zaliczenie2010 OPRACOWANE.docx
Rozmiar 474,4 KB

Pytania na zaliczenie przedmiotu „systemy dialogowe”

  1. Wyjaśnić pojęcia: dialog, użytkownik, transakcja

Dialog jest interakcją (wzajemnym oddziaływaniem, współdziałaniem

  • pomiędzy użytkownikiem i komputerem

  • w osiągnięciu szczególnego celu

Użytkownik jest osobą współdziałającą z komputerem

Transakcja to akcja użytkownika i skojarzona z nią odpowiedź komputera (lub na odwrót)

Dialog jest serią transakcji

Transakcja jest najmniejszą jednostką interakcji człowiek – komputer

  1. Składniki interfejsu użytkownika

Interfejs użytkownika zawiera 3 podstawowe składniki:

  • Sterowanie - umożliwia użytkownikowi "mówienie" do komputera. Elementy sterowania są zwykle obiektami, które umożliwiają tworzenie oraz przekazywanie poleceń do systemu

  • Zobrazowanie - umożliwia komputerowi zwracanie się ("mówienie") do użytkownika. Może zawierać różne technologie zobrazowania informacji (zwykle wizualne, ale czasami to może być „zobrazowanie” audio lub inne)

  • Interakcje lub dialog - kombinacja wprowadzania poleceń do komputera z jednej strony oraz zobrazowania informacji przez komputer z drugiej strony, tworząca łącznie dialog miedzy użytkownikiem i komputerem

  1. Architektura typowego systemu dialogowego języka mówionego

  2. Omówić działanie systemu dialogowego języka mówionego

  • całością steruje sterownik dialogu: umożliwia wymianę informacji z użytkownikiem, a tym samym dostęp do bazy danych i jej uaktualnianie

  • interakcja składa się z sekwencji transakcji (cyklów pytanie/odpowiedź), pytania są tak projektowane, aby ograniczyć odpowiedź do określonego zbioru informacji

  • odpowiedź użytkownika jest przetwarzana przez urządzenie rozpoznawania mowy (URM)

  • wyjście URM (zwykle niejednoznaczne) jest przekształcane przez interpreter języka naturalnego – np. parser (natural language processing, NLP) - do postaci quasi-logicznej

  • sterownik, bazując na nowym wejściu, uaktualnia swój wewnętrzny stan i planuje następną akcję

  • postępowanie trwa, aż potrzeby użytkownika zostaną zaspokojone – wtedy interakcja jest przerywana

  1. Zadania procesu projektowania SDS

  • specyfikowanie dialogu i sterowanie jego przebiegiem

  • ograniczenie zakresu rozpoznawania wypowiedzi do dziedziny aplikacji i interpretacja wyjścia urządzenia rozpoznawania mowy

  • generowanie odpowiedzi właściwej kontekstowo (zgodnej z dotychczasowym przebiegiem dialogu)

  1. Pożądane własności systemu dialogowego.

- niezależność od mówcy

- stosowanie mowy ciągłej (menu ze słowami izolowanymi jest zwykle niepraktyczne)

- stosowanie swobodnego i naturalnego języka (od przypadkowych użytkowników trudno wymagać stosowania prawidłowej syntaktyki)

- zapewnienie zarządzania dialogiem (sterowanie dialogiem musi być tak zaprojektowanie, aby pogodzić swobodę użytkownika z koniecznością zachowania kontroli systemu)

  1. Wyjaśnić pojęcia: niezależność od mówcy, mowa ciągła, słownik rozpoznawanych słów

- niezależność od mówcy – możliwość rozpoznawania słów, niezależnie od właściwości traktu głosowego osoby je wypowiadającej(ton, barwa) oraz charakterystycznych zjawiskami pozalingwistycznych

- mowa ciągła, - spontaniczna, możliwa nieprawidłowa syntaktyka, kolejne słowa wypowiadane sa po sobie, bez wyraźnych przejść oraz izolacji

- słownik rozpoznawanych słów – na podatnie wypowiadanych i przeanalizowanych słów buduje się wzorce, służące do weryfikacji mowy ludzkiej

  1. Struktura funkcjonalna systemu dialogowego języka mówionego

  2. Scharakteryzować metody automatycznego rozpoznawania mowy

  • akustyczno – fonetyczne (acoustic-phonetic approach)

Rozpoznawanie polega na sekwencyjnym dekodowaniu segmentów sygnału mowy na podstawie charakterystyk akustycznych tego sygnału i znanych związków między tymi charakterystykami i jednostkami fonetycznymi.

Sygnał mowy jest sekwencją jednostek akustycznych, które są realizacją fizyczną indeksowanych unikalną nazwą jednostek fonetycznych.

W rozpoznawaniu stosuje się fonem lub sylabę. umożliwiają rozpoznawanie sygnału mowy bez konieczności wcześniejszego tworzenia modeli akustycznych rozpoznawanych jednostek fonetycznych

  • rozpoznawania wzorców (pattern-recognition, template-based approach).

2 tryby pracy: t. uczenia i t. rozpoznawania

Wzorce mogą mieć postać: szablonu lub modelu statystycznego

Rozpoznawania przebiega w dwóch etapach:

-przypisanie wzoru testowego do określonego wzoru

-sekwencji jednostek fonetycznych przypisywany jest wyraz ze słownika wyrazów rozpoznawanych

Zwykle rozpoznanie jest niejednoznaczne - segmentowi sygnału mowy może być przypisany więcej niż jeden symbol fonetyczny, wyjściem programu może być : pojedyncze zdanie, lista N najlepszych, krata słów, graf słów.

  1. Założenia metody akustyczno-fonetycznej.

  • istnieje skończona liczba dźwięków (symboli dźwiękowych) języka mówionego,

  • dźwięki są w pełni rozróżnialne poprzez zbiór charakterystyk akustycznych, które są wynikiem badań akustyczno – fonetycznych nad sygnałem mowy.

Pierwsze założenie jest spełnione: każdy dźwięk jest generowany przy określonej konfiguracji traktu głosowego. Liczba możliwych konfiguracji traktu głosowego jest nieograniczona, lecz ze względu na możliwości percepcji sygnału mowy przez człowieka, liczba rozpoznawanych dźwięków mowy w każdym znanym języku naturalnym jest skończona.

Z drugim założeniem są problemy: rozróżnialność dźwięków jest trudnym do spełnienia wymaganiem, ponieważ sygnał mowy charakteryzuje się dużą zmiennością związaną z mówcą, wpływem kanału transmisji oraz kontekstem (sąsiedztwem innych dźwięków).

  1. Omówić automatyczne rozpoznawanie mowy metodą akustyczno-fonetyczną (schemat blokowy) Jakie jednostki fonetyczne stosowane są w rozpoznawaniu mowy metodą akustyczno-fonetyczną?

Rozpoznawanie polega na sekwencyjnym dekodowaniu segmentów sygnału mowy na

podstawie charakterystyk akustycznych tego sygnału i znanych związków między tymi charakterystykami i jednostkami fonetycznymi

W rozpoznawaniu akustyczno – fonetycznym najczęściej stosuje się najmniejszą jednostkę mowy – fonem, traktowany jako zespół cech dystynktywnych (jego realizacją fizyczną jest głoska, czyli dźwięk).

Stosowana też bywa sylaba, w której zasadniczą rolę odgrywa samogłoska.

  1. Wymienić najczęściej wykorzystywane charakterystyki (cechy) akustyczne w rozpoznawaniu mowy metodą akustyczno-fonetyczną

  • pobudzeniem:

    • częstotliwość tonu podstawowego

    • energia sygnału

    • obecność w pobudzeniu sygnału okresowego i/lub przypadkowego, oznaczająca dźwięczność lub bezdźwięczność fonemów

  • filtrem (traktem głosowym):

    • częstotliwości formantowe, zwykle pierwsze trzy, będące maksimami lokalnymi amplitudowej charakterystyki częstotliwościowej traktu głosowego

    • obecność w transmitancji traktu głosowego zer charakterystycznych dla dźwięków nosowych, czyli nosowość fonemu

    • stosunek energii składowych wysoko- i niskoczęstotliwościowych

  1. Wyjaśnic pojęcia: segmentacja, indeksacja, klasyfikacja

Najważniejszy i najtrudniejszy jest etap segmentacji i indeksacji, łącznie zwany klasyfikacją (ang. odpowiednio: segmentation, labelling, annotation):

  • najpierw wyszukiwane są fragmenty (segmenty) sygnału mowy, w których jego cechy akustyczne są stałe lub zmieniają się niewiele

  • następnie przypisuje się tym segmentom zgodnie z wyznaczonymi cechami akustycznymi jeden lub więcej indeksów (symboli fonetycznych)

Wykorzystuje się tutaj eksperymentalnie wyznaczone wzory odniesienia (reference pattern) dla wszystkich rozpoznawanych jednostek fonetycznych.

  1. Omówić automatyczne rozpoznawanie mowy metodą rozpoznawania wzorców (schemat blokowy)

z wypowiedzi uczących, tworzy się wzory odniesienia, czyli wzorce (reference pattern), reprezentujące jednostki (symbole) fonetyczne, a nastepnie pozyskany z rozpoznawanej wypowiedzi wzór testowy (lub ich sekwencję) porównuje się z każdym wzorcem.

  1. Wyjaśnić pojęcia: tryb uczenia i tryb rozpoznawania (w rozpoznawaniu mowy metodą rozpoznawania wzorców)

  • tryb uczenia (treningowy) - ze zbiorów wzorów testowych (test pattern), pozyskanych z wypowiedzi uczących, tworzy się wzory odniesienia, czyli wzorce (reference pattern), reprezentujące jednostki (symbole) fonetyczne

  • tryb rozpoznawania - pozyskany z rozpoznawanej wypowiedzi wzór testowy (lub ich sekwencję) porównuje się z każdym wzorem odniesienia, czyli wzorcem.

  1. Scharakteryzować rodzaje wzorców w metodzie rozpoznawania wzorców.

- szablonu (template)

- modelu statystycznego (statistical model)

Podobieństwo wzoru testowego do wzorców w postaci modelu statystycznego (np. dla ukrytych modeli Markowa, HMM) zwykle wyrażane jest przez prawdopodobieństwo wygenerowania tego wzoru przez modele

Liczebność zbioru wzorców w każdym miejscu rozpoznawanej wypowiedzi może być zmniejszana, np. przez zastosowanie reguł prostej gramatyki o skończonej liczbie stanów do rozpoznawania ciągów jednostek fonetycznych

  1. Zdefiniować (graficznie) proces Markowa o skończonej liczbie stanów i czasie dyskretnym.

Proces Markowa o skończonej liczbie stanów i czasie dyskretnym w postaci łańcucha Markowa (obserwowalnego) o trzech stanach:

  • przejście między stanami odbywa się w dyskretnych momentach czasu,

  • przejście zachodzi z zadanym prawdopodobieństwem,

  • w każdym stanie generowana jest określona obserwacja (symbol wyjściowy).

  1. Jaką postać może mieć wyjście urządzenia automatycznego rozpoznawania mowy

Wyjście urządzenia automatycznego rozpoznawania mowy może przybierać jedną z poniższych postaci:

  • pojedyncze zdanie

  • lista N najlepszych zdań (najlepiej dopasowanych do sygnału wejściowego): jest to wskazane, gdy okaże się, że z powodu błędów rozpoznania zdanie najlepsze jest niegramatyczne, liczba N może być duża

  • krata słów: lista słów ważonych wskaźnikiem dopasowania, zwykle charakteryzuje się dużą redundancją i w efekcie długim czasem pracy procesora językowego

  • tzw. graf słów: rozwiązanie pośrednie (grupa N najlepszych zdań, w których wspólne części są połączone w celu utworzenia grafu) – daje to takie same możliwości jak lista N najlepszych zdań, lecz pozwala na przyśpieszenie procesu.

  1. Narysować kratę dla przykładowego dyskretnego ukrytego modelu Markowa.

krata słów: lista słów ważonych wskaźnikiem dopasowania, zwykle charakteryzuje się dużą redundancją i w efekcie długim czasem pracy procesora językowego

  1. Zdefiniować (graficznie) dyskretnym ukryty model Markowa (HMM)

  2. Co to jest problem ewaluacji, dekodowania i uczenia w HMM

a) obliczanie dla danego modelu p-stwa wygenerowania zadanej (do rozpoznania) sekwencji obserwacji O;

b) wyznaczanie najbardziej prawdopodobnej sekwencji stanów, czyli sekwencji s, dla której p-stwo łączne wygenerowania sekwencji obserwacji O przez model jest największe;

c) rozwiązanie problemu odwrotnego, to znaczy estymacji parametrów modelu dla zadanej (uczącej) sekwencji obserwacji O.

Jak wyrażane jest podobieństwo wzoru testowego do wzorców

Podobieństwo wzoru testowego do wzorców w postaci modelu statystycznego (np. dla ukrytych modeli Markowa, HMM) zwykle wyrażane jest przez prawdopodobieństwo wygenerowania tego wzoru przez modele

  1. Do czego stosuje się modele języka w rozpoznawaniu mowy

??????????????????????????????????????????????

  1. Jak działa układ porównania

  • wzór testowy (lub ich sekwencję) porównuje się z każdym wzorem odniesienia, czyli wzorcem.

  • przypisanie wzoru testowego (jednego lub częściej ich sekwencji) do określonego wzoru

  • sekwencji jednostek fonetycznych przypisywany jest wyraz ze słownika wyrazów rozpoznawanych

Jakość rozpoznawania mierzona jest wskaźnikiem dopasowania, który zwykle ma sens prawdopodobieństwa

  1. Różnice między rozpoznawaniem mowy metodą akustyczno-fonetyczną i metodą rozpoznawania wzorców

Metoda rozpoznawania wzorców w przeciwieństwie do metody akustyczno – fonetycznej:

  • nie wyznacza się charakterystyk akustycznych związanych ze sposobem wytwarzania sygnału mowy

  • nie wydziela się z sygnału mowy segmentów o zróżnicowanej długości, odpowiadających fonemom.

  1. Co jest wynikiem działania procesora językowego

Procesor językowy dostarcza reprezentacji znaczenia operacyjnego rozpoznanej frazy. Na obecnym etapie rozwoju umożliwia rozumienie ograniczone do podzbioru języka naturalnego i dla określonej dziedziny aplikacji (pragmatyka)

  1. Dlaczego rozdziela się reprezentację syntaktyczną i semantyczną języka

  • rzeczywiste zdania są złożone: niezbędna jest rozległa wiedza do przedstawienia ich struktury gramatycznej

  • istotna informacja jest przekazywana w ‘wyspach’ („o czwartej”, „z Poznania”,...)

  • złożoność syntaktyczna głównie leży w przestrzeni między wyspami, w nieistotnych semantycznie segmentach zdania

  1. Co to jest przetwarzanie syntaktyczne?

Polega na rozpoznaniu struktury gramatycznej zdania, umożliwiając jednocześnie:

  • sprawdzenie, czy fraza wejściowa jest prawidłowo sformułowana

  • uproszczenie procesu określania znaczenia (rozumienia)

  • pomoc w wykryciu nowych i niezwykłych znaczeń rozpoznanego ciągu słów

  1. Scharakteryzować analizę syntaktyczna pełną i częściową

W pełnej analizie musi być analizowane całe zdanie - może być potrzebna obszerna wiedza (szczególnie do modelowania niegramatyczności w wejściu mówionym)

Gdy pełna analiza całego zdania nie jest możliwa, analizuje się pewne fragmenty zdania w nadziei, że zawierają istotną informację dla jego prawidłowego zrozumienia (określenia znaczenia operacyjnego w ograniczonej dziedzinie)

Potencjalne możliwości częściowej analizy:

  • zwiększa odporność algorytmów na zakłócenia

  • przyśpiesza prawidłowe rozumienie zdań dla ograniczonej wiedzy lingwistycznej

  • umożliwia analizę wypowiedzi spontanicznych

Ale jest przyczyną błędnej interpretacji złożonych konstrukcji językowych

  1. Co jest celem przetwarzania semantycznego?

Cel: określenie znaczenia operacyjnego analizowanego zdania

Opracowano wiele języków reprezentacji znaczeniowej, jednak brak jest języka jednolitego dla wszystkich zakresów NLP

Trudności powoduje fakt, że znaczenie operacyjne wypowiedzi zależy od pragmatyki aplikacji, w szczególności od:

  • kontekstu

  • celu do osiągnięcia

Najmniej rozpoznany i najtrudniejszy obszar NLP: modelowanie kontekstu i jego wykorzystanie

  1. Cechy charakterystyczne kontekstu

  • nie jest czasowo zlokalizowany (jak w sygnale mowy)

  • jest szeroki i niezwykle silny, może sięgać odległych słów wypowiedzianych i takich, które dopiero będą wypowiedziane

  • może obejmować zakres wielu zdań, akapitów, nawet dokumentów

  1. Scharakteryzować praktyczne realizacje procesu NLP(naturalny język mówiny)

  • rezygnują z parsera i określają znaczenie bez informacji syntaktycznych

  • łączą przetwarzanie syntaktyczne i semantyczne w jeden proces

  • nie wymagają wykorzystywania kontekstu

  • eliminują generator odpowiedzi w aplikacjach o kilku możliwych wyjściach

  • rezygnują w całości z tej struktury i przechodzą od rozpoznanych słów do znaczenia operacyjnego (system ekspertowy), wyznaczając znaczenie bez szczegółowej analizy językowej na jakimkolwiek poziomie

  1. Omówić własności menadżera dialogu

Zadania:

  • interpretacja znaczenia operacyjnego wypowiedzi w oparciu o model dialogu (interakcji) i w kontekście dotychczasowych wypowiedzi

  • decydowanie o dalszej akcji: żądać kolejnych danych, odszukać informację, zainicjować na nowo błędnie przebiegający dialog

  • generowanie fraz języka naturalnego (budowa generatora nie jest tak złożona, jak pozostałych składników systemu dialogowego)

  1. Wymienić fazy informacyjnych dialogów usługowych

W informacyjnych dialogach usługowych (dostarczanie użytkownikom przez telefon informacji o konkretnych usługach) wyróżnia się następujące fazy:

  • otwarcie dialogu

  • sformułowanie życzenia

  • sformułowanie odpowiedzi

  • zakończenie dialogu

Otwarcie i zamknięcie nie zależą od dziedziny zastosowania i są podobne dla większości dialogów języka mówionego

W dialogu między ludźmi

  • otwarcie : wyrazy uprzejmości (Dzień dobry, Witam, Czy mogłaby mi pani pomóc?) lub oznaki wahania (chrząknięcia, mhm)

  • zamknięcie: wymiana podziękowań (Dziękuję Panu, Dziękuję bardzo, Dziękuję), a następnie wymiana pozdrowień (Do widzenia)

W dialogu człowiek – komputer

  • otwarcie jest podobne, pojawienie się wyrazów uprzejmości zależy od „uprzejmości” systemu

  • zamknięcie może być prostsze: rozmówca odkłada słuchawkę telefonu.

Sformułowanie życzenia i sformułowanie odpowiedzi są zależne od zadania (identyfikacja życzenia rozmówcy, uzyskanie informacji przez przeszukanie bazy danych i wydanie żądanej informacji)

Realizacja zadania może wymagać kilku kroków pośrednich:

  • potwierdzenia, aby uniknąć pomyłki

  • naprawy, gdy doszło do pomyłki

  • doprecyzowania szczegółów itp

  1. Co to jest generator mowy syntetycznej

Generator mowy syntetycznej (syntezator mowy) urządzenie (obecnie komputerowe) do zamiany tekstu w postaci symbolicznej na mowę (text to speech, TTS)

  1. Scharakteryzować metody syntezowania sygnału mowy

Syntezatory artykulacyjne

modelowanie dynamiki traktu głosowego podczas artykulacji wypowiedzi

  • Informacja wejściowa: wartości wielu parametrów reprezentujących położenie (pozycję) poszczególnych części traktu głosowego (artykulatorów)

  • Parametry te określają kształt traktu głosowego i są wyznaczane dla jednakowych odcinków, zwykle o długości , a cały trakt jest modelowany jako ciąg cylindrów (rur prostych)

  • Aby dokonać syntezy sygnału mowy ta złożona rura jest pobudzana przez impulsy quasiokresowe o kształcie określonym przez Rosenberga (1970) lub Fanta (1985).

Najczęściej synteza artykulacyjna występuje w dwu postaciach:

  • formantowa

  • z predykcją liniową

modelowanie bezpośrednio samego sygnału mowy (generowanie sygnału o charakterystykach akustycznych takich samych jak sygnału mowy)

Wykorzystują konkatenację segmentów sygnału mowy (jednostek fonetycznych):

  • jednorodnych - najczęściej difonów (stosowane ze względu na dokładność odtwarzania transjentów, które decydują o zrozumiałości sygnału mowy)

  • zróżnicowanych: fonemy, difony, sylaby i inne

  1. Omówić model traktu głosowego w postaci tuby akustycznej.

Sygnał emitowany przez usta można wyznaczyć jako rozwiązanie równania ciśnienia fali dźwiękowej wzdłuż traktu głosowego (równania Webstera).W celu wygenerowania ciągu fonemów należy zapewnić zmianę w czasie wartości parametrów artykulacyjnych. Wadą metody jest jej złożoność i w konsekwencji duża ilość obliczeń

  1. Scharakteryzować syntezatory artykulacyjne.

Bazują na reprezentacji traktu głosowego. Początkowo wykorzystywały szereg dynamicznie sterowanych filtrów analogowych, a nowoczesne systemy są modelowane na komputerach cyfrowych.

Informacja wejściowa: wartości wielu parametrów reprezentujących położenie (pozycję) poszczególnych części traktu głosowego (artykulatorów).

Parametry te określają kształt traktu głosowego i są wyznaczane dla jednakowych odcinków, zwykle o długości , a cały trakt jest modelowany jako ciąg cylindrów (rur prostych)

Aby dokonać syntezy sygnału mowy ta złożona rura jest pobudzana przez impulsy quasiokresowe o kształcie określonym przez Rosenberga (1970) lub Fanta (1985).

  1. Omówić syntezę formantową

  • Wykorzystuje model pobudzenie – filtr

  • Trakt głosowy człowieka modelowany jest za pomocą zestawu filtrów rezonansowych, które kształtują jego przybliżoną częstotliwościową charakterystykę amplitudową

  • Częstotliwości rezonansowe tych filtrów są równe częstotliwościom formantów, które charakteryzują kolejne fragmenty sygnału mowy syntezowanej wypowiedzi

  • Do wygenerowania zrozumiałej mowy wystarczy znajomość trajektorii pierwszych trzech formantów, do wygenerowania wysokiej jakości sygnału mowy: trajektorie czterech lub pięciu formantów.

  1. Syntezatory modelujące sygnał mowy

Wykorzystują konkatenację segmentów sygnału mowy (jednostek fonetycznych):

  • jednorodnych - najczęściej difonów (stosowane ze względu na dokładność odtwarzania transjentów, które decydują o zrozumiałości sygnału mowy)

  • zróżnicowanych: fonemy, difony, sylaby i inne

Przykład syntezy konkatenacyjnej: syntezator zbudowany przez France Telecom

Wykorzystuje algorytm PSOLA (ang. The Pitch Synchronous OverLap and Add), który umożliwia:

  • płynne łączenie segmentów, odpowiadających jednostkom fonetycznym

  • zmianę wysokości dźwięku

  • zmianę długości (czasu trwania) poszczególnych segmentów

  1. Omówić stosowane w syntezie sygnału mowy jednostki fonetyczne

Sygnał mowy jest sekwencją jednostek akustycznych Transkrypcja fonetyczna jest sekwencją jednostek fonetycznych jednostka fonetyczna= jednostka akustyczna + unikalna nazwa W rozpoznawaniu akustyczno – fonetycznym najczęściej stosuje się najmniejszą jednostkę mowy – fonem. Fonem jest traktowany jako zespół cech dystynktywnych (jego realizacją fizyczną jest głoska, czyli dźwięk) Stosowana też bywa sylaba, w której zasadniczą rolę odgrywa samogłoska

  1. Omówić syntezę konkatenacyjna na przykładzie algorytmu PSOLA.

syntezator zbudowany przez France Telecom, wykorzystuje algorytm PSOLA (ang. The Pitch Synchronous OverLap and Add), który umożliwia:

  • płynne łączenie segmentów, odpowiadających jednostkom fonetycznym

  • zmianę wysokości dźwięku

  • zmianę długości (czasu trwania) poszczególnych segmentów

Synteza mowy konkatenacyjnej generuje mowę poprzez sklejanie ze sobą elementów akustycznych powstałych z naturalnej mowy (fony, difony, trifony, sylaby). Dużą zaletą tego rodzaju syntezy jest niewielki rozmiar bazy danych, z uwagi na mała objętość jednostek akustycznych. Bardzo często używana jest konkatenacja difonów, która umożliwia dobrą jakość syntezy mowy przy wykorzystaniu korpusu zawierającego około 1500 jednostek.

  1. Omówić syntezę korpusową

Modyfikacją syntezy konkatenacyjnej jest synteza korpusowa (zasobowa), w której łączy się segmenty sygnału mowy o długości dobieranej kaŜdorazowo dla przekształcanego tekstu. Kryterium doboru jest jakość generowanego sygnału (definiuje się wskaźniki jakości). Z zasobu mowy wybierane są różnorodne jednostki fonetyczne: difony, trifony, sylaby, wyrazy, frazy (grupy wyrazowe) czy nawet całe zdania. Jednostki fonetyczne występują w zasobie wielokrotnie w róŜnych kontekstach. Generowany sygnał mowy jest konkatenacją różnych jednostek fonetycznych. Istnieje wiele różnych możliwości złożenia pożądanego sygnału mowy. Dobór jednostek fonetycznych oceniany jest za pomocą funkcji kosztu (estymacji), uwzględniającej zarówno czas trwania poszczególnych fragmentów jak i cechy prozodyczne mowy. Proces obliczeniowy jest dość złożony. Obecnie syntezą korpusową zajmuje się wiele firm (np.: AT&T, SpeechWorks, ScanSoft). Przygotowany dla języka angielskiego zasób mowy ma rozmiar ok. 200 MB. W Polsce syntezą korpusową zajmuje się firma IVO Software z Gdyni. Wydaje się, że właśnie ta technika ma szanse rozwinąć się w przyszłości. Obecnie są prowadzone badania nad udoskonaleniem zasobu mowy (aby pokrył wszystkie zjawiska fonetyczne w danym języku) i funkcji estymacji. Synteza korpusowa jest obecnie wykorzystywana w systemach dialogowych portali głosowych.

  1. Architektura systemu dialogowego języka mówionego

  1. Co to jest portal głosowy

Portal głosowy - system wyposażony w technologie automatycznego rozpoznawania mowy i syntezy mowy. Osoba, która zadzwoni do portalu głosowego może za pomocą krótkich, mówionych fraz wybrać interesują ją opcję. Portal głosowy może prowadzić równolegle wiele rozmów i być dostępny przez 24 godziny na dobę. Dzięki najnowszym technologiom głosowym, takim jak: automatyczne rozpoznawanie mowy i synteza mowy portale głosowe pozwalają realizować projekty do tej pory nieosiągalne

  1. Omówić charakterystyki reprezentujące sygnał mowy w dziedzinie częstotliwości.

Najważniejszym narzędziem przetwarzania sygnałów cyfrowych jest dyskretne przekształcenie Fouriera (ang. Discrete Fourier Transform, DFT).

W zależności od typu sygnału w czasie (ciągłe czy dyskretne, okresowe czy nieokresowe) wyróżnia się cztery kategorie przekształceń (transformat) Fouriera:

  1. dla sygnałów ciągłych okresowych – szeregi Fouriera (ang. Fourier series);

  2. dla sygnałów ciągłych nieokresowych – przekształcenie Fouriera (ang. Fourier transform);

  3. dla sygnałów dyskretnych okresowych – (dyskretny szereg Fouriera) dyskretne przekształcenie Fouriera (ang. discrete Fourier transform, DFT);

  4. dla sygnałów dyskretnych nieokresowych - przekształcenie Fouriera dla sygnałów o czasie dyskretnym (ang. discrete time Fourier transform, DTFT)

W cyfrowym przetwarzaniu sygnałów wykorzystywane jest dyskretne przekształcenie Fouriera (DFT), czyli założono, że sygnał analizowany jest dyskretny i okresowy (oczywiście również nieskończony).

Dyskretna transformata Fouriera

Synteza

sygnał: dyskretny w czasie, (zespolony), okresowy

Analiza

widmo: dyskretne, zespolone, okresowe

  1. Wymienić etapy i zadania budowy systemu rozpoznawania mowy.

  1. przygotowanie danych:

  • tworzenie słownika,

  • wybór jednostki fonetycznej (tworzenie plików z transkrypcją fonetyczną),

  • definiowanie gramatyki,

  • kodowanie danych (scenariusz rejestracji);

  1. tworzenie modeli jednostek fonetycznych:

  • zdefiniowanie modeli

  • estymacja parametrów modeli

  1. opracowanie procedur rozpoznawania

  2. weryfikacja i testowanie systemu:

  • rozpoznawanie danych testowych,

  • praca w czasie rzeczywistym.

Sygnał mowy jest nośnikiem wiadomości (komendy), zakodowanej w postaci sekwencji symboli (sygnałów) dźwiękowych.

Zadaniem systemu jest rozpoznawanie sygnału mowy, czyli wyznaczenie odwzorowania między sekwencją pozyskanych z tego sygnału charakterystyk a odpowiadającą mu transkrypcją, będącą sekwencją symboli graficznych.

Niezbędnym uzupełnieniem systemu rozpoznawania mowy są procedury uczenia, które wykorzystując znane sygnały mowy i ich transkrypcje wyznaczają parametry modeli jednostek fonetycznych (słów).

  1. Co to jest portal głosowy?

(system VoiceXML)

VoiceXML VXML

Porównanie portalu głosowego z przeglądarką internetową

CEL:

Integracja zasobów sieci komputerowych z prostymi w obsłudze aparatami telefonicznymi, zwykłymi lub komórkowymi (około 1,5 miliarda ludzi korzysta z aparatów telefonicznych, w tym ponad 300 milionów w sieci telefonii komórkowej) oraz telefonii VoIP.

Portal wyposażony w technologie automatycznego rozpoznawania mowy i syntezy mowy.

Portal głosowy (system VoiceXML) składa się z dwóch zasadniczych części:

-serwera aplikacji (ang. application server, web server) - służy do przechowywania aplikacji stworzonych przy użyciu VoiceXML (przykładowe aplikacje: interfejs baz danych, przetwarzanie transakcji, pobieranie danych i treści, logika serwisowa);

-serwera (bramy) VoiceXML

  1. Schemat funkcjonalny portalu głosowego

  1. Elementy składowe serwera VXML

serwer VXML (ang. VXML server, VXML gateway):

  • przeglądarka głosowa (ang. voice browser)

    • interpreter kodu VXML (jądro systemu)

    • interpreter kontekstu

  • karty telefoniczne przyłączające publiczną sieć telefoniczną (ang. PSTN).

  • usługi (aplikacje) umożliwiające dialog:

    • rozpoznawanie mowy (ang. Speech Recognition Engine, SRE),

    • synteza mowy (ang. TTS) - wykonuje konwersję informacji tekstowej w sygnał mowy,

    • rozpoznawanie sygnałów wybierania tonowego (ang. DTMF),

    • rejestracja i odtwarzanie plików dźwiękowych,

  1. Struktura przeglądarki głosowej

Portal głosowy jest nie tylko systemem do prowadzenia konwersacji z komputerem, lecz przede wszystkim stanowi bazę danych z informacjami dla potencjalnych klientów serwisu. Informacje te przechowywane są w postaci tekstowej na serwerach baz danych, skąd pobierane są przez skrypty, zlokalizowane na serwerach WWW, obsługujące zapytania, np. SQL. Wyselekcjonowane wiadomości konwertowane są do postaci dźwiękowej przez przeglądarkę głosową za pomocą syntezatora TTS.

  1. Co to jest aplikacja głosowa

Aplikacja głosowa (telefoniczna) (ang. voice application)

umożliwia rozmówcy mówienie do i słyszenie głosu z komputera za pomocą telefonu w celu zrealizowania zadań (informacyjnych, usługowych, obliczeniowych).

Aplikacja głosowa (ang. voice application): zbiór jednego lub więcej dokumentów VXML.

Dokument VXML jest zbudowany z jednego lub więcej dialogów.

Dwa główne cele większości aplikacji telefonicznych:

a) umożliwić każdemu, kto mówi i słyszy, wykorzystanie aplikacji bez uprzedniego uczenia – interfejs kierowany przez aplikację (aplikacja prowadzi użytkownika (rozmówcę) początkującego, zadając pytania, na które on odpowiada i pomagając mu osiągnąć pożądany wynik);

b) umożliwić rozmówcy doświadczonemu wykonać zadanie szybko i efektywnie – interfejs o mieszanej inicjatywie (umożliwia rozmówcy sterować dialogiem, jak również być prowadzonym przez aplikację).

  1. Wyjaśnić pojęcie: interfejs kierowany przez aplikację, interfejs o przemiennej inicjatywie

  • interfejs kierowany przez aplikację (aplikacja prowadzi użytkownika (rozmówcę) początkującego, zadając pytania, na które on odpowiada i pomagając mu osiągnąć pożądany wynik) - umożliwia każdemu, kto mówi i słyszy, wykorzystanie aplikacji bez uprzedniego uczenia.

  • interfejs o mieszanej inicjatywie (umożliwia rozmówcy sterować dialogiem, jak również być prowadzonym przez aplikację). - umożliwia rozmówcy doświadczonemu wykonać zadanie szybko i efektywnie

  1. Wyjaśnić pojęcie: system informacji głosowej (IVR)

System informacji głosowej IVR (ang. Interactive Voice Response) to zautomatyzowany system telefoniczny (infolinia) pracujący w trybie inbound/outbound (przyjmowanie/samodzielne nawiązywanie połączeń).

Osoba dzwoniąca po wysłuchaniu nagranych wcześniej komunikatów za pomocą aparatu z wybieraniem tonowym DTMF lub czasami za pomocą głosu (ASR, Automatic Speech Recognition)) wybiera poszczególne pozycje z menu.

  1. Obszary zastosowania IVR

Systemy tego typu używane są w Contact Center, biurach obsługi klienta, bankach, telemarketingu, systemach teległosowania, pomoc techniczna, przyjmowanie zamówień i sprzedaż, usługi informacyjne, systemy rezerwacji.

  1. Wymienić zadania szczegółowe realizowane w systemie IVR.

  • autoryzacja klienta na podstawie dowolnego identyfikatora (indywidualnego PINu, hasła, numeru telefonu wywołującego, nr faktury),

  • uzyskiwanie informacji bez konieczności rozmowy z operatorem, np. stan konta, stopień realizacji zamówienia, historia transakcji itp.

  • reagowanie na wprowadzone znaki DTMF z klawiatury telefonu,

  • zbieranie informacji podczas interakcji z użytkownikiem, jej przetwarzanie i reagowanie na nią,

  • wielojęzyczne zapowiedzi głosowe,

  • synteza mowy zasobów tekstowych (ang. text to speech, TTS) - w szczególności tych, których zawartość na bieżąco ulega zmianie, np. informacje o transakcjach na rachunkach, wartości liczbowe, daty, komunikaty, statusy procesów, kursy walut, wielkość salda,

  • nagrywanie wiadomości,

  • zarządzanie pocztą głosową (dystrybucje wiadomości wg ustalonych reguł, integracja z serwerami mailowymi),

  • przełączanie rozmowy do operatora pod dowolny numer telefonu (numer wewnętrzny w firmie, numer zewnętrzny, numer telefonu komórkowego),

  • wykonywanie operacji na dowolnej bazie danych (zapisywanie informacji, uaktualnianie i kasowanie wpisów w bazie, wykonywanie procedur),

  • wyszukiwanie informacji w bazach danych i przygotowywanie raportów (przykład: klient chce dowiedzieć się jaki jest stopień realizacji jego zamówienia, w tym celu system prosi go o wprowadzenie numeru zlecenia z klawiatury telefonu; następnie system wyszukuje w bazie odpowiedni rekord, odczytuje wartość kolumny status i w zależności od wartości tej kolumny informuje klienta że jego zlecenie jest np. zrealizowane i może się zgłosić po odbiór do firmy),

  • integracja z systemami klasy ERP (ang. Enterprise Resource Planning) - systemami informatycznymi wspomagającymi zarządzanie, CRM (ang. Customer Relationship Management – zarządzanie relacjami z klientem),

  • integracja z systemem Contact Center,

  • integracja z technologiami i standardami: COM, HTTP, SOAP (ang. Simple Object Access Protocol), XML, TCL (ang. Tool Command Language) itp.

Pobierz cały dokument
Systemy dialogowe pytania na zaliczenie2010 OPRACOWANE.docx

Wyszukiwarka

Podobne podstrony:
Systemy dialogowe - pytania na zaliczenie2010 - OPRACOWANE, WAT, SEMESTR V, systemy dialogowe
Pytania na zaliczenie z przedmiotu Urządzenia Ochrony Atmosfery - opracowane, Ochrona Środowiska pli
Opracowane pytania na zaliczenie
PODSTAWY PRAWOZNAWSTWA, opracowane pytania na zaliczenie Podstawy Prawoznawstwa
Opracowane pytania na zaliczenie z Podstaw Elektroenergetyki
odp1-6, Prywatne, WAT, SEMESTR IV, IO, opracowane pytania na zaliczenie
Pytania na zaliczenie z przedmiotu SOCR semestr1 2014, SOCR-Systemy operacyjne czasu rzeczywistego
Hydrologia opracowane pytania na zaliczenie wykładów
opracowane pytania na zaliczenie z podstaw biotechnologii200, WNOŻCiK wieczorowe, semestr V, biotech
Medycyna Katastrof pytania na egzamin (opracowane)
Pytania na zaliczenie
Pytania na zaliczenie z geografii
Pytania na zaliczenie
Pytania na zaliczenie pp- ratownictwo, podstawy pielęgniarstwa
Pytania na zaliczenie
Pytania na zaliczenie
teoretyczne egzamin, Pedagogika Opikuńcza UWM Olsztyn, I Rok, Teoretyczne Podstawy Wychowania, Pytan
Pytania na obrone opracowane!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!, Zarządzanie UE Katowice
pytania na zaliczenie, ZiIP Politechnika Poznańska, Zastosowanie Materiałów Konstrukcyjnych - BULA

więcej podobnych podstron

Kontakt | Polityka prywatności