Temat 1:
Przegląd stanu technologii języka naturalnego
Wejście za pomocą języka mówionego
Wejście za pomocą języka pisanego
Analiza i rozumienie języka
Generowanie tekstu
Wyjście za pomocą języka mówionego
Dialog
Przetwarzanie dokumentów
Wielojęzyczność
Transmisja i przechowywanie
Zasoby językowe
Wejście za pomocą języka mówionego
Dla wielu ludzi możliwość swobodnej konwersacji z maszyną jest ostatecznym dowodem zrozumienia procesów wytwarzania i percepcji mowy ludzkiej;
Komunikacja człowiek-maszyna (interfejs) za pomocą języka mówionego (mowy) szybko staje się koniecznością;
W niedalekiej przyszłości sieci interaktywne pozwolą na łatwy dostęp do bogactwa informacji i usług, które zasadniczo wpłyną na pracę, wypoczynek i sposób kierowania codziennymi sprawami ludzi; dzisiaj takie sieci są dostępne ludziom, którzy potrafią czytać i mają dostęp do komputerów;
Interfejs wykorzystujący własny język użytkownika jest idealny, ponieważ mowa jest najbardziej naturalną, elastyczną, wygodną i ekonomiczną formą komunikacji;
Po wielu latach badania nad rozpoznawaniem mowy przekroczyły próg zastosowań. Ostatnia dekada jest świadkiem znacznego postępu technologii rozpoznawania mowy - algorytmy i systemy stają się dostępne. Nastąpiło przejście od demonstracji laboratoryjnych do zastosowań handlowych: dyktafon, wybór numeru telefonicznego, wybór abonenta, wprowadzenie danych i przygotowanie typowych dokumentów;
Rozpoznawanie mowy łączy kilka technologii składowych:
przekształcanie zdigitalizowanego sygnału mowy w zbiór cech lub parametrów (wyznaczanie reprezentacji sygnału mowy),
modelowanie dźwięków mowy (najszerzej rozpowszechniona jest technika oparta na stosowaniu ukrytych modeli Markowa),
modelowanie - i wykorzystanie w końcowym etapie procesu rozpoznawania mowy - gramatyki języka;
Szczególnym typem zadań rozpoznawania mowy są zadania interakcyjne (np. przygotowanie planu podróży czy wybór filmu). Rozwiązanie tego typu zadań uzyskiwane jest zwykle stopniowo z aktywnym udziałem użytkownika i komputera;
Ważniejsze składniki typowego systemu konwersacyjnego (interaktywnego, dialogowego).
Wejście za pomocą języka pisanego
Język pisany
składa się ze sztucznych znaków graficznych (ikon) zapisanych na powierzchni;
jego celem jest komunikować o czymś;
cel osiągany jest poprzez wykorzystanie relacji (opartej na konwencji) między znakami i językiem;
semiotyka: ogólna teoria znaku, obejmująca semantykę, syntaktykę i pragmatykę, zajmująca się problemem typologii różnych postaci i odmian znaków, ich istotą oraz rolą, jaką pełnią w procesie porozumiewania się ludzi
umożliwił powstanie kultury i cywilizacji;
różne systemy zapisu (pisma), które są symbolem jednostek językowych (słów, sylab, fonemów) na różnych poziomach strukturalnych;
w systemach alfabetycznych (łacina, greka, rosyjski) alfabety są znakami wykorzystywanymi do reprezentowania słów; różne języki mogą wykorzystywać to samo pismo (np. angielski, niemiecki, francuski, polski - nie biorąc pod uwagę drobnych różnic);
pismo Devanagari, w którym reprezentowane są zarówno sylaby jak i alfabet jest wykorzystywane przez kilka języków hinduskich (w tym Hindi);
alternatywne do alfabetycznego jest pismo chińskie składające się z ideogramów;
pismo japońskie składa się z chińskich ideogramów (Kanji) i sylab (Kana);
obecnie w użyciu jest około dwóch tuzinów różnych pism;
każde pismo ma swój zbiór ikon (znaków lub liter) o określonym podstawowym kształcie;
każde pismo ma swoje zasady łączenia liter w celu reprezentowania kształtu jednostek językowych wyższego poziomu;
w każdym piśmie reprezentowane są liczby (np. arabsko-hinduskie cyfry w alfabecie łacińskim);
Przekształcanie do postaci cyfrowej
od czasu Gutenberga większość archiwów języka pisanego ma postać papierowych dokumentów drukowanych;
dokument papierowy jest medium analogowym, przekształcenie w postać cyfrową za pomocą skanowania lub digitalizacji (cyfryzacji), której rozdzielczość zależy od:
rozmiaru najmniejszej czcionki, którą należy pewnie rozpoznać,
możliwości kanału transmisji,
objętości przechowywanych obrazów (typowy obraz faxu: 200 dpi wzdłuż linii skanowania, 100 dpi wzdłuż kierunku przesuwania papieru);
sformatowane dokumenty w postaci elektronicznej (odpada skanowanie i rozpoznawanie);
język pisany może mieć postać pisma odręcznego zapisanego na papierze lub zarejestrowanego na elektronicznie wrażliwej powierzchni;
przekształcanie do postaci cyfrowej pisma odręcznego:
on-line (zapisywanie współrzędnych kolejnych punktów rysika sczytywanych z ekranu LCD, na zapisanie słowa potrzeba ok. 230 bajtów przy 100 próbkach/sek),
off-line (dwuwymiarowy obraz całego dokumentu, na zapisanie słowa potrzeba ok. 80 Kbajtów przy 300dpi);
Rozpoznawanie
rozpoznawanie języka pisanego jest to przekształcanie języka reprezentowanego w postaci znaków graficznych w reprezentację symboliczną w postaci sformatowanej (dla j. angielskiego jest to reprezentacja ASCII tekstu, większość języków świata jest reprezentowana w postaci UNICODE);
pismo drukowane: OCR (ang. optical charakter recognition), pismo odręczne: ICR (ang. intelligent charakter recognition);
główne problemy: rozpoznawanie znaków, rozpoznawanie słów, analiza obrazu;
rozpoznawanie znaków:
najpierw algorytm rozpoznawania wzorców do ekstrakcji charakterystyk kształtu i przypisania znaku do odpowiedniej klasy (duże litery, małe litery, cyfry, symbole specjalne),
potem do końcowej klasyfikacji zastosowanie sztucznych sieci neuronowych lub algorytmów bazujących na metodach najbliższego sąsiada (te pierwsze są mniej dokładne, ale szybsze);
rozpoznawanie słów: skojarzenie obrazu słowa ze słowem ze słownika; zwykle tworzony jest ranking słów (opierając się na ciągu rozpoznanych pojedynczych znaków albo na obrazie całego słowa);
modele języka wykorzystywane przy rozpoznawaniu zdania (łańcucha słów); w rozpoznawaniu bieżącego tekstu zbiór możliwych następników dla każdego słowa jest ograniczany przez syntaktykę, semantykę i pragmatykę zdania;
polepsza rozpoznawanie;
techniki kolokacyjne stosowane są do modyfikowania sąsiedztwa słów wygenerowanych przez urządzenie rozpoznające (kolokacje są wzorami słów często pojawiającymi się w języku);
wykorzystuje się wiedzę lingwistyczną: modele n-gram dla słów, modele n-gram dla klas (np. części mowy) - informacja statystyczna na poziomie sekwencji słów (najczęściej dwóch, trzech); gramatyki (stochastyczne) bezkontekstowe;
analiza obrazu dokumentu polega na określeniu fizycznej (przestrzennej) i logicznej struktury zawartości dokumentu; duża różnorodność struktur (gazety, magazyny, książki, formularze, listy, notatki odręczne); dla strony gazety analiza polega na:
określeniu przestrzennych rozmiarów segmentów dokumentu i skojarzeniu z nimi odpowiednich etykiet (fotografie, tekst, grafika, oddzielne linie,...),
grupowaniu części obrazu w jednostki znaczeniowe (rysunki i podpisy, nagłówki),
określeniu kolejności czytania tekstu;
zastosowanie tradycyjnych operacji przetwarzania obrazów (polepszanie, kontrastowanie, analiza tekstury, segmentacja);
trudne problemy z pismem odręcznym: separacja linii tekstu, słów w linii, stykających się znaków;
Stan obecny i kierunki rozwoju
wyraźny tekst drukowany z prostym układem graficznym można rozpoznawać praktycznie bezbłędnie;
pisany odręcznie tekst (szczególnie z rozdzielonymi wyrazami) on-line (w tzw. asystentach osobistych) ma praktyczne znaczenie;
teksty off-line tylko specjalizowane: adresy pocztowe, czeki bankowe, formularze ze spisu ludności;
trudności: separacja słów i linii, segmentacja słów na znaki, rozpoznawanie słów dla dużych słowników i wykorzystywanie modeli języka;
pismo odręczne jako interfejs człowiek-maszyna; ekran LCD (ang. liquid crystal display) i rysik lub pisak; aplikacje wymagające zastosowania wyłącznie takiego interfejsu: zapewnienie dyskrecji w obecności innych osób, w małych urządzeniach i dla dużych alfabetów (np. język chiński) ze względu na rozmiary klawiatury; technologie zapożyczone z OCR (przekształcić trajektorię pisaka w obraz binarny) i rozpoznawania mowy (potraktować trajektorię jako sygnał); jednak specyficzne własności takiego interfejsu wymuszają, w celu otrzymania lepszych wyników, stosowanie odrębnych technologii.
Analiza i rozumienie języka
Rozumienie większych jednostek tekstowych następuje poprzez rozumienie mniejszych;
Główny cel teorii językowej: pokazać jak te większe jednostki znaczeniowe (treściowe) powstają ze złożenia mniejszych - jest to modelowane za pomocą środków gramatyki;
Lingwistyka obliczeniowa: zadanie to tradycyjnie dzielone jest na syntaktykę (jak mogą być połączone różne elementy formalne jednostki tekstowej, najczęściej zdania) i semantykę (jak wyznaczana jest interpretacja);
W większości aplikacji: zakodowana wiedza lingwistyczna, czyli gramatyka składa się ze słownika i zasad, które syntaktycznie i semantycznie łączą słowa we frazy, w większe frazy i zdania;
Większość technologii językowych wykorzystuje gramatyki z kilkuset lub kilkoma tysiącami reguł, opisującymi różne typy fraz; liczba reguł decyduje o przydatności gramatyki w różnych aplikacjach;
W obecnych badaniach nastąpiła polaryzacja, stosowane są:
bardzo proste modele gramatyk, a nawet nie stosujące gramatyki metody statystyczne w celu wyszukania podstawowych wzorców językowych;
językowo złożone formalizmy, które umożliwiają inżynierię gramatyczną.
Generowanie języka
Generowanie języka jest programowym wytwarzaniem wysokiej jakości teksu języka naturalnego na podstawie informacji zapisanych w komputerze;
Generatory są wykorzystywane w interfejsie człowiek-maszyna do wytwarzania pojedynczych zdań (generacja taktyczna) lub tekstów wielozdaniowych (planowanie tekstu lub generacja strategiczna);
Rozdziela się zadania generacji (może ich być więcej niż jedno) i proces generacji;
Zadania generacji: planowanie zdania, planowanie tekstu, realizacja pokrycia;
Procesy generacji klasyfikuje się w zależności od stopnia złożoności i mocy wyrażania.
Wyjście za pomocą języka mówionego
symulowanie mechanizmu wytwarzania mowy przez człowieka
synteza mowy
wybór segmentów podstawowych;
cechy prozodyczne;
cechy mówcy;
synteza TtS (text to speech)
Schemat funkcjonalny generatora mowy syntetycznej
Dialog
Systemy dialogowe języka mówionego
Ogólne własności
pracują w ograniczonej znaczeniowo dziedzinie (np. zapytania o dane dotyczące określonego obiektu),
mają ograniczony słownik (rzędu 1000 słów),
przeznaczone są do pracy z użytkownikami raczej nieprzygotowanymi (mowa spontaniczna - mowa ciągła, nieregularne zdania, niegramatyczności, zjawiska poza lingwistyczne),
zapewniają ograniczoną swobodę dialogu - sterowanie przejmowane jest przez system, gdy pojawiają się kłopoty ze zrozumieniem.
Ogólny przegląd systemów dialogowych języka mówionego
Celem systemu dialogowego jest ułatwienie użytkownikowi uzyskiwania potrzebnej informacji, dla której wyrażenia pojedyncze zdanie może być niewystarczające.
System dialogowy zapewnia następujące korzyści:
umożliwia bardziej naturalną interakcję: użytkownik może odwoływać się do informacji, która pojawiła się w dialogu wcześniej i życzenia mogą skupić się na danych zebranych dotąd;
dialog dostarcza sposobów pokonania trudności: zachęca do używania krótkich wypowiedzi, aby zmniejszyć ryzyko błędów rozpoznawania, oferuje sposób wznowienia rozmowy po błędach rozumienia.
Typowy scenariusz dla systemu dialogowego:
przypadkowy użytkownik życzy sobie informacji, zawartych w bazie danych (np. rozkład jazdy pociągów, samolotów) dostępnych telefonicznie;
przy pomocy systemu użytkownik dostarcza niezbędnych danych do wyszukania pożądanej informacji;
system przejmuje kierowanie dialogiem, gdy pojawiają się niezrozumienia.
Własności systemu dialogowego:
niezależność od mówcy,
stosowanie swobodnego i naturalnego języka (stosowanie ściśle zdefiniowanej syntaktyki nie jest wskazane wobec przypadkowych użytkowników, menu ze słowami izolowanymi jest niepraktyczne),
stosowanie mowy ciągłej,
zapewnienie zarządzania dialogiem (użytkownik nie może być całkowicie swobodny, a także stosowane zdania mogą być zbyt długie i złożone i mogą przekraczać możliwości rozumienia systemu; menedżer dialogu musi być tak zaprojektowany, aby zrównoważyć swobodę użytkownika i kontrolę systemu.
Struktura systemu dialogowego
Wyniki dotychczasowych doświadczeń:
rozpoznawanie mowy i przetwarzanie języka powinny być rozdzielone przynajmniej do pewnego stopnia - chociaż obydwa zadania wykorzystują informacje językowe, to jednak potrzebują odmiennych ich postaci (w rozpoznawaniu modele statystyczne, które wykorzystują wiedzę lingwistyczną jedynie jako ograniczenia; procesor języka stosuje formalną gramatykę do zrozumienia wypowiedzi);
związki między rozpoznawaniem i przetwarzaniem języka z jednej strony i menadżerem dialogu z drugiej są bardziej złożone (pierwsze wypracowują dane wejściowe dla drugiego, ale jednocześnie menadżer dialogu może dostarczać danych systemowi rozpoznawania i modułowi rozumienia: może zastosować uprzedni kontekst do wygenerowania prognozy wypowiedzi użytkownika, wykorzystywanej następnie jako ograniczenie);
prace i testy systemu dialogowego powinny być zaprojektowane w ten sposób, aby stopniowo zwiększać możliwości pokonania trudności i złożoność systemu.
Przetwarzanie dokumentów
Dokumenty są informacjami organizowanymi i prezentowanymi w celu porozumienia się ludzi;
Zastosowanie technologii w procesie tworzenia i wykorzystywania dokumentów umożliwia osiągnięcie znacznej poprawy wydajności;
Zawartość dokumentu: tekst, rysunki, mowa, dźwięk, wideo (dokument multimedialny);
Wyszukiwanie dokumentów;
Ekstrakcja informacji - interpretacja tekstu.
Wielojęzyczność
Tłumaczenie maszynowe;
Automatyczna identyfikacja języka;
Wyszukiwanie informacji wielojęzycznej;
Przetwarzanie informacji wielojęzycznej.
Transmisja i przechowywanie
Kodowanie;
Kompresja;
Poprawianie mowy.
Zasoby językowe
W ostatniej dekadzie nastąpił znaczący postęp w technologii rozpoznawania mowy (w zakresie tworzenia, doskonalenia i oceniania): niezależność od mówcy, rozpoznawanie mowy ciągłej i dla obszernych słowników;
Przyczynił się do tego rozwój i szybki wzrost zasobów językowych, będących zbiorem danych o języku, mowie języka mówionego lub tzw. zasobów mowy (ang. spoken language corpora lub speech corpora) czyli zbiorów zarejestrowanych wypowiedzi (sygnałów mowy), dostępnych w formie czytelnej dla komputera i zaopatrzonych w komentarze oraz dokumentację wystarczającą do ich wielokrotnego wykorzystywania nie tylko przez twórców tych zbiorów;
Twórcy tych systemów wykorzystują zwykle łatwo dostępne zasoby mowy, stworzone wcześniej przez niezależne zespoły. Ich liczba, objętość, zakres słownictwa, sposób wypowiadania materiału leksykalnego oraz warunki jego rejestracji odpowiadają różnorodności zastosowań systemów rozpoznawania mowy;
Najliczniejsze są zasoby dla języka angielskiego w wersji amerykańskiej;
Zwykle wyróżnia się zasoby wykorzystywane dla celów naukowo-badawczych i do zastosowań technicznych: synteza mowy, rozpoznawanie mowy, systemy języka mówionego (jest to połączenie syntezy mowy, rozpoznawania mowy z przetwarzaniem języka naturalnego i systemami dialogowymi, umożliwiające interaktywną komunikację między człowiekiem i maszyną), rozpoznawanie mówcy;
Największym producentem i dystrybutorem danych językowych (zgromadzonych w postaci elektronicznej tekstów, sygnałów mowy, słowników i innych źródeł) jest Linguistic Data Consortium (LDC, siedzibą konsorcjum jest University of Pennsylvania, Philadelphia), w którego ofercie można znaleźć ok. 150 różnych zasobów;
Zasoby mowy zostały podzielone na cztery kategorie w zależności od kanału przekazywania podczas rejestracji:
mikrofon (ang. microphone speech) - np.: ATIS (Air Travel Information System), YOHO, BRAMSHILL, TIMIT, CSR, RM, TI 46, TI Digits;
telefon (ang. telephone speech) - rejestracje rozmów telefonicznych, prowadzonych w ponad 10 językach, zainicjowanych z terenu USA lub Kanady do wszystkich części świata, najbardziej znane to: Switchboard, Macrophone, Spidre, OGI, Callhome, Callfriend.
radio i telewizję (ang. broadcast speech) - zarejestrowane w postaci cyfrowej setki godzin wielojęzycznych audycji radiowych i telewizyjnych, pierwotnie przeznaczonych do opracowania systemu automatycznego rozpoznawania mowy Hub-4;
radio mobilne (ang. mobile-radio speech) - ATC (Air Traffic Control).
Powstanie zasobów mowy przyczyniło się również do ustanowienia standardów wykonania systemów rozpoznawania mowy.
Przegląd zasobów mowy
TI 46
Zasób składa się ze słów izolowanych. Został utworzony w 1980 r. przez Texas Instruments (TI). Materiał został nagrany w izolowanej dźwiękowo kabinie za pomocą kardioidalnego mikrofonu dynamicznego, umieszczonego dwa cale od ust mówiącego, poza strumieniem oddechu.
TI46 zawiera 46 słów wypowiadanych przez 16 mówców: 8 mężczyzn oznaczonych m1-m8 i 8 kobiet oznaczonych f1-18. Każde słowo posiada dwuliterowy skrót (kod podpowiedzi).
Tabela 1
Słowo |
Kod |
Słowo |
Kod |
Słowo |
Kod |
Słowo |
Kod |
Słowo |
Kod |
ZERO |
'00' |
A |
'0A' |
K |
'0K' |
U |
'0U' |
NO |
'NO' |
ONE |
'01' |
B |
'0B' |
L |
'0L' |
V |
'0V' |
REBOUT |
'RB' |
TWO |
'02' |
C |
'0C' |
M |
'0M' |
W |
'0W' |
REPEAT |
'RP' |
THREE |
'03' |
D |
'0D' |
N |
'0N' |
X |
'0X' |
STOP |
'SP' |
FOUR |
'04' |
E |
'0E' |
O |
'0O' |
Y |
'0Y' |
START |
'ST' |
FIVE |
'05' |
F |
'0F' |
P |
'0P' |
Z |
'0Z' |
YES |
'YS' |
SIX |
'06' |
G |
'0G' |
Q |
'0Q' |
ENTER |
'EN' |
|
|
SEVEN |
'07' |
H |
'0H |
R |
'0R' |
ERASE |
'ER' |
|
|
EIGHT |
'08' |
I |
'0I' |
S |
'0S' |
GO |
'GO' |
|
|
NINE |
'09' |
J |
'0J' |
T |
'0T' |
HELP |
'HP' |
|
|
Każde słowo wypowiadane jest 26 razy przez każdego mówcę. W każdym katalogu mówcy oznaczonym F1-F8 i M1-M8 znajdują się odpowiednie pliki .wav, zaczynające się od 1024 bajtowego standardowego nagłówka formatu NIST SPHERE.
YOHO
Standardowa baza danych do tworzenia i testowania systemów weryfikacji mówcy: zależnych od tekstu i z tekstem podpowiadanym. Umożliwia porównywanie pracy różnych systemów weryfikacji mówców. Zasób, ze względu na ilość i organizację zgromadzonych danych, umożliwia wyznaczanie prawdopodobieństwa fałszywej akceptacji weryfikowanego mówcy z dokładnością 0,01% i prawdopodobieństwa fałszywego odrzucenia z dokładnością 0,1%;
Słownictwo wykorzystywane w tym zasobie stanowią liczby dwucyfrowe („thirty-four”, „sixty-one” itp.), hasłem (kluczem) jest wymawiany w sposób ciągły zestaw trzech liczb dwucyfrowych (np. „36-45-89”);
Zarejestrowano mowę 138 mówców (108 mężczyzn, 30 kobiet) w środowisku biurowym. Dla każdego mówcy są 4 sesje rejestracyjne z 24 wypowiedziami w każdej oraz 10 sesji weryfikacyjnych (identyfikacyjnych) z 4 wypowiedziami w każdej;
Nazwa każdego pliku .wav wskazuje tekst wypowiedzi w tym pliku, np. "62_31_53.wav" zawiera zdanie "sixty-two thirty-one fifty-three".
Baza cyfr połączonych
Do projektowania i testowania algorytmów niezależnego od mówcy rozpoznawania mowy w postaci sekwencji połączonych cyfr;
Składa się z wypowiedzianych przez ponad 300 mężczyzn, kobiet i dzieci ponad 25000 sekwencji cyfr (77 sekwencji cyfr dla każdego mówcy: 22 cyfr izolowanych, i po 11 sekwencji dwu-, trzy-, cztero-, pięcio- i siedmiocyfrowych);
Dla każdego mówcy został przygotowany unikalny scenariusz (zestaw podpowiedzi), do którego generowania zastosowano algorytm zapewniający jednakową częstość występowania cyfr i przejść miedzy cyframi (sąsiedztw);
Materiał lingwistyczny został dialektycznie zrównoważony, rejestracja odbywała się w cichym otoczeniu, zastosowano częstotliwość próbkowania 20 kHz.
ATC (Air Traffic Control)
Do wykorzystania w pracach badawczych w zakresie odpornego na zakłócenia rozpoznawania mowy w procesie kontroli ruchu lotniczego;
Cechy charakterystyczne: wielu mówców, zakłócone kanały, relatywnie mały zasób słów, konkretny język;
Zasób ATC składa się z prawie 70 godzin rozmów pomiędzy kontrolerami ruchu lotniczego i załogami samolotów, zarejestrowanych w trzech głównych portach lotniczych USA;
Wszystkie wypowiedzi zaopatrzone są w transkrypcje, zawierające również znaczniki czasowe początku i zakończenia każdej transmisji.
ATIS (Air Travel Information System)
Wykorzystywany był do tworzenia i testowania systemu zależnego od mówcy rozpoznawania mowy w amerykańskim systemie informacji lotniczej;
Zawiera rejestrację nagrań:
912 spontanicznych wypowiedzi 36 mówców,
wersję czytaną przez 20 spośród 36 mówców 478 powyższych wypowiedzi wraz z 40 wypowiedziami „adaptacyjnymi” czytanymi przez każdego mówcę;
317 zdań odczytanych przez każdego z 10 spośród 36 mówców zarejestrowanych za pomocą dwóch różnych mikrofonów (razem 6342 pliki typu .wav).
Zasoby mowy w Europie
Wynikiem kilku kolejnych projektów ESPRIT jest powstały w 1989 r. zasób mowy EUROM 0: dane w ośmiu językach, materiał leksykalny stanowiły pojedyncze cyfry oraz ciągi trzech cyfr, wypowiadane przez czterech mówców, indeksowane na poziomie fonemów;
Bardziej zaawansowany zasób mowy (wynik projektu SAM) jest EUROM 1:
składa się z części równoważnych dla każdego języka, zrealizowanych przez tę samą liczbę mówców wybranych w ten sam sposób, zarejestrowanych w identycznych warunkach, zapisanych w plikach o identycznej strukturze;
początkowo nagrań dokonano w ośmiu językach Centralnej i Zachodniej Europy: duńskim, holenderskim, angielskim, francuskim, niemieckim, włoskim, norweskim, szwedzkim a następnie jeszcze w trzech: greckim, portugalskim i hiszpańskim;
warunki rejestracji: częstotliwość próbkowania: 20 kHz, kwantyzacja 16-bitowa, nagrania w pomieszczeniu bezechowym zarejestrowane za pomocą wysokiej jakości mikrofonu, w plikach o formacie SAM, będącym standardem europejskim i zawierających pliki z sygnałem mowy oraz pliki z transkrypcją ortograficzną i informacjami o sesjach nagraniowych;
materiał leksykalny zasobu stanowią:
40 fragmentów tekstów (w każdym 5 tematycznie połączonych zdań);
50 różnorodnych zdań (w celu pokrycia specyficznych elementów języka, dla skompensowania fonematyczno-częstościowej nierównowagi w powyższych fragmentach);
82 tzw. logotomy CVC czyli połączenia spółgłoska + samogłoska + spółgłoska dla różnych początkowych i końcowych spółgłosek z samogłoskami "a", "i", "u" (logotomy są wymawiane bez kontekstu oraz w 5 różnych kontekstach);
słowa (izolowane);
5x20 liczb z zakresu 0-9999, pokrywających wszystkie fonetyczne potrzeby systemu liczbowego;
mówcy: 30 mężczyzn i 30 kobiet (w wieku 20-60 lat, wszystkie typy głosów);
Zasób składa się z trzech części:
dla wielu mówców (30 mężczyzn i 30 kobiet): 100 liczb, 3 fragmenty, 5 zdań;
dla kilku mówców (5 mężczyzn i 5 kobiet wybranych z punktu a): 5xCVC, 5x100 liczb, 15 fragmentów, 25 zdań;
dla dwóch mówców (1 mężczyzna i 1 kobieta wybrani z punktu b): CVC włączone w 5 fraz kontekstowych, 5 słów kontekstowych;
rejestracje dla każdego języka zapisano na 5 CD-ROMach (ok. 3GB).
Obecnie trwają prace nad utworzeniem sieci zasobów językowych, podobnej do amerykańskiego konsorcjum LDC i będącej dla niego partnerem w wymianie danych. Jest to najważniejszy cel projektu RELATOR, realizowanego we współpracy z wieloma inicjatywami: EAGLES, ELSNET, EUROCOCOSDA, SPEECHDAT.
BABEL jest europejskim projektem w ramach programu COPERNICUS skupiającym wiele ośrodków badawczych ze Wschodniej i Zachodniej Europy, realizowanym w latach 1995-1998
z Polski uczestniczył w nim Instytut Podstawowych Problemów Techniki PAN z Warszawy;
cel: utworzenie wspólnej, wielojęzycznej bazy danych gromadzącej zasoby pięciu najbardziej zróżnicowanych języków wschodnioeuropejskich: bułgarskiego, estońskiego, węgierskiego, polskiego i rumuńskiego;
baza została tworzona w oparciu o standardy i protokoły wypracowane w projekcie ESPRIT SAM Unii Europejskiej i wykorzystuje strukturę danych bazy danych EUROM 1;
obecnie tworzona jest porównywalna baza danych języka mówionego, której warunki rejestracji, materiał leksykalny i struktura jest taka sama jak dla pozostałych języków europejskich w zasobie EUROM 1;
zastosowano zasady transkrypcji SAMPA, która najogólniej polega na przetransformowaniu symboli międzynarodowego alfabetu fonetycznego na 7-bitowe znaki w kodzie ASCII z zakresu 33-127;
głównym zadaniem każdego z partnerów jest opracowanie odpowiedniej konwencji tzw. symbolizacji, czyli przyporządkowania symboli poszczególnym dźwiękom;
zakłada się, że znaczna ilość zarejestrowanych danych zostanie ręcznie poddana indeksacji na poziomie fonemów.
Zakłada się, że baza danych zapewni materiał leksykalny do realizacji następujących zadań badawczych:
W zakresie ekstrakcji cech i charakterystyk sygnałów mowy:
weryfikacja opracowanych metod i procedur wyznaczania reprezentacji sygnałów mowy;
W zakresie rozpoznawania mówcy (rozpoznawania tożsamości mówiącego na podstawie jego głosu):
opracowanie algorytmów weryfikacji mówcy zależnej od tekstu, z tekstem podpowiadanym, niezależnej od tekstu;
opracowanie algorytmów identyfikacji mówcy zależnej i niezależnej od tekstu, również mówców niechętnych do współpracy, maskujących swój głos.
W zakresie rozpoznawania mowy:
opracowanie procedur zależnego i niezależnego od mówcy rozpoznawania mowy izolowanej (komend);
opracowanie algorytmów i pakietu programowego do systemu automatycznego rozpoznawania komend;
zależne od mówcy rozpoznawanie mowy ciągłej czytanej (nie spontanicznej).
W zakresie segmentacji sygnałów mowy:
opracowania metod segmentowania wypowiedzi na jednostki wielkości wyrazu, sylaby, trifonu, difonu, fonemu.
Założenia dotyczące rejestracji sygnałów mowy:
częstotliwość próbkowania: 22 kHz;
kwantyzacja: 16 bitów;
format zapisu: typ .wav;
nie zastosowano kompresji plików;
mikrofon (jeden, więcej)
środowisko rejestracji: ciche, biurowe;
każdy zarejestrowany sygnał głosowy (w pliku .wav) jest poprzedzony i zakończony ciszą o czasie trwania 0,5-1 sek.
Zasób mowy polskiej ROBOT bazuje na następujących słownikach:
L1: zero, jeden, dwa, trzy, cztery, pięć, sześć, siedem, osiem, dziewięć;
L2: start, stop, lewo, prawo, góra, dół, puść, złap, oś, chwytak, kąt;
L3: dziesięć, jedenaście, dwanaście,..., dziewiętnaście, dwadzieścia, dwadzieścia jeden, dwadzieścia trzy,..., dziewięćdziesiąt dziewięć.
Poniżej przedstawiono zawartość zasobów, słowniki, które były bazą przy ich tworzeniu oraz sposób rejestracji i liczbę plików każdego zasobu.
Z1: słowa ze słownika L1 i L2 wypowiedziane 30-krotnie w sposób izolowany przez 2 mówców oraz 5-krotnie przez 28 mówców (oznacza to (10+10)*(30*2+5*28)=4000 plików typu .wav);
Z2: 25 zdań zbudowanych ze słów słowników L1 i L2 wypowiedzianych 1 raz w sposób ciągły (bez przerw miedzy słowami) przez 30 mówców (czyli 25*30=750 plików typu .wav);
Z3: 5 wyznaczonych (czyli takich samych dla wszystkich mówców) liczb dwucyfrowych utworzonych ze słów słowników L1, L3 wypowiedzianych 15-krotnie w sposób izolowany przez 30 mówców (czyli 5*15*30=2250 plików typu .wav);
Z4: 25 wylosowanych (czyli innych dla każdego mówcy) liczb dwucyfrowych wypowiedzianych 1 raz przez 30 mówców (czyli 25*30=750 plików typu .wav);
Z5: 10 zdań zbudowanych z 3 liczb dwucyfrowych wypowiedzianych 1 raz w sposób ciągły (bez przerw miedzy nimi) przez 30 mówców (czyli 10*30=300 plików typu .wav);
Z6: 5 zdań zbudowanych z wyznaczonych (czyli takich samych dla wszystkich mówców) 2, 3, 4, 5, 6 słów słownika L1, wypowiedzianych bez przerw między słowami przez 30 mówców (czyli 5*30=150 plików typu .wav);
Z7: 5 zdań zbudowanych z wylosowanych (czyli innych dla każdego mówcy) 2, 3, 4, 5, 6 słów słownika L1, wypowiedzianych bez przerw między słowami przez 30 mówców (czyli 5*30=150 plików typu .wav);
1
Głośnik
Moduł cyfrowej
syntezy
mowy
zapis leksykalny tekstu
Baza difonów
Moduł przetwarzania tekstu
Dane wejściowe w postaci tekstu w języku polskim
zapis leksykalny
tekst wejściowy
Konwersja leksykalna
Przetwarzanie wstępne
Moduł przetwarzania tekstu
sygnał
mowy
zapis leksykalny
tekstu
filtrowanie
łączenie difonów
Moduł cyfrowej syntezy mowy