Podstawowym i najbardziej naturalnym sposobem komunikacji międzyludzkiej jest mowa. Oczywistym więc jest, że człowiek chciałby się w ten sposób komunikować także z maszynami. Właśnie dlatego powstają systemy rozpoznawania mowy. W niniejszej pracy opisano testy jednego z systemów rozpoznawania mowy, SARMATA, który jest rozwijany przez Zespół Przetwarzania Sygnałów DSP AGH.
W rozdziale pierwszym opisano zagadnienia związane z rozpoznawaniem mowy, których dotyczyć będzie ta praca. Omówiono historię systemów rozpoznawania mowy, czym są korpusy mowy, czego dotyczy pojęcie segmentacji oraz klasyfikacji.
W rozdziale drugim opisano prace związane z tworzeniem baz GMM, czyli statystycznego modelu języka. Przedstawiono jak stworzono zestawy testowe, słowniki do tych zestawów omówiono zasady fonetyki, które potrzebne były do stworzenia słowników oraz zaprezentowano wyniki testu przeprowadzonego na różnych bazach GMM.
W rozdziale trzecim opisano test programu Anotator2.0. Program ma być pomocny w segmentacji nagrań oraz przyspieszać pracę osoby tworzącej pliki mlf. Przetestowano jego działanie i opisano wyniki.
W rozdziale piątym opisano prace związane ze stworzeniem stanowiska VoIP, które posłuży do stworzenia korpusu rozmów telefonicznych. Opisano czym jest VoIP (ang. Voice over Internet Protocol), jego wady i zalety, oraz jak wyglądało samo przygotowanie stanowiska.
11