3.1. Trening mlf systemu rozpoznawania mowy SARMATA 19
2. Na których nie wykonywano treningu.
W każdym z 20 zestawów znalazło się 30 plików *.wav zawierających spójne fragmenty (bez ciszy w środku) co najmniej jednego słowa (częściej sekwencje dwóch lub trzech słów). Pliki pochodzące z nagrań typu (1) oraz (2) nie były w folderach wymieszane. Pliki *.wav musiały być plikami mono o częstotliwości próbkowania 16 kHz oraz rozdzielczości 16 bit.
Do każdego z plików należało stworzyć plik *.txt zawierający transkrypcję zawartości oraz plik *.mlf, których zawartość wyglądała następująco:
#!MLF!#
“nazwa_pliku_01 .wav“
0 123456789000000 cała_zawartość_wypowiedzi_tego_pliku_zgodna_ze_słownikiem “nazwa_pliku_02.wav“
0 123456789000000 cała_zawartość_wypowiedzi_tego_pliku_zgodna_ze_słownikiem
“nazwa_pliku_30.wav“
0 123456789000000 cała_zawartość_wypowiedzi_tego_pliku_zgodna_ze_słownikiem
Przykład początku pliku z folderu “1“:
#!MLF!#
“ l_2007-03-13_12_58_32_01 .wav“
0 5050000 dzień_dobry
“ l_2007-03-13_12_58_32_02.wav“
10000 9090000 ja_chcę_zapytać
“ 1 _2007-03-13_ 12_5 8_32_03. wav“
0 19910000 żeby_być_na_Dworcu_Zachodnim
“ l_2007-03-13_12_58_32_04.wav“
20000 7180000 ale_z_pętli
A. Wyszyńska Analiza komercyjnych wdrożeń systemu rozpoznawania mowy SARMATA