2.3. Segmentacja 15
System rozpoznawania mowy musi z sygnału uzyskać i przetworzyć wiele informacji. Pojedyncza próbka niesie niewystarczającą ilość takich informacji, w związku z czym projektant systemu musi uporać się z segmentacją sygnału, czyli podzieleniem sygnału na ramki odpowiedniej długości. Podczas tego procesu należy zwrócić uwagę na efekty brzegowe występujące podczas ramkowania sygnału. Aby zniwelować zniekształcenia stosuje się ramki o większej długości (im krótsza ramka tym wpływ zniekształceń jest większy) oraz do stosuje się okno o wąskim widmie (najczęściej jest to okno Hamminga)[7].
Wyróżniamy dwa podstawowe typy segmentacji:
- segmentację równomierną;
- segmentację nierównomierną.
"Segmentacja równomierna jest najprostszym i najczęściej stosowanym typem segmentacji” [7], Gdy ten rodzaj segmentacji stosujemy do sygnału mowy najczęściej używamy ramek długości 20 ms, ponieważ jest to średni czas trwania najkrótszych fonemów. W praktyce stosuje się ramki o długości N = 2k, np. N=256, co przy częstotliwości próbkowania fs = 16 kHz daje długość równą 16 ms [7] [9]. W segmentacji równomiernej stosuje się ramkowanie z zakładką, aby zwiększyć rozdzielczość analizy.
Segmentacja nierównomierna ma na celu podzielić sygnał ze względu na jego treść (najczęściej wyodrębnione zostaną fonemy, difony lub trifony). Gdy sygnał ma zostać podzielony na większe partie (np. słowa) najczęściej dokonuje tego już człowiek.
Plik mlf jest to plik zawierający czas początku i końca każdego słowa w nagraniu. Dzięki tym plikom można wykonać trening systemu rozpoznawania mowy i wyliczyć parametry dla modeli HMM, GMM czy algorytmu kNN [2][16].
W rozdziale 4 omówiono program Anotator, który służy do rozwijania korpusów mowy-pozwala na tworzenie plików mlf. Program został wzbogacony w ASR, aby ułatwić to żmudne zadanie. Następnie dzięki tym plikom program sam będzie wstanie z mniejszych partii sygnału(ze słów) dokonać segmentacji sygnału na fonemy. Rozdział 4 omawia jak sprawdzono sprawność ASR załączonego do programu, na podstawie nagrań z dwóch różnych korpusów mowy: LUNA oraz GlobalPhone.
A. Wyszyńska Analiza komercyjnych wdrożeń systemu rozpoznawania mowy SARMATA