25/06/08 |
Raport z realizacji zadania badawczego: A.5 Tytuł raportu: Analiza i ocena metod subiektywnych i obiektywnych badania jako- |
PBZ |
ści sygnałów audio i wideo |
W ciągu ostatnich dwudziestu lat wiele ośrodków na całym świecie próbowało rozwiązać problem oceny jakości transmisji mowy w systemach telekomunikacyjnych widzianych od zewnątrz, to znaczy z punktu widzenia użytkowników, traktując badany system telekomunikacyjny jako czarną skrzynkę, w której może teoretycznie znajdować się wszystko (pomiary klasy koniec -koniec).
Metoda PSQM ma symulować subiektywną percepcję mowy w warunkach rzeczywistych. W procesie przekształcania sygnału mowy na jego psychofizyczną reprezentację, która jest odpowiednikiem sygnału jaki dociera do mózgu, korzysta się z wielu charakterystyk i stałych odzwierciedlających sposób percepcji dźwięku przez człowieka. Transformacja dokonywana jest zarówno na sygnale wejściowym jak i wyjściowym z badanego kanału telekomunikacyjnego.
Zasadnicza nielineamość modelu słuchowego zawiera w sobie to, że konieczne jest oddzielne przetwarzanie każdego sygnału, który ucho w danym momencie słyszy. Operacja przetwarzania zaczyna się od obliczenia widma mocy. Segment mowy jest ważony przez okno Hanninga, a następnie dyskretna transformacja Fouriera przekształca okienkowany segment mowy w dziedzinę częstotliwości. Składowe: rzeczywista i urojona widma krótkoterminowego są podnoszone do kwadratu i dodawane, w wyniku czego uzyskuje się krótkoterminowe widmo mocy.
System słuchowy człowieka jest znany ze słabszej dyskryminacji w zakresie wysokich częstotliwości niż w zakresie częstotliwości niskich. To, wraz ze zjawiskiem maskowania przez szum, doprowadziło do zamodelowania analizy dokonywanej przez ucho ludzkie za pomocą filtrów barkowych. Model ten wymaga przetwarzania sygnałów przez grupę takich filtrów, z odległościami częstotliwości środkowych i szerokościami pasm rosnącymi wraz z częstotliwością. Filtry te mogą być traktowane jako krzywe przestrajania nerwów słuchowych. Ich rozstawienie odpowiada półto-ramilimetrowym odcinkom wzdłuż membrany podstawowej. Ciągłe widmo uzyskane w wyniku tej operacji zostało nazwane rozkładem pobudzeń, gdyż odpowiada ono rozkładowi bodźców w nerwach słuchowych.
Modyfikacje widmowe przedstawione dotychczas wynikały z charakterystyki częstotliwościowej ucha (transformacja skali hercowej na barkową) i nieliniowego efektu wygładzania wprowadzanego filtracją w pasmach krytycznych przez ślimak błędnika ucha. Teraz należy uwzględnić fakt, że ucho nie jest jednakowo czułe na bodźce o różnych częstotliwościach. W celu uwzględnienia przetwarzania dźwięku reprezentowanego przez krzywe jednakowego poziomu głośności, należy przeprowadzić zamianę poziomów natężenia wyrażonych w decybelach na poziomy głośności wyrażone w fonach [KulaOl].
Widmo, jakie otrzymuje się w wyniku dotychczasowych operacji, jest skorygowane pod względem głośności. Ostatnim krokiem jest uwzględnienie faktu, że wzrost głośności w fonach potrzebny do podwojenia subiektywnego odczucia głośności nie jest stały, lecz zmienia się z poziomem głośności. Należy więc przejść ze skali fonowej na skalę sonową [KulaOl].
Zarówno oryginalny sygnał mowy, jak i jego przetransmitowany odpowiednik są osobno przetwarzane w identyczny sposób, prowadząc do uzyskania tzw. widm barkowych - odpowiednio sygnału oryginalnego i przetransmitowanego. Miarą jakości jest wówczas odpowiednio zdefiniowana odległość między tymi widmami zwana wskaźnikiem PSQM. Wartość PSQM można prze-transformować na wartość MOS, która odpowiada subiektywnej ocenie, przy czym zależność mię-
15