1. Podstawy maskowania. 2. Maskowanie jednoczesne i temporalne.
Jeżeli w widmie występują amplitudy o bardzo różnych poziomach, to występuje zjawisko maskowania. Oznacza to, że silny sygnał powoduje lokalne podniesienie progu słyszalności. Zmienia się dolna charakterystyka progu słyszalności. Ton wyższy maskuje ton niższy. Próg maskowania względem tonu to amplituda większego tonu jeszcze niesłyszalnego. Jest to maskowanie w dziedzinie częstotliwości. W dziedzinie czasu jest to maskowanie jednoczesne (występuje ton niższy i wyższy). Ton wyższy maskuje ton niższy, który jest przed nim, bądź po nim. Maskowanie przed sygnałem jest takie że mózg nie wyłapuje tonu niższego po którym następuje ton wyższy. Maskowanie wstępne 50-200ms (maskowanie przed sygnałem) maskowanie może trwać znacznie dłużej. Maskowaniu łatwiej ulegają sygnały o częstotliwościach większych od częstotliwości sygnału maskującego niż o częstotliwościach mniejszych od niego. Podział pasma (0-24kHz) na podpasma dla których wydzielono krzywe maskowania. Naturalny sygnał audio jest superpozycją spektrum maskujący. Jest to wypadkowy próg maskowania. Wszystkie składowe poniżej progu maskowania eliminujemy.
3. System kompresji metodą filtrów podpasmowych.
Bank N filtrów przez niego przechodzi cyfrowy sygnał wejściowy. Za standard przyjmuje się próbkowanie i kwantyzację 48kHz i 16bitów. W wyniku uzyskujemy N-sygnałów wyjściowych w N-pasmach (najczęściej 32 pasma 750Hz) Każdy sygnał wyjściowy jest próbkowany w stosunku n:2. W wyniku tego wszystkie sygnały stają się sygnałami o częstotliwościach niskich. Sygnały poddaje się nadpróbkowywaniu a potem podaje się na filtry syntezy. W MPEG1 można zakodować jeden kanał stereo lub dwa kanały niezależne. Stosowane częstotliwości próbkowania: 48,44,1,32kHz. Pasmo 0-24kHz dzielone na 32 podpasma o szerokości 750Hz. System kompresji audio w MPEG1. Strumień 16-bit ramek audio dzielimy na 32 próbki. Dla każdej ramki tworzone są bloki podpasmowe. Każdy blok jest najpierw skalowany jego elementy leżą w zakresie od -1 do 2, kwantowany, kodowany. Podział bitów dla n-tego bloku (n=1do 32) dokonuje się na podstawie stosunku sygnału do maski za pomocą algorytmu filtru psychoakustycznego, który może być zmieniany i ma na celu optymalizowanie procesu kompresji.
5.Wyznaczanie stosunku sygnału do maski - model psychoakustyczny z wykorzystaniem FFT.
1. Obliczenie FFT dla całej ramki. Dla MPEG1 stosowana jest trasformata 1024 punktowa. Połówka DFFT dzielona jest na 32 bloki. Odpowiadają one blokom próbek.
2. Wykorzystanie poziomu dźwięku Sn dla n-tego bloku jako maksimum mocy składowych DFT oraz kwadratu współczynnika skalowania. Dla każdego bloku z tablicy empirycznej odczytuje się całkowity próg maskowania.
3) Zlokalizowanie w widmie DFT składowych tonowych (w przybliżeniu sinusoidalnych) i nietonowych (mają widmo zbliżone do szumowego)
Rozróżnianie jest dokonywane poprzez porównanie poziomów w lokalnych pasmach i na tej podstawie przyjmuje się różne progi poniżej których składowe mogą być pomijane, usunięte.- Jeżeli dana składowa leży poniżej absolutnego progu to jest usuwana. Jeżeli dwie składowe tonowe znajdują się w odległości mniejszej niż na określony dystans to odrzuca się składową o niższym poziomie. - Wyznaczamy maskę tonową dla składowych tonowych i maskę dla sygnałów nietonowych obliczamy moc każdej składowej z tablic empirycznych dla każdej składowej odczytujemy wartość maskującą inną dla składowych tonowych i nietonowych. Obliczamy wypadkowy próg maskowania który jest sumą masek masek absolutnie tonowej i nietonowej. - wyznaczamy minimalną maskę wypadkową dla n-tego bloku. - w wyniku zastosowania całej procedury obliczamy stosunek sygnału do maski jako różnicę (w dB) poziomu ciśnienia dźwięku Sn i min maski wypadkowej Mn dla danego bloku SMn=Sn-Mn. -Koder na podstawie wartości Mn wyznacza liczbę poziomów kwantyzacji (procedura jest zwana procedurą alokacji bitów) i kwantyzacja jest równomierna symetryczna względem 0.
Wyznaczanie stosunku sygnału do poziomu maskowania. SMR(Signal to Mask Ratio) SMRsb(n)=Lsb(n)-LTmin(n) [dB] Stosunek sygnału do maski określa zakres który musi być przekazany. Zmiany modelu psychoakustycznego dotyczą zawsze strony nadawczej.
7. Współczynniki skali. Dynamiczny przydział bitów.
Współczynnik skali. 12 próbek grupowane jest w blok. Operujemy na blokach przy wprowadzaniu masek. Czas trwania blok 8ms. Dla każdego bloku obliczany jest współczynnik skali określający maksymalny poziom sygnału w danym podpaśmie. Współczynniki skali kodowane są za pomocą słów 6 bitowych. Mamy 64 wartości z krokiem 2 dB. W ramce DAB przesyłane są 3 bloki. Nie zawsze występuje konieczność przesyłania trzech współczynników skali bo prawdopodobieństwo zmiany jest mniejsze niż 10% (można znów zaoszczędzić na przepływności). Jeżeli różnice występują rzadko wystarczy przesłać 1 lub 2 współczynniki skali SCF i dodatkowo SCFSI. W zależności od różnic dscf1 i dscf2 wyróżnia się rodzaj informacji. Kodowany za pomocą dwóch bitów.
Dynamiczny przydział bitów. Należy zakodować informację PCM tylko próbki, które przekraczają poziom maskowania. Można dopuścić poziom szumu kwantowania, każdy który jest niższy od poziomu progu maskowania. Kodujemy sygnały z mniejszą dokładnością (mniejsza liczba bitów na próbkę). Niezbędna liczba bitów na próbkę przesyłana dla poszczególnych podpas nosi nazwę dynamiczny przydział bitów. Poziom musi być obniżony o aqi w stosunkudo sygnału aqi to stosunek sygnału do szumu kwantowania.
8. Kwantowanie i kodowanie próbek.
Kwantowanie i kodowanie próbki powyżej progu maskowania 12 próbek w bloku 8ms dokonujemy normalizacji określanej przez współczynnik skali. Znormalizowaną wartość próbki otrzymamy poprzez podzielenie przez współczynnik skali. Następnie liczymy sumę składającą się z iloczynów AX+B wybieramy N znaczących bitów i odwracamy bit najbardziej znaczący MSb. A, B, n określane w tabeli. Odwrócenie wartości Msb ma na celu wniknięcie słów z samych jedynek bo takie słowo to słowo synchronizujące to słowo synchronizujące ramkę. Odwrócenie wartości Msb ma na celi wniknięcie słów z samych jedynek bo takie słowo to słowo synchronizujące ramkę. Trzy kolejne próbki określane są mianem ziarna kwantowania. Kod cykliczny CRC. Do ramek dodawane są słowa dodatkowe. Po sformatowaniu ramki następuje dodanie ASCAD.
Formatowanie ramki. Dodatkowe informacje dołączone do ramki: -kodowania protekcyjnego, -informacji o rodzaju programu, -informacja o klasie programu, -informacja o klasie transmisji.
9. Zabezpieczenie transmisji przed błędami.
Stosujemy kodowanie protekcyjne. W ramce przesyłane są bity różnego rodzaju. Wrażliwość sygnału (w tabeli). Zabezpiecza się wszystkie bity w przedziale. Stosuje się klasy dokładności (5-najgorsza, 0-niewrażliwość) Zastosowany kod to kod cykliczny CRC.
10. Struktura ramki.
- ASSD (opcjonalnie), -nagłówki DAB-u, - słowo kodu CRC (dotyczące nagłówka i przydzielenia bitów), -współczynniki skali, -próbki poszczególnych podpasm, -informacja 1)X-PAD (informacja rozszerzona o dł. zmiennej), 2) Y-PAD (informacja stała o dł. 2bity), -bity rozdzielające (nie niosą informacji), -słowo kodu CTR jest podzielone na części dotyczące poszczególnych podpasm, -występowanie poszczególnych bitów jest związane z kodowaniem MUSICAM 12 bit próbek /8ms jest podzielone na grupy 3-bitowe tzw. ziarno. Odbiór samych współczynników skali (jest ich 64) pozwala na przybliżony kształt widma.
11. Całkowita przepływność sygnału MUSICAM.
Stosujemy 16 bitowe próbkowanie w rzeczywistości jest ono wykorzystywane prawie nigdy. Wypadkowa liczba bitów kwantowania wynosi 112 kbit/s. Całkowita przepływność MUSICAM 128kbit/s dla kanału monofonicznego. Pasmo akustyczne dzieli się na trzy części. Pilna przepływność uzyskana w MUSICAM zostaje określona na 128kb/s w przypadku stereo 2*128kb/s. Przepływność jest raczej stała. Różnicę między przepływnością sygnału wykorzystujemy do dynamicznego przydziału pasma do przesyłania informacji dodatkowych.