Przetwarzanie dźwięków
Rodzaje plików dźwiękowych.
Odtwarzacze multimedialne
CD Audio
Proszę przynieść 1-2 płyty CD Audio
Model psychoakustyczny
Model psychoakustyczny to
matematyczny model mówiący jakie
informacje o dźwięku są rozpoznawalne
przez ludzkie ucho, jakie natomiast nie są.
Modele psychoakustyczne są podstawą
między innymi kompresji dźwięku,
algorytmów oceny jakości transmisji
mowy, systemów automatycznie
rozpoznających mowę oraz
rozpoznających mówców.
Model psychoakustyczny
Modele psychoakustyczne są szczególną
grupą modeli układu słuchowego. W tej
grupie wytyczne do modelowania pochodzą z
pomiarów psychoakustycznych
(odsłuchowych), w których słuchacze
oceniają wrażenia wywołane różnymi
sygnałami testowymi prezentowanymi w
określonym kontekście (np. czy słyszą ton
sinusoidalny prezentowany na tle szumu).
Model przetwarza sygnał w taki sposób, aby
jego wyjście stanowiło predykcję ocen
subiektywnych słuchaczy.
Instytut Fraunhofera
Organizacja 58 niemieckich
instytutów naukowych. W jednym z
nich (Fraunhofer IIS) pracował
między innymi Karlheinz
Brandenburg. Wraz ze
współpracownikami stworzył on
algorytm MP3
ASF
Format ASF (ang. Advanced Streaming
Format) będący odpowiedzią firmy Microsoft
na sukcesy RealNetworks umożliwia
przesyłanie sygnału wideo, dźwięku i
sekwencji statycznych obrazów
skojarzonych z dźwiękiem (ang. illustrated
audio).
Kompresja dźwięku daje rezultaty zbliżone
do MP3, ustępuje mu jednak pod względem
jakości.
Podzbiorem ASF jest format WMA (ang.
Windows Media Audio) ograniczony do
przekazu samego dźwięku
AAC
Kreowany na następcę MP3 otwarty format. Stworzony i
rozwijany przez Instytut Fraunhofera we współpracy z
takimi firmami, jak AT&T, Dolby i Sony. Wydajny i
funkcjonalny. Bardzo dobrze brzmiący – przy kompresji
1:16 oferuje jakość płyty CD.
Spełnia wymagania zdefiniowane przez Zrzeszenie
Nadawców Radiowych dla studyjnej jakości dźwięku już
przy 64 kb/s na kanał.
Nie wymaga silnych mocy obliczeniowych. Taki
staruszek jak Pentium III 600 MHz potrzebuje do
kodowania czasu 11-krotnie dłuższego niż oryginał.
Obsługuje szeroki zakres częstotliwości próbkowania:
od 8 do 96 kHz. Uproszczoną wersją AAC (ang.
Advanced Audio Coding) jest format Liquid Audio.
AC-3
Format wprowadzony przez firmę Dolby do
kodowania cyfrowego dźwięku dookólnego w
strumieniu od 32 do 640 kb/s. Oprócz
szerokopasmowego dźwięku AC-3 (ang. Audio
Code number 3) przenosi także informację o jego
wymiarze akustycznym i o różnicach głośności
między kanałami. Ten rodzaj kompresji, dawniej
związany z domeną kina domowego, dziś coraz
częściej jest określany nazwą zarezerwowaną
wcześniej dla dźwięku kinowego – Digital Dolby
(DD).
Jest też obowiązującym standardem dźwięku w
HDTV i DVD. Coraz częściej też kodowanie AC-3
jest wykorzystywane w transmisjach satelitarnych.
MP3
MP3 (ang. MPEG-1/2 Audio Layer-3) to
popularny format stratnej kompresji
dźwięku używający modelu
psychoakustycznego. Format został
stworzony we Instytut Fraunhofera.
Przy tworzeniu jego pierwszej
implementacji wykorzystywany był m.in.
utwór Suzanne Vegi Tom's Diner w celu
dostosowania kompresji do brzmienia
ludzkiego głosu.
MP3 – tryby kompresji
Dla dźwięku stereofonicznego format MP3
posiada trzy tryby kompresji:
dual channel – w którym dźwięk jest
zapisywany jako dwa odrębne kanały
monofoniczne.
stereo (stereo mode 0) – w którym
każda ramka zapisywana jest algorytmem
left/right stereo.
joint stereo (stereo mode 1) – w
którym dla każdej ramki wybierany jest
najlepszy dla niej algorytm zapisu dźwięku
stereo.
MP3 - algorytmy kodowania
ramki
left/right stereo (simple stereo, independent channel) –
w którym dźwięk w kanałach prawym i lewym jest kodowany
niezależnie, może jednak zmieniać się liczba bitów
przeznaczonych na każdy z kanałów. Efektywny dla ramek, w
których oba kanały różnią się w dużym stopniu.
middle/side stereo – w którym sygnał stereo kodowany jest
w postaci pary wartości oznaczających sumę (L+R) oraz
różnicę (L-R) kanałów. Efektywny dla ramek, w których oba
kanały przyjmują podobne wartości.
intensity stereo – w którym sygnał stereo dla niektórych
(głównie wysokich) częstotliwości kodowany jest jako
monofoniczna wartość uzupełniona o wektor określający
kierunek, z którego dochodzi dźwięk. W praktyce stosowany
tylko przy niskiej przepływności (poniżej 80 kbps). Niektóre
enkodery (np. LAME) w ogóle nie stosują tego algorytmu.
MP3 - Kodowanie percepcyjne w
szczegółach
MP3 jest formatem wykorzystującym kompresję stratną,
czyli taką, która powoduje trwałe zagubienie części
informacji. Nie zawsze jednak musi to być zauważalne.
Nasze uszy, jak wykazały dokładne badania, też
oszukują, choć nie ma to większego wpływu na
odbierane wrażenia.
Jeśli pojawi się bardzo głośny, niski dźwięk (np.
uderzenie stopy zestawu perkusyjnego) "ogłuszona"
błona bębenkowa przez kilka milisekund będzie
ignorować wszystkie inne dźwięki, zanim "nie przyjdzie
do siebie". Ich usunięcie z sygnału dźwiękowego nie
zmieni zatem odczucia słuchowego, zmniejszy
natomiast rozmiar pliku. Podobny efekt da obcięcie
częstotliwości powyżej 15 kHz, których większość ludzi i
tak nie słyszy (poza tym komputerowe głośniki przy
ograniczonym paśmie przenoszenia miałyby kłopot z ich
odtworzeniem).
MP3 - Kodowanie percepcyjne w
szczegółach
Głośne dźwięki potrafią "przesłonić" cichsze. Jeśli
zajrzeć głębiej w strukturę dźwięku, okaże się, że
z dwóch blisko siebie leżących składowych
głośniejsza będzie maskować cichszą, która przy
odpowiednio dużej różnicy amplitud w ogóle
przestanie być słyszalna
Maskowanie przybiera na sile i staje się jeszcze
bardziej złożone przy np. wielu grających
równocześnie instrumentach, gdy występuje
wzajemne oddziaływanie wielu grup tonów
harmonicznych i nieharmonicznych.
MP3 - Kodowanie percepcyjne w
szczegółach
•
Dokładne poznanie tych mechanizmów
pozwala usunąć z pliku dźwiękowego
składniki i tak niedostrzegane przez ucho
w naturalnych warunkach. W rezultacie
rozmiar pliku może się "skurczyć" do 20%
początkowej wartości, nadal zachowując
jakość zbliżoną do oryginału. Nawet
ograniczenie jego wielkości do 5% ciągle
daje zadowalające efekty.
MP3 – CBR
Stała przepływność - cecha
(zwykle skompresowanego)
strumienia danych multimedialnych
(np. dźwięku, wideo) polegająca na
zapisie określonego czasu nagrania
zawsze przy pomocy tej samej
liczby bitów, niezależnie od stopnia
skomplikowania zapisywanych
danych.
MP3 - VBR
Zmienna przepustowość w odniesieniu
do kodeków, zmienna przepustowość
oznacza zróżnicowanie ilości danych
wyjściowych przypadających na
poszczególne segmenty czasowe w
zależności od złożoności danych
wejściowych w tych segmentach.
Celem tej metody kompresji danych jest
utrzymanie stałej jakości sygnału
wyjściowego, nie zaś stałej ilości danych
przypadających na daną jednostkę czasu.
MP3 - VBR
Zmienny bitrate oznacza, że ilość danych
użytych do zapisania poszczególnych
fragmentów pliku będzie różna - na
przykład w zależności od tego, czy
zapisywany jest pojedynczy głos, czy też
koncert.
Kodeki takie jak Vorbis i prawie wszystkie
kodeki video stosują technikę zmiennej
przepustowości. Pliki MP3 mogą być
kompresowane z użyciem techniki
zarówno stałej, jak i zmiennej
przepustowości.
MPEG i warstwa
Format MP3 jest określany jako MPEG
Layer III albo MPEG-1 L3. Skąd się to
bierze?
Otóż kompresja dźwięku (podobnie
zresztą, jak kompresja obrazu) jest
określona pewnymi normami
wprowadzonymi przez Grupę Ekspertów
Filmowych (ang. Moving Pictures Experts
Group) i obejmuje m.in.:
MPEG i warstwa
Warstwa (ang. layer) określa poziom zaawansowania
technik używanych do kompresowania dźwięku.
Im wyższy jej numer, tym bardziej skomplikowane
algorytmy przetwarzania i tym lepsza jakość przy tej
samej objętości pliku.
Warstwa druga (ang. Layer II) stosuje od 2 to 4 razy
bardziej złożony schemat kodowania w porównaniu z
warstwą pierwszą (ang. Layer I). Określa standard
MiniDisc.
Warstwa trzecia (ang. Layer III) wykorzystuje
dodatkowo wyrafinowane mechanizmy kodowania
percepcyjnego opartego na efekcie maskowania,
umożliwiając transmisję wysokiej jakości dźwięków w
paśmie ISDN.
MPEG i warstwa
MPEG-1 Audio (ISO/IEC 11172-3) –
kodowanie dźwięków jednokanałowych
(mono) i dwukanałowych (stereo) o
częstotliwości próbkowania 32 kHz, 44,1
kHz, 48 kHz i prędkościach bitowych:
Layer I – od 32 do 448 kb/s
Layer II – od 32 do 384 kb/s
Layer III – od 32 do 320 kb/s
MPEG i warstwa
MPEG-2 Audio – rozszerzenie zakresu
MPEG-1 na niższe częstotliwości: 16 kHz,
22,05 kHz i 24 kHz dla prędkości
bitowych:
Layer I – od 32 do 256 kb/s
Layer II i Layer III – od 8 do 160 kb/s
wraz z dodaniem możliwości kodowania
dźwięku wielokanałowego 5.1 przy
prędkości bitowej 1 Mbit/s.
MPEG i warstwa
MPEG-2 AAC (ISO/IEC 13818-7) –
kodowanie z bardzo wysoką jakością
od jednego do 48 kanałów
dźwiękowych w szerokim zakresie
częstotliwości próbkujących (od 8 do
96 kHz) przy różnych prędkościach
bitowych (od 8 kb/s dla
monofonicznych sygnałów mowy do
160 kb/s na każdy kanał)
MPEG i warstwa
MPEG-4 Audio– kodowanie
naturalnych i tworzenie
syntetycznych obiektów
dźwiękowych w bardzo szerokim
zakresie prędkości bitowych.
OGG
Format, z którym producenci sprzętu i
oprogramowania wiążą duże nadzieje.
Nieobwarowany, jak MP3, licznymi patentami. Kod
źródłowy jawny, udostępniony w Internecie
(www.vorbis.com). Coraz więcej odtwarzaczy
multimedialnych jest "uzbrojonych" w dekoder
Vorbis. Koder akceptuje pliki w różnej
rozdzielczości bitowej i zakresie częstotliwości
próbkujących od 8 do 192 kHz. Dźwięk może być
kodowany dla różnych przepustowości łącza i
maksymalnie 255 kanałów!
Format Vorbis obsługuje także etykiety (ang. tags)
zawierające informacje o wykonawcy i albumie.
WMA
WMA (ang. Windows Media Audio) -
format kompresji dźwięku stworzony
przez Microsoft Corporation.
W zamierzeniach producenta ma
konkurować z formatem MP3.
WMA
Powodem stworzenia WMA mogły być konflikty
patentowe z Fraunhofer Institute - twórcą formatu
MP3, dotyczące dołączania kodeka MP3 do
systemu Windows. Według Microsoftu WMA
zapewnia jakość dźwięku znacznie lepszą niż MP3,
a początkowo firma z Redmond twierdziła nawet,
że WMA dorównuje jakości płyty CD przy bitrate
równym 64 kb/s.
Niezależne testy odsłuchowe pokazały, że choć
WMA przy bitrate 96 kb/s i niższym brzmi nieco
lepiej niż MP3, to jednak przy wysokim bitrate
oferuje zauważalnie gorszą jakość dźwięku. Kodek
w żadnym wypadku nie dorównuje jakości płyty
CD przy 64 kb/s.
WAV
Jest najczęściej stosowanym
formatem na platformie PC.
Zazwyczaj odnosi się do czystych
danych, chociaż może również
oznaczać sygnał skompresowany.
Dźwięk może być jednokanałowy-
mono lub dwukanałowy-stereo
MIDI
MIDI skrót od Musical Instrument Digital
Interface jest systemem (interfejs, software i
zestaw komend) służącym do przekazywania
informacji pomiędzy elektronicznymi
instrumentami muzycznymi.
Wraz z rozwojem komputerów osobistych i
technologii multimedialnych standard MIDI został
zaadaptowany do komunikacji między
komputerem a kartą dźwiękową. Pozwoliło to
komponować muzykę oraz odtwarzać ją
korzystając wyłącznie z komputera (przy użyciu
odpowiedniego oprogramowania).
QuickTime
Pomimo długiej obecności na rynku
QuickTime nie zdobył większej
popularności. Z tego względu w Internecie
bardzo ciężko znaleźć takie pliki. Wynika to
zapewne z faktu, iż system ten nie oferuje
możliwości ripowania płyt CDAudio, co
utrudnia tworzenie plików dźwiękowych.
W takiej sytuacji warto jedynie wspomnieć,
że do kompresji dźwięku użyto kodera
QDesign, który charakteryzuje się bardzo
dobrym współczynnikiem kompresji.
Kompresja
http://mp3.wp.pl/p/test/wyniki/
http://media-convert.com/convert/
Przetwarzanie dźwięków
Odtwarzacze multimedialne
Najpopularniejsze odtwarzacze
multimedialne
Winamp – www.winamp.com
Microsoft Windows Media Player – www.microsoft.com
RealPlayer - www.realnetworks.com
QuickTime Player - http://www.apple.com/quicktime
Źródła
http://pl.wikipedia.org
www.chip.pl