STRONA TYTUŁOWA PRACY KONTROLNEJ
Centrum Nauki i Biznesu „Żak”
Imię i nazwisko
Mateusz Babicz |
Data wpływu ………………………………….. |
Kierunek
Informatyka |
|
Semestr / Grupa
3 |
|
Przedmiot/ Temat pracy Multimedia i grafika komputerowa |
|
Nauczyciel Krzysztof Dominko |
|
Ocena z pracy |
|
Podpis nauczyciela |
Dźwięk cyfrowy i analogowy oraz jego właściwości
Dźwięk w kategoriach fizycznych to zaburzenie falowe ośrodka sprężystego
(takiego jak powietrze, woda czy metal), wywołujące wrażenie słuchowe. W kategoriach psychofizjologicznych - to właśnie owo wrażenie słuchowe, będące reakcją na fale akustyczne.
Innymi słowy dźwięk to rozprzestrzeniające się poprzez kolejne, "łańcuchowe" zagęszczenia
i rozrzedzenia cząsteczek cykliczne zmiany ciśnienia, na które reaguje zmysł słuchu.
Prędkość propagacji dźwięku zależy od właściwości fizycznych środowiska, głównie jego gęstości i sprężystości. Dla powietrza przy normalnym ciśnieniu atmosferycznym i temperaturze 18°C wynosi ok. 340 m/s. Rośnie wraz ze wzrostem temperatury i ciśnienia. W cieczach i ciałach stałych jest zwykle dużo większa; dla wody wynosi 1500 m/s, drewna - 4000 m/s, żelaza - 5000 m/s. Znacznie maleje w materiałach tłumiących, jak korek - 50 m/s, guma - 70 m/s. W próżni spada do zera
(brak ośrodka sprężystego uniemożliwia rozchodzenie się drgań akustycznych).
Dźwięk, jak każde zjawisko falowe, trafiając na przeszkodę, ulega odbiciu (echo, pogłos), pochłanianiu, rozpraszaniu, załamaniu (zmiana kierunku propagacji), ugięciu (omijanie przeszkody), interferencji (wzajemne nakładanie się fal) itp. Są to cechy szczególnie istotne dla akustyki pomieszczeń.
Złożona natura dźwięku (zjawisko fizyczne i postrzeganie zmysłowe) sprawia, że opisuje się go w dwóch płaszczyznach:
obiektywnej (cechy fali akustycznej).
Subiektywnej (słuchowej).
Cechy fizyczne mają swoje odpowiedniki w grupie cech psychofizjologicznych. Można więc określić dźwięk za pomocą następujących par parametrów:
częstotliwość - wysokość
natężenie - głośność
widmo - barwa
Częstotliwość drgań - Ruch falowy dźwięku najprościej jest zilustrować wykresem sinusoidy. Zaburzenie sprężystości środowiska powoduje naprzemienne zagęszczanie i rozrzedzanie jego cząsteczek (zmiany ciśnienia) w określonym rytmie. Liczba tych powtórzeń w jednostce czasu
to częstotliwość. Jednostką częstotliwości jest herc Hz - jeden cykl na sekundę.
Okres, czas potrzebny na wykonanie pełnego cyklu, jest mierzony w sekundach. Częstotliwość jest odwrotnością okresu. Im wyższa, tym krótszy okres drgań. Częstotliwość ściśle wiąże się z subiektywnym wrażeniem wysokości dźwięku. Zakres częstotliwości rozróżnianych przez zdrowego człowieka mieści się w przedziale 16 Hz-20 kHz. Dźwięki poniżej tej granicy są zwane infradźwiękami, powyżej - ultra- lub hiperdźwiękami (ponad 100 MHz). Niesłyszalne - odczuwane dotykiem jako wstrząsy i drżenia - przy dłuższym oddziaływaniu mogą niekorzystnie wpływać
na zdrowie.
Inna właściwość - długość fali dźwiękowej - silnie związana z częstotliwością i określająca drogę, jaką fala akustyczna pokonuje w ciągu jednego cyklu, również przekłada się na subiektywne wrażenie : większa długość - to niższy dźwięk, mniejsza długość - wyższy. Przy prędkości dźwięku 340 m/s (powietrze) długości fal wyznaczających granice słyszenia wynoszą odpowiednio:
21,25 m dla częstotliwości 16 Hz, 1,7 cm dla częstotliwości 20 kHz.
W rzeczywistości trudno znaleźć dźwięki mające obraz sinusoidy. Ale nawet te najbardziej złożone, jeśli tylko wykazują cechy powtarzalności (drgania okresowe), można przedstawić jako sumę fal sinusoidalnych o określonej częstotliwości i amplitudzie. Zasada ta, odkryta przez francuskiego matematyka J. B. Fouriera (1768-1830), stanowi podstawę analizy widmowej dźwięku.
Cechą subiektywną pozwalającą rozróżniać dźwięki o różnej częstotliwości jest ich wysokość. Drgania z przedziału 16-300 Hz określa się jako niskie. Dźwięki wysokie mieszczą się w paśmie 3000 Hz-20 kHz. Ucho ludzkie najczulej reaguje na dźwięki średnie (300-3000 Hz). Wrażenie wysokości zależy w pewnym stopniu od głośności. Zależność ta zmienia się w funkcji częstotliwości. Tony (drgania sinusoidalne) do 1000 Hz obniżają swą wysokość ze wzrostem głośności, przy czym
im niższy dźwięk, tym większa różnica wysokości. Powyżej 4000 Hz jest odwrotnie. Większa głośność powoduje wzrost wysokości tonu. W przypadku naturalnych dźwięków złożonych, będących sumą wielu drgań sinusoidalnych o różnej częstotliwości i amplitudzie, zależności te nie są aż tak wyraźne. Zdolność rozpoznawania dźwięku jest też zależna od jego czasu trwania. Dźwięki zbyt krótkie są określane jako impulsy lub trzaski, choć i w tym przypadku jedne brzmią niżej, drugie - wyżej. Minimalny czas trwania impulsu dźwiękowego, pozwalający na zdefiniowanie jego wysokości, zależy od częstotliwości. Przy 50 Hz wynosi 60 ms (trzy pełne okresy), przy 1000 Hz - już tylko 10 ms (za to aż dziewięć cykli). Również od częstotliwości jest uzależniona zdolność rozpoznawania zmian w wysokości dźwięku. Zdecydowanie łatwiej je zauważyć w obrębie tonów wysokich. Umiejętność rozróżniania wysokości jest w dużym stopniu cechą wrodzoną. Można ją jednak znacznie rozwinąć dzięki ćwiczeniom. Ludzie posiadający tzw. słuch absolutny potrafią określić bezwzględną wysokość dźwięku.
Fale akustyczne przenoszą często wielką energię. Silny dźwięk wprawia w drżenie szyby,
w górach niejednokrotnie staje się źródłem potężnych lawin. Szczególnie groźne są infradźwięki powstające w czasie trzęsień Ziemi - trudne do wytłumienia i rozchodzące się na setki kilometrów. Energia dźwięku rozprzestrzenia się wraz z "czołem" fali akustycznej, powodując chwilowe wzrosty
i spadki ciśnienia atmosferycznego (zagęszczenia i rozrzedzenia sprężystego środowiska).
Częściej stosowaną wielkością jest natężenie dźwięku, ściśle związane z ciśnieniem akustycznym i określające energię "czoła" fali, przepływającą w konkretnym czasie przez określoną powierzchnię. Natężenie maleje wraz z kwadratem odległości od źródła dźwięku. Ogromna rozpiętość wartości natężenia, na które reaguje człowiek (10-12 - 10 W/m2),sprawia, że wygodniej wyrażać je
w jednostkach względnych, to jest w porównaniu z określoną wielkością przyjętą za punkt odniesienia. Bel B lub jednostka dziesięciokrotnie mniejsza - decybel dB służą do wyrażania stosunku n dwóch wartości natężenia J i J0 w skali logarytmicznej.
n = 10 log J/J0 dB
Taka forma prezentacji natężenia dźwięku (mówimy wówczas o poziomie natężenia)
jest bliższa fizjologii ucha, w którym wrażenie słuchowe jest proporcjonalne do logarytmu wywołującej go podniety (stosunek faktycznego natężenia dźwięku J do natężenia odniesienia
J0 - J/ J0). Natężeniem odniesienia J0 przyjęto określać najmniejszą wartość, przy której człowiek zaczyna słyszeć ton o częstotliwości 1000 Hz. Jest to tak zwany próg słyszenia, odpowiadający wartości 10-12 W/m2 (0 dB). Poziom natężenia 10 dB oznacza dźwięk dziesięciokrotnie głośniejszy, różnica 30 dB - dźwięk silniejszy tysiąckrotnie itd. Ujemne wartości decybeli wskazują na dźwięki cichsze określoną liczbę razy. Poziom natężenia ok. 130 dB to granica bólu.
Głośność to subiektywne odczucie natężenia dźwięku. Zależy zarówno od natężenia,
jak i częstotliwości. Im większe natężenie, tym większa głośność. Ale przy stałym natężeniu dźwięki niskie i wysokie wydają się cichsze niż dźwięki o średniej częstotliwości (2 - 4 kHz).
Ma to bezpośredni związek z czułością ucha, które w tym zakresie wykazuje największą wrażliwość. Zależność między wysokością dźwięku a jego natężeniem dającym w całym paśmie wrażenie jednakowej głośności przedstawiają tzw. krzywe izofoniczne - warstwice jednakowej głośności.
Dolną granicę słyszalności tworzy linia łącząca dla różnych częstotliwości punkty natężenia,
przy których dźwięk zaczyna być słyszany. Górną - linia przedstawiająca natężenia, przy których odczucie słuchowe przechodzi w ból. Jednostką głośności jest fon, którego skala pokrywa się
z poziomami natężenia dla częstotliwości 1000 Hz. Dość łatwo zauważyć, że przy wysokich poziomach, rzędu 90-100 fonów, wrażenie głośności w całym paśmie bardziej się wyrównuje.
To usprawiedliwiałoby bardzo głośne słuchanie muzyki. Nie wolno jednak zapomnieć o uszach
i o tym, że nadmierna głośność prowadzi do upośledzenia słuchu.
Lepiej więc włączyć w aparaturze filtr konturowy podbijający kraje pasma i wyrównujący głośność wszystkich częstotliwości przy cichszych poziomach odsłuchu. Dobrze też zadbać
o wyeliminowanie wszelkich hałasów przeszkadzających w odbiorze muzyki. Wrażenie głośności dźwięku zależy bowiem nie tylko od jego intensywności i wysokości, lecz także od obecności innych towarzyszących mu dźwięków. Dźwięki maskują się wzajemnie, „przesłaniają”. Właśnie to zjawisko zostało wykorzystane w kompresji MP3.
Widmo dźwięku - każdy, dowolnie złożony, okresowy przebieg akustyczny
(np. dźwięk muzyczny) dzięki analizie Fouriera można przedstawić jako pewną kombinację tonów sinusoidalnych o różnej częstotliwości i amplitudzie. Najniższa częstotliwość tak złożonej fali jest nazywana częstotliwością podstawową i ona właśnie określa wysokość dźwięku. Wyższe składowe - przytony - decydują o jego unikatowym brzmieniu, pozwalającym rozróżnić dźwięki tej samej wysokości grane np. na różnych instrumentach. Jeśli częstotliwości przytonów są krotnościami częstotliwości podstawowej, to nazywamy je harmonicznymi lub alikwotami, a powstałe w ten sposób dźwięki - wielotonami harmonicznymi (większość instrumentów muzycznych wydaje dźwięki o takiej właśnie strukturze). Drgania będące sumą tonów nieuporządkowanych tworzą wielotony nieharmoniczne. Jedne i drugie można zilustrować w postaci prążków na osi częstotliwości tak,
by każdej częstotliwości współtworzącej dźwięk odpowiadał jeden prążek o wysokości reprezentującej jej amplitudę. Otrzymany w taki sposób obraz, przedstawiający częstotliwości składowe i ich amplitudy, tworzy widmo dźwięku.
Barwa dźwięku - odmienna liczba, wysokość i względne natężenie przytonów w stosunku
do tej samej częstotliwości podstawowej (jednakowa wysokość dźwięku) pozwalają uszom rozróżnić fortepian od skrzypiec, gitarę od fletu, wibrafon od marimby. Każdy z tych instrumentów brzmi inną barwą.
Proces identyfikowania barwy wiąże się z pojęciem transjentów, tj. przejściowych stanów poprzedzających lub kończących dźwięk, kiedy to każda ze składowych - zanim osiągnie w miarę stały poziom - narasta z różną intensywnością. Na przykład w dźwięku skrzypiec pierwsze dwa przytony nabrzmiewają wolniej niż alikwoty wyższe. W dźwięku trąbki jest odwrotnie. Co ciekawe - długo brzmiące, jednakowe pod względem wysokości i niezmienne w głośności dźwięki różnych instrumentów, pozbawione owych stanów nieustalonych, tracą swój unikatowy charakter. Spreparowane w ten sposób dźwięki zaczynają być oceniane błędnie. Flet jest mylony z waltornią, wiolonczela z fagotem, kornet ze skrzypcami. Jak więc widać, wierne odtworzenie stanów nieustalonych (transjentów) w decydujący sposób wpływa na jakość reprodukowanego dźwięku. Najpoważniejszą dla nich przeszkodę stanowią: mechaniczna (mikrofon, głośnik) i elektryczna (pojemność i indukcyjność układów elektronicznych) "bezwładność" aparatury audio,
nie dość szybkiej, by w niezniekształconej postaci stany te przenieść.
Barwa dźwięku zależy też w pewnym stopniu od głośności. Nie powinno to dziwić.
Wszak szerokość pasma częstotliwości, na które reaguje zmysł słuchu, ściśle wiąże się z natężeniem dźwięku. Im cichsze dźwięki, tym węższy zakres słyszenia, tym uboższe, bardziej "okrojone" widmo, a więc i inne odczucie barwy.
Zniekształcenie jest każdym odstępstwem dźwięku od jego oryginalnego brzmienia. Urządzenia elektroniczne, ale również ucho, mogą zmienić dźwięk, pozbawiając go niektórych elementów lub wzbogacając o nowe, wcześniej w nim nieobecne. Z tego względu zniekształcenia
te można podzielić na:
linearne (liniowe), ograniczające pasmo lub powodujące podbicie albo osłabienie pewnych zakresów częstotliwości składowych;
nielinearne (nieliniowe), dodające nowe przytony, których rezultatem może być charakterystyczne "chrypienie" dźwięku;
fazowe, powodowane różnicami czasowymi w przenoszeniu różnych częstotliwości
i zmieniające wrażenie naturalności;
zniekształcenia dynamiki, zmniejszające różnicę między najgłośniejszymi a najcichszymi dźwiękami.
Dźwięk analogowy a cyfrowy.
Obróbka analogowa pozwala na obróbkę sygnałów w ich podstawowej niezmienionej (naturalnej), ciągłej postaci, czyli w ich naturalnym widmie częstotliwościowym. Ciągła postać oznacza w praktyce, że jeśli zakres zmienności sygnału wynosi od 0 do 1, to jego wartość (amplituda) może w dowolnej chwili przyjąć dowolną wartość z tego przedziału i jest określona w całym okresie trwania sygnału.
Dokładność określenia chwilowej wartości sygnału jest ograniczona w zasadzie jedynie dokładnością stosowanych przyrządów pomiarowych i warunkami pomiaru. Zapis analogowy oznacza, że sygnał jest rejestrowany na nośniku właśnie w naturalnej, ciągłej postaci. Jedyny zabieg, jakiemu sygnał jest poddany, do ewentualnie modulacja, umożliwiająca trwały zapis.
Klasyczny przypadek zapisu w technice analogowej to np.: zapis dźwięku na taśmie magnetofonowej Compact Casette, lub obrazu na taśmie magnetowidu VHS.
Taśma magnetyczna przesuwa się przed głowicą zapisującą. Głowica wytwarza zmienne pole magnetyczne, dokładnie odwzorowujące przebieg zapisywanego sygnału. Dzięki oddziaływaniu pola na taśmę, sygnał analogowy zostaje w niej odwzorowany w postaci tzw. pozostałości magnetycznej, czyli lokalnych zmian namagnesowania nośnika.
Zarejestrowany w ten sposób sygnał ma przebieg dokładnie odzwierciedlający przebieg źródła, jednak jest obciążony poważnymi problemami jakościowymi:
wszelkie szumy, przydźwięki i zakłócenia, jakie powstają w układach elektronicznych toru zapisu oraz w połączeniach kablowych sumują się z sygnałem użytecznym, zniekształcając jego przebieg
i obniżając jakość późniejszego odtwarzania
wraz z kolejnymi cyklami odczytu, wskutek bezpośredniego kontaktu głowicy z nośnikiem, stopniowemu zniszczeniu ulega warstwa ferromagnetyczna przechowująca pozostałość magnetyczną, a tym samym spada wierność nagrania, zanikają jego szczegóły
Technikę analogową można podsumować następująco:
olbrzymią zaletą (niemożliwą do uzyskania w technikach cyfrowych) jest ciągłe odwzorowanie sygnału, przetwarzanie go w naturalnej postaci
zasadniczą wadą jest trudność w eliminacji zakłóceń i szumów, której skutkiem jest słaba dynamika sygnału oraz niska wartość stosunku sygnał/szum.
W technice cyfrowej sygnał przetwarzany jest z postaci naturalnej, ciągłej, do reprezentacji numerycznej, czyli ciągu dyskretnych wartości liczbowych.
Przetwarzanie analogowo-cyfrowe (A/C) składa się z trzech podstawowych procesów:
• Próbkowania
• Kwantyzacji
• Kodowania.
Próbkowanie - polega na określeniu wartości sygnału ciągłego w określonych odstępach czasu. "Chwile próbkowania" są określone przez częstotliwość próbkowania, jeden z podstawowych parametrów przetwarzania A/C. Wskutek tego procesu, zamiast przebiegu ciągłego (analogowego), określonego w całym przedziale czasowym, uzyskujemy zbiór dyskretnych wartości, które można przedstawić jako tzw. przebieg schodkowy, ponieważ w okresach czasu dzielących pobranie kolejnych próbek jego wartość jest stała. Oczywiste jest, że w miarę wzrostu częstotliwości próbkowania, wynikowy przebieg schodkowy coraz wierniej przybliża kształt przebiegu analogowego.
Zgodnie z teorią przetwarzania sygnałów, minimalna częstotliwość próbkowania musi być dwukrotnie wyższa od granicznej częstotliwości przetwarzanego sygnału.
Kwantyzacja - w tym kroku, wartości sygnału uzyskane drogą próbkowania (należące nadal do całego zakresu zmienności sygnału) zostają "zaokrąglane" w taki sposób, by można je było przedstawić przy pomocy skończonej liczby wartości, wynikającej z tzw. rozdzielczości przetwarzania. Mówiąc w dużym uproszczeniu, np.: wartości z przedziału 0-0,1 zostają określone jako 0,1, 0,1 -0,2 jako 0,2 itd.
Na tym etapie powstaje tzw. błąd kwantyzacji, wynikający z tego, że reprezentując ciągły zakres zmienności sygnału przy pomocy kilku wartości dyskretnych, tracimy bezpowrotnie informację o małych zmianach w obrębie przedziałów pomiędzy sąsiednimi wartościami. Błąd ten jest tym większy im mniejsza jest liczba przedziałów kwantyzacji (mniejsza rozdzielczość).
Kodowanie - na tym etapie liczbowe kody dyskretnych wartości, do jakich został sprowadzony sygnał źródłowy, zostają zapisane w postaci liczbowej, czyli w przypadku binarnej techniki cyfrowej, w formie liczb zapisanych w systemie dwójkowym, ciągu zer i jedynek. (Przetwarzanie cyfrowo-analogowe, z którym mamy do czynienia przy odtwarzaniu sygnału, polega, mówiąc w skrócie, na przetworzeniu ciągu liczb na przebieg schodkowy, a następnie na filtracji wygładzającej tak, by przybliżał początkowy sygnał analogowy.)
Uzyskany w ten sposób sygnał cyfrowy jest zapisywany na nośniku. Zamiast sygnału analogowego, urządzenia rejestrują ciąg 0 i 1. Zamiast nieskończonej liczby amplitud sygnału analogowego, uzyskujemy dwie dyskretne wartości.
Dzięki temu, że zapisujemy, a następnie odczytujemy jedynie dwa stany logiczne
(1/0, wysoki/niski, H/L, prawda/fałsz), możliwe jest skuteczne zabezpieczenie się przed wpływem zakłóceń i zniekształceń. Jeśli przyjmiemy, że np.: 0 logiczne zapisujemy jako amplitudę -0,5V,
a 1 jako +0,5V, łatwo możemy sobie wyobrazić, iż szumy i zakłócenia, nawet na poziomie 0,1V (czyli 10%) nie wpłyną na prawidłowość dekodowania tak znacznie odbiegających od siebie poziomów. Podobnie, zużycie lub częściowe rozmagnesowanie taśmy, na której sygnał został zapisany, sprawi,
że zamiast +/-0,5V zostaną odczytane poziomy +/-0,3V, ale nadal prawidłowo będzie zdekodowany ciąg 0 i 1, czyli prawidłowa postać sygnału.
W celu dalszej eliminacji zakłóceń, w zapisie cyfrowym są stosowane przeróżne mechanizmy zabezpieczeń, takie jak suma kontrolna, przeplot, kodowanie blokowe i kanałowe, umożliwiające nawet rekonstrukcję zniekształconych danych.
Zapis cyfrowy wiąże się również z pewnymi problemami:
bardzo ważna jest prawidłowa synchronizacja zapisu, a następnie odtworzenie przebiegu synchronizującego w trakcie odczytu, będące zasadniczym warunkiem prawidłowego przetworzenia C/A
w procesie kwantyzacji tracimy część szczegółów przebiegu sygnału (tzw. błąd kwantyzacji), sygnał analogowy uzyskany następnie w wyniku przetwarzania C/A odbiega więc od pierwotnego sygnału analogowego.
Istnieją sprawdzone metody minimalizacji wymienionych powyżej niekorzystnych efektów przetwarzania sygnałów analogowych do postaci cyfrowej. Aby uzyskać dokładniejsze odwzorowanie cyfrowe sygnału analogowego, można zwiększyć częstotliwość próbkowania - uzyskany w ten sposób przebieg schodkowy będzie bardziej zagęszczony.
Podobnie, aby zmniejszyć błąd kwantyzacji ( "zaokrąglania" wartości poszczególnych schodków), czyli zwiększyć odstęp Sygnał/Szum, można zwiększyć rozdzielczość przetwarzania, czyli liczbę bitów, przy pomocy których kodujemy wartość sygnału. Obydwie metody prowadzą jednak do radykalnego zwiększenia ilości danych powstających w wyniku przetwarzania.
Określenie optymalnych parametrów przetwarzania wymaga dokładnej analizy, stosuje się różne kroki pośrednie, m. in. nadpróbkowanie (oversampling), często połączone ze zmniejszaniem rozdzielczości przetwarzania, decymację, czyli selekcję wybranych próbek sygnału.
Kolejnym zagadnieniem związanym z cyfrowym przetwarzaniem sygnałów analogowych
jest kompresja cyfrowych danych uzyskanych w wyniku przetwarzania. Ogromne ilości danych (rzędu setek GB) można wydajnie, przy zastosowaniu wyszukanych algorytmów, skompresować - tak,
by było możliwe zapisanie materiału cyfrowego na dostępnych nośnikach.
Kompresję można podzielić na dwa rodzaje:
kompresja bezstratna
kompresja stratna
Kompresja bezstratna zachowuje pełną informację o przebiegu sygnału dźwiękowego. Polega ona na sprytnej zmianie sposobu zapisu danych, dzięki czemu zapis jest oszczędniejszy. Możliwość stosowania tego rodzaju kompresji wynika z faktu, że standardowe sposoby zapisu dźwięku (np. pliki wav) są dość „rozrzutne” pod względem wykorzystania pamięci. Np. bez względu na to, czy w danym momencie dźwięk ma dużą amplitudę i skomplikowany przebieg, czy panuje absolutna cisza, dane w formacie stereo zajmują około 170 kB na każdą sekundę. Dlatego zmieniając sposób zapisu da się sporo danych „upakować”.
Zwykle kompresja bezstratna pozwala przeciętnie w np. w jednym bajcie danych skompresowanych zapisać więcej niż 1 bajt danych wyjściowych.
Możliwe do zastosowanie metody to m.in. dlatego że:
- można np. oznaczać obszary ciszy i zapisywać je oszczędniej niż w 16 bitach na kanał
i na jedną próbkę sygnału (w końcu większość rozpiętości przedziału od 0 do 32 768 dla cichych dźwięków się "marnuje")
- dla muzyki w której różnice między kanałami stereo są nieznaczne można zapisywać dokładnie zsumowany sygnał (mono), a różnice (które będą niewielkie) kodować oszczędniejszym sposobem.
Formaty kompresji bezstratnej są różne. Przykładem może być tu np. monkey's audio, LPAC, RKAU, FLAC, WavPack.
Niestety, kompresja bezstratna zazwyczaj nie daje dużych możliwości zmniejszenia rozmiaru plików - zysk na pojemności pamięci oscyluje w okolicy 2 razy (w najlepszych warunkach 3-4). Dlatego stosuje się nieco gorszą jeśli chodzi o wierność zapisu, ale znacznie wydajniejszą - kompresję stratną.
Kompresja stratna wykorzystuje kilka uzupełniających się efektów i technik:
ten typ kompresji może wykorzystać prawie wszystkie metody kompresji bezstratnej
ponieważ ludzki narząd słuchu nie jest stuprocentowo dokładny, to wiele dźwięków jest przezeń "gubionych" i można ich po prostu nie zapisywać, oszczędzając przy tym pasmo pamięci.
Ta druga metoda - wykorzystanie niedokładności słuchu jest właśnie kluczem do wydajności kompresji stratnej. W jej ramach sygnał dźwiękowy jest analizowany pod kątem owych niedostrzeganych słuchem elementów - np. maskowanie dźwięków cichych przez głośne,
lub maskowanie gorzej słyszalnych dźwięków.
Dzięki kompresji stratnej daje się (bez wyraźnego pogorszenia jakości dźwięku) upakować dane audio 10-cio, a nawet 20-to krotnie. W rezultacie typowe nagranie zajmuje nie kilkadziesiąt,
a kilka megabajtów pamięci.
Kompresję stratną stosuje się w następujących formatach zapisu dźwięku:
mp3 (także mp3 pro - twórca Instytut Fraunhoffera)
wma, asf (MICROSOFT)
Mpeg
ogg (Vorbis - projekt open source)
atrac (SONY)
aac, ac3 (APPLE)
vqf (YAMAHA)
i inne
Najpopularniejszym formatem kompresji stratnej jest format : MP3 ((ang.) MPEG-1/MPEG-2 Audio Layer 3). Jest on zdefiniowany przez IETF w dokumencie RFC 5219.
Standardy MPEG-1 i MPEG-2 są przeznaczone do kompresji ruchomych obrazów
oraz towarzyszącego im dźwięku. W ich realizacji wykorzystano algorytm zmodyfikowanej dyskretnej transformacji cosinusowej. Standardy te oferują możliwość kompresji strumienia danych reprezentującego dźwięk na trzy sposoby, tzw. warstwy (ang. layer): Layer 1, Layer 2 i Layer 3. Sposób „Layer 3”, charakteryzujący się najwyższym stopniem kompresji i dobrą jakością dźwięku, został następnie wykorzystany do zapisu (utrwalania) dźwięku cyfrowego jako format lub standard MP3.
Standard MP3 ujrzał światło dzienne w grudniu 1991 roku, przede wszystkim w ramach działań prowadzonych przez niemieckie stowarzyszenie naukowo-badawcze występujące pod nazwą Fraunhofer Institute. Przy tworzeniu jego pierwszej implementacji wykorzystano m.in. utwór Suzanne Vega pt. "Tom's Diner" w celu dostosowania rodzaju i stopnia kompresji do brzmienia ludzkiego głosu.
Pliki zawierające dane w tym formacie otrzymują zwyczajowo rozszerzenie „.mp3”.
Dźwięk może być zapisany na wiele różnych sposobów. Jednym z nich jest zmiana ciśnienia akustycznego w proporcjonalne zmiany napięcia elektrycznego lub natężenia prądu elektrycznego. Uzyskany w ten sposób dźwiękowy sygnał analogowy, może następnie zostać przekształcony
do postaci cyfrowej. Przekształcenia dokonuje się za pomocą przetwornika analogowo cyfrowego,
na którego wyjściu pojawia się sygnał cyfrowy. Podczas konwersji sygnału analogowego na cyfrowy należy mieć na uwadze twierdzenie Kotielnikowa - Shannona o próbkowaniu, które mówi,
że częstotliwość próbkowania nie może być mniejsza niż podwojona szerokość pasma przetwarzanego sygnału. Przykładowo, w celu wykonania zapisu w popularnym standardzie CD-Audio, dźwięk
w postaci sygnału analogowego jest przepuszczany przez filtr dolnoprzepustowy o odcięciu około 22kHz (ograniczenie pasma), a następnie próbkowany z częstotliwością 44,1 kHz co stanowi
ok. 2,2 szerokości pasma akustycznego, wynoszącej 20 kHz, i rozdzielczością 16 bitów na próbkę. Wytwarza to strumień danych o wielkości ok. 1,5 Mb/s dla sygnału stereofonicznego. Aby zmniejszyć ilość danych należy zmniejszyć częstotliwość próbkowania lub rozdzielczość, bądź zastosować obydwie te metody. Jeśli zrobi się to w odpowiedni sposób, np. za pomocą odpowiedniego programu komputerowego, to zmiany mogą być niesłyszalne - na tym właśnie polega idea standardu MP3.
Standard MP3 wykorzystuje ponadto model psychoakustyczny w celu osiągnięcia pożądanego stopnia kompresjii stratnej. Polega to na tym, że zostają usunięte te informacje o dźwięku,
które są niezauważalne lub mało istotne dla człowieka, w sensie odbioru słuchowego. Z modelu psychoakustycznego wynika, że człowiek najlepiej słyszy dźwięki w okolicach 2-4 kHz.
Im częstotliwość dźwięku bardziej odbiega od tego pasma, tym słyszalność jest coraz gorsza. Zatem, jeżeli dźwięk, wraz z szumem kwantyzacji, będzie cichszy od dolnej granicy słyszalności,
to nie będzie on słyszalny. Z tego wynika, że skrajne częstotliwości mogą zostać zapisane z mniejszą dokładnością, a więc przy mniejszej rozdzielczości bitowej. Ze wspomnianego modelu słyszenia wynika również zjawisko maskowania, czyli że dźwięki głośniejsze zagłuszają cichsze. Zatem,
w pobliżu głośnych dźwięków (w pobliżu, tzn. podobna częstotliwość tuż przed i tuż po) również można zmniejszyć liczbę bitów, ponieważ szum kwantyzacji nie będzie słyszalny. Człowiek słyszy dźwięki o częstoliwości do 20 kHz, jednak w praktyce elektroakustycznej granicę tę określa się
na poziomie 16 kHz - uwzględniono to również w standardzie MP3.
W pierwszym etapie konwersji na format MP3, wejściowy sygnał cyfrowy, pobrany np.
z pliku w formacie WAV, o szerokości pasma 20 kHz, jest dzielony na 512, odpowiednio węższych pasm częstotliwościowych, za pomocą filtrów cyfrowych w procesie cyfrowego przetwarzania sygnałów. W rezultacie otrzymuje się 512 odrębnych sygnałów. Pasmo każdego z nich jest 512 razy węższe od wejściowej szerokości pasma, zatem do próbkowania można użyć odpowiednio niższej częstotliwości.
Program kodeka MP3 analizuje poszczególne pasma i na podstawie modelu psychoakustycznego określa z jaką dokładnością należy zakodować każde z nich i czy jest potrzeba uwzględnienia danego pasma. W ten sposób znacznie ograniczono ilość bitów potrzebnych do zakodowania, a szum kwantyzacji, mimo że znacznie większy niż w oryginale, jest tak ukształtowany, że jest niesłyszalny. Ponadto, powstałe dane zapisuje się w postaci zmiennoprzecinkowej,
co dodatkowo zmniejsza ich rozmiar.
Tak przygotowane dane łączy się, dodając dane sterujące umożliwiające odkodowanie dźwięku i na końcu poddaje się je kompresji bezstratnej - powstaje plik dźwiękowy w formacie MP3.