PRZETWARZANIE DŹWIĘKU
ISTOTA DŹWIĘKU
Do naszych zmysłów nieustannie docierają różnorakie bodźce.
Pewna ich częśd odbierana jest jako dźwięk. I chod zmysł słuchu w znacznie mniejszym
stopniu dostarcza nam informacji niż wzrok to odgrywa i tak znaczącą rolę.
WZROK
ok.
90%
SŁUCH
ok. 5%
INNE
Dźwięk ułatwia orientację
przestrzenną na tyle dobrze, że
w szczególnych sytuacjach
(słaba
widocznośd, upośledzenie wzroku)
uszy
z powodzeniem potrafią zastąpid
oczy.
Dźwięki
ostrzegają przed
niebezpieczeostwem
dostarczają przyjemności (muzyka)
dają szansę komunikowania się z innymi
za pomocą słów (język mówiony)
Dźwięk jako zjawisko fizyczne jest to zaburzenie falowe ośrodka
sprężystego
.
Na przykład: wody, gdzie propagacja dźwięku wynosi 1500m/s, powietrza – 340m/s, drewna-
4000m/s, żelaza-5000m/s.
Właściwości dźwięku
WŁASCIWOŚCI FIZYCZNE
WŁASCIWOŚCI PSYCHOAKUSTYCZNE
częstotliwośd drgao -
wysokośd dźwięku
natężenie -
głośnośd
widmo -
barwa
Dźwięk ze swej natury jest sygnałem analogowym to znaczy, że jego
amplituda i częstotliwośd mogą się zmieniad w sposób płynny.
Analogowa fala dźwiękowa jest ciągłą linią, ma nieskooczenie wiele
wartości amplitudy.
A
MP
LITUD
A
CZAS
Ruch falowy – dźwięk – najprościej zilustrowad wykresem sinusoidy
Dźwięk cyfrowy
Aby zapisad dźwięk w komputerze
trzeba zamienid sygnał analogowy
na postad cyfrową (digitalizacja)
czyli na ciąg zer i jedynek
PRÓBKOWANIE (ang. sampling)
z sygnału analogowego pobiera się w ustalonych odstępach czasu próbki
i mierzy się ich poziom.
Dźwięk cyfrowy
Sposób zapisu dźwięku
Wysokośd impulsów odpowiada
poziomom kwantyzacji
Wynik pomiaru poddaje się skwantowaniu czyli przypisaniu wartości
zmierzonym poziomom dźwięku.
W efekcie kwantyzacji sygnał analogowy ma
postad sygnału impulsowego,
którego amplituda przyjmuje wartości liczb
całkowitych.
Dźwięk cyfrowy
Impulsy o zmiennej amplitudzie i stałej częstotliwości zostają zamienione
na sygnał binarny w którym wyższej amplitudzie impulsów odpowiada
większa częstotliwośd jedynek.
Przykład kwantyzacji 4-bitowej i
sposób oddawania znaku amplitudy
1111
1110
1101
1100
1011
1010
1001
1000
0111
0110
0101
0100
0011
0010
0001
0000
ROZDZIELCZOŚĆ
Dźwięk cyfrowy
Im więcej bitów, tym dokładniej można oddad zmiany
amplitudy, niższe też będą szumy kwantyzacji
tj. zniekształcenia spowodowane zmianą kształtu fali
w procesie konwersji analogowo-cyfrowej
(zasada Fouriera)
Dźwięk cyfrowy
Precyzyjniej można przedstawić odstępy między minimalnym a maksymalnym
napięciem sygnału, czyli dynamikę.
Zależnośd przenoszonej dynamiki od liczby bitów
Liczba bitów
8
16
20
24
Dynamika nagrania
48
dB
96
dB
120
dB
144
dB
Dźwięk cyfrowy
Zamiany sygnału analogowego na postad binarną
dokonuje konwerter analogowo – cyfrowy AD/DA
(w j. pol. przetwornik AC/CA)
Każda popularna karta dźwiękowa zawiera taki
układ. To dzięki niemu jest możliwe nagrywanie
i odtwarzanie dźwięków.
Dźwięk cyfrowy
Jakośd konwertowanego dźwięku zależy od:
- częstotliwości próbkowania,
- rozdzielczości bitowej.
Częstotliwośd próbkowania (sampling rate), inaczej częstośd pobierania próbek,
informuje jak często przetwornik analogowo-cyfrowy mierzy poziom sygnału.
Częstotliwośd próbkowania jest mierzona
w hercach na sekundę (Hz/s)
Częstotliwośd próbkowania podczas odtwarzania muzyki musi byd identyczna
z częstotliwością próbkowania podczas nagrywania. Odgrywanie dźwięku z inną
częstotliwością da efekt podobny do zmiany prędkości przesuwu taśmy w tradycyjnym
magnetofonie.
Dźwięk cyfrowy
Uwzględniając pewien margines bezpieczeostwa przyjęto
częstotliwośd 44,1 kHz jako standard gwarantujący
odwzorowanie użytecznego zakresu 20 Hz – 20 kHz na płytach
kompaktowych (48 kHZ w profesjonalnych studiach nagrao).
Aby uniknąd owych zniekształceo, wszystkie częstotliwości
powyżej 20 kHz są blokowane w przekształcanym sygnale
przez filtr dolnoprzepustowy (ang. anti-aliasing filter).
Dźwięk cyfrowy
Im większa częstotliwośd próbkowania (ang. sampling rate),
tym dokładniejsze odwzorowanie krzywej.
Każda sinusoida ma dwie połówki: dodatnią i ujemną i aby
w sposób prawidłowy przenieśd jej kształt częstotliwośd
próbkowania musi byd co najmniej dwukrotnie wyższa od
częstotliwości analizowanej (tzw. Zasada Nyquista)
Niespełnienie tego warunku
może prowadzid do zniekształceo
intermodulacyjnych (ang. aliasing)
tj. błędnego interpretowania próbkowanej częstotliwości jako niższej.
Zniekształcenia intermodulacyjne
Dźwięk cyfrowy
Zdeformowany obraz sinusoidy – przy częstotliwości próbkowania trzy razy
niższej od częstotliwości próbkowanego dźwięku.
Rozdzielczośd próbkowania
Aby uzyskad zapis o dużym podobieostwie do oryginału trzeba przyjąd dużą
wartośd częstotliwości próbkowania.
Im większa wartośd częstotliwości próbkowania tym większy rozmiar będzie
miał plik w którym dźwięk zostanie zapisany.
... to też stosuje się kompresję.
Kompresja to zmniejszenie objętości danych w sposób
umożliwiający ich późniejsze odtworzenie.
Dźwięk cyfrowy
W przypadku dźwięku poddanego kompresji stratnej sama częstotliwośd
próbkowania nie wystarcza do określenia jego jakości.
Ponieważ kompresja stratna polega na usunięciu części informacji potrzebny
jest dodatkowy parametr opisujący, ile danych pozostało w pliku
dźwiękowym.
Wielkością tą, wyrażoną w liczbie bitów na sekundę pliku dźwiękowego jest
przepływnośd (ang. bitrate)
...czyli liczba bitów przetwarzanych w ciągu sekundy,
czy też ile bitów opisuje jedną sekundę pliku dźwiękowego.
Jednostką przepływalności jest bit na sekundę bps
w przypadku prefiksów dziesiętnych
tj.1000 bps = 1 kbps
w przypadku prefiksów binarnych
tj.1024 bps = 1 kbps
... im wyższa przepływnośd, tym lepsza jakośd dźwięku i odwrotnie
- niska przepływnośd to słaba jakośd dźwięku.
Dźwięk cyfrowy
PRZYKŁAD.
przepływnośd dźwięku CD Audio
częstotliwośd próbkowania: 44,1 kHz
pojedyncza wartośd próbki: 16 bitów (2 B)
stereo (dwa kanały: lewy i prawy)
...w każdej chwili zapisuje się: 2 x 16 bitów = 32 bity
przepływnośd wynosi:
2 x 16 x 44 100 = 1 411 200 bps tj. 1 411,2 kbps
Dźwięk cyfrowy
…przy zbyt dużym zmniejszeniu przepływności tworzą się słyszalne
efekty zw. Artefaktami.
Są to dźwięki, których nie ma w oryginalnym pliku dźwiękowym.
Artefakty powstają, gdy jest zbyt mało danych, by jednoznacznie
odtworzyd oryginalny plik.
Algorytm dekodujący zamiast pierwotnego dźwięku odczytuje
wówczas (błędnie) inne dźwięki.
Na artefakty szczególnie podatne są dźwięki nieregularne,
czyli takie, w których występują nagłe zmiany wysokości dźwięku lub
natężenia, oraz takie, w których zmiany są nieprzewidywalne.
Dźwięk cyfrowy
Metoda zmiennej przepływności VBR
(Variable Bit Rate)
... kompresja z mniejszą przepływnością tych fragmentów plików,
które są regularne
(łatwiejsze w kompresji)
, z większą tam, gdzie dźwięk jest
bardziej zmienny.
Dzięki temu efektywnie przepływnośd będzie chwilami równa
np. 32 kbps, chwilami 320 kbps, a średnio dla całego pliku 128 kbps.
Zastosowanie zmiennej przepływności pozwala poprawid jakośd pliku
dźwiękowego poprzez dopasowanie parametrów kompresji MP3 do
chwilowych potrzeb.
Metoda stałej przepływności CBR
(Constant Bit Rate)
... przeciwieostwo do metody VBR
Dźwięk cyfrowy
Format
WAVE
Domyślnie dźwięk zapisany w tym formacie nie jest poddany żadnej
kompresji, dlatego pliki WAVE mają zwykle duży rozmiar.
Format ten pozwala na kompresję danych. Opcję tę można wybrad w
programach do zapisu dźwięku. Wybór formatu WAVE z kodekiem
MPEG-1 Layer 3 to niejako utworzenie pliku MP3.
Format WAVE został opracowany przez Microsoft i IBM jako standard
dla komputerów PC
(pliki WAVE mogą byd używane również w innych systemach,
w szczególności Linux i Mac Os)
WAVE jest formatem, który obsługuje zdecydowaną większośd oprogramowania
do odsłuchiwania i edycji dźwięku; pełni funkcję standardu wymiany danych między
programami – plik w formacie jednego programu jest eksportowany do formatu WAVE,
a następnie importowany jako WAVE do innego programu.
Dźwięk cyfrowy
Formaty plików audio
Format
MP3
Najpopularniejszy format skompresowanych plików dźwiękowych. Początki sięgają
1991 roku. Inżynierowie z Instytutu Fraunhofera w Niemczech opublikowali
wówczas pierwszą wersję algorytmu kompresji (jeden z kodeków nosi nazwę
kodeka Fraunhofera).
Formalnie format MP3 nosi nazwę MPEG-1 Layer 3 (MPEG to skrót od Moving
Picture Experts Group – grupa ekspertów od obrazów Ruchomych). Format
MP3 jest najpowszechniejszym formatem stosowanym na potrzeby internetu
i odtwarzaczy MP3.
METADANE PLIKU DŹWIĘKOWEGO
Plik dźwiękowy – w szczególności w formacie MP3 – oprócz bloków danych
stanowiących zapisany dźwięk może zawierad również nagłówek z
dodatkowymi informacjami tj. tagami ( m.in. tytuł utworu, wykonawca, rok
wydania, gatunek muzyki. Całośd tych informacji nazywana jest metadanymi.
Jakośd dźwięku w formacie MP3 jest gorsza niż jakośd dźwięku zapisanego na
płycie CD Audio lub w formacie bezstratnym WAVE,
Dźwięk cyfrowy
… różnica jest zwykle prawie niesłyszalna dla przeciętnego człowieka i
jedynie na sprzęcie lepszej jakości lub przy wprwanym uchu można ją
wychwycid.
Istotnym elementem stratnej kompresji MP3 jest kodowanie percepcyjne
(oparte na modelu psychoakustycznym uwzględniającym właściwości
ludzkiego ucha). Polega na usuwaniu dźwięków z zakresu częstotliwości
niesłyszalnych dla ludzkiego ucha oraz dźwięków słabo słyszalnych, które
nie mają istotnego znaczenia.
Dzięki temu można uzyskad nawet 12-krotne zmniejszenie objętości
pliku w porównaniu z plikiem wyjściowym (np. w formacie WAVE) bez
zauważalnego pogorszenia jakości.
Dźwięk cyfrowy
Zadanie.
Do samodzielnego opracowania następujące formaty
plików audio: MIDI, FLAC, AAC, Ogg Vorbis.
lub inne.
Dźwięk cyfrowy