Przetwarzanie dźwięku
Dźwięk cyfrowy. Plik dźwiękowy
Dźwięk cyfrowy -
wprowadzenie
Dźwięk jaki dociera do naszych uszu to fala
rozchodząca się w powietrzu. Może ona mieć
różną postać, ale najprostszą możliwością jest
idealna fala sinusoidalna
Wykres fali dźwiękowej sinusoidalnej
odzwierciedla płynne zmiany ciśnienia
akustycznego pojedynczego tonu
Dźwięk cyfrowy
Dla komputera przedstawiona fala
jest czymś zupełnie abstrakcyjnym.
Całą rzeczywistość musi on
zobrazować w systemie binarnym,
czyli w postaci zer i jedynek –
przekształcenie to następuje w
procesie zwanym próbkowaniem.
Próbkowanie - definicja
Próbkowanie (dyskretyzacja,
kwantowanie w czasie) to etap
procesu przetwarzania sygnału
analogowego na cyfrowy,
polegający na przetworzeniu
sygnału ciągłego w sygnał
impulsowy, istniejący tylko w
określonych chwilach czasowych
Próbkowanie - sposób
przekształcenia
Polega ono na tym, że w ustalonych
odstępach czasu (impulsowanie)
pobierane są tzw. próbki (ang.
sample) i mierzona jest wartość
chwilowa sygnału.
Sygnał przekształcony do postaci
spróbkowanej nazywa się
sygnałem dyskretnym.
Z jaką częstotliwością
próbkować?
Okres i częstotliwość
próbkowania
Aby spróbkowany sygnał z postaci cyfrowej
dało się przekształcić, bez straty informacji, z
powrotem do postaci analogowej, musi być
spełnione twierdzenie Kotielnikowa-Shannona
o próbkowaniu. Mówi ono, że częstotliwość
próbkowania nie może być mniejsza niż
podwojona szerokość pasma sygnału.
Jeśli ten warunek nie jest spełniony, wówczas
występuje zjawisko aliasingu
Błąd aliasingu jest tym większy, im mniejsza
jest częstotliwość próbkowania.
Przykład praktycznego
wykorzystania próbkowania
Ludzkie ucho słyszy dźwięki do
częstotliwości około 20 kHz. Według
twierdzenia Kotielnikowa-Shannona,
częstotliwość zapisu cyfrowego musi być
zatem większa niż 40 kHz, aby nie dało się
usłyszeć przekłamań.
Stąd 44 100 próbek na sekundę
(44,1 kHz), dla każdego kanału, na płycie
CD-Audio przyjęto za wartość
wystarczającą.
Fala sinusoidalna próbkowanie
1-bitowe
Jeżeli komputer poświęci na
opisanie fali sinusoidalnej 1 bit
pamięci, to uzyskamy następujący
obraz
Fala sinusoidalna próbkowanie
2-bitowe
Da nam ona 4 możliwe stany (2
2
= 4)
Jeżeli komputer poświęci na opisanie fali
sinusoidalnej 2 bity pamięci, to
uzyskamy następujący obraz
Próbkowanie w praktyce
Kilkanaście lat temu standardem był
dźwięk 8-bitowy. Wzrost szybkości
procesorów i pojemności pamięci
masowych spowodował
upowszechnienie 16-bitowego
formatu zapisu dźwięku. To w
zupełności wystarcza, by ucho ludzkie nie
wykryło żadnej różnicy między dźwiękiem
analogowym (idealną falą) a cyfrowym.
Obecnie możliwe jest stosowanie 24-
bitowego dźwięku. Muzykom - amatorom
w zupełności wystarczy jednak 16 bitów
Próbkowanie - uwaga
Pracując z dźwiękiem cyfrowym
nigdy nie należy przekraczać
zakresu, jaki wyznacza nam ilość
bitów wykorzystana w samplingu.
Próbkowanie - przesterowanie
Przesterowanie to podanie na wejście
liniowego układu elektronicznego sygnału
o większym napięciu, niż może on
przetworzyć bez zniekształceń.
Przesterowanie jest zazwyczaj zjawiskiem
niepożądanym, jednak bywa też
stosowane celowo np. w elektronicznych
układach modyfikujących dźwięk (efekt
gitarowy fuzz, distortion, overdrive).
Próbkowanie - przesterowanie
Fala sinusoidalna
samplowana 16-bitowo
Przesterowana fala
sinusoidalna
Częstotliwość Nyquista
Częstotliwość Nyquista jest to
największa częstotliwość sygnału
ciągłego, przy której możliwa jest
zamiana sygnału w postać dyskretną
bez straty informacji przy danym
okresie próbkowania. Sygnał o
częstotliwości mniejszej niż
częstotliwość Nyquista może być
odtworzony z powrotem do postaci
analogowej bez przekłamań.
Częstotliwość Nyquista
Częstotliwość Nyquista wyrażona
jest wzorem:
gdzie T – okres próbkowania.
Częstotliwość Nyquista jest równa
połowie częstotliwości próbkowania.
Częstotliwość Nyquista
Częstotliwość Nyquista jest równa
częstotliwości najwyższej składowej
harmonicznej, którą chcemy odtworzyć
bez błędów podczas odtwarzania sygnału
z postaci dyskretnej (cyfrowej) do ciągłej
(analogowej).
Błąd w odtwarzaniu jednej z
harmonicznych może wpływać na
odtwarzanie innych harmonicznych.
Częstotliwość Nyquista
Składowe harmoniczne o częstotliwościach
wyższych od częstotliwości Nyquista ulegną
przy odtwarzaniu do postaci analogowej
zniekształceniu wskutek zjawiska aliasingu.
Przykładowo dla częstotliwości próbkowania
44,1 kHz stosowanej na płytach CD
częstotliwość Nyquista wynosi 22,05 kHz.
Jeśli w sygnale analogowym obecne są
składowe o częstotliwości wyższej od
częstotliwości Nyquista spowoduje to
powstanie błędów próbkowania (aliasing).
Dźwięk cyfrowy - definicja
Dźwięk cyfrowy to reprezentacja
przebiegu sygnału za pomocą ciągu
wartości liczbowych.
Częstotliwość próbkowania
W praktyce falę dźwiękową próbkuje się
ze z góry określoną częstotliwością (liczbą
razy na sekundę) i dla każdej próbki
przyporządkowuje się określoną cyfrową
wartość dźwięku.
Liczba tych próbek na sekundę jest zwana
właśnie częstotliwością próbkowania
dźwięku i mierzy się ją w
wielokrotnościach herców (kHz).
Im większa częstotliwość próbkowania,
tym dokładniejsze odwzorowanie krzywej
Częstotliwość próbkowania
Częstotliwość próbkowania
Chcąc uzyskać znośny efekt trzeba
próbkować w częstotliwością co
najmniej kilku kiloherców.
44100 Hz da nam jakość płyty CD.
To zupełnie wystarczy, by nie
poczuć różnicy między analogowymi
sposobami zapisu dźwięku.
Kwantyzacja
Sygnał analogowy (np. napięcie, prąd) może
przyjmować dowolne wartości, systemy cyfrowe
natomiast są w stanie przetwarzać tylko sygnały
reprezentowane słowami o skończonej liczbie
bitów. Taka reprezentacja wymaga ograniczenia
zbioru wartości sygnału.
Kwantyzacja to proces polegający na przypisaniu
wartości analogowych do najbliższych poziomów
reprezentacji (innymi słowy zamianą sygnału
spróbkowanego na sygnał cyfrowy), co wiąże się z
nieuniknioną i nieodwracalną utratą informacji.
Kwantyzacja
Szum kwantyzacji
Szum kwantyzacji, zwany także błędem
kwantyzacji jest zniekształceniem
sygnału powstającym w procesie
kwantyzacji.
Szum kwantyzacji powstaje w
przetwornikach analogowo-cyfrowych oraz
z powodu błędu zaokrąglenia.
Podczas konwersji ciągłego sygnału
analogowego na postać cyfrową, każda
wartość jest zaokrąglana do najbliższej
wartości dyskretnej.
Przetwornik analogowo-
cyfrowy A/C
Przetwornik analogowo-cyfrowy A/C to
układ służący do zamiany sygnału
analogowego (ciągłego) pochodzącego od
obiektów świata realnego na reprezentację
cyfrową
Dzięki temu możliwe jest przetwarzanie ich w
urządzeniach elektronicznych opartych o
architekturę zero-jedynkową oraz
gromadzenie na dostosowanych do tej
architektury nośnikach danych
Przetwarzanie A/C tworzą 3 etapy:
próbkowanie, kwantyzacja i kodowanie
Przetwornik cyfrowo-
analogowy C/A
Przetwornik cyfrowo-analogowy,
C/A przyrząd elektroniczny
przetwarzający sygnał cyfrowy
(zazwyczaj liczbę binarną w postaci
danych cyfrowych) na sygnał
analogowy w postaci prądu
elektrycznego
Przetwarzanie dźwięku
Plik dźwiękowy
Charakterystyka pliku
dźwiękowego
Sposób uporządkowania danych w
pliku określa jego format
Każdy plik dźwiękowy powinien
posiadać nagłówek – poprzedzający
właściwy strumień danych
Charakterystyka pliku
dźwiękowego
Informacje umieszczone w
nagłówku:
Format pliku
Długość
Liczba kanałów
Rozdzielczość bitowa
Częstotliwość próbkowania
Rodzaj i stopień kompresji
Kanały
Wszystkie pliki dźwiękowe są albo
stereofoniczne (zawierają lewy i
prawy kanał stereo), albo
monofoniczne (zawierają
pojedynczy kanał).
Pliki dźwięków stereo są dwa razy
większe od plików dźwięków mono,
gdyż zawierają one dwa razy więcej
informacji.
Kanały
W większości aplikacji przeznaczonych do
przetwarzania i edycji dźwięków można
zapisać lub wyeksportować dźwięk, który
pierwotnie jest dźwiękiem
stereofonicznym, w postaci
jednokanałowego dźwięku
monofonicznego, powstającego poprzez
połączenie (zmieszanie) obu kanałów.
Możliwe jest również zapisanie tylko
prawego bądź tylko lewego kanału
dźwięku stereo jako oddzielnego pliku
Charakterystyka pliku
dźwiękowego – rozmiar w pamięci
Obliczenie przybliżonego rozmiaru
pliku o jakości CD (44 100Hz, 16bit)
– 1 minuta
44100*2bajty*2kanały*60sekund=
ok. 172 kilobajty*60sekund daje w
przybliżeniu 10336Kb czyli 10,09MB
Nagłówek pliku WAV
Adres względem
początku pliku
Rozmiar
[B]
Zawartość
0000
4
"RIFF"(4 znaki ASCII)
0004
4
rozmiar pliku (nie licząc pierwszych 8 bajtów)
0008
4
"WAVE"(4 znaki ASCII)
000C
4
"fmt "(4 znaki ASCII)
0010
4
rozmiar bloku formatu (równy 16)
0014
2
kod formatu (równy 1)
0016
2
liczba kanałów(1=mono,2=stereo,itd) (np:0100 - mono)
0018
4
częstotliwość próbkowania (w Hz)
001C
4
liczba bajtów przypadających na sekundę zapisu
0020
2
liczba bajtów przypadających na każdą próbkę
0022
2
rozmiar każdej próbki (w bitach) (np:0800 - 8 bitowe)
0024
4
"data"(4 znaki ASCII)
0028
4
rozmiar danych dźwiękowych
002C
?
dane dźwiękowe
Prędkość bitowa (bitrate)
Współczynnik określający, ile bitów danych
zostało użytych do zapisania dźwięku lub obrazu
trwającego określoną jednostkę czasu (zazwyczaj
sekundę).
Bitrate odnosi się do plików multimedialnych,
muzycznych oraz strumienia danych przesyłanych
w sieci (na przykład internetowego radia).
Im wyższa jest wartość bitrate, tym lepsza jakość
dźwięku/obrazu, ale jednocześnie większy rozmiar
pliku wynikowego. Zazwyczaj bitrate jest
wyrażony w kilobitach.
Bitrate - tabela
Prędkość bitowa
(kb/s)
Jakość
16
Radio-fale krótkie
32
Radio AM
96
Radio FM
128
Prawie CD
160-180
Naturalne słyszenie
256
Nagranie studyjne
Bitrate - tabela
Prędkość bitowa
(kb/s)
Jakość
5.5:1 (256 kbit/s)
Dźwięku po kompresji nie daje się odróżnia od oryginału
11:1 (128 kbit/s)
Efektów kompresji jeszcze nie słychać przy słuchaniu na głośnikach. W
słuchawkach czasami daje się coś zauważyć.
13:1 (112 kbit/s)
Na lepszym sprzęcie słychać pierwsze objawy kompresji (dopiero gdy
słuchacz wie na co ma zwrócić uwagę). Przeciętny słuchacz tego nie
zauważy. Przy odtwarzaniu na głośnikach w domu - jakość bardzo dobra.
16:1 (96 kbit/s)
Porównywana z kasetą. W większości przypadków nadaje się na imprezę
Na kiepskich głośnikach - różnicy nie ma. Przy niektórych nagraniach
charakterystycznie chrypi, czy raczej brzęczy.
24:1 (64 kbit/s)
Jak radio UKF-FM (tylko ma charakterystyczne brzmienie komputera).
48:1 (16 kbit/s)
Porównywana z dobrym poł1czeniem przez cyfrowy telefon komórkowy
(GSM 900 lub 1800). Do mowy się nadaje znakomicie.
96:1 (8 kbit/s)
Jak przez telefon GSM w gorszych warunkach
Osobę trudno poznać po głosie, chociaż zrozumiałość jest dobra.