Filtry (parametry, zastosowanie, typy)
korektory (parametry, zastosowania, typy)
limiter, kompresor i zastosowanie
probkowanie/aliasing
kryterium Nyquista
jitter
dhitter
kwantyzacja (szum, błąd, rozdzielczość kwantowania)
Korektory - filtry - rodzaje i ich wykorzystanie
O korektorach barwy, albo - jak kto woli - equalizerach, dość dużo już pisałem w jednym z odcinków
traktujących o konsoletach. Nie są one jednak przeznaczone do tego, aby niwelować niedociągnięcia toru
akustycznego (zestawów głośnikowych, sali czy otoczenia), gdyż służą one do korekcji barwy konkretnego
źródła dźwięku, i to w zakresie, nazwijmy to, "subtelnym".
Stosowanie korektorów dla całego systemu akustycznego ma za zadanie wyrównanie charakterystyki tak,
aby zniwelować niepożądane rezonanse (czyli podbicia) oraz nieco podbić te fragmenty pasma, które
ulegają stłumieniu.
KOREKTOR GRAFICZNY
To wciąż najpopularniejszy typ korektora stosowanego do wyrównywania charakterystyki przenoszenia toru
akustycznego. Nazwa wzięła się stąd, iż jego płyta czołowa jest "najeżona" potencjometrami suwakowymi,
których położenie odzwierciedla wypadkową charakterystykę przenoszenia urządzenia.
W korektorach graficznych całe pasmo jest odgórnie podzielone na równe obszary. A na ile? A to już zależy
od rodzaju. No, a jak szerokie są te obszary? To z kolei zależy od ich liczby, a więc rozpatrzmy kilka
najczęściej spotykanych.
Mamy więc do wyboru korektory:
- pięciopunktowe - o pasmach szerokości 2 oktaw
- siedmiopunktowe - pasma o szerokości 1,5 oktawy
- dziesięciopunktowe - pasma oktawowe
- czternastopunktowe - pasma kwartowe
- trzydziestojednopunktowe - pasma tercjowe
W położeniu środkowym potencjometru pasmo nie jest ani tłumione, ani wzmacniane, a więc gdy wszystkie
regulatory będą w pozycji środkowej (często w tym położeniu jest wyczuwalny mały zaskok, aby łatwiej był
"trafić" w 0), wtedy układają się one w poziomą linię w środku swojego zakresu, a więc charakterystyka
wypadkowa jest charakterystyką liniową o wzmocnieniu/tłumieniu 0 dB.
Zakres regulacji natomiast zawiera się przeważnie w granicach ±12 dB lub ±15 dB. Często mamy możliwość
przełączania zakresu tłumienia, np. między ±12 dB, a ±6 dB, aby móc precyzyjniej ustawić pożądaną
wartość tłumienia czy wzmocnienia.
Należy tutaj wtrącić, że obecnie korektor graficzny wcale nie musi "straszyć" dużą ilością potencjometrów. A
to wtedy, gdy będzie to "grafik" cyfrowy. W takim przypadku będziemy mieli tylko duży (w miarę) wyświetlacz
i kilka przycisków.
Choć tak po prawdzie, jeśli już mamy urządzenie cyfrowe, to trudno go nazwać stricte korektorem
graficznym, ponieważ wtedy, w przeważającej większości przypadków, mamy nie tylko możliwość regulacji
wzmocnienia bądź tłumienia pasma. Ale tutaj już dotarliśmy do następnej grupy tego typu urządzeń.
Oprócz korektorów graficznych bowiem możemy też mieć do czynienia z
KOREKTOREM PARAMETRYCZNYM
Jeśli mamy do czynienia z korektorem pełnoparamterycznym, wtedy sami ustalamy sobie nie tylko poziom
wzmocnienia lub tłumienia danego pasma, ale również częstotliwość środkową (F) tego pasma, a także jego
szerokość (Q). W wersji "uboższej" szerokość pasma, czyli inaczej dobroć filtru, jest narzucona odgórnie, a
my możemy regulować tłumienie/wzmocnienie i częstotliwość środkową.
W wersjach analogowych ta ostatnia jest przeważnie w ograniczonym zakresie, w zależności od
przeznaczenia filtru (czy jest on typu LOW, MID czy HIGH), w urządzeniach cyfrowych na porządku
dziennym są korektory parametryczne z filtrami, które można nastroić na dowolną częstotliwość z pełnego
pasma akustycznego (20 Hz-20 kHz). Ile tych filtrów do wykorzystania mieć będziemy, to już zależy od
urządzenia. Wiadomo, że im więcej, tym lepiej (ale i drożej).
Korektor parametryczny ma tę przewagę nad graficznym, iż możemy precyzyjnie dostroić filtr na
częstotliwość, która nam "szwankuje", i poprawić ją, a dodatkowo, mogąc ustawić szerokość pasma, tak ją
dobrać, aby nie wpłynąć niekorzystnie na część pasma sąsiadującego, które nie wymaga naszej ingerencji.
Wadą jego jest o wiele większy stopień skomplikowania, zwłaszcza gdy mamy do czynienia z urządzeniem
analogowym, co odbija się w znacznej mierze na cenie. Na co jeszcze możemy się natknąć w sprzęcie, który
będzie ingerował w pasmo przenoszenia toru akustycznego? Ano, na przykład, w coś zwanego po angielsku.
Filtr dolnoprzepustowy: a) charakterystyka idealna, b) charakterystyka rzeczywista, c)
schemat ideowy filtra I rzędu.
Filtr górnoprzepustowy: a)
charakterystyka idealna, b)
charakterystyka rzeczywista, c) schemat
ideowy filtra I rzędu.
NOTCH FILTER
a po naszemu filtr wycinający. W przeciwieństwie do wcześniej opisywanych, w tym przypadku nie możemy
"podbijać", czyli wzmacniać, danego pasma, lecz tylko tłumić. Z tym że tłumienie może wynieść nawet 25
dB, a nachylenie też jest większe, niż w normalnych filtrach, i może mieć np. wartość 24 dB/okt. Co to za
nachylenie? Może to dobry moment, aby powiedzieć kilka słów z teorii filtrów oraz wyjaśnić, co to są te:
oktawy, kwarty, tercje itp.
FILTRY
W zależności od "umiejscowienia" danego filtra w całym paśmie częstotliwości wyróżniamy filtry:
- dolnoprzepustowe
- górnoprzepustowe
- pasmowo-przepustowe lub pasm owozaporowe
Filtr dolnoprzepustowy, jak sama nazwa wskazuje, przepuszcza bez tłumienia częstotliwości leżące w dolnej
części pasma, a tłumi częstotliwości wysokie. Filtr górnoprzepustowy odwrotnie, tłumi częstotliwości z dołu
pasma, a przepuszcza "górę".
Gdzie jest granica między "dołem" a "górą"? Jako takiej, jednoznacznie ustalonej, nie ma. Przeważnie więc
albo sami ustalamy tę częstotliwość, albo jest ona narzucona przez producenta, jeśli jest to filtr takiego typu,
jaki np. spotkać możemy w każdym kanale miksera lub przedwzmacniaczu (załączany filtr
górnoprzepustowym).
Pozostały jeszcze dwa: pasmowo-przepustowy (zwany też środkowo-przepustowy) lub pasmowo-zaporowy
(po prostu zaporowy). Różnica między nimi jest taka, jak między negatywem a pozytywem albo matrycą i
wytłoczką. W pierwszym przypadku tylko pewna część pasma jest przepuszczana, gdy reszta jest
wytłumiana, a w filtrach zaporowych odwrotnie - przepuszczana jest większość pasma częstotliwości oprócz
pewnego wycinka, które jest tłumione.
W przypadku filtrów górno- i dolnoprzepustowych najistotniejszymi parametrami, które będą nas interesować
są:
- częstotliwość odcięcia filtru albo, inaczej, częstotliwość graniczna,
- nachylenie charakterystyki tłumienia.
CZĘSTOTLIWOŚĆ GRANICZNA
Z praw fizyki wynika, iż ani napięcia, ani prądy nie mogą zmieniać się w sposób skokowy. Nawet bardzo
szybkie tranzystory potrzebują pewnego skończonego czasu na przełączenie się, nie mówiąc już o filtrach
pasywnych, opartych na układach RLC (rezystorach, cewkach i kondensatorach), których charakterystyka
przenoszenia opada od wartości maksymalnej do minimalnej w sposób stopniowy.
Z tego powodu rzeczywiste charakterystyki filtrów dolno- i górnoprzepustowego nie są linią poziomą w
paśmie przejściowym, ale część ma przebieg bardziej lub mniej stromy. Ale fakt pozostaje faktem, że nigdy
nie będzie to linia pionowa, więc mamy teraz problem, gdzie umiejscowić częstotliwość graniczną.
Najbardziej miarodajną i najłatwiejszą do ustalenia, a więc najczęściej używaną, jest taka wartość
częstotliwości granicznej, która odpowiada częstotliwości, przy której tłumienie wynosi -3 dB w stosunku do
ustalonej wartości (0 dB). Z tego też powodu częstotliwość tę nazywa się również częstotliwością
trzydecybelową lub częstotliwością trzydecybelowego spadku.
Charakterystyki przenoszenia filtrów: a) środkowo-przepustowego, b) pasmowozaporowego.
Jeśli, dajmy na to, chcemy, aby nasz filtr dolnoprzepustowy przenosił bez zniekształceń pasmo do 1 kHz, a
tłumił wszystko powyżej tej wartości, to nie łudźmy się, takiego ideału nie spełni nawet najbardziej
wyśrubowany filtr cyfrowy.
Zawsze pewną część pasma w okolicy ustalonej częstotliwość granicznej musimy "spisać na straty", to
znaczy założyć, że część pasma, które chcemy przepuścić bez zniekształceń ulegnie stopniowemu
tłumieniu, a część, która według nas już powinna być całkowicie stłumiona, jednak się "przeciśnie" na
wyjście układu, choć znacznie, znacznie "zduszona". To, jak szerokie będzie to pasmo, możemy
przewidzieć, znając nachylenie charakterystyki. Zajmijmy się teraz tym parametrem.
NACHYLENIE CHARAKTERYSTYKI TŁUMIENIA
Nachylenie charakterystyki podawane jest w jednostkach określających wielkość tłumienia przypadającego
na szerokość pasma częstotliwości, w której to tłumienie ma miejsce. Nie brzmi to może zbyt zrozumiale, ale
tak to bywa z definicjami.
Spróbujemy prościej. Wielkość tłumienia wyrażamy oczywiście w dB. Gorzej z określeniem szerokości
pasma. Pierwsza myśl, jaka się nasuwa - no, skoro to pasmo częstotliwości, to może w Hz? Sęk w tym, że
Hz to jednostka liniowa, a nasze ucho ma brzydki zwyczaj do odbierania dźwięków i wartościowania ich w
skali logarytmicznej, a nie liniowej. I to zarówno jeśli chodzi o poziomy dźwięku, jak i wrażenie wysokości
dźwięku. Dlatego tłumienie czy wzmocnienie określamy w dB.
Jak więc poradzić sobie z pasmem? Posłużono się zamiast skali liniowej w Hz pojęciem interwału. Interwał
to pojęcie dobrze znane muzykom, ale i inżynierom dźwięku czy akustykom powinno być nieobce.
Interwał to inaczej odstęp, odległość między poszczególnymi dźwiękami. Odległości te mają swoje nazwy:
sekunda, tercja, kwarta, kwinta czy oktawa - to tylko niektóre z nich. Mieliśmy już styczność z tercją, kwartą i
oktawą - przy omawianiu korektora graficznego.
Charakteryzują się one pewną ustaloną odległością pomiędzy dwoma dźwiękami. I tak np. tercja to
odległość między dwoma dźwiękami wyrażona stosunkiem częstotliwości tych dźwięków równym 5/4. W
przypadku kwarty stosunek tych częstotliwości będzie wynosił 4/3, dla kwinty 3/2.
Nas najbardziej interesuje oktawa, gdyż bardzo często będziemy z niej korzystać. Oktawa (z łac. octo -
osiem) to odległość między pierwszym a ósmym dźwiękiem gamy. Dlaczego jest ona taka interesująca i
charakterystyczna? Dlatego, że stosunek częstotliwości tych dźwięków wynosi dokładnie 2, a więc odległość
równa oktawie to podwojenie częstotliwości dźwięku podstawowego.
Dla przykładu, ciąg tonów pozostających ze sobą w stosunku 2:1, a więc takich, które dzieli odległość
oktawy, to znany szereg, często stosowany w korektorach oktawowowych: 32-64-125-250-1.000-2.000-
4.000-8.000-16.000
Oczywiście są to wartości wyrażone w Hz.
Teraz więc jeśli chcemy wyrazić nachylenie, określamy go w dB/okt, czyli w decybelach na oktawę. A więc
jeszcze inaczej, jest to wartość tłumienia (w dB), jaka ma miejsce na "odcinku" równym podwojeniu
częstotliwości. Mały przykład: jeśli mamy nachylenie charakterystyki wynoszące -10 dB/okt (minus informuje
nas, że charakterystyka opada, jak to ma miejsce np. w filtrach dolnoprzepustowych), a w punkcie
"startowym" równym 1 kHz wartość poziomu wynosiła 50 dB, to - jak łatwo policzyć - dla 2 kHz poziom
spadnie do wartości 40 dB. Jeśli znów odliczymy oktawę, czyli pomnożymy kHz przez 2, otrzymamy wynik
30 dB przy częstotliwości 4 kHz, a z kolei dla 8 kHz będziemy dysponować już tylko poziomem 20 dB.
Widzimy więc, jaki to prosty i pożyteczny parametr. Należy tylko uważać, żeby nie wpaść w pułapkę. Jeśli
nachylenie wynosi, tak jak w przykładzie, -10 dB/okt, a poziom 50 dB przy 1 kHz, to przy 2 kHz, owszem,
będziemy mieć poziom 40 dB, ale przy 1,5 kHz nie będzie to 45 dB. Musimy wszakże pamiętać, że cały czas
poruszamy się w skali logarytmicznej, a więc nie możemy w prosty sposób podzielić przedziału 1-2 kHz na
pół, tak jak to ma miejsce w skali liniowej. Połowa bowiem tego przedziału, czyli punkt na skali
częstotliwości, któremu będzie odpowiadać wartość 45 dB, leży w okolicach 1,316 kHz.
Najprostszy filtr składający się z kondensatora i rezystora tworzy filtr I-go rzędu. W zależności od konfiguracji
uzyskamy bądź to filtr dolnoprzepustowy, bądź górnoprzepustowy. Taki najprostszy filtr ma nachylenie -6
dB/okt. Chcąc więc np. uzyskać tłumienie filtra rzędu 30 dB będziemy potrzebowali na to pasma o
szerokości 5 oktaw, czyli np. od 250 Hz do 8 kHz.
Jakieś komentarze? Chyba zbyteczne - wnioski nasuwają się same. Dlatego tego typu filtry nie są
stosowane poza laboratoriami szkolnymi, kiedy trzeba przystępnie wytłumaczyć uczącej się młodzieży ideę
filtrów.
Kolejny rząd, drugi, to zwiększenie nachylenia o kolejne -6 dB/okt, w wyniku czego otrzymujemy filtry o
nachyleniu -12 dB/okt. No, już lepiej, w "ciągu" dwóch oktaw filtr stłumi sygnał o 24 dB, alet to też żadna
rewelacja.
Dlatego w urządzeniach profesjonalnych stosuje się filtry co najmniej III-go rzędu, a najchętniej IV-go, które,
jak łatwo obliczyć, zapewniają tłumienie -24 dB/okt. Ktoś powie - no, to zróbmy rząd...albo lepiej jeszcze
dwa, i dzięki temu będziemy mieć filtr z tłumieniem -36 dB/okt. Czyż to nie piękna wizja?
Fakt, wizja całkiem, całkiem - gorzej z jej realizacją. "Dorzucenie" kolejnego stopnia, zwłaszcza gdy jest to V
czy VI rząd, powoduje znaczne skomplikowanie układu. I nawet jeśli pominiemy już milczeniem fakt
lawinowego wzrostu ceny takiego urządzonka, to trzeba wziąć pod uwagę coraz większy problem z
utrzymaniem stabilności tak rozbudowanego układu.
Trzeba Ci bowiem wiedzieć, Drogi Czytelniku, że filtry tak wysokiego rzędu nie są układami biernymi,
złożonymi li tylko z cewek, kondensatorów i rezystorów. Tutaj już musi wkroczyć "wyższa szkoła jazdy" w
postaci układów aktywnych: tranzystorów, diod, układów scalonych. A jeśli taki układ traci stabilność, to
zamiast filtra mamy pięknie wzbudzony generator. Nie chcemy więc chyba, aby na koncercie pojawiły się
nam jakieś obce dźwięki, piski i wycia, nawet jeśli jest to koncert muzyki eksperymentalnej.
Zresztą pewnie i tak nic nie usłyszelibyśmy, gdyż wzbudzenia takie powstają głównie na częstotliwościach
ponadakustcznych, za to popaliłyby nam się bądź wzmacniacze, bądź głośniki wysokotonowe, a przy
odrobinie "szczęścia" jedno i drugie. No, chyba że jest to urządzenie z filtrami cyfrowymi, to sprawa ze
wzbudzaniem robi się nieaktualna.
Pojawiają się za to inne problemy, tak że nawet w filtrach cyfrowych nie osiągniemy "niewiadomojakiego"
nachylenia. Ale o tym była już mowa w artykułach z cyklu "Technika cyfrowa". Do tej pory cały czas
kręciliśmy się w temacie filtrów dolno- i górnoprzepustowych. A co z pasmowymi (zaporowymi)?
FILTRY PASMOWE
No cóż, w tym przypadku mamy dwa zbocza. Nachylenie charakterystyki tłumienia jest tutaj również
niezbędnym parametrem. Teoretycznie dla każdego zbocza mogłyby być to różne nachylenia, i faktycznie
tego typu filtry (nazwane Mesa) wykorzystuje firma Lake w swoich procesorach głośnikowych - o czym
pisaliśmy w poprzednim numerze LSI.
W praktyce jednak najczęściej zarówno zbocze narastające, jak i opadające ma to samo nachylenie. Gorzej
z częstotliwością graniczną. Można to rozwiązać podając dwie częstotliwości: dolną fd i górną fg. W tym
przypadku również stosuje się kryterium spadku charakterystyki o 3 dB dla określenia tych częstotliwości.
Częściej jednak spotyka się inne rozwiązanie. Podaje się częstotliwość środkową (jeśli filtry te są
symetryczne) oraz szerokość pasma przepustowego (lub zaporowego w filtrach zaporowych).
W tym przypadku dla określenia tej szerokości również stosuje się kryterium trzydecybelowe, czyli szerokość
pasma jest to różnica częstotliwości górnej i dolnej mierzonej w punktach, w których charakterystyka osiąga
wartość -3 dB poniżej ustalonej wartości (np. 0 dB).
Szerokość pasma podaje się w oktawach (wtedy im większa wartość, tym szersze pasmo filtru) lub w
wartościach Q (dobroci), będących odwrotnością oktawy (wtedy odwrotnie, szerokość pasma zwiększa się
wraz ze zmniejszaniem parametru, nawet do wartości ułamkowych, tak że wartość Q = 0,5 odpowiada
szerokości dwóch oktaw, a Q = 4 odpowiada ¼ oktawy).
Oczywiście, możemy jeszcze regulować tłumienie filtru, czyli o ile dB chcemy wyciszyć dany fragment
pasma częstotliwości, który będzie obejmował nasz filtr (należy wszakże pamiętać o paśmie przejściowym w
okolicach częstotliwości granicznych, którego szerokość, jak pamiętamy, zależy od nachylenia).
KOMPRESOR
To jeden z najczęściej używanych procesorów z grupy „dynamików”, zarówno w studiu nagrań, przy
rejestracji poszczególnych śladów, ich obróbce oraz w procesie masteringu całości zgranego materiału, jak i
w trakcie nagłaśniania koncertów. Bez nich też w zasadzie nie może się obejść żadne profesjonalne studio
emisyjne każdej szanującej się rozgłośni radiowej (a także studio TV), z tym że tam bardziej popularny jest
jego „kuzyn”, kompresor pasmowy. Ale i dla „zwykłego” też miejsce się znajduje. O kompresorze pasmowym
w kolejnym numerze, teraz zajmijmy się kompresorem w jego podstawowej wersji.
Kompresor jest to więc wzmacniacz (tak, tak – z punktu widzenia jego budowy czy też zasady działania)
charakteryzujący się wzmocnieniem jednostkowym (czyli przenoszący sygnał bez jakiejkolwiek zmiany) w
sytuacji, gdy poziom sygnału wejściowego jest niższy od ustalonego progu kompresji (threshold). Sygnały
przekraczające ten zadany próg kompresji są odpowiednio mniej wzmacniane, w proporcji odpowiadającej
współczynnikowi kompresji (ratio).
I tak dla przykładu, w sytuacji gdy mamy parametr threshold ustawiony w pozycji -10 dB, a ratio 2:1, wtedy
przyrostowi sygnału wejściowego powyżej wartości -10 dB o 2 dB odpowiada przyrost o 1 dB na wyjściu
urządzenia. Z innej strony, aby poziom sygnału na wyjściu mógł wzrosnąć o 2 dB, poziom wejściowy musi
wzrosnąć o 4 dB, oczywiście w zakresie poziomów sygnału wejściowego powyżej wartości -10 dB.
Charakterystyka statyczna kompresora o takich zadanych parametrach przedstawiona jest na rysunku 1.
Możemy też zauważyć tam inny przypadek, odpowiadający wartościom parametrów: threshold -5 dB, ratio
4:1. Przejście z zakresu charakterystyki wzmocnienia jednostkowego w zakres charakterystyki wzmocnienia
„czynnej”, czyli powyżej progu threshold, może odbywać się w sposób ostry lub stopniowy, czyli „miękki”.
Mówimy wtedy, że kompresor pracuje z kolanem (knee) twardym (hard) lub miękkim (soft) charakterystyki. W
prostszych urządzeniach stosuje się przypadek pierwszy (widoczny na rysunku 1). W bardziej
rozbudowanych istnieje możliwość przełączania tej funkcji pomiędzy hard i soft (rysunek 2). Zastosowanie
kolana soft spowoduje mniejszą słyszalność zniekształceń liniowych wywołanych pracą kompresora.
Znamy już dwa podstawowe parametry określające pracę kompresora: próg zadziałania, czyli threshold, i
współczynnik kompresji – ratio. Następny z nich to wzmocnienie sygnału, czyli gain. W tym przypadku chodzi
o całościowe wzmocnienie sygnału na wyjściu procesora. Wynika to z prostego faktu: kompresor w czasie
pracy powoduje zmniejszenie dynamiki sygnału, czyli jego „ściśnięcie”, ale przez to zmniejsza nam się
wysterowanie. Zakres zmian jego poziomu nie odbywa się już w pełnym zakresie, a ponieważ generalną
zasadą pracy z dźwiękiem jest praca z możliwie maksymalnym wysterowaniem (z marginesem na
przesterowanie), więc musimy sygnał wzmocnić, korzystając właśnie z „gałki” gain. Aby nie przesadzić
pomocny będzie nam w tym wskaźnik redukcji sygnału, w który zasadniczo każdy „szanujący się” kompresor
wyposażony być powinien. Dzięki temu osiągnęliśmy nie tylko zmniejszenie dynamiki sygnału (czyli różnicy
między najgłośniejszymi i najcichszymi dźwiękami), ale też udało nam się zwiększyć średni poziom głośności
obrabianego sygnału (instrumentu).
PARAMETRY CZASOWE
Pozostały nam jeszcze dwa parametry, które z pozoru mają niewielki wpływ na dynamikę, a jednak.... Są to
parametry czasowe: czas ataku (attack) i uwolnienia lub wybrzmiewania (release). Pierwszy z nich określa
czas, jaki upłynie od momentu przekroczenia przez sygnał progu zadziałania do momentu zadziałania
układu redukcji wzmocnienia tegoż sygnału i zasadniczo zawiera się w zakresie od 0 do kilkunastu
milisekund (ms), aczkolwiek w urządzeniach cyfrowych, zwłaszcza w formie plugginów, możemy spotkać się
w funkcją attack o parametrach ujemnych. Oznacza to, że procesor zaczyna redukować wzmocnienie
jeszcze przed pojawieniem się sygnału przekraczającego próg zadziałania threshold. Drugi z nich zaś
określa czas, po upływie którego układ znów zacznie pracować ze wzmocnieniem jednostkowym od
momentu obniżenia się poziomu sygnału poniżej zadanego progu, inaczej czas kiedy kompresor „puści”, a
wartość jego mieści się przeważnie w zakresie od 0,1 do kilku sekund (rysunek 3).
Jak się okazuje, nieprawidłowe ustawienie tych parametrów może zniszczyć całą misterną pracę nad
odpowiednim ustawieniem parametrów threshold i ratio. Zbyt długi czas ataku może spowodować
przepuszczenie transjentów wejściowych, które z kolei mogą spowodować przesterowanie sygnału po
wzmocnieniu. Zbyt krótki czas ataku spowoduje nagły spadek wzmocnienia i sytuację, w której zmiany
wzmocnienia nie będą odpowiadały zmianom głośności. W zależności od rodzaju obrabianego sygnału
dźwiękowego czas ataku będzie się zmieniał, zasadniczo jednak mieści się on w zakresie 0,1-50 ms.
Również nieodpowiednie ustawienie parametrów dynamicznych i czasu zaniku może przynieść
„niepowetowane” szkody. Przy zbyt dużych ustawieniach stopnia kompresji, rzędu 8:1 lub większych, oprócz
spłaszczenia dźwięku i pozbawienia go naturalnej żywotności możemy spotkać się ze zjawiskiem
„oddychania”, czyli „breathing”. Polega ono na podnoszeniu i opadaniu poziomu tła wraz z przebiegiem
sygnału. Jest to najlepiej słyszalne w przerwach między frazami bądź wyrazami. Aby zlikwidować ten efekt,
wystarczy podnieść próg kompresji, zwiększyć czas zaniku release, a najlepiej zrobić jedno i drugie. Jeśli
natomiast w wyniku ustawień parametrów kompresora uzyskujemy niepożądany efekt pompowania dźwięku,
polegający na tym, że sygnały poniżej ustawionego progu kompresji zmniejszają swój poziom w miksie, a
następnie powoli zwiększają do normalnego poziomu, to jest to spowodowane zbyt długim czasem zaniku,
dlatego zmniejszenie parametru release powinno pomóc.
OD CZEGO ZACZĄĆ
Zaczynając pracę z kompresorem ustawmy parametry w sposób następujący: threshold – 0 dB, ratio – 2,5 :
1, attack – 10 ms, release – 150 ms, a gain na 0 dB. Teraz zmniejszamy próg kompresji threshold, aż do
momentu kiedy usłyszymy w sposób wyraźny zmiany dynamiki wprowadzane przez kompresor (pomocny
też będzie wskaźnik poziomu kompresji). Jeśli efekty są nadal niezadowalające, zaczynamy „kręcić gałami”.
Zasadniczo próg kompresji powinien zawierać się w zakresie od -5 dB do -20 dB, ale oczywiście, w pewnych
sytuacjach, może to być inna, dowolna wartość.
Podstawowe zasady przy pracy z kompresorem:
– po pierwsze – zastanów się, czy w ogóle potrzebujesz kompresji,
– po drugie – jeśli już trzeba, to najpierw zastanów się, co chcesz poprzez użycie kompresora osiągnąć,
– po trzecie – stale porównuj sygnał po użyciu kompresji z dźwiękiem oryginalnym przed obróbką –
umożliwia to przycisk bypass lub wyłączenie efektu, jeśli jest to wtyczka programowa (lub również użycie
funkcji bypass),
– i po czwarte – pamiętaj, że kompresor z największego przyjaciela może przeistoczyć się w najgorszego
wroga, jeśli będziesz go używał w nadmiarze lub po prostu niewłaściwie.
A najważniejsze w tym wszystkim jest, aby przede wszystkim korzystać ze swoich uszu, a nie sugerować się
„złotymi zasadami” typu: „na werbel najlepsze jest ustawienie....”, „wokal trzeba kompresować nie więcej
niż...” itp. Oczywiście, dobrze jest słuchać rad doświadczonych kolegów i można też od tak zasugerowanych
ustawień zaczynać – zwłaszcza jeśli nie ma się jeszcze zbyt dużego doświadczenia w pracy z kompresorem.
Nie trzeba tego jednak traktować jak wyroczni i dobrze jest czasem poeksperymentować (byle nie już w
trakcie koncertu!) – najważniejsze, żeby nie zepsuć tego, co dobre, a więc aby dźwięk po naszej „obróbce”
nie brzmiał gorzej, niż gdybyśmy nic z nim nie zrobili.
LIMITER
To bardzo bliski kolega, a nawet można rzec – mutacja kompresora. Bo tak naprawdę limiter to kompresor,
tylko z pewnym stałym, konkretnym ustawieniem współczynnika kompresji. W zasadzie o limiterze mówimy
już, gdy ratio ma wartość większą niż 10:1. Jednakże standardowo limitery pracują ze współczynnikiem
kompresji co najmniej 40:1, a nierzadko równym ?:1. Oznacza to w praktyce, że po przekroczeniu progu
zadziałania threshold sygnał na wyjściu już nie wzrasta, bez względu na to jaką wartość ma sygnał na
wejściu. Również czasy ataku i uwolnienia stosuje się krótkie: attack w zakresie 0-1 ms, release 20-25 ms.
Pozwala to na pracę tylko z ostrymi, krótkimi szczytami sygnałów i ich redukcję, gdyż takie jest zasadniczo
przeznaczenie limiterów – ochrona przed przesterowaniem przez ostre piki sygnału i redukcja takich
„strzelistych”, ale krótkich transjentów, bez wpływu na zasadniczą „treść” materiału dźwiękowego. Tak
oczywiście jest w prostszych konstrukcjach, w których regulujemy tylko parametry threshold i gain. W
limiterach bardziej rozbudowanych, a także tych w formie plugginów, możemy mieć wpływ zarówno na
parametry dynamiczne (threshold, gain), jak i czasowe (attack, release). Charakterystykę statyczną limitera
przedstawia rysunek 4, wartość threshold -10 dB.
Kiedy będziemy używać kompresora, a kiedy lepiej zastosować limiter? Z powodu znacznej różnicy w
wartości współczynnika kompresji, z jakimi pracują kompresor i limiter, kompresor może być włączony przy
znacznie niższych wartościach progu zadziałania threshold i działać, zachowując żywotność sygnału.
Dlatego kompresor stosuje się w celu wpływania na większy zakres dynamiki sygnału, podczas gdy limiter
pracuje tylko na szczytach. I tak np. gdy chcemy „zlikwidować” duże piki sygnału, aby w ten sposób podnieść
poziom średni, użyjemy limitera, a jeśli chcemy uzyskać bardziej „stabilny” poziom średni bez znaczącej
redukcji transjentów, użyjemy kompresora. Jeśli chcemy uwypuklić brzmienie cichszych instrumentów,
również i w tym przypadku kompresor będzie nam bardziej pomocny od limitera. Jeśli jednak chcesz
zachować pierwotną, ogólną dynamikę, a „zaplątały” się dwa lub trzy ostre piki – włącz limiter.
KOMPRESOR PASMOWY
Jest to „potężne” (w sensie oferowanych możliwości) urządzenie, pozwalające na kreowanie brzmienia w
sposób o wiele bardziej wyrafinowany, niż za pomocą zwykłego kompresora. Za jego pomocą, oprócz
wpływania na dynamikę poszczególnych części pasma, możemy również dokonywać korekcji brzmienia
danych pasm częstotliwościowych. Na czym polega idea kompresora pasmowego? Jest to urządzenie
wprowadzające zmiany poziomu sygnału i jego dynamiki w ramach określonego pasma częstotliwości. W
korektorze pasmowym, oprócz parametrów charakterystycznych dla zwykłego kompresora (threshold, ratio,
attack, release), dysponujemy jeszcze regulacją parametrów znanych z korektora parametrycznego
(częstotliwość środkowa pasma, wzmocnienie lub osłabienie, dobroć filtru, czyli szerokość pasma, a także
przełączenia skrajnych pasm pomiędzy rodzajem korekcji: półkową lub pasmową). Oczywiście, nie w
każdym kompresorze pasmowym (multi-band dynamic) te parametry muszą być, to zależy od złożoności
danego urządzenia.
Praca z kompresorem pasmowym nie jest bynajmniej łatwa, trzeba przede wszystkim wiedzieć, co chce się
uzyskać, gdyż ustawianie parametrów na „łapu-capu” może przynieść więcej szkody, niż pożytku. W takim
przypadku lepiej w ogóle nie stosować kompresji lub dokonać tego za pomocą zwykłego kompresora. Dla
tych, którzy jednak chcą spróbować „powalczyć”, garść informacji, które mogą być przydatne.
Przy ustawianiu parametrów kompresji obowiązują takie same zasady, jak w przypadku zwykłego
kompresora. Warto zacząć od progu kompresji ok. -6 dB, ratio 2,5:1 i czasów attack 10 ms i release 150 ms.
Jak natomiast używać poszczególnych pasm?
– jeśli chcemy zająć się samym dołem pasma, np. uzyskać bardziej „ściśnięty” bas, powinniśmy pracować w
paśmie poniżej 200 Hz (można ustawić korekcję półkową) i pracować z dość niskim ustawieniem parametru
threshold, tak aby kompresja była włączona prawie cały czas,
– jeśli chcemy dodać dynamizmu, czyli przysłowiowego „kopa”, ustawmy współczynnik kompresji na 3:1 w
paśmie 200-800 Hz, ustawiając threshold w takim położeniu, aby kompresor włączał się stosunkowo często,
ale nie „gniótł” sygnału przez cały czas,
– dokonując odpowiedniej, delikatnej obróbki pasma leżącego w zakresie 1-4 kHz możemy uzyskać większą
wyrazistość brzmienia wokalu lub instrumentów typu gitara, trąbką, saksofon bądź inne. Stosując na
początek ratio 3:1 i próg zadziałania nieco poniżej takiego, w którym kompresja włączałaby się rzadko,
możemy wpływać właśnie na ostrość czy wyrazistość brzmienia materiału,
– jasność brzmienia regulujemy w paśmie 4-9 kHz. W tym paśmie często występuje problem z dźwiękami
syczącymi. Delikatna kompresja, rzędu 2:1, pozwoli zlikwidować te „nieprzyjemności”,
– skrajnie wysokie częstotliwości, zawarte pomiędzy 9 a 14 kHz, są odpowiedzialne za jaskrawość
brzmienia.
Zwiększenie wzmocnienia w tym paśmie podkreśli detale typu hi-hat, shakery, maracasy i inne. Z kolei
redukcja wzmocnienia wygładzi „chropowatość” brzmienia, ale i spowoduje ciemniejsze brzmienie miksu.
Zazwyczaj stosuje się tu mały współczynnik kompresji (rzędu 2:1-2,5:1), pracując na stosunkowo wysokich
poziomach threshold. Po tych wszystkich zabiegach nie można zapomnieć dokonać odpowiedniej korekty
parametru gain, tak aby sygnał całościowo nie stracił swego wysterowania.
Technika cyfrowa - przetwarzanie analogowo-cyfrowe. Próbkowanie
Dodano: środa, 19 stycznia 2011
Jak już pisałem w poprzednim, pierwszym artykule z cyklu „Technika cyfrowa”, innym językiem posługujemy
się my, a innym komputer. Dla komputera istotnym i rozpoznawalnym jest ciąg zer i jedynek, czyli sygnał
cyfrowy. Pierwszym krokiem do przetworzenia „zwykłego” sygnału ciągłego na sygnał cyfrowy jest proces,
który nosi nazwę... próbkowanie.
PRÓBKOWANIE
Jest to proces odwracalny (to bardzo istotne stwierdzenie, o czym powiemy sobie nieco dalej), polegający
na zamianie sygnału ciągłego o czasie ciągłym na ciąg próbek odpowiadający wartościom sygnału ciągłego
odczytywanych w określonych, z góry ustalonych chwilach czasu. Z matematycznego punktu widzenia
sygnał spróbkowany fs(t) jest iloczynem sygnału oryginalnego f(t) i funkcji próbkującej s(t):
W idealnym przypadku pobieranie próbek odbywa się w nieskończenie krótkim okresie czasu. Wtedy funkcja
próbkująca ma postać delty δ(t). Natomiast transformata Fouriera (czyli widmo) sygnału spróbkowanego
wyraża się wzorem:
Dla tych, którym powyższy wzór mówi tyle, co testament Montezumy w oryginalnej wersji językowej podam,
że podstawowemu widmu, które rozciąga się w zakresie od -ωM. do ωM., towarzyszą jego repliki wokół
wielokrotności pulsacji próbkowania, co pokazuje rysunek 1. Na rysunku 1a mamy pokazane widmo sygnału
ciągłego. Z chwilą kiedy taki sygnał jest reprezentowany poprzez ciąg wartości próbek dyskretnych, jego
widmo przyjmuje postać powielaną, taką jak na rysunku 1b. I tak ma się cała sprawa z próbkowaniem,
przynajmniej w teorii. Prawda, że proste?
ALIASING
Jak już wspomniałem sygnał spróbkowany jest w 100% odwracalny, pod warunkiem, że nie występują w
trakcie przetwarzania błędy. A niestety występują i możemy je podzielić na takie, których możemy się ustrzec
i takie, których do końca nie jesteśmy w stanie wyeliminować (możemy je jedynie minimalizować). Do tych
pierwszych zaliczyć możemy zjawisko aliasingu. Jeśli zapytamy kogoś „z branży”, co to jest aliasing, to na
90% odpowie, że jest to nakładanie się widm. I jest to fakt bezsporny, co bardzo dobrze uwidacznia się jeśli
narysujemy to sobie na wykresie częstotliwościowym. Wiemy już, że próbkowanie powoduje powstawanie
kopii widma oddalonych od siebie o odległość równą częstotliwości próbkowania. Jeśli jednak będziemy
zmniejszać częstotliwość próbkowania, to w pewnym momencie dojdziemy do takiej sytuacji, w której widma
zaczną się stykać ze sobą. Dalsze zaś zmniejszanie tej częstotliwości spowoduje, że widma zaczną
nachodzić na siebie, powodując, że w tym zakresie wspólnym nie jesteśmy w stanie określić jaką wartość
przyjmie sygnał.
To jest właśnie aliasing, co doskonale widzimy na rysunku 2. Można też na to spojrzeć inaczej, od strony
czasowej. Jeśli mamy dane próbki, jak na rysunku 3a, i ktoś poprosi nas o wykreślenie pomiędzy nimi
przebiegu sinusoidalnego, to jeden wykreśli przebieg taki, jak narysowany grubszą linią na rysunku 3b, ale
ktoś inny może narysować ten przebieg w taki sposób, jak ten linią cieńszą.
Oznacza to, że nie możemy bez niejednoznaczności określić częstotliwości tego przebiegu jedynie na
podstawie wartości próbek, bez dodatkowych informacji. To tak jakby ktoś zapytał nas: „jeśli wynikiem
dodawania dwóch liczb jest liczba cztery, to jakie są te dwie liczby?” Ile ludzi, tyle może być par tych liczb.
Podobnie jest z próbkowaniem. Jeszcze jaśniejsze to się stanie, jeśli wrócimy znów do wykresów w funkcji
częstotliwości (rysunek 4) i zobaczymy, że dany ciąg próbek może odpowiadać częstotliwości zarówno 1
kHz albo 7 kHz, ale też i 13 kHz, 19 kHz itd. Aby pozbyć się takich niejednoznaczności, a także uniknąć
nakładania się widm, musimy określić jaki zakres częstotliwości nas interesuje, czyli zastosować filtrację
dolnoprzepustową.
Filtr taki nosi nazwę filtru antyaliasingowego. Zgodnie więc z twierdzeniem o próbkowaniu, zwanym też
twierdzeniem Shanona-Kotielnikowa, częstotliwość próbkowania powinna być co najmniej dwa razy większa
od największej składowej widma sygnału przetwarzanego (często mówi się też o tzw. kryterium Nyquista,
mówiącym dokładnie to samo). Jeśli więc mamy do przetworzenia sygnał audio w zakresie słyszalnym dla
ludzi, czyli w paśmie od 20 Hz do 20 kHz, wystarczy że będziemy próbkować z częstotliwością 40 kHz (ale
zawsze lepiej mieć ten margines, żeby widma nie stykały się ze sobą, stąd np. popularna częstotliwość
próbkowania fs = 44,1 kHz), pod warunkiem wszakże, że wcześniej zastosujemy filtr antyaliasingowy,
obcinający nam pasmo przy 20 kHz. Ktoś mógłby zapytać: po co ten filtr, skoro i tak powyżej tego pasma nie
ma nic, co nas interesuje? Owszem, ale trzeba zwrócić uwagę, że próbkowanie powoduje powielanie widma,
a więc to, co nawet jest daleko, daleko poza pasmem nas interesującym i tak znajdzie się w paśmie
„roboczym”. Ilustruje to rysunek 5.
Aby więc temu zapobiec, należy wykorzystać układ jak na rysunku 6, co uchroni nas przed koniecznością
„delektowania” się szumami i innymi nieużytecznymi sygnałami, których przed procesem przetwarzania w
sygnale nie było.
INNE BŁĘDY PROCESU PRÓBKOWANIA
Cała teoria próbkowania doskonale się sprawdza jeśli wyjdziemy z założenia, że czas pobierania próbki jest
zerowy, co niestety nie jest zgodne z rzeczywistością. Zatem nie mamy do czynienia z ciągiem impulsów
delta o zerowym czasie trwania, tylko z falą prostokątną o niezerowym współczynniku wypełnienia. Na
powielenia widma sygnału będzie nakładać nam się widmo okna prostokątnego, które (o czym będzie
jeszcze mowa) ma postać funkcji sinc x. To powoduje powstawanie zniekształceń w wynikowym sygnale
cyfrowym. Zniekształcenia te nazywa się zniekształceniami apertury (niezerowego czasu pobierania próbki).
Skutki tego są, niestety, trudne do wyeliminowania, ponieważ nawet jeśli ograniczymy czas pobierania próbki
do minimum, to i tak konieczne jest „zamrożenie” sygnału w fazie pamiętania, co umożliwi prawidłową pracę
kwantyzera. Należy więc minimalizować ten czas przetwarzania sygnału przez konwerter analogowo-
cyfrowy, a poza tym skutkom tego błędu możemy przeciwdziałać, wprowadzając filtr korygujący
zniekształcenia typu sinc x.
Powstawanie i „efekt końcowy” zniekształceń apertury przedstawia Rysunek 7. Innym rodzajem błędów
próbkowania jest efekt niestabilności częstotliwości próbkowania, czyli tzw. jitter. W praktycznych układach
proces próbkowania jest synchronizowany zegarem kwarcowym, jednakże mogą wystąpić takie sytuacje (jak
np. stany przejściowe, związane z konwersją formatów), w których trzeba uwzględnić to zjawisko.
Słyszalnym efektem jittera jest wzrost szumów, nawet o kilka dB.
PRÓBKOWANIE SYGNAŁÓW DYSKRETNYCH
Zasadniczo próbkowanie kojarzy się ze zjawiskiem pobierania próbek z sygnału ciągłego w celu
przekształcenia go właśnie z sygnału ciągłego w dyskretny. Ale jest to tylko jedno z zastosowań
próbkowania. Można, a nawet trzeba, niekiedy przeprowadzić proces próbkowania sygnałów dyskretnych,
czyli już wcześniej spróbkowanych. Próbkowanie sygnałów dyskretnych wykorzystuje się np. w celu
zwiększenia stosunku sygnał-szum w paśmie użytecznym czy w konwersji standardów (konwersji
częstotliwości).
Mówiąc o próbkowaniu sygnałów dyskretnych mamy do czynienia z dwoma przypadkami: pierwszy – gdy
nowa częstotliwość próbkująca jest mniejsza od częstotliwości próbkowania sygnału pierwotnego, oraz drugi
– gdy nowa częstotliwość jest większa. W pierwszym przypadku mamy do czynienia ze zjawiskiem zwanym
decymacją sygnału. Decymacja to nic innego jak zmniejszenie ilości próbek w ciągu wynikowym. Osiągamy
to poprzez próbkowanie sygnału pierwotnego z częstotliwością niższą od pierwotnej, a praktycznie wygląda
to tak, że uzyskujemy sygnał w postaci próbek, które są równe próbkom oryginalnego sygnału w chwilach
czasu będących wielokrotnościami okresu próbkowania Ts. W pozostałych chwilach czasu sygnał będzie
przyjmował wartości zerowe (rysunek 8).
W przypadku decymacji mamy do czynienia ze zmniejszeniem fs, a to pociąga za sobą „przysuwanie” się
widm. Musimy więc zwrócić uwagę, aby nie nastąpił aliasing, czyli nie nastąpiło nałożenie się widm. Drugi z
omawianych wcześniej przypadków to
INTERPOLACJA SYGNAŁU
która jest wykorzystywana do zwiększenia częstotliwości próbkowania sygnału wynikowego w stosunku do
pierwotnego. W praktyce osiąga się to poprzez wstawienie pomiędzy próbki oryginalne próbek zerowych w
odstępach równych okresowi próbkowania Ts = 1/fs. Przedstawione jest to na rysunku 9.
Ze zjawiskiem interpolacji sygnału jest ściśle związane zagadnienie zwane
NADPRÓBKOWANIEM
lub, z angielska, oversamplingiem. Jest to taki proces próbkowania sygnałów dyskretnych, w wyniku którego
fs >> 2fM, czyli częstotliwość próbkowania znacznie przewyższa górną granicę częstotliwości widma
sygnału. Praktycznie wykonuje się to po przetworzeniu sygnału analogowego na cyfrowy (za pomocą
standardowego konwertera, np. 44,1 kHz), a następnie poddaniu takiego sygnału dyskretnego interpolacji,
czyli wstawieniu próbek zerowych z odpowiednim współczynnikiem interpolacji M. Współczynnik interpolacji
mówi nam ile razy zwiększyła się częstotliwość próbkowania w stosunku do pierwotnej, czyli w praktyce
liczba M-1 to ilość próbek zerowych wstawionych pomiędzy oryginalnymi. I
tak przykładowo: ośmiokrotny oversampling oznacza ośmiokrotne zwiększenie próbkowania, czyli
wstawienie siedmiu próbek zerowych pomiędzy dwie już istniejące. Oczywiście, samo wstawienie próbek
zerowych nic nie daje. Należy taki sygnał, ze wstawionymi próbkami zerowymi, „przepuścić” przez filtr
interpolacyjny, który dokona właśnie interpolacji, czyli wyliczenia próbek pośrednich pomiędzy tymi, które
mamy już dane. Czyli np. sygnał spróbkowany z częstotliwością 44,1 kHz z ośmiokrotnym oversamplingiem
będzie miał końcową częstotliwość próbkowania równą 352,8 kHz. Rodzi się pytanie, po co aż tak duże
wartości, skoro wystarczy nam spełnienie kryterium Nyquista, ewentualnie z małą nakładką? Jednym z
powodów jest złagodzenie wymagań w stosunku do stromości zboczy filtrów dolnoprzepustowych. Jeśli
stosujemy nadpróbkowanie widma „odsuwają” się od siebie, dzięki czemu nie musimy stosować trudnego do
zrealizowania filtru o niemal prostopadłych zboczach, lecz zastosować taki, który ma o wiele łagodniejsze
zbocza, a który nie przysporzy nam tyle problemów przy jego realizacji.
Na rysunku 10a mamy przedstawiony sygnał próbkowany z częstotliwością fs oraz wymagany w takim
przypadku filtr dolnoprzepustowy, zaś na rysunku 10b sygnał próbkowany z częstotliwością 4fs (czyli
przetworzony z postaci analogowej na cyfrową z częstotliwością fs i poddany czterokrotnemu
oversamplingowi) i potrzebny w tym przypadku filtr.
STANDARDY PRÓBKOWANIA
Zasadniczo każdy może sobie próbkować sygnał analogowy z dowolną, odpowiadającą mu częstotliwością
próbkowania. Jednakże, jak prawie w każdej dziedzinie, tak i w tej, żeby ułatwić (albo i utrudnić) życie innym
wprowadzono pewne standardy dotyczące częstotliwości próbkowania sygnałów, które są respektowane na
całym świecie. Na dobór częstotliwości próbkowania mają wpływ m.in. złożoność filtru antyaliasingowego i
kompatybilność ze standardami telewizyjnymi i filmowymi Wciąż chyba do najpopularniejszych (co nie
znaczy, że najlepszych) należy częstotliwość próbkowania 44,1 kHz. Umożliwia ona uzyskanie pasma
użytecznego o szerokości do 20 kHz i daje ok. 10% margines na zbocze filtru antyaliasingowego.
Pytanie, skąd taka dziwna liczba, dlaczego nie np. 44 kHz albo 45 kHz? Otóż swoje źródło ma ona w
kodowaniu sygnału TV, związane z wymogiem zgodności z tymi standardami. Obowiązujące na świecie
standardy kodowania to NTSC (USA) oraz PAL/SECAM (Europa). Żeby obliczyć częstotliwość próbkowania,
trzeba „wrzucić” do wzoru wartość częstotliwości odchylania poziomego, liczbę linii przypadających na
ramkę obrazu i liczbę linii dodatkowych w ramce, odpowiednie dla danego standardu TV, a wtedy
„wyciągniemy” z owego wzoru takie oto wyniki: częstotliwość próbkowania fs dla systemu NTSC wynoszącą
44,056 kHz, a dla PAL/SECAM – 44,1 kHz. I tak zrodził się nasz „dziwoląg”. Oprócz niej obecnie standardem
staje się częstotliwość 48 kHz, coraz częściej wypierana przez standard 96 kHz, a czasem 88,2 kHz. Jadąc
„w dół” napotkamy standard 32 kHz oraz niższe częstotliwości, jak np. 22 kHz, 16 kHz czy 8 kHz, dawnej
stosowane w telefonii, a obecnie raczej już będące archaizmem.
REKONSTRUKCJA SYGNAŁU SPRÓBKOWANEGO
Teraz spróbujmy sobie odpowiedzieć, co zrobić, żeby sygnał będący ciągiem pojedynczych próbek znów
przełożyć na bardziej „jadalny” język, czyli sygnał ciągły. Na początek trzeba dobitnie stwierdzić, że sygnał
spróbkowany jest w 100% rekonstruowalny na postać ciągłą, pod tym wszakże warunkiem, że nie
występowałyby opisane wcześniej błędy próbkowania. Aby zrekonstruować sygnał z ciągu próbek,
wystarczyłoby teoretycznie odfiltrować spróbkowany sygnał za pomocą filtru o charakterystyce równej 1 w
paśmie przepustowym oraz 0 poza nim (rysunek 11).
Niestety, taki „prostokątny” filtr nie jest realizowalny praktycznie. Operacja ta spowodowałaby interpolację
przebiegu czasowego sygnału w obszarze między próbkami za pomocą funkcji sinc x. Funkcja sinc x jest
bardzo ciekawą funkcją, zatrzymajmy się więc na moment nad nią. Funkcja sinc x wyraża się następującym
wzorem: sinc x = (sin x)/x „Wygląd” tej funkcji, czyli jej przebieg w dziedzinie czasu, przedstawia rysunek
12a, a jej widmo rysunek 12b.
Zauważmy, że widmem funkcji sinc x jest funkcja prostokątna i odwrotnie, widmem funkcji prostokątnej jest
funkcja sinc x. Powróćmy jednak do sedna sprawy, czyli do naszej metody interpolacji. Wykorzystuje ona
fakt, że widmo funkcji sinc x jest oknem (inaczej funkcją) prostokątną. Jeśli więc dokonamy operacji splotu
naszego przebiegu spróbkowanego z funkcją sinc x, otrzymamy zrekonstruowany sygnał, dokładnie
odpowiadający sygnałowi przed próbkowaniem. Na czym polega operacja splotu?
W bardzo dużym skrócie – operacja splotu polega na dodawaniu przemnożonych przez wartość bieżącej
próbki i przesuniętych o kolejne okresy próbkowania kopii funkcji sinc ?M, co pokazuje nam rysunek 13, a
całą operację „odzyskiwania” sygnału za pomocą tej metody, w funkcji czasu i w funkcji częstotliwości –
rysunek 14.
No, i wszystko wydawałoby się „cacy”, gdyby nie to, że funkcja sinc ? M jest funkcją nieprzyczynową, co
oznacza, że w praktyce jest ona nierealizowalna (nieprzyczynowość oznacza, że funkcja jest określona
przed chwilą t = 0, czyli dla czasu ujemnego, dlatego nie może być zrealizowana). W praktyce więc
zastępuje się tę idealną funkcję sinc x funkcją, która jest określona dla czasu t => 0. Pociąga to za sobą
powstawanie nieliniowości charakterystyki fazowej, która jednakże może być kompensowana za pomocą
specjalnych filtrów wszechprzepustowych. Dodatkowo, na szczęście, te zniekształcenia fazowe nie są
wyraźnie słyszalne. Innym „haczkiem”, który powoduje pewne zniekształcenia sygnału wyjściowego z
przetwornika cyfrowo-analogowego (który poprzedza nasz filtr rekonstrukcyjny), jest to, że sygnał nie
zmienia się skokowo, co powoduje powstawanie charakterystycznych zniekształceń, zwanych efektem
Gibbsa. Przejawia się to zafalowaniami w chwili, gdy sygnał gwałtownie zmienia swoją wartość. Poza tym
występuje opóźnienie narastania odpowiedzi (rysunek 15).
Efekty te mogą być już bardziej słyszalne, niż zniekształcenia wynikające z nieliniowej charakterystyki
fazowej filtru. Aby temu zapobiec, bezpośrednio za konwerterem cyfrowo-analogowym stosuje się
dodatkowy układ próbkująco-pamiętający, który pełni rolę bramki impulsowej. Na jego wyjściu otrzymuje się
„zregenerowane” impulsy o kształcie prostokątnym.
PODSUMUJMY
Próbkowanie jest to (teoretycznie) odwracalny proces, polegający na pobieraniu w nieskończenie krótkim
czasie (znów w teorii) próbek sygnału z określoną częstotliwością. Próbkowanie jest jedną z operacji
mających na celu zamianę sygnału analogowego na cyfrowy. Jest ono często poprzedzane filtracją, mającą
na celu uniknięcie nakładania się widm, co jest jednym z błędów próbkowania. Nakładanie się widm wynika z
niezachowania kryterium Nyquista, mówiącego o tym, że aby sygnał analogowy był spróbkowany bez
zniekształceń, wystarczy próbkować go z częstotliwością będącą podwojoną wartością częstotliwości górnej
pasma sygnału przetwarzanego.
Inne błędy, jakie występują przy próbkowaniu to: jitter – wynikający z niestabilności zegara taktującego, oraz
błąd apertury – spowodowany niezerowym czasem pobierania próbek. Jeśli weźmiemy pod uwagę
występujące w procesie błędy, próbkowanie przestaje być w 100% odwracalne, gdyż sygnał „odzyskany”,
czyli przetworzony z powrotem na analogowy, nie będzie dokładnie odpowiadał sygnałowi oryginalnemu.
Rekonstrukcja sygnału spróbkowanego odbywa się (teoretycznie) poprzez przepuszczenie sygnału przez filtr
dolnoprzepustowy, który odfiltruje nam repliki widma sygnału analogowego, powstałe w wyniku
spróbkowania tego sygnału. Istnieje również możliwość próbkowania sygnałów dyskretnych oraz konwersja,
czyli zamiana częstotliwości próbkowania.
Technika cyfrowa - przetwarzanie analogowo-cyfrowe. Kwantowanie
Dodano: wtorek, 15 marca 2011
Jak pamiętamy z artykułu o próbkowaniu, mamy już sygnał, który ma pewne wartości w określonych
chwilach czasu. Jednakże sygnał taki może w dalszym ciągu przyjmować nieskończenie wiele wartości z
danego zakresu, czyli trudno byłoby go nam opisać za pomocą sygnału cyfrowego, który ma skończony
zbiór wartości, jakie może przyjmować.
Trzeba więc nasz spróbkowany sygnał przyporządkować do jednego z przedziałów kwantowania, na które
zostaje podzielony pełny zakres przetwarzania. Pomówimy więc w tym artykule o
KWANTOWANIU
Już na samym wstępie trzeba powiedzieć, iż o ile – przynajmniej w teorii – próbkowanie było procesem w
pełni odwracalnym, o tyle kwantowanie już z definicji takowym nie jest. W wyniku tego procesu powstaje
bowiem błąd, ponieważ pewnej liczbie x(n) na wyjściu konwertera odpowiada wiele wartości z przedziału x1
±q/2 (q – wielkość przedziału kwantowania). Najwcześniejszą i do niedawna najpopularniejszą metodą
kwantowania była zaproponowana przez Widrowa metoda kwantowania równomiernego, popularnie zwana
modulacją kodowo-impulsową (PCM). Polega ona na podzieleniu całego zakresu, w jakim może zmieniać
się sygnał wejściowy, na k równomiernie rozłożonych przedziałów kwantowania o stałych szerokościach
(rysunek 1). Jeśli n bitów jest przeznaczonych do reprezentowania każdej wartości próbki, wtedy całkowita
liczba reprezentowanych wartości sygnału wynosi:
zaś zakres dynamiczny, wyrażony w mierze logarytmicznej, określa zależność:
Widzimy więc, że kwantowanie „degraduje” sygnał na tyle, że nie jest możliwa jego idealna rekonstrukcja.
Sygnał skwantowany przybiera postać schodkową, co powoduje pojawienie się wyższych harmonicznych w
sygnale, które teoretycznie powinny być usunięte w procesie rekonstrukcji. W praktyce jest tak, że składowe
te tworzą produkty intermodulacji, będące źródłem zniekształceń nieliniowych. Ogólnie błędy kwantyzacji
mogą być zamodelowane jako źródło szumu dodawanego do sygnału. Dla przyjętego modelu szumu wzór
na stosunek sygnału do szumu S/N przybiera postać:
Zależność jest powszechnie stosowana do określania teoretycznego zakresu dynamiki konwertera PCM.
Istotną sprawą jest fakt, że wielkość zniekształceń zależy w znacznym stopniu od stosunku bieżącego
poziomu sygnału do maksymalnego zakresu przetwarzania. Dla przykładu, dla kwantyzera 16-bitowego
(n=16, czyli zakres przetwarzania 97,8 dB) sygnał o poziomie -80 dB względem poziomu maksymalnego
spowoduje powstawanie zniekształceń równych ok. 1,5 %. Jest to zrozumiałe, jeśli zauważymy, że przy
dużym zakresie konwertera i wykorzystaniu tylko kilku procent tego zakresu mamy do czynienia z takim
samym przypadkiem, jak byśmy przetwarzali ten sam sygnał, ale w konwerterze dajmy na to 6 bitowym.
Oczywiste jest, że przy mniejszej liczbie bitów (a więc i przedziałów kwantowania) szerokość tych
przedziałów jest o wiele większa, a więc i dokładność przetwarzania maleje. Należy dążyć do możliwie
największego wysterowania przetwornika A/C, czyli takiej sytuacji, gdy maksymalna wartość sygnału
„zajmuje” prawie cały zakres przetwornika.
Równie niewskazanym, jak niedosterowanie, a nawet jeszcze mniej przyjemnym zjawiskiem, jest
przesterowanie przetwornika, tj. podanie takiego sygnału, który byłby większy od maksymalnego zakresy
przetwarzania. W przeciwieństwie do przesterowania urządzenia analogowego, gdzie niewielkie
przesterowanie jest w praktyce niesłyszalne lub słabo słyszalne, nawet niewielkie przekroczenie zakresu
maksymalnego spowoduje wygenerowanie sygnału, który może niewiele mieć wspólnego z tym faktycznym
na wejściu (w „analogu” będzie to sygnał co prawda zniekształcony, ale wciąż skorelowany z oryginałem).
SPOSOBY KWANTOWANIA SYGNAŁU
Stosuje się dwa sposoby kwantowania, czyli przyporządkowania wartości rzeczywistych sygnału wartościom
dyskretnym: poprzez zaokrąglanie lub poprzez obcinanie. Najczęściej stosowaną operacją, umożliwiającą
zapis liczb na skończonej ilości bitów, jest zaokrąglanie. Polega ono na wyborze najbliższego poziomu
kwantowania według zasady matematycznej: x 0,5 – zaokrąglenie „w górę”, x = 0,5 – zaokrąglenie do liczby
parzystej (rysunek 2a). W drugim przypadku mamy do czynienia z operacją obcinania najmłodszego bitu
(rysunek 2b). Wzrost szumów spowodowany zaokrąglaniem i obcinaniem liczb można traktować podobnie
jak szum kwantyzacji.
KWANTYZACJA RÓŻNICOWA
W sytuacji gdy mamy do czynienia z większymi częstotliwościami próbkowania i dużą rozdzielczością bitową
(np. 24 bity), tradycyjna metoda PCM nie sprawdza się zbyt dobrze. W takim przypadku możemy skorzystać
z innych metod, do których należy metoda różnicowa. Głównym założeniem jej jest to, że kwantyzacji
poddaje się nie bezpośrednio wartości próbek, lecz różnicę pomiędzy dwiema kolejnymi próbkami. Pozwala
to na ograniczenie liczby bitów potrzebnych do zapisania sygnału bez dużych zniekształceń i błędów. Jest to
możliwe dzięki zaobserwowaniu zjawiska polegającego na tym, że składowe widmowe sygnału audio o
małych częstotliwościach (które przenoszą znaczną cześć energii sygnałów), choć mogą mieć dużą
amplitudę, to jednak ich pochodna jest bardzo mała. Co to dla nas oznacza? Ano to, że składowe te
charakteryzują się wolno narastającymi i opadającymi zboczami.
Rysunek 3 przedstawia schemat ideowy systemu konwersji różnicowej (koder razem z dekoderem). W
koderze, po układzie próbkującym mamy urządzenie dokonujące odejmowania próbki bieżącej i opóźnionej,
a następnie kwantyzator tej różnicy. Sygnał po kwantyzacji jest zamieniany na postać analogową i dodawany
do poprzedniej wartości sygnału. Dzięki kwantyzacji różnicowej następuje dość znaczna poprawa stosunku
sygnał/szum, jednakże należy ograniczyć jej stosowanie do sygnałów, w których dominują składowe widma
o niższych częstotliwościach (w przypadku np. dźwięków perkusyjnych dokładność kwantyzera różnicowego
może nie być zadowalająca). Zwiększając częstotliwość próbkowania zmniejszamy błąd, gdyż maleje nam
krok kwantyzacji, a dzięki temu amplituda sygnału w poszczególnych krokach kwantyzacji nie zmienia się
zbyt gwałtownie.
KONWERSJA JEDNOBITOWA
Konwersja jednobitowa, zwana również konwersją delta, przypomina nieco różnicową, z tym że w tym
przypadku nie dokonujemy kwantyzacji różnicy pomiędzy kolejnymi próbkami. W konwersji jednobitowej ta
różnica jest stała i może wynosić +1 albo -1. Sygnał analogowy jest w tym przypadku zamieniany na ciąg
próbek, z częstotliwością znacznie przekraczającą częstotliwość Nyquista. W każdym okresie próbkowania
jest obliczany sygnał błędu – w przypadku gdy jest on dodatni, impuls jest dodawany do sygnału, w sytuacji
gdy błąd jest ujemny – odejmowany. Dzięki temu uzyskujemy schodkową aproksymację sygnału
analogowego, jak na przykład pokazuje rysunek 4.
Błędy pojawiające się w procesie konwersji jednobitowej mogą być dwojakiego typu. Pierwszy z nich to błąd
nienadążania. Powstaje on w przypadku gwałtownych zmian sygnału wejściowego, kiedy konwerter nie jest
w stanie nadążyć za takimi zmianami sygnału. Wynika to z tego, że wartość poszczególnych „schodków” jest
stała, a więc i maksymalna szybkość narastania sygnału aproksymującego ma określoną wartość.
Drugi błąd pojawia się w sytuacji odwrotnej, tj. wtedy gdy sygnał przez pewien okres czasu przyjmuje mniej
więcej stałą wartość (lub gdy nie ma sygnału, czyli ma on wartość 0). Błąd ten nazywamy szumem
granulacyjnym, gdyż sygnał wyjściowy oscyluje wokół sygnału oryginalnego, zmieniając swój stan z 1 na 0, z
0 na 1, itd. Ponieważ szum wynikający z gwałtownych zmian sygnału jest skorelowany z sygnałem
wejściowym, jest on mniej dokuczliwy dla słuchacza, niż szum granulacyjny o tym samym poziomie.
Ilustracja powyższych błędów jest zaprezentowania na rysunku 5. W tym artykule to by było na tyle. W
kolejnym numerze przejdziemy do konkretów, tzn. do przetworników analogowo-cyfrowych, oraz spróbujemy
odpowiedzieć sobie na pytanie, jak unikać lub minimalizować te błędy i zniekształcenia przetwarzania, o
których przeczytaliśmy w tym i poprzednim artykule.
Dithering - proces polegający na dodaniu do odtwarzanego
strumienia dźwiękowego niskopoziomowego szumu (neutralnego dla naszych uszu), w zamian za redukcję
zakłóceń
Opis
Dithering jest niezbędny, gdy cyfrowy dźwięk o rozdzielczości np. 16-bitowej odtwarzamy z precyzją
mniejszą niż 16 bitów (ma to przeważnie miejsce, gdy używamy wielu wtyczek DSP). Dithering jest
kluczowym procesem w profesjonalnej konwersji rozdzielczości plików dźwiękowych (najczęściej w
nieskompresowanym formacie PCM) z 64-, 48- lub 32-bitowej (obróbka dynamiczna sygnału, dodawanie
efektów, miksowanie) na 24-bitową (obecny standard profesjonalnej cyfrowej rejestracji dźwięku) albo z 24-
bitowej na 16-bitową (finalne zgranie do formatu CD-Audio). Szum ditheringowy maskuje zniekształcenia
harmoniczne i błędy kwantyzacji, których nie da się uniknąć podczas takiej konwersji.
Algorytmy ditheringu [edytuj]
Istnieją różnorakie algorytmy ditheringu, spośród których najpopularniejsze to: POW-r, Apogee UV22, Waves
IDR oraz iZotope MBIT+. Niełatwo stwierdzić, który algorytm jest najlepszy, bowiem oceny specjalistów
oparte są nie tylko na matematycznych wyliczeniach i wykresach, lecz także na subiektywnych wrażeniach
odsłuchowych - chodzi bowiem o to, by proces ditheringu maskował jak najwięcej negatywnych skutków
konwersji, nie degradował oryginalnego brzmienia, był niewykrywalny dla uszu przeciętnego słuchacza i
pozwalał zachować jak najwięcej informacji (bitów) materiału oryginalnego w pliku o niższej rozdzielczości.
Wymienione algorytmy stosuje się podczas finalnej konwersji materiału dźwiękowego do niższej
rozdzielczości bitowej (na końcu procesu masteringu), ponieważ działają one na zasadzie kształtowania
szumu, a nie jedynie prostego dodawania go do sygnału. W związku z tym plik, w którym zastosowano
dithering z kształtowaniem szumu, nie może zostać poddany kolejnej obróbce ( zwłaszcza dynamicznej),
ponieważ np. Apogee UV22 odfiltrowuje główną energię szumu poza zakres słyszalnego pasma dźwięku -
do ok. 22 kHz (stąd nazwa), a po jeszcze jednej obróbce szum ten mógłby nałożyć się na pasmo słyszalne,
co zniweczyłoby cały efekt ditheringu.
W niektórych sytuacjach stosuje się specjalny szum ditheringowy (tzw. TPDF), który umożliwia ponowną
obróbkę sygnału dźwiękowego. Więcej o ditheringu TPDF dowiedzieć się można w artykule ze źródła nr 1.