ISTOTA DŹWIĘKU
Świat to nieustanne źródło różnych bodźców dla naszych zmysłów. Część z nich jest odbierana jako dźwięk. Wprawdzie zmysł słuchu nie może konkurować ze wzrokiem ilością dostarczanych informacji (wzrok - ok. 90%, słuch - ok. 5%), ale rekompensuje to ich wagą. Dźwięki ułatwiają orientację przestrzenną na tyle dobrze, że w szczególnych sytuacjach (słaba widoczność, upośledzenie wzroku) uszy z powodzeniem potrafią zastąpić oczy. Dźwięki ostrzegają przed niebezpieczeństwem, dostarczają przyjemności (muzyka), dają szansę komunikowania się z innymi za pomocą słów (język mówiony). Czym więc są?
Jak można zdefiniować dźwięk? W kategoriach fizycznych to zaburzenie falowe ośrodka sprężystego (takiego jak powietrze, woda czy metal), wywołujące wrażenie słuchowe. W kategoriach psychofizjologicznych - to właśnie owo wrażenie słuchowe, będące reakcją na fale akustyczne. Innymi słowy dźwięk to rozprzestrzeniające się poprzez kolejne, "łańcuchowe" zagęszczenia i rozrzedzenia cząsteczek cykliczne zmiany ciśnienia, na które reaguje zmysł słuchu. Prędkość propagacji dźwięku zależy od właściwości fizycznych środowiska, głównie jego gęstości i sprężystości. Dla powietrza przy normalnym ciśnieniu atmosferycznym i temperaturze 18°C wynosi ok. 340 m/s. Rośnie wraz ze wzrostem temperatury i ciśnienia. W cieczach i ciałach stałych jest zwykle dużo większa; dla wody wynosi 1500 m/s, drewna - 4000 m/s, żelaza - 5000 m/s. Znacznie maleje w materiałach tłumiących, jak korek - 50 m/s, guma - 70 m/s. W próżni spada do zera (brak ośrodka sprężystego uniemożliwia rozchodzenie się drgań akustycznych). Dźwięk, jak każde zjawisko falowe, trafiając na przeszkodę, ulega odbiciu (echo, pogłos), pochłanianiu, rozpraszaniu, załamaniu (zmiana kierunku propagacji), ugięciu (omijanie przeszkody), interferencji (wzajemne nakładanie się fal) itp. Są to cechy szczególnie istotne dla akustyki pomieszczeń.
Właściwości dźwięku
Złożona natura dźwięku (zjawisko fizyczne i postrzeganie zmysłowe) sprawia, że opisuje się go w dwóch płaszczyznach:
obiektywnej (cechy fali akustycznej).
subiektywnej (słuchowej).
Cechy fizyczne mają swoje odpowiedniki w grupie cech psychofizjologicznych. Można więc określić dźwięk za pomocą następujących par parametrów:
częstotliwość - wysokość,
natężenie - głośność
widmo - barwa
Częstotliwość drgań
Ruch falowy - dźwięk - najprościej zilustrować wykresem sinusoidy (rysunek1). Zaburzenie sprężystości środowiska powoduje naprzemienne zagęszczanie i rozrzedzanie jego cząsteczek (zmiany ciśnienia) w określonym rytmie. Liczba tych powtórzeń w jednostce czasu to częstotliwość. Jednostką częstotliwości jest herc Hz - jeden cykl na sekundę.
Okres, czas potrzebny na wykonanie pełnego cyklu, jest mierzony w sekundach s. Częstotliwość jest odwrotnością okresu. Im wyższa, tym krótszy okres drgań. Częstotliwość ściśle wiąże się z subiektywnym wrażeniem wysokości dźwięku. Zakres częstotliwości rozróżnianych przez zdrowego człowieka mieści się w przedziale 16 Hz-20 kHz. Dźwięki poniżej tej granicy są zwane infradźwiękami, powyżej - ultra- lub hiperdźwiękami (ponad 100 MHz). Niesłyszalne - odczuwane dotykiem jako wstrząsy i drżenia - przy dłuższym oddziaływaniu mogą niekorzystnie wpływać na zdrowie.
Inna właściwość - długość fali dźwiękowej - silnie związana z częstotliwością i określająca drogę, jaką fala akustyczna pokonuje w ciągu jednego cyklu, również przekłada się na subiektywne wrażenie wysokości: większa długość - to niższy dźwięk, mniejsza długość - wyższy. Przy prędkości dźwięku 340 m/s (powietrze) długości fal wyznaczających granice słyszenia wynoszą odpowiednio:
21,25 m dla częstotliwości 16 Hz,
1,7 cm dla częstotliwości 20 kHz.
W rzeczywistości trudno znaleźć dźwięki mające obraz sinusoidy. Ale nawet te najbardziej złożone, jeśli tylko wykazują cechy powtarzalności (drgania okresowe), można przedstawić jako sumę fal sinusoidalnych o określonej częstotliwości i amplitudzie (rysunek 2). Zasada ta, odkryta przez francuskiego matematyka J. B. Fouriera (1768-1830), stanowi podstawę analizy widmowej dźwięku.
Rysunek 2. Przebieg quazi-prostokątny złożony z trzech tonów sinusoidalnych.
Wysokość dźwięku
Cechą subiektywną pozwalającą rozróżniać dźwięki o różnej częstotliwości jest ich wysokość. Drgania z przedziału 16-300 Hz określa się jako niskie. Dźwięki wysokie mieszczą się w paśmie 3000 Hz-20 kHz. Ucho ludzkie najczulej reaguje na dźwięki średnie (300-3000 Hz). Wrażenie wysokości zależy w pewnym stopniu od głośności. Zależność ta zmienia się w funkcji częstotliwości. Tony (drgania sinusoidalne) do 1000 Hz obniżają swą wysokość ze wzrostem głośności, przy czym im niższy dźwięk, tym większa różnica wysokości. Powyżej 4000 Hz jest odwrotnie. Większa głośność powoduje wzrost wysokości tonu. W przypadku naturalnych dźwięków złożonych, będących sumą wielu drgań sinusoidalnych o różnej częstotliwości i amplitudzie, zależności te nie są aż tak wyraźne. Zdolność rozpoznawania wysokości dźwięku jest też zależna od jego czasu trwania. Dźwięki zbyt krótkie są określane jako impulsy lub trzaski, choć i w tym przypadku jedne brzmią niżej, drugie - wyżej. Minimalny czas trwania impulsu dźwiękowego, pozwalający na zdefiniowanie jego wysokości, zależy od częstotliwości. Przy 50 Hz wynosi 60 ms (trzy pełne okresy), przy 1000 Hz - już tylko 10 ms (za to aż dziewięć cykli). Również od częstotliwości jest uzależniona zdolność rozpoznawania zmian w wysokości dźwięku. Zdecydowanie łatwiej je zauważyć w obrębie tonów wysokich. Umiejętność rozróżniania wysokości jest w dużym stopniu cechą wrodzoną. Można ją jednak znacznie rozwinąć dzięki ćwiczeniom. Ludzie posiadający tzw. słuch absolutny potrafią określić bezwzględną wysokość dźwięku (częstotliwość), choć zwykle używają w tym wypadku nazewnictwa muzycznego: a, cis, b, es ... Pozostała większość jest zdolna ocenić względną wysokość dźwięków, a więc relacje między nimi, czyli interwały. Interwały wyrażają wzajemny stosunek częstotliwości dwóch współbrzmiących (interwał harmoniczny) lub następujących po sobie dźwięków (interwał melodyczny).
Dźwięki oktawy razkreślnej:
c cis d dis e f fis g gis a ais h c
Podstawowym interwałem muzycznym jest oktawa (relacja częstotliwości 2:1), dająca wrażenie tego samego - choć brzmiącego "wyżej" - dźwięku (tabela 1). Podzielona na dwanaście równych części tworzy podstawową miarę odległości muzycznej -półton.
Interwał
|
Liczba półtonów
|
Stosunek częstotliwości
|
Oktawa
|
12
|
2:1
|
Kwinta
|
7
|
3:2
|
Kwarta
|
5
|
4:3
|
Tercja wielka
|
4
|
5:4
|
Tercja mała
|
3
|
6:5
|
Tabela 1.
Natężenie dźwięku
Fale akustyczne przenoszą często wielką energię. Silny dźwięk wprawia w drżenie szyby, w górach niejednokrotnie staje się źródłem potężnych lawin. Szczególnie groźne są infradźwięki powstające w czasie trzęsień Ziemi - trudne do wytłumienia i rozchodzące się na setki kilometrów. Energia dźwięku rozprzestrzenia się wraz z "czołem" fali akustycznej, powodując chwilowe wzrosty i spadki ciśnienia atmosferycznego (zagęszczenia i rozrzedzenia sprężystego środowiska). Owe różnice, zwane ciśnieniem akustycznym, są mierzone w paskalach Pa (tabela 2).
Rodzaj dźwięku
|
Próg słyszenia
|
Szept (1m)
|
Rozmowa (1m)
|
Krzyk (1m)
|
Grzmot, zespół rockowy
|
Próg bólu
|
Wartość ciśnienia w Pa
|
0,00002
|
0,001
|
0,1
|
1
|
10
|
65
|
Tabela 2. Wartości ciśnienia akustycznego dla wybranych dźwięków.
Częściej stosowaną wielkością jest natężenie dźwięku, ściśle związane z ciśnieniem akustycznym i określające energię "czoła" fali, przepływającą w konkretnym czasie przez określoną powierzchnię. Natężenie maleje wraz z kwadratem odległości od źródła dźwięku. Ogromna rozpiętość wartości natężenia, na które reaguje człowiek (10-12 - 10 W/m2), sprawia, że wygodniej wyrażać je w jednostkach względnych, to jest w porównaniu z określoną wielkością przyjętą za punkt odniesienia. Bel B lub jednostka dziesięciokrotnie mniejsza - decybel dB służą do wyrażania stosunku n dwóch wartości natężenia J i J0 w skali
logarytmicznej.
n = 10 log J/J0 dB
Taka forma prezentacji natężenia dźwięku (mówimy wówczas o poziomie natężenia) jest bliższa fizjologii ucha, w którym wrażenie słuchowe jest proporcjonalne do logarytmu wywołującej go podniety (stosunek faktycznego natężenia dźwięku J do natężenia odniesienia J0 - J/ J0). Natężeniem odniesienia J0 przyjęto określać najmniejszą wartość, przy której człowiek zaczyna słyszeć ton o częstotliwości 1000 Hz. Jest to tak zwany próg słyszenia, odpowiadający wartości 10-12 W/m2 (0 dB). Poziom natężenia 10 dB oznacza dźwięk dziesięciokrotnie głośniejszy, różnica 30 dB - dźwięk silniejszy tysiąckrotnie itd. Ujemne wartości decybeli wskazują na dźwięki cichsze określoną liczbę razy. Poziom natężenia ok. 130 dB to granica bólu.
Głośność
Głośność to subiektywne odczucie natężenia dźwięku. Zależy zarówno od natężenia, jak i częstotliwości. Im większe natężenie, tym większa głośność. Ale przy stałym natężeniu dźwięki niskie i wysokie wydają się cichsze niż dźwięki o średniej częstotliwości (2 - 4 kHz). Ma to bezpośredni związek z czułością ucha, które w tym zakresie wykazuje największą wrażliwość. Zależność między wysokością dźwięku a jego natężeniem dającym w całym paśmie wrażenie jednakowej głośności przedstawiają tzw. krzywe izofoniczne - warstwice jednakowej głośności. Dolną granicę słyszalności tworzy linia łącząca dla różnych częstotliwości punkty natężenia, przy których dźwięk zaczyna być słyszany. Górną - linia przedstawiająca natężenia, przy których odczucie słuchowe przechodzi w ból. Jednostką głośności jest fon, którego skala pokrywa się z poziomami natężenia dla częstotliwości 1000 Hz. Dość łatwo zauważyć, że przy wysokich poziomach, rzędu 90-100 fonów, wrażenie głośności w całym paśmie bardziej się wyrównuje. To usprawiedliwiałoby bardzo głośne słuchanie muzyki. Nie wolno jednak zapomnieć o uszach i o tym, że nadmierna głośność prowadzi do upośledzenia słuchu. Lepiej więc włączyć w aparaturze filtr konturowy podbijający kraje pasma i wyrównujący głośność wszystkich częstotliwości przy cichszych poziomach odsłuchu. Dobrze też zadbać o wyeliminowanie wszelkich hałasów przeszkadzających w odbiorze muzyki. Wrażenie głośności dźwięku zależy bowiem nie tylko od jego intensywności i wysokości, lecz także od obecności innych towarzyszących mu dźwięków. Dźwięki maskują się wzajemnie, "przesłaniają". Właśnie to zjawisko zostało wykorzystane w kompresji MP3.
Widmo dźwięku
Każdy, dowolnie złożony, okresowy przebieg akustyczny (np. dźwięk muzyczny) dzięki analizie Fouriera można przedstawić jako pewną kombinację tonów sinusoidalnych o różnej częstotliwości i amplitudzie (rysunek 3). Najniższa częstotliwość tak złożonej fali jest nazywana częstotliwością podstawową i ona właśnie określa wysokość dźwięku. Wyższe składowe - przytony - decydują o jego unikatowym brzmieniu, pozwalającym rozróżnić dźwięki tej samej wysokości grane np. na różnych instrumentach. Jeśli częstotliwości przytonów są krotnościami częstotliwości podstawowej, to nazywamy je harmonicznymi lub alikwotami, a powstałe w ten sposób dźwięki - wielotonami harmonicznymi (większość instrumentów muzycznych wydaje dźwięki o takiej właśnie strukturze). Drgania będące sumą tonów nieuporządkowanych tworzą wielotony nieharmoniczne. Jedne i drugie można zilustrować w postaci prążków na osi częstotliwości tak, by każdej częstotliwości współtworzącej dźwięk odpowiadał jeden prążek o wysokości reprezentującej jej amplitudę. Otrzymany w taki sposób obraz, przedstawiający częstotliwości składowe i ich amplitudy, tworzy widmo dźwięku. Widmo prążkowe jest jednak znacznym, choć wygodnym uproszczeniem. W rzeczywistości - przy naturalnym, złożonym dźwięku - obejmuje raczej całe zakresy częstotliwości z wyraźnie uwypuklonymi pasmami (rysunek 4).
Rysunek 4. Widmo ciągłe.
Inną formą graficznej reprezentacji jest tzw. spektrogram, czyli widmo przedstawione w układzie współrzędnych: częstotliwość-czas. Każdy odcień szarości odpowiada tu innej wartości amplitudy. Najcelniejszym obrazem dźwięku, w pełni uwzględniającym jego istotę, a więc zmienność amplitudy i częstotliwości w czasie, jest widmo trójwymiarowe (rysunek 5).
Rysunek 5. Widmo trójwymiarowe.
Barwa dźwięku
Odmienna liczba, wysokość i względne natężenie przytonów w stosunku do tej samej częstotliwości podstawowej (jednakowa wysokość dźwięku) pozwalają uszom rozróżnić fortepian od skrzypiec, gitarę od fletu, wibrafon od marimby. Każdy z tych instrumentów brzmi inną barwą. Proces identyfikowania barwy wiąże się z pojęciem transjentów, tj. przejściowych stanów poprzedzających lub kończących dźwięk, kiedy to każda ze składowych - zanim osiągnie w miarę stały poziom - narasta z różną intensywnością. Na przykład w dźwięku skrzypiec pierwsze dwa przytony nabrzmiewają wolniej niż alikwoty wyższe. W dźwięku trąbki jest odwrotnie. Co ciekawe - długo brzmiące, jednakowe pod względem wysokości i niezmienne w głośności dźwięki różnych instrumentów, pozbawione owych stanów nieustalonych, tracą swój unikatowy charakter. Spreparowane w ten sposób dźwięki zaczynają być oceniane błędnie. Flet jest mylony z waltornią, wiolonczela z fagotem, kornet ze skrzypcami. Jak więc widać, wierne odtworzenie stanów nieustalonych (transjentów) w decydujący sposób wpływa na jakość reprodukowanego dźwięku. Najpoważniejszą dla nich przeszkodę stanowią: mechaniczna (mikrofon, głośnik) i elektryczna (pojemność i indukcyjność układów elektronicznych) "bezwładność" aparatury audio, nie dość szybkiej, by w niezniekształconej postaci stany te przenieść.
Barwa dźwięku zależy też w pewnym stopniu od głośności. Nie powinno to dziwić. Wszak szerokość pasma częstotliwości, na które reaguje zmysł słuchu, ściśle wiąże się z natężeniem dźwięku. Im cichsze dźwięki, tym węższy zakres słyszenia, tym uboższe, bardziej "okrojone" widmo, a więc i inne odczucie barwy. Z drugiej strony owe różnice barwy są związane z samym źródłem dźwięku, które można rozpatrywać jako układ generatora drgań i rezonatorów. Spróbuj, nie rozdzielając głosek, wyśpiewać na jednym tonie mantrę samogłosek: a-o-e-i-u, poświęcając każdej z nich około jednej sekundy. Wsłuchaj się w ten dźwięk. Zauważ, że w trakcie "przełączania" na inną samogłoskę oprócz tonu podstawowego dość wyraźnie słychać charakterystyczny dla danej głoski rezonans. Źródłem drgań są struny głosowe. Tym, co różnicuje drgania, pozwalając kształtować cały wachlarz głosek, jest dynamiczny rezonator tworzony przez krtań, podniebienie, język, policzki, zmienną objętość jamy ustnej. To zaawansowany syntezator "gębowy". Podobnie jest w instrumentach muzycznych. Dźwięk generowany przez drgający słup powietrza czy strunę jest wzmacniany w pewnych zakresach przez rezonatory (pudło rezonansowe gitary, płytę rezonansową fortepianu). Bardzo wysoki poziom głośności wyzwala mechanizm obronny. Ucho adaptuje się do takiego sygnału, zmniejszając jakby swą czułość. W wyniku zmęczenia przeciążone komórki słuchowe pozornie redukują bodziec. Jednak sam dźwięk, a dokładniej jego najsilniejsze składowe ulegają zniekształceniu. Objawia się to powstaniem dodatkowych tonów harmonicznych i kombinacyjnych (czyli wszelkich możliwych sum i różnic wszystkich składowych dźwięku). A nowe widmo jak zwykle oznacza zmiany w barwie. Na szczęście, po ustaniu przyczyny zmysł słuchu wraca wkrótce do normy. Gorzej, gdy bodziec taki trwa za długo lub pojawia się zbyt często. Może prowadzić do znacznego upośledzenia słyszenia, w skrajnych przypadkach - do głuchoty. Pamiętaj o tym, zanim przy ulubionej kapeli znów odkręcisz gałkę wzmacniacza w prawo.
ZNIEKSZTAŁCENIA
Rodzaje zniekształceń
Zniekształcenie jest każdym odstępstwem dźwięku od jego oryginalnego brzmienia. Urządzenia elektroniczne, ale również ucho, mogą zmienić dźwięk, pozbawiając go niektórych elementów lub wzbogacając o nowe, wcześniej w nim nieobecne. Z tego względu zniekształcenia te można podzielić na:
linearne (liniowe), ograniczające pasmo lub powodujące podbicie albo osłabienie pewnych zakresów częstotliwości składowych;
nielinearne (nieliniowe), dodające nowe przytony, których rezultatem może być charakterystyczne "chrypienie" dźwięku;
fazowe, powodowane różnicami czasowymi w przenoszeniu różnych częstotliwości i zmieniające wrażenie naturalności;
zniekształcenia dynamiki, zmniejszające różnicę między najgłośniejszymi a najcichszymi dźwiękami.
Zniekształcenia linearne
Zniekształcenia linearne powodowane niedoskonałością przetworników elektroakustycznych są częstym zjawiskiem w życiu codziennym: charakterystyczny, "stalowy" dźwięk megafonu na dworcach czy brak "dołu" w maleńkich radioodbiornikach, inaczej brzmiąca muzyka na różnych zestawach audio, nawet tych najlepszych. Czy - wreszcie - odgłosy zza zamkniętego okna i wrażenie "dodania góry" po jego otwarciu. Czasem są to ograniczenia świadome jak na przykład w telefonii, gdzie zawężone pasmo nie wpływa na najważniejszy element przekazu - czytelność, czy w transmisjach internetowych, w których pasmo jest dostosowane do zdolności odbioru przekazu lub przepustowości łącza. Wspomniany dźwięk megafonu jest też celowo zmieniany, by jego zrozumiałość nie została zakłócona dużym zwykle poziomem dworcowego hałasu. Jednak w wielu innych sytuacjach dąży się do jak najwierniejszego odtworzenia. Sprzyjają temu coraz lepsze mikrofony, głośniki, elektronika, doskonalsze nośniki. Ale trzeba pamiętać, że każdy spośród tych elementów działa jak filtr "koloryzujący" dźwięk oryginalny. Idealne urządzenie powinno przenosić dźwięki obiektywnie, powinno być dla nich "przezroczyste". Porównując - w wyniku pomiaru napięcia lub ciśnienia akustycznego - wartość sygnału wyjściowego ze stałym poziomem wejściowym dla różnych częstotliwości, można wykreślić krzywą przedstawiającą tzw. charakterystykę częstotliwościową (ang. frequency response) urządzenia. Jej wzorcowy obraz pokazano na rysunku 6. Płaska charakterystyka oznacza przenoszenie wszystkich składowych sygnału w całym zakresie bez zmiany ich relatywnych poziomów. W praktyce wygląda to inaczej, większość urządzeń bowiem wykazuje straty przenoszenia w krajach pasma (rysunek 7).
Wykres charakterystyki częstotliwościowej nie musi być jednak idealną linią prostą. Odchylenia w granicach ±1 dB są dla ucha praktycznie niezauważalne. Szczególną odmianą charakterystyki częstotliwościowej są krzywe jednakowej głośności - izofony. Dla cichych dźwięków ucho wprowadza typowe zniekształcenia linearne, ograniczając odbierane pasmo; dla bardzo głośnych - zaczyna zniekształcać nieliniowo.
Zniekształcenia nielinearne
Kształt sygnałów elektrycznych pojawiających się na wyjściu mikrofonu powinien odpowiadać zmianom ciśnienia akustycznego pobudzającego membranę. Podobnie, zmiany wyjściowego napięcia wzmacniacza powinny być wprost proporcjonalne do zmian napięcia wejściowego. Taki rodzaj idealnej zależności można by wówczas przedstawić linią prostą (rysunek 8). Niestety, w praktyce, prosta często zmienia się w "mniej prostą". I tu właśnie pojawiają się problemy, które - wreszcie wiadomo czemu - noszą nazwę zniekształceń nielinearnych. Wejściowy ton sinusoidalny na wyjściu przestaje być sinusoidą. Ponieważ jednak ciągle zachowuje cechy okresowości, można przypuszczać, że zgodnie z teorią Fouriera pojawiły się w nim nieobecne wcześniej składowe, będące powodem zmiany jego kształtu. Typową formą zniekształceń nielinearnych jest przesterowanie. Dodaje do dźwięku efekt bzyczenia, warczenia, chrypienia. Dźwięk przesterowany jest dużo "grubszy", często cieplejszy w brzmieniu. Dlatego nie powinien dziwić fakt, że w niektórych bardzo kosztownych cyfrowych odtwarzaczach specjalny procesor "psuje" (czytaj: pogrubia) odtwarzany dźwięk według bardzo skomplikowanych i wyrafinowanych algorytmów, symulując milsze uchu, lekko zniekształcone brzmienie analogowych wzmacniaczy lampowych. Miarą zniekształceń nielinearnych jest współczynnik zawartości harmonicznych.
Im większa jego wartość, tym więcej dodatkowych przytonów pojawia się w zniekształconym sygnale. Zniekształcenia nielinearne zależą od amplitudy, rosnąc wraz z nią, i od częstotliwości. Najmniej podatny na nie jest zakres średni. Wartość takiego współczynnika zawsze więc odnosi się do częstotliwości i poziomu napięcia, dla których był mierzony.
Wrażliwość ucha ludzkiego na zniekształcenia zmienia się w zależności od charakteru dźwięku i rodzaju generowanych przez nie harmonicznych. Najłatwiej określić zniekształcenia czystego tonu, trudniej usłyszeć je w bardziej złożonych dźwiękach. W odbiorze muzyki szczególnie przykre mogą się stać tony kombinacyjne. Czym są? Otóż nowe przytony dodawane do dźwięku przez zniekształcenia wzbogacają jego widmo nie tylko swoją obecnością. Zaczynają oddziaływać na pierwotne składowe, tworząc różne kombinacje wszelkich możliwych sum i różnic częstotliwości wcześniejszych i nowo powstałych składników. Efekt tworzenia tonów kombinacyjnych prowadzi czasem do zdumiewających i mocno zauważalnych rezultatów.
Rysunek 8. Liniowa zależność między napięciem wejściowym a wyjściowym.
Zniekształcenia fazowe
Faza jakiegokolwiek punktu fali jest jego etapem w całym cyklu - może to być początek, szczyt, koniec lub którykolwiek ze stanów pośrednich. Jest mierzona w stopniach. Cały cykl to 360°, jego początek - 0° (rysunek 9). Jeśli dwa identyczne sygnały zostaną względem siebie opóźnione, to wystąpi zjawisko przesunięcia fazy (ang. phase shift), które - również wyrażane w stopniach - zaczyna zmieniać sygnał, czyniąc go nienaturalnym (rysunek 10). W szczególnym przypadku, gdy różnica faz wyniesie 180°, a sygnały wykazują cechy symetrii (sinusoida) - "zniosą się" całkowicie (rysunek 11). W praktyce zjawisko to jest wykorzystywane do eliminowania zakłóceń w kablach połączeniowych. Linie symetryczne - stosowane do łączenia urządzeń w profesjonalnych studiach - przesyłają sygnał dwoma przewodami otoczonymi ekranem (rysunek 11). Zasilane w taki sposób symetryczne wejście napięcia między dwiema żyłami. Mówiąc inaczej - odejmuje od siebie wartości napięć żyły "gorącej" i "zimnej" lub (jak kto woli) dodaje do napięcia żyły "gorącej" (odnoszonego do "zerowego" potencjału uziemionego ekranu) napięcie żyły "zimnej" w przeciwfazie. Przy tej okazji jakiekolwiek zakłócenia zaindukowane przecież jednocześnie w obu żyłach przewodu symetrycznego wzajemnie się kompensują.
Rysunek 11. Połączenie symetryczne
Przeciwfaza w odniesieniu do bardziej kompleksowego dźwięku, np. muzyki - gdy niektóre częstotliwości w dynamiczny, zmienny w czasie sposób znoszą się, inne zaś wzmacniają - daje dziwne wrażenie "zatkanych uszu", "przemetalizowanego" brzmienia, mało konkretnego "dołu", "waty w uszach"; stwarza trudności w przestrzennej lokalizacji dźwięku - słuchacz odnosi wrażenie, że muzyka, zamiast z głośników, dobiega go gdzieś z tyłu, brzmi nad głową lub w jej środku. Każdy mógł doświadczyć tego zjawiska przy nieumiejętnym podłączeniu głośników w zestawie audio. Przy zamianie kabli głośniki zaczynają wytwarzać dźwięk w przeciwfazie. Zamiast współpracować "zjadają się" wzajemnie. Podczas gdy membrana jednego głośnika jest wypychana do przodu, w drugim przeciwnie - cofa się. Dlatego większość producentów oznacza końcówki kabli i wyjść głośnikowych kodem kolorów. Do czerwonego zacisku każdego z kanałów wyjściowych wzmacniacza należy podłączyć czerwoną końcówkę kabla głośnikowego, do czarnego - czarną.
Zjawisko przeciwfazy można też zaobserwować przy miksowaniu nagrań wielomikrofonowych. Dźwięk wokalisty mającego swój mikrofon "wchodzi" również w mikrofon np. fletu. Opóźnienie głosu w sygnałach pochodzących z tych mikrofonów, będące wynikiem różnych odległości od "śpiewającego" źródła, wprowadza zniekształcenia fazowe partii wokalnej w zmiksowanym materiale. Oczywiście, w dobrym nagraniu, przy prawidłowym ustawieniu mikrofonów, owe przesłuchy (bo tak fachowo określa się ślady innych instrumentów w sygnale dedykowanego mikrofonu) można skutecznie wyeliminować. Największe problemy sprawiają mikrofony umieszczone blisko siebie, dla których różnice między dźwiękiem bezpośrednim a przesłuchem są niewielkie. W pewnych sytuacjach te kłopotliwe zjawiska mogą jednak służyć świadomej kreacji. Na przykład, dodając sygnały bliższego i dalszego mikrofonu lub umieszczając lektora między nimi, można celowo wprowadzić efekt przeciwfazy dla uzyskania wrażenia słuchowego imitującego akustykę łazienki lub budki telefonicznej. W małych pomieszczeniach bowiem, o równoległych, gładkich ścianach, dźwięk bezpośredni w znacznym stopniu jest poddany oddziaływaniu mocnego - przesuniętego w fazie wskutek wielokrotnych odbić - "sobowtóra". W praktyce, z powodu odbić prawie żaden rejestrowany mikrofonowe sygnał nie jest wolny od problemów przeciwfazy - ich rozmiar zależy tylko od wielkości pomieszczenia.
Zjawisko przeciwfazy prowadzi do znacznych zaburzeń w przestrzennej lokalizacji dźwięku. Wiele efektów stosowanych w nowoczesnych syntezatorach wykorzystuje to zjawisko. Poszerzanie obrazu stereo w sprzęcie audio, czy w trakcie obróbki pliku dźwiękowego - to także "czary" z przeciwfazą.
Teraz, kiedy wiadomo, czym są: faza, przeciwfaza i przesunięcie fazowe oraz gdy udało się usłyszeć efekt takiego przesunięcia, łatwiej będzie zrozumieć istotę zniekształceń fazowych. Powodowane przez różne zwykle dla każdej częstotliwości opóźnienia, zniekształcenia fazowe objawiają się zmianą kształtu, a więc i brzmienia zniekształcanego dźwięku. Przyjrzyj się sumie częstotliwości podstawowej 200 Hz oraz pierwszej harmonicznej 400 Hz przy różnicy faz 0° (rysunek 12) i dla przesunięcia 90° (rysunek 13). Jeszcze raz porównaj oba wielotony (rysunek 14). Z pewnością można dostrzec istotne różnice. Ale czy usłyszeć? Otóż nie zawsze. Z reguły wyższe częstotliwości są opóźniane bardziej niż niższe. Jeśli dla grupy sygnałów o różnych częstotliwościach ich opóźnienie odniesione do czasu przejścia tonu 1000 Hz zmieści się w granicach od l do 8 milisekund, ucho tego nie zauważy. Po przekroczeniu tych wartości dźwięk ulegnie degradacji, tracąc swą naturalność. Gdy przesunięcie fazy zmienia się proporcjonalnie do częstotliwości lub jest dla wszystkich częstotliwości jednakowe, łatwo je skorygować.
Rysunek 12. Przesunięcie fazowe składników = 0o
Rysunek 13. Przesunięcie fazowe składników = 90o
Rysunek 14. Wielotony utworzone z tych samych składników, jednak w innej fazie.
Zniekształcenia dynamiki
Dynamika to rozpiętość między najcichszym a najgłośniejszym dźwiękiem. Najłatwiej wyrazić ją w decybelach. Dla mowy w naturalnych warunkach wynosi ona zwykle około 50 dB, dla dużej orkiestry symfonicznej może przekroczyć 80 dB. Dzisiejsze wysokiej klasy urządzenia audio bez trudu mogą przenieść taki zakres głośności, choć wiązałoby się to z koniecznością bardzo głośnego odtwarzania dźwięku.
Dynamika gorszego sprzętu mieści się w granicach 30-70 dB. Określa ją różnica poziomów między maksymalnym sygnałem a szumem własnym urządzenia generowanym w lampach, tranzystorach, rezystorach, kondensatorach itp. przez ruch cząstek elementarnych przenoszących ładunek elektryczny. Jest to tzw. odstęp sygnału od szumu. Wielkość tę przyjęto określać jako S/N (ang. Signal to Noise ratio). Im większy jest stosunek sygnału do szumu (S/N), tym klarowniejszy sygnał. Odstęp na poziomie 60 dB uważa się za dobry, powyżej 70 dB - bardzo dobry, przekraczający 80 dB - znakomity. Jak widać, rozpiętość natężeń naturalnych źródeł dźwięku (0-130 dB) z reguły przewyższa zakres głośności urządzeń elektroakustycznych, prowadząc do zniekształceń dynamiki. Częstym powodem takich błędów jest niezbyt wydolny zasilacz, w którym pod wpływem zwiększonego poboru prądu przy wzrastającym wysterowaniu wzmacniacza następuje obniżenie napięć zasilających. W konsekwencji zamiast spodziewanego wzrostu mocy wyjściowej następuje jej spadek.
Ograniczenie dynamiki (a więc jej zniekształcenie) może też być wynikiem świadomego działania. Większość rozgłośni radiowych poddaje swój sygnał kompresji, czyli zmniejszeniu różnic między cichymi a głośnymi dźwiękami, co daje słuchaczom wrażenie jednakowej głośności, niezależnej od tego, czy jest nadawana dynamiczna muzyka czy słabiej brzmiący głos prezentera. Dzięki temu nie musimy biec do radioodbiornika, by go ściszyć, kiedy po interesującej, ale niezbyt głośnej rozmowie radio zaczyna nagle "ryczeć" głośną muzyką. Nie każdy rodzaj dźwięku korzystnie znosi takie zabiegi. Kompresowanie muzyki poważnej może wypaczyć intencje kompozytora, pozbawiając utwór istotnych czasem niuansów dynamicznych. Warto jednak pamiętać, że z racji ograniczeń technicznych w przekazach: radiowym, telewizyjnym, kinowym czy fonograficznym trzeba czasem zmieścić dużo większą dynamikę niż pozwalają na to urządzenia. Ograniczenia dynamiki stają się wówczas koniecznością. Aby skutecznie i bezboleśnie (tj. z minimalną degradacją sygnału) podołać temu zadaniu, należy uwzględnić kilka reguł. Przede wszystkim optymalny poziom sygnału powinien być na tyle duży, by najcichsze dźwięki nie utonęły w szumie, najgłośniejsze za to nie przekroczyły granicy, powyżej której zaczynają się zniekształcenia nielinearne.
Cały dostępny zakres określa stosunek S/N. Dolną granicę wyznacza poziom szumu (czy też tła, którym może być hałas, a więc każdy niepożądany w danym momencie dźwięk), górną - poziom zniekształceń. Różnica między średnim
poziomem dźwięku a poziomem zniekształceń tworzy pewien zapas (ang. headroom - termin bardzo często używany w odniesieniu do sprzętu cyfrowego). Im większy zapas, tym bezpieczniej może urządzenie przenieść sygnał o dużych skokach amplitudy, nie przesterowując maksymalnych wartości.
ZAKŁÓCENIA
Oprócz zniekształceń istotny wpływ na jakość odbieranych dźwięków mają zakłócenia. Są to wszelkiego rodzaju szumy, przydźwięki, trzaski, hałasy - czyli każdy odgłos nienależący do oryginalnego dźwięku i niepożądany. Zakłócenia mogą mieć charakter chwilowy (trzask, trzaśniecie drzwiami, klakson przejeżdżającego samochodu, grzmot) lub ciągły (przy dźwięk sieciowy, szum morza, deszczu czy aparatury, odgłos pracującego wentylatora). Tak więc nie muszą to być wyłącznie dźwięki pochodzenia elektrycznego. Zakłócenia chwilowe cechują się gwałtownym wzrostem amplitudy, a ich impulsowa natura daje bardzo szerokie widmo. Jednak krótki czas trwania stwarza często szansę całkowitego ich wyeliminowania, zwłaszcza gdy pojawiają się w przerwach między słowami lub kolejnymi dźwiękami muzyki. Najbardziej słyszalne są zakłócenia mieszczące się w zakresie częstotliwości średnich - pasma najlepiej przenoszonego przez sprzęt audio i ucho. Przydźwięk sieciowy objawiający się niskim buczeniem daje wprawdzie przykre odczucia, ale zasadniczo nie wpływa na czytelność dźwięku. Z kolei szum różnie jest postrzegany - zależnie od tego, jak rozkłada się jego energia. Szum "biały" z energią rozłożoną równomiernie brzmi naturalniej i mniej "rzuca się w uszy" niż "różowy" (energia skupiona w niskich częstotliwościach) czy "niebieski" (energia skoncentrowana w zakresie górnych częstotliwości).