WYKŁAD I
Dr inż. Sławomir Przyłucki
spg@spg51.net
MATERIAŁY: ftp://ftp.spg51.net
User: mpns
Passwd: mpns2011
Cechy dźwięku. Pojęcie syntezy dźwięku
Analogowa i cyfrowa synteza dźwięku – podstawy
Format plików RIFF i WAVE
Efekty dźwiękowe
Tworzenie efektu opóźnień
Wykorzystanie przesunięcia fazy.
CECHY DŹWIĘKU
Barwa dźwięku
Barwa dźwięku
jest cechą charakterystyczną każdego dźwięku a
czasem też miarą jego jakości.
Ta cecha zależy w głównej mierze od zmian w czasie intensywności
poszczególnych częstotliwości wchodzących w skład dźwięku.
Spectrogram
Spectrogram
jest wykresem spectrum częstotliwości a zatem
graficzną reprezentacją cech dźwięku w danej chwili.
Czas na osi y (start
na gorze,koniec na
dole); częstotliwość
na osi x
Poziom składowej
– im jaśniejszy tym
wyższy
CZYM JEST SYNTEZA DŹWIĘKU ?
Synteza dźwięku to najkrócej odtworzenie timbru (barwy dżwięku)
tradycyjnych intrumentów lub utworzenie nowego brzmienia za
pomocą sztucznych narzędzi (tj. nie instrumentu a np. zestawu
układów elektronicznych)
Algorytm syntezy dźwięku to opis jakich narzędzi użyć i w jaki
sposób w celu otrzymania określonego brzmienia.
Algorytmy syntezy można podzielić na dwie podstawowe grupy:
syntezę analogową
syntezę cyfrową
Graf syntezy jest opisem sposobu współdziałania komponentów
algorytmu sysntezy w celu wygenerowania określonego dźwięku.
Graf syntezy może być przedstawiany jako grafy przepływu
sygnału, podobnie do np. w automatyce lub elektronice.
ANALOGOWE SYNTEZATORY MODUŁOWE
Analogowe syntezatory modułowe składają się ze zbioru modułów
elektronicznych połączonych ze sobą zgodnie z zaleceniami
algorytmu syntezy.
Moduły mogą być przełączane i konfigurowane (dostrajane) podczas
pracy.
SYNTEZA SUBSTRAKTYWNA
Synteze
rozpoczyna
generacja fali okresowej o
wysokiej
zawartości
harmonicznych
(np.
fala
trójkątna, prostokątna)
Filtr usuwa wysokie /
niepożądane częstotliwości z
dźwięku
(dlatego
metoda
substraktywna).
Generator obwiedni (ang.
envelope generator) moduluje
aplitude fali w czasie.
Całością steruje LFO (ang.
low frequency oscillators),
ktory moduluje zmienność
parametrów syntezy.
PODSTAWOWE ELEMENTY SYNTEZY ANALOGOWEJ
Oscylatory
– służą do generacji określonych sygnałów, tak periodycznych
np. fale sinusoidalne, jak i aperiodyczne np. losowy szum biały.
Wygenerowany sygnał może być częścią finalnego sygnału dźwiękowego
(audio oscillator) lub też może modulować określone aspekty
msyntezowanego dźwięku (LFO).
Filtry
–
służą
do
kształtowania
charakterystyki
czestotliwosciowej a tym samym spektogramów. W przypadku
syntezy substrakcyjnej, filrty usuwały niechciany zakres
częstotliwości.
Filtr dolnoprzepustowy
(ang. low pass filter) –
dźwięk przytłumiony
Filtr górnoprzepustowy
(ang. high pass filter) –
dżwięk płaski,
jednowymiarowy
Filtr pasmowy (ang. band
pass filter) – dżwięk
„nosowy”
GENERATORY OBWIEDNI
Generatory obwiedni
(ang. envelope generators) są
wykorzystywane do kontrolowania procesu syntezy w czasie.
Sa one wyzwalane przez okreslone zdarzenia (np. nacisnięcie
klawisza klawiatury) i mogą posiadać różne kształty.
SYNTEZA ADDYTYWNA
Synteza addytywna polega na dodawaniu prostych przebiegów
dźwiękowych w celu otrzymania bardziej złożonych form i jest to
jedna z najstarszych metod syntezy dźwięku.
Przykładem praktycznego wykorzystania syntezy addytywnej są,
kultowe już dzisiaj, organy Hammona.
Wykorzystywane sa składowe sinusoidalne
Zasada działania: Dodawanie harmonicznych częstotliwości
podstawowej, np. dla 50Hz będzie to 100Hz, 200Hz 400Hz czyli
całkowite wielokrotności częstotliwości bazowej.
Uzasadnienie popularności: naturalnie odbierane dźwięki bardzo
często charakteryzują się bogatą zawartością harmonicznych.
Najprostsza forma syntezy addytywnej
Najprostsza forma syntezy addytywnej
–
–
sumowanie harmonicznych
sumowanie harmonicznych
ILUSTRACJA SUMOWANIA HARMONICZNYCH
Wersja niezależna od czasu
Wersja niezależna od czasu
(ang. harmonic additive
(ang. harmonic additive
synthesis - time invariant)
synthesis - time invariant)
SUMOWANIE SKŁADOWYCH NIEHARMONICZNYCH
Składowe nieharmoniczne
są składowymi o dowolnej
częstotliwości
ponad
częstotliwość bazową, – np
.
100Hz, 135Hz, 2501Hz itd.
Wynika z tego, że składowe
harmoniczne są podzbiorem
wszystkich
składowych
nieharmonicznych.
Uzasadnienie
użycia:
naturalne
instrumenty
wykazują
szczególnie
złożoną dynamikę w części
„atack” obwiedni.
Wersja niezależna od czasu
Wersja niezależna od czasu
(ang. inharmonic additive
(ang. inharmonic additive
synthesis - time invariant)
synthesis - time invariant)
SYNTEZA ADDYTYWNA ZE ZMIENNOŚCIĄ W CZASIE
Uzasadnienie
użycia: składowe,
tak harmoniczne jak
i nieharmoniczne,
które rejestruje się
we
dźwiękach
bardzo
często
zmieniają się w
czasie.
Podstawowy problem:
Jak tworzyć i
Jak tworzyć i
wykorzystywać dane
wykorzystywać dane
sterujace zmiennością
sterujace zmiennością
?
?
SYNTEZA CYFROWA DŹWIĘKU
Cyfrowa synteza dźwięku odbywa się w dziedzinie dyskretnej, za
pomocą narzędzi/algorytmów cyfrowego przetwarzania sygnałów.
W celu realizacji tego rodzaju syntezy opracowano specjalizowane
języki opisu procesu syntezy i specjalizowane układy komputerowe.
Przykładem takich języków może być opracowany przez Maxa
Mathews-a (Bell Telephone Laboratories) język Music I.
Cyfrowa synteza dźwięku pozwala na tworzenie zdecydowanie
szerszej gamy algorytmów niż synteza analogowa. Przykładem
algorytmu, który niezwykle trudno byłoby zrealizować
analogowo jest syntaza tablicowa (ang. wavetable synthesis)
CYFROWA SYNTEZA TABLICOWA
Dźwięk po przetworzeniu analogowo-cyfrowym jest zapisywany w
pamięci.
Generator, pobierając zapisane (ew. zmodyfikowane) próbki generuje
z nich finalny przebieg okresowy (określony dźwięk o założonym
spektogramie.
Ponieważ w danych tablicy zapisać można nawet bardzo złożone
relacje oraz dowolną długość to istnieje możliwość tworzenia
praktycznie dowolnych dźwięków.
Typowe wykorzystanie
tej techniki:
Wavetable crossfading
Wavetable stacking
Tablica 16 punktowa
Tablica 512 punktowa
Problem z doborem ilości
bitów na punkt tablic
y
KLASYCZNE ROZWIĄZANIA
SYNTEZA FM
Ten algorytm syntezy
wynalazl John Chowning w
1967 (komercjalizacja w
kultowym Yamaha DX7)
W najprostszym przypadku,
generator jest
wykorzystywany do bardzo
szybkiej zmiany
czestotliwości generowanej
przez generator nośnej (ang.
carrier oscillator).
W bardziej złożonych
przypadkach
wykorzystywanych jest wiele
modulatorów oraz wiele
generatorów nośnej.
First
file
byte
Second
file
byte
First
file
byte
Second
file
byte
Third
file
byte
Fourth
file
byte
First
file
byte
Second
file
byte
First
file
byte
Second
file
byte
Third
file
byte
Fourth
file
byte
Big endian
Big endian
(spotykane także
grubokońcowość) to forma zapisu
danych,
w
której
(zwany
też grubym bajtem, z
high-
order byte) umieszczony jest jako
pierwszy.
, IBM
,
Siemens
Little endian
Little endian
(spotykane także
cienkokońcowość)
to
forma
zapisu danych, w której mniej
znaczący bajt (zwany też dolnym
bajtem, z
low-order byte)
umieszczony jest jako pierwszy.
wszystkie z rodziny
, DEC
ZAPIS BAJTÓW W PLIKACH
FORMAT PLIKÓW RIFF - PREKURSOR
RIFF (
Resource Interchange File Format), format
przeznaczony
do
przechowywania
danych
multimedialnych,
w
szczególności dźwięku (
) i video (
). Format RIFF
został zaprojektowany przez firmę
Format RIFF opiera się na oznakowanych blokach danych o podanej
długości (
chunks).
Każdy blok składa się z nagłówka i pola danych.
Nagłówek zawiera identyfikator bloku i długość pola danych. Identyfikator
(zwany też
) to cztery bajty – litery w kodzie
.
Następuje po nim 32-bitowa liczba bez znaku zapisana w formacie
określająca długość pola danych w bajtach.
FORMAT PLIKÓW RIFF - CD
Plik w formacie RIFF składa się z bloku nadrzędnego o identyfikatorze
"RIFF", wewnątrz którego znajduje się 4-bajtowy identyfikator podformatu
(np. "WAVE"), a następnie bloki podrzędne, których identyfikatory, ilość,
kolejność występowania i zawartość pól danych zależą od podformatu. W
prawidłowo zbudowanym pliku RIFF długość bloku głównego jest równa
długości całego pliku pomniejszonego o 8. Konstrukcja formatu ogranicza
maksymalną długość pliku do 4 GB.
FORMAT WAVE
Opracowany przez Microsoft format zapisu audio – szczególny przypadek
specyfikacji RIFF.
WAVE bazuje na formacie RIFF, poszerzając go o informacje o
strumieniu audio, takie jak użyty kodek, częstotliwość próbkowania czy
ilość kanałów.
Ogólna struktura pliku – nagłówek specyfikujący typ i rozmiar pliku,
szereg różnego rodzaju porcji (ang. chunks) opisujących struktur i wartoci
danych
W WAVE – obowiązkowe porcje typu ”fmt ” i ”data”; segment formatu
musi poprzedza dane. Wszystkie liczby specyfikowane w porządku od
najmłodszego do najstarszego bytu (ang. little endian).
Mimo że pliki WAVE mogą być zapisane przy użyciu dowolnych kodeków
audio, zazwyczaj stosuje się nieskompresowany format PCM, który
powoduje, że pliki zajmują dużo miejsca (około 172 kB na sekundę dla
jakości CD). Inną wadą formatu jest ograniczenie wielkości pliku do 4 GB,
ze względu na 32-bitowe zmienne.
BUDOWA FORMATU WAVE
FORMAT WAVE - CD
Dane próbek muszą się mieścić w parzystej liczbie bajtów
Próbki 8-bitowe s składowane jako liczby bez znaku: 0 .. 255
Próbki 16-bitowe s składowane jako liczby ze znakiem: -32768 .... 32767
Przykład: nagłówek pewnego pliku ma posta:
52 49 46 46 24 08 00 00 57 41 56 45 66 6d 74 20 10 00 00 00 01 00 02 00 22 56 00
00 88 58 01 00 04 00 10 00 64 61 74 61 00 08 00 00 00 00 00 00 24 17 1e f3 3c 13
3c 14 16 f9 18 f9 34 e7 23 a6 3c f2 24 f2 11 ce 1a 0d
EFEKTY DŹWIĘKOWE - PODSTAWY
Z natury samej definicji – efekty dźwiękowe wykorzystuje się do
manipulowania sygnałami audio, tak naturalnymi jak i
syntetycznymi.
W większości podział efektów dźwiękowych sprowadza się do
wyróżnienia 3 podstawowych grup, każda zawierająca wiele
typów modyfikacji dźwięku:
Modifikacje fazy (ang. Phase shifing)
Efekty przestrzenne (ang. Spatialisation effects) – polegają na
lokalizowaniu danego dźwięku w przestrzeni akustycznej.
Kształtowanie dynamiki dźwięku (ang. Dynamic range effects) –
polegają na mofyfikacjach zakresu dynamiki sygnału.
OPÓŹNIENIA I LINIE OPÓŹNIAJĄCE
Opóźnienie i linie opóźniające
stanowią
podstawę
wielu
popularnych
efektów
dźwiękowych.
Składowymi
typowej
linii
opóźniającej są:
– Wejście i wyjście audio
– Element zapisujący, odczytujący
próbki sygnału audio z wejścia audio
i zapisujący go do pamięci.
– Pamięć, przechowująca próbki
–
Element
odczytujący,
odczytujący próbki z pamięci i
wysyłający je na wyjście audio
(określane z angielskiego 'tap')
IMPLEMENTACJA LINII OPÓŹNIAJĄCYCH
Opóźnienie polega na pobraniu/rejestracji dźwięku i
odtworzeniu do po pewnym okresie czasu. Wartość opóźnienia
może się zmieniać od kilku milisekund do kilku sekund. Poniżej
przedstawiony jest schemat blokowy tzw. pojedynczego
opóźnienia, który jest utożsamiany z prostym efektem echa.
Ponieważ efekt pojedynczego echa jest bardzo prosty to często
rozbudowuje się go poprzez zastosowanie sprzężenia zwrotnego
(rozwiązanie takie często jest nazywane regeneracją). Rozwiązanie
takie polega na pobieraniu opóźnionego wyjściowego sygnału i
dodanie go do sygnału wejściowego. W takim układzie dźwięk może
być powtarzany w nieskończoność i za każdym powtórzeniem staje
się cichszy (jeżeli wzmocnienie pętli sprzężenia jest mniejsze od
jedności).
IMPLEMENTACJA LINII OPÓŹNIAJĄCYCH - CD
OPÓŹNIENIE TYPU MULTI-TAP
W pewnych sytuacjach stosowana jest bardziej elastyczna metoda
formowania opóźnień w postaci techniki multi-taps.
W rozwiązaniu multi-ta , wyjściowy sygnał jest pobierany po całkowitym
opóźnieniu dźwięku ale możliwe jest też pobieranie wyjściowego sygnału
tylko częścio oþóźnionego sygnału do pętli sprzężenia zwrotnego. Układy
tego typu nazywane są z podaniem ilości tapów czyli cząstkowych opóźnień.
Np. 3-tap oznacza trzy cząstkowe opóźnienia, 4-tap cztery ...itd. Niechciane
wartości opóźnień cząstkowych można usunąć poprzez ustawienie wartości
sygnału wyjściowego z tego „tap-a” na zero. Różnice opóźnień pomiędzy tap-
ami mogą być zróżnicowane, tj. nie musza być równe.
Ping-pong delay wytwarza dżwięk oscylujący (ang. bouncing) a typowe
jego zastosowanie to balansowanie dźwieki pomiędzy prawym a lewym
kanałem sygnału stereo.
Opóźnienie ping-pong wykorzystuje dwie oddzielne linie opóźniające a
sygnały wejściowe mogą być różne (kanały stereo) ale może być również
ten sam sygnał. Oba tory stosują wprowadzenie do pętli sprzężenia
zwrotnego sygnałów z sąsiedniego toru (a nie ze swojego własnego).
OPOŹNIENIE TYPU PING-PONG
PODSTAWOWE EFEKTY DŹWIĘKOWE - CD
Efekty zmieniające charakter/ tembr sygnału muzycznego:
Efekty wykorzystujące linie opóźniające:
– Phase shifter
– Flanger
– Chorus
Efekty wykorzystujące filtrowanie w dziedzinie czestotliwości:
– EQ
– Low pass, high pass
PRZESUWNIK FAZOWY (ANG. PHASER)
W przesuwniku fazowym specyficzne brzmienie uzyskiwane jest
poprzez
tworzenie
„wycięć”
(ang.
notch)
określonych
częstotliwości w spektrum częstotliwości.
„Wycięcia” są tworzone poprzez proste filtrowanie sygnału i
miksowanie (łączenie) sygnału z wyjścia filtru z sygnałem
pierwotnym.
Filtry wykorzystywane w tym typie efektu są tak projektowane,
by była możliwość niezależnej kontroli położenia każdego
„wycięcia” częstotliwości, liczby tych wycięć a nawet kontroli
szerokości widmowej „wycięcia”
REALIZACJA EFEKTU PHASER
„
Wycięcia” częstotliwości, niezbędne dla osiągnięcia efektu
przesunięcia fazowego najczęściej realizuje się poprzez
zastosowanie grupy filtrów nazywanych filtrami przepustowymi
(ang. allpass filters)
Zgodnie z nazwą filtry te przenoszą wszystkie częstotliwości bez
ich tłumienia lub wzmacniania.
Jeśli podamy na wejście powyższego układu sygnał sinusoidalny, na
wyjściu odtworzony zostanie również sygnal sinus o tej samej amplitudzie.
Ilość sygnalu wyjściowego, dodawanego do sygnału pierwotnego
nazywana jest głębokością efektu (ang. depth) lub też wielkością mix-u.
Pytanie tylko, gdzie występuje zatem .... przesunięcie fazy ?????
FILTRY A FAZA SYGNAŁU WEJŚCIOWEGO
Wszystkie realizacje filtrów wykazują cechę polegającą na
odpowiedzi fazowej, która zmienia się wraz z częstotliwością sygnału.
Najbardziej interesującą formą tej zmienności jest liniowa odpowiedź
fazowa. W tym przypadku, podwojenie częstotliwości oznacza
podwojenie wartości przesunięcia fazy. Długość fali o podwojonej
częstotliwości jest połową długości fali oryginalnej. To powoduje, że
wszystkie składowe częstotliwości są „ułożone w czasie” co innymi
słowy oznacza opóźnienie sygnału.
Wniosek: działanie filtrów typu „allpass” prowadzi do czystego opóźnienia
( bez sprzężeń zwrotnych lun miksowania z systemem pierwotnym)
WYKORZYSTANIE ALLPASS FILTRÓW
Analizując poprzednio omówiony przypadek liniowej zmiany fazy
(czyste opóźnienie), faza przyjmuje wartości -180 stopni minus
wielokrotności 360 stopni (-180, -540, -900, -1260, etc.) w równo
rozłożonych odstępach częstotliwości. Po zmiksowaniu z sygnałem
pierwotnym, otrzymuke się „wycięcia” częstotliwości w równo
rozłożonych odstępach na skali częstotliwości. Otrzymuje się
odmiane efektu przesunięcia fazy nazywanej flanger.
W przypadku stosowania filtru typu allpass, który wykazuje
nieliniową charakterystykę fazową, możliwa jest zmiana szerokości
„wycięcia” częstotliwości oraz ustawienie tego „wycięcia” dla
dowolnej częstotliwości.
PARAMETRY PRZESUNIĘCIA FAZY
Depth (Mix/Level) - głębokość
Parametr depth kontroluje wielkość sygnału wejściowego,
dodawanego do pierwotnego dźwieku. Kiedy parametr depth jest
ustawiony na 1 (lub 100%), wtedy notches zanikają do zera
Sweep Depth (Range) - zakres
Ten parametr jest wykorzystany do kontroli jak daleko w dół i w
górę skali częstotliwości przenoszą się notches. W pewnych
przypadkach mozliwe jest tez określenie tzw. częstotliwości
bazowej i od niej następuje kontrola zakresu „rozchodzenia” się
wycieć (notches).