background image

WYKŁAD I

Dr inż. Sławomir Przyłucki

spg@spg51.net

MATERIAŁY: ftp://ftp.spg51.net

User: mpns

Passwd: mpns2011

 

Cechy dźwięku. Pojęcie syntezy dźwięku

 Analogowa i cyfrowa synteza dźwięku – podstawy
 Format plików RIFF i WAVE

 

 

Efekty dźwiękowe

 Tworzenie efektu opóźnień
 Wykorzystanie przesunięcia fazy. 

background image

CECHY DŹWIĘKU

 

 

Barwa dźwięku

Barwa dźwięku

 jest cechą charakterystyczną każdego dźwięku a 

czasem też miarą jego jakości.

Ta cecha zależy w głównej mierze od zmian w czasie intensywności 
poszczególnych częstotliwości wchodzących w skład dźwięku.  

Spectrogram

Spectrogram

 jest  wykresem  spectrum  częstotliwości  a  zatem 

graficzną reprezentacją cech dźwięku w danej chwili. 

Czas na osi y (start 

na gorze,koniec na 
dole); częstotliwość 
na osi x 

Poziom składowej 
– im jaśniejszy tym 

wyższy 

background image

CZYM JEST SYNTEZA DŹWIĘKU ?

 

Synteza dźwięku to najkrócej odtworzenie timbru (barwy dżwięku) 

tradycyjnych  intrumentów  lub  utworzenie  nowego  brzmienia  za 

pomocą  sztucznych  narzędzi  (tj.  nie  instrumentu  a  np.  zestawu 
układów elektronicznych) 

  Algorytm  syntezy  dźwięku  to  opis  jakich  narzędzi  użyć  i  w  jaki 

sposób w celu otrzymania określonego brzmienia. 

Algorytmy syntezy można podzielić na dwie podstawowe grupy:  

 syntezę analogową
 syntezę cyfrową 

 

Graf syntezy jest opisem sposobu współdziałania komponentów 

algorytmu sysntezy w celu wygenerowania określonego dźwięku. 

  Graf  syntezy  może  być  przedstawiany  jako  grafy  przepływu 

sygnału, podobnie do np. w automatyce lub elektronice. 

background image

ANALOGOWE SYNTEZATORY MODUŁOWE

 

Analogowe  syntezatory  modułowe  składają  się  ze  zbioru  modułów 

elektronicznych  połączonych  ze  sobą  zgodnie  z  zaleceniami 
algorytmu syntezy. 

 Moduły mogą być przełączane i konfigurowane (dostrajane) podczas 

pracy. 

background image

SYNTEZA SUBSTRAKTYWNA

 

Synteze 

rozpoczyna 

generacja  fali  okresowej  o 
wysokiej 

zawartości 

harmonicznych 

(np. 

fala 

trójkątna, prostokątna)

 
  Filtr  usuwa  wysokie  / 

niepożądane  częstotliwości  z 
dźwięku 

(dlatego 

metoda 

substraktywna). 

  Generator  obwiedni  (ang. 

envelope  generator)  moduluje 
aplitude fali w czasie. 

  Całością  steruje  LFO  (ang. 

low  frequency  oscillators), 
ktory  moduluje  zmienność 
parametrów syntezy. 

background image

PODSTAWOWE ELEMENTY SYNTEZY ANALOGOWEJ

Oscylatory 

– służą do generacji określonych sygnałów, tak periodycznych 

np.  fale  sinusoidalne,  jak  i  aperiodyczne  np.  losowy  szum  biały. 
Wygenerowany sygnał może być częścią finalnego sygnału dźwiękowego 
(audio  oscillator)  lub  też  może  modulować  określone  aspekty 
msyntezowanego dźwięku (LFO). 

Filtry

 – 

służą 

do 

kształtowania 

charakterystyki 

czestotliwosciowej a tym samym spektogramów. W przypadku 
syntezy  substrakcyjnej,  filrty  usuwały  niechciany  zakres 
częstotliwości.  

Filtr dolnoprzepustowy 
(ang. low pass filter) – 

dźwięk przytłumiony

Filtr górnoprzepustowy 

(ang. high pass filter) – 

dżwięk płaski, 

jednowymiarowy 

Filtr pasmowy (ang. band 

pass filter) – dżwięk 

„nosowy”

 

background image

GENERATORY OBWIEDNI

 

Generatory  obwiedni

 (ang.  envelope  generators)  są 

wykorzystywane do kontrolowania procesu syntezy w czasie. 

 Sa one wyzwalane przez okreslone zdarzenia (np. nacisnięcie 

klawisza klawiatury) i mogą posiadać różne kształty. 

background image

SYNTEZA ADDYTYWNA

 

Synteza  addytywna  polega  na  dodawaniu  prostych  przebiegów 

dźwiękowych  w  celu  otrzymania  bardziej  złożonych  form  i  jest  to 
jedna z najstarszych metod syntezy dźwięku.  

  Przykładem  praktycznego  wykorzystania  syntezy  addytywnej  są, 

kultowe już dzisiaj, organy Hammona. 

 

Wykorzystywane sa składowe sinusoidalne

 Zasada działania:  Dodawanie harmonicznych częstotliwości 

podstawowej, np. dla 50Hz będzie to 100Hz, 200Hz 400Hz czyli 

całkowite wielokrotności częstotliwości bazowej. 

 Uzasadnienie popularności: naturalnie odbierane dźwięki bardzo 

często charakteryzują się bogatą zawartością harmonicznych. 

Najprostsza forma syntezy addytywnej

Najprostsza forma syntezy addytywnej

 – 

 – 

sumowanie harmonicznych

sumowanie harmonicznych

background image

ILUSTRACJA SUMOWANIA HARMONICZNYCH

Wersja  niezależna  od  czasu 

Wersja  niezależna  od  czasu 

(ang. harmonic additive

(ang. harmonic additive

synthesis - time invariant)

synthesis - time invariant)

background image

SUMOWANIE SKŁADOWYCH NIEHARMONICZNYCH

  Składowe  nieharmoniczne 

są  składowymi  o  dowolnej 
częstotliwości 

ponad 

częstotliwość  bazową,  –  np

100Hz, 135Hz, 2501Hz itd.

 

 Wynika z tego, że składowe 

harmoniczne  są  podzbiorem 
wszystkich 

składowych 

nieharmonicznych. 

 

Uzasadnienie 

użycia: 

naturalne 

instrumenty 

wykazują 

szczególnie 

złożoną  dynamikę  w  części 
„atack” obwiedni. 

Wersja  niezależna  od  czasu 

Wersja  niezależna  od  czasu 

(ang. inharmonic additive

(ang. inharmonic additive

synthesis - time invariant)

synthesis - time invariant)

background image

SYNTEZA ADDYTYWNA ZE ZMIENNOŚCIĄ W CZASIE

Uzasadnienie 
użycia:  składowe, 
tak harmoniczne jak 
i  nieharmoniczne, 
które  rejestruje  się 
we 

dźwiękach 

bardzo 

często 

zmieniają  się  w 
czasie. 

Podstawowy problem: 

Jak tworzyć i 

Jak tworzyć i 

wykorzystywać dane 

wykorzystywać dane 

sterujace zmiennością 

sterujace zmiennością 

?

?

background image

SYNTEZA CYFROWA DŹWIĘKU

 

Cyfrowa  synteza dźwięku odbywa się  w dziedzinie dyskretnej, za 

pomocą narzędzi/algorytmów cyfrowego przetwarzania sygnałów. 

 W celu realizacji tego rodzaju syntezy opracowano specjalizowane 

języki opisu procesu syntezy i specjalizowane układy komputerowe. 

Przykładem takich języków może być opracowany przez Maxa
Mathews-a (Bell Telephone Laboratories) język Music I.  

 

Cyfrowa synteza dźwięku pozwala na tworzenie zdecydowanie 

szerszej gamy algorytmów niż synteza analogowa. Przykładem 

algorytmu,  który  niezwykle  trudno  byłoby  zrealizować 
analogowo jest syntaza tablicowa (ang. wavetable synthesis)

background image

CYFROWA SYNTEZA TABLICOWA 

 

Dźwięk  po  przetworzeniu  analogowo-cyfrowym  jest  zapisywany  w 

pamięci. 

 Generator, pobierając zapisane (ew. zmodyfikowane) próbki generuje 

z  nich  finalny  przebieg  okresowy  (określony  dźwięk  o  założonym 
spektogramie. 

  Ponieważ  w  danych  tablicy  zapisać  można  nawet  bardzo  złożone 

relacje  oraz  dowolną  długość  to  istnieje  możliwość  tworzenia 

praktycznie dowolnych dźwięków. 

 

Typowe wykorzystanie

 tej techniki:

 Wavetable crossfading
 Wavetable stacking

Tablica 16 punktowa

Tablica 512 punktowa

Problem z doborem ilości
bitów na punkt tablic

y

background image

KLASYCZNE ROZWIĄZANIA 

background image

SYNTEZA FM 

 Ten algorytm syntezy 

wynalazl John Chowning w 
1967 (komercjalizacja w 

kultowym Yamaha DX7)

 W najprostszym przypadku, 

generator jest 
wykorzystywany do bardzo 

szybkiej zmiany 
czestotliwości generowanej 

przez generator nośnej (ang. 
carrier oscillator).

 
 W bardziej złożonych 

przypadkach 

wykorzystywanych jest wiele 
modulatorów oraz wiele 

generatorów nośnej. 

background image

First 
file 
byte

Second 
file 
byte

First 
file 
byte

Second 
file 
byte

Third 
file 
byte

Fourth 
file 
byte

First 
file 
byte

Second 
file 
byte

First 
file 
byte

Second 
file 
byte

Third 
file 
byte

Fourth 
file 
byte

Big  endian

Big  endian

 (spotykane  także 

grubokońcowość)  to  forma  zapisu 
danych, 

której 

najbardziej znaczący bajt

 (zwany 

też  grubym  bajtem,  z 

ang.

 high-

order  byte)  umieszczony  jest  jako 
pierwszy. 

SPARC

Motorola 68000

PowerPC 970

,  IBM 

System/360

Siemens 

SIMATIC S7

.

Little  endian

Little  endian

 (spotykane  także 

cienkokońcowość) 

to 

forma 

zapisu  danych,  w  której  mniej 
znaczący  bajt  (zwany  też  dolnym 
bajtem,  z 

ang.

 low-order  byte) 

umieszczony jest jako pierwszy. 
wszystkie  z  rodziny 

x86

,  DEC 

VAX

.

ZAPIS BAJTÓW W PLIKACH

background image

FORMAT PLIKÓW RIFF - PREKURSOR

RIFF  (

ang.

 Resource  Interchange  File  Format),  format 

plików

 

przeznaczony 

do 

przechowywania 

danych 

multimedialnych, 

szczególności  dźwięku  (

RIFF WAVE

)  i  video  (

RIFF AVI

).  Format  RIFF 

został zaprojektowany przez firmę 

Microsoft

.

 

Format  RIFF  opiera  się  na  oznakowanych  blokach  danych  o  podanej 

długości (

ang.

 chunks). 

 Każdy blok składa się z nagłówka i pola danych. 
  Nagłówek  zawiera  identyfikator  bloku  i  długość  pola  danych.  Identyfikator 

(zwany też 

FourCC

) to cztery bajty – litery w kodzie 

ASCII

  Następuje  po  nim  32-bitowa  liczba  bez  znaku  zapisana  w  formacie 

little endian

 określająca długość pola danych w bajtach.

background image

FORMAT PLIKÓW RIFF - CD

Plik  w  formacie  RIFF  składa  się  z  bloku  nadrzędnego  o  identyfikatorze 
"RIFF",  wewnątrz  którego  znajduje  się  4-bajtowy  identyfikator  podformatu 
(np.  "WAVE"),  a  następnie  bloki  podrzędne,  których  identyfikatory,  ilość, 
kolejność  występowania  i  zawartość  pól  danych  zależą  od  podformatu.  W 
prawidłowo  zbudowanym  pliku  RIFF  długość  bloku  głównego  jest  równa 
długości  całego  pliku  pomniejszonego  o  8.  Konstrukcja  formatu  ogranicza 
maksymalną długość pliku do 4 GB.

background image

FORMAT WAVE

 

Opracowany przez Microsoft format zapisu audio – szczególny przypadek 

specyfikacji RIFF.

  WAVE  bazuje  na  formacie  RIFF,  poszerzając  go  o  informacje  o 

strumieniu  audio,  takie  jak  użyty  kodek,  częstotliwość  próbkowania  czy 
ilość kanałów. 

  Ogólna  struktura  pliku  –  nagłówek  specyfikujący  typ  i  rozmiar  pliku, 

szereg różnego rodzaju porcji (ang. chunks) opisujących struktur i wartoci 
danych

 

W  WAVE  –  obowiązkowe  porcje  typu  ”fmt  ”  i  ”data”;  segment  formatu 

musi  poprzedza  dane.  Wszystkie  liczby  specyfikowane  w  porządku  od 
najmłodszego do najstarszego bytu (ang. little endian).

 Mimo że pliki WAVE mogą być zapisane przy użyciu dowolnych kodeków 

audio,  zazwyczaj  stosuje  się  nieskompresowany  format  PCM,  który 
powoduje,  że  pliki  zajmują  dużo  miejsca  (około  172  kB  na  sekundę  dla 
jakości CD). Inną wadą formatu jest ograniczenie wielkości pliku do 4 GB, 
ze względu na 32-bitowe zmienne. 

background image

BUDOWA FORMATU WAVE

background image

FORMAT WAVE - CD

 

Dane próbek muszą się mieścić w parzystej liczbie bajtów

 

Próbki 8-bitowe s składowane jako liczby bez znaku: 0 .. 255

 

Próbki 16-bitowe s składowane jako liczby ze znakiem: -32768 .... 32767

Przykład: nagłówek pewnego pliku ma posta:

52 49 46 46 24 08 00 00 57 41 56 45 66 6d 74 20 10 00 00 00 01 00 02 00 22 56 00 

00 88 58 01 00 04 00 10 00 64 61 74 61 00 08 00 00 00 00 00 00 24 17 1e f3 3c 13 

3c 14 16 f9 18 f9 34 e7 23 a6 3c f2 24 f2 11 ce 1a 0d

background image

EFEKTY DŹWIĘKOWE - PODSTAWY

 Z natury samej definicji – efekty dźwiękowe wykorzystuje się do 

manipulowania  sygnałami  audio,  tak  naturalnymi  jak  i 

syntetycznymi.  

  W  większości  podział  efektów  dźwiękowych  sprowadza  się  do 

wyróżnienia  3  podstawowych  grup,  każda  zawierająca  wiele 
typów modyfikacji dźwięku: 

 

Modifikacje fazy (ang. Phase shifing)

  Efekty  przestrzenne  (ang.  Spatialisation  effects)  –  polegają  na 

lokalizowaniu danego dźwięku w przestrzeni akustycznej. 

 Kształtowanie dynamiki dźwięku (ang. Dynamic range effects) – 

polegają na mofyfikacjach zakresu dynamiki sygnału. 

background image

OPÓŹNIENIA I LINIE OPÓŹNIAJĄCE

 

Opóźnienie  i  linie  opóźniające 

stanowią 

podstawę 

wielu 

popularnych 

efektów 

dźwiękowych. 

 

Składowymi 

typowej 

linii 

opóźniającej są: 

 – Wejście i wyjście audio
  –  Element  zapisujący,  odczytujący 

próbki sygnału audio z wejścia audio 
i zapisujący go do pamięci. 

 – Pamięć, przechowująca próbki
 

– 

Element 

odczytujący, 

odczytujący  próbki  z  pamięci  i 
wysyłający  je  na  wyjście  audio 
(określane z angielskiego 'tap')

background image

IMPLEMENTACJA LINII OPÓŹNIAJĄCYCH 

 

Opóźnienie  polega  na  pobraniu/rejestracji  dźwięku  i 

odtworzeniu  do  po  pewnym  okresie  czasu.  Wartość  opóźnienia 

może  się  zmieniać  od  kilku  milisekund  do  kilku  sekund.  Poniżej 
przedstawiony  jest  schemat  blokowy  tzw.  pojedynczego 

opóźnienia, który jest utożsamiany z prostym efektem echa. 

background image

 

Ponieważ  efekt  pojedynczego  echa  jest  bardzo  prosty  to  często 

rozbudowuje  się  go  poprzez  zastosowanie  sprzężenia  zwrotnego 
(rozwiązanie  takie  często  jest  nazywane  regeneracją).  Rozwiązanie 

takie  polega  na  pobieraniu  opóźnionego  wyjściowego  sygnału  i 
dodanie go do sygnału wejściowego. W takim układzie dźwięk może 
być  powtarzany  w  nieskończoność  i  za  każdym  powtórzeniem  staje 

się  cichszy  (jeżeli  wzmocnienie  pętli  sprzężenia  jest  mniejsze  od 
jedności). 

IMPLEMENTACJA LINII OPÓŹNIAJĄCYCH - CD 

background image

OPÓŹNIENIE TYPU MULTI-TAP

W pewnych sytuacjach stosowana jest bardziej elastyczna metoda 
formowania opóźnień w postaci techniki multi-taps.

 

W  rozwiązaniu  multi-ta  ,  wyjściowy  sygnał  jest  pobierany  po  całkowitym 
opóźnieniu  dźwięku  ale  możliwe  jest  też  pobieranie  wyjściowego  sygnału 
tylko  częścio  oþóźnionego  sygnału  do  pętli  sprzężenia  zwrotnego.  Układy 
tego typu nazywane są z podaniem ilości tapów czyli cząstkowych opóźnień. 
Np. 3-tap oznacza trzy cząstkowe opóźnienia, 4-tap cztery ...itd.  Niechciane 
wartości  opóźnień  cząstkowych  można  usunąć  poprzez  ustawienie  wartości 
sygnału wyjściowego z tego „tap-a” na zero. Różnice opóźnień pomiędzy tap-
ami mogą być zróżnicowane, tj. nie musza być równe. 

background image

  Ping-pong  delay  wytwarza  dżwięk  oscylujący  (ang.  bouncing)  a  typowe 

jego  zastosowanie  to  balansowanie  dźwieki  pomiędzy  prawym  a  lewym 
kanałem sygnału stereo. 

  Opóźnienie  ping-pong  wykorzystuje  dwie  oddzielne  linie  opóźniające  a 

sygnały  wejściowe  mogą  być  różne  (kanały  stereo)  ale  może  być  również 
ten  sam  sygnał.  Oba  tory  stosują  wprowadzenie  do  pętli  sprzężenia 
zwrotnego sygnałów z sąsiedniego toru (a nie ze swojego własnego). 

OPOŹNIENIE TYPU PING-PONG

background image

PODSTAWOWE EFEKTY DŹWIĘKOWE - CD

 

Efekty zmieniające charakter/ tembr sygnału muzycznego:

 Efekty wykorzystujące linie opóźniające:

 
– Phase shifter

– Flanger
– Chorus

 Efekty wykorzystujące filtrowanie w dziedzinie czestotliwości: 

– EQ
– Low pass, high pass 

background image

PRZESUWNIK FAZOWY (ANG. PHASER)

 

W przesuwniku fazowym specyficzne brzmienie uzyskiwane jest 

poprzez 

tworzenie 

„wycięć” 

(ang. 

notch) 

określonych 

częstotliwości w spektrum częstotliwości.

  „Wycięcia”  są  tworzone  poprzez  proste  filtrowanie  sygnału  i 

miksowanie  (łączenie)  sygnału  z  wyjścia  filtru  z  sygnałem 
pierwotnym. 

 Filtry wykorzystywane w tym typie efektu są tak projektowane, 

by  była  możliwość  niezależnej  kontroli  położenia  każdego 

„wycięcia”  częstotliwości,  liczby  tych  wycięć  a  nawet  kontroli 
szerokości widmowej „wycięcia” 

background image

REALIZACJA EFEKTU PHASER

  „

Wycięcia”  częstotliwości,  niezbędne  dla  osiągnięcia  efektu 

przesunięcia  fazowego  najczęściej  realizuje  się  poprzez 

zastosowanie  grupy  filtrów  nazywanych  filtrami  przepustowymi 
(ang. allpass filters) 

  Zgodnie  z  nazwą  filtry  te  przenoszą  wszystkie  częstotliwości  bez 

ich tłumienia lub wzmacniania.

Jeśli  podamy  na  wejście  powyższego  układu  sygnał  sinusoidalny,  na 
wyjściu odtworzony zostanie również sygnal sinus o tej samej amplitudzie. 
Ilość  sygnalu  wyjściowego,  dodawanego  do  sygnału  pierwotnego 
nazywana  jest  głębokością  efektu  (ang.  depth)  lub  też  wielkością  mix-u. 
Pytanie tylko, gdzie występuje zatem .... przesunięcie fazy ?????

background image

FILTRY A FAZA SYGNAŁU WEJŚCIOWEGO

  Wszystkie  realizacje  filtrów  wykazują  cechę  polegającą  na 

odpowiedzi fazowej, która zmienia się wraz z częstotliwością sygnału. 

 Najbardziej interesującą formą tej zmienności jest liniowa odpowiedź 

fazowa.  W  tym  przypadku,  podwojenie  częstotliwości  oznacza 
podwojenie  wartości  przesunięcia  fazy.  Długość  fali  o  podwojonej 

częstotliwości  jest  połową  długości  fali  oryginalnej.  To  powoduje,  że 
wszystkie  składowe  częstotliwości  są  „ułożone  w  czasie”  co  innymi 

słowy oznacza opóźnienie sygnału. 

Wniosek:  działanie  filtrów  typu  „allpass”  prowadzi  do  czystego  opóźnienia 
( bez sprzężeń zwrotnych lun miksowania z systemem pierwotnym) 

background image

WYKORZYSTANIE ALLPASS FILTRÓW

  Analizując  poprzednio  omówiony  przypadek  liniowej  zmiany  fazy 

(czyste  opóźnienie),  faza  przyjmuje  wartości  -180  stopni  minus 

wielokrotności  360  stopni  (-180,  -540,  -900,  -1260,  etc.)  w  równo 
rozłożonych  odstępach  częstotliwości.  Po  zmiksowaniu  z  sygnałem 
pierwotnym,  otrzymuke  się  „wycięcia”  częstotliwości  w  równo 

rozłożonych  odstępach  na  skali  częstotliwości.  Otrzymuje  się 
odmiane efektu przesunięcia fazy nazywanej flanger

  W  przypadku  stosowania  filtru  typu  allpass,  który  wykazuje 

nieliniową  charakterystykę  fazową,  możliwa  jest  zmiana  szerokości 

„wycięcia”  częstotliwości  oraz  ustawienie  tego  „wycięcia”  dla 
dowolnej częstotliwości. 

background image

PARAMETRY PRZESUNIĘCIA FAZY

Depth (Mix/Level) - głębokość
Parametr  depth  kontroluje  wielkość  sygnału  wejściowego, 

dodawanego do pierwotnego dźwieku. Kiedy parametr depth jest 
ustawiony na 1 (lub 100%), wtedy notches zanikają do zera 

Sweep Depth (Range) - zakres
Ten parametr jest wykorzystany do kontroli jak daleko w dół i w 
górę  skali  częstotliwości  przenoszą  się  notches.  W  pewnych 

przypadkach  mozliwe  jest  tez  określenie  tzw.  częstotliwości 
bazowej i od niej następuje kontrola zakresu „rozchodzenia” się 

wycieć (notches).


Document Outline