PATENTY
NNOWACYJNE TECHNOLOGIE
Mgr inl Szymon Piotrowski, jeden z uczestników projektu, przygotowuje próbki do przesłuchania w małym pokoju reżyserskim studia nagrań w Katedrze Mechaniki i Wibroakustyki
Trzeba tu sobie zdać sprawę, o ile trudniejsza jest praca słuchu od pracy wzroku. Widziane przez nas obiekty odwzorowane są optycznie na siatkówce oka, a te obrazy są następnie przekazywane do mózgu. Wymaga to nadzwyczajnej precyzji (w języku techniki: rozdzielczości), jednak na siatkówce światło odwzorowujące różne obiekty pada w osobne miejsca, nie występuje mieszanie się informacji. Tymczasem jedno ucho otrzymuje tylko jedną falę dźwiękową, w której zmieszane są wszystkie dźwięki. Zadaniem słuchu jest je precyzyjnie od siebie odseparować. Tak skutecznie, jak robi to słuch, nie umie tego jak dotąd robić żaden algorytm na najbardziej nawet wydajnym superkomputerze. Trudno się więc dziwić, że słuch może skutecznie rozdzielić kilka jednoczesnych dźwięków, ale przy większej ich ilości staje się to dla niego zbyt trudne.
Dopiero teraz dochodzimy do punktu, w którym cel naszych prac będzie zrozumiały. Otóż z pełnym poczuciem braku odpowiedniej pokory powiedziałbym, że staramy się nieco wyostrzyć zmysł słuchu. Oczywiście nie za pomocą ingerencji w ten pełen nadzwyczajnych cech narząd, ale kształtując dźwięki w taki sposób, aby ułatwić mu pracę.
Co mianowicie robimy? Pomysł sam w sobie jest bardzo prosty. Z gęstwiny dźwięków docierających jednocześnie do słuchu wybieramy tylko najważniejsze, w praktyce najgłośniejsze. Pozostałe wyciszamy. Skoro dźwięków jest teraz mniej, słuch poradzi sobie łatwiej z ich odseparowaniem, czyli usłyszeniem. Co z wyciszonymi? W miejscach, z których je usunęliśmy, nie usłyszymy ich. W praktyce jednak i tak ich tam nie słyszeliśmy, tylko jakieś słabo określone brzmienie, często rodzaj szumu czy buczenia. Per saldo jest lepiej, bo utratę wyciszonych słabo zauważamy.
Wprawdzie zasada jest prosta, ale po drodze czają się liczne trudności i pytania, na które trzeba odpowiadać samemu, bo nikt podobnymi problemami nigdy się nie zajmował. Ile dźwięków warto pozostawić i od czego to zależy? Jak długi ma być odcinek czasu, w którym liczymy dźwięki? Jak szerokie ma być pasmo częstotliwości, w którym liczymy dźwięki?
(robimy to wszystko w tak zwanej dziedzinie czasowo-czę-stotliwościowej). Jak słuch zareaguje na te operacje w różnych zakresach częstotliwości? Czy kompensować powstałe różnice barwy dźwięku, czy nie? Jak zrobić to wszystko w technice stereofonicznej i technikach wielokanałowych? I tak dalej, a każde pytanie pociąga zazwyczaj wiele następnych.
Nie ma tu modelu matematycznego, bo taki dla słuchu nie istnieje, przynajmniej wystarczająco dokładny. Wszystko musimy więc robić metodą prób i błędów, czyli wielokrotnych testów słuchowych. W dodatku słuchacze słabo słyszą różnice, jeżeli zmieniamy tylko jeden parametr, a tylko w ten sposób badania można prowadzić. Podsumowując - fascynujące, ale bardzo trudne!
Czy to wszystko naprawdę działa? Tak, ale nie bez problemów. Pracujemy głównie na materiałach muzycznych. Bez względu na rodzaj muzyki zdecydowana większość słuchaczy wybiera nasze wersje jako „bardziej szczegółowe". Jeżeli jednak pytamy o ogólne wrażenie, czyli po prostu o to, czy lepiej brzmi nagranie oryginalne, czy przetworzone przez nas, to nasze wersje również wybierane są częściej, jednak zależy to od rodzaju nagrania. Wiemy, że jeszcze sporo pracy przed
AGH 2B: Jakich rezultatów się Pan spodziewa?
Prof. Kleczkowski: Chcielibyśmy, aby dla większości gatunków muzyki około 75% słuchaczy odnosiło korzyść z naszej technologii. Są też inne pola, w których nasza metoda może poprawić odbiór nagrań, na przykład zwiększenie wyrazistości dialogu w filmach (notoryczny problem polskiego kina...). Robiliśmy też wstępne badania, czy nasza metoda poprawia odbiór muzyki przez osoby niedosłyszące. Jest na to spora szansa.
AGH 2B: W jakim stopniu badania są innowacyjne?
Prof. Kleczkowski: Nasze badania są całkowicie oryginalne. Nie ułatwia nam to pracy, bo nikt nigdy niczego podobnego nie próbował i nie badał, i do wszystkich wniosków musimy dochodzić sami. Jednak podobnych, choć bardzo uproszczonych, elementów można dopatrzyć się w praktyce pracy realizatorów nagrań, stosowanej od wielu lat. Próbują oni tak kształtować barwy dźwięku elementów nagrania muzycznego, aby pasma częstotliwości eksponowane w różnych instrumentach nie pokrywały się.
AGH 2B: Kto wchodzi w skład zespołu badawczego?
Prof. Kleczkowski: W skład zespołu badawczego oprócz mnie wchodzą: Dr Marek Pluta, dr inż. Agnieszka Ozga, prof. dr hab. inż. Tomasz Zieliński, mgr inż. Szymon Piotrowski, mgr inż. Tomasz Dziedzic. Na wczesnym etapie pracy pomagała też mgr inż. Magdalena Plewa.
AGH 2B: Czy badania prowadzone są przez AGH samodzielnie, czy we współpracy z partnerami zewnętrznymi?
Prof. Kleczkowski: Badania prowadzimy całkowicie samodzielnie. Nasze zasoby laboratoryjne są w pełni wystarcza-
KWARTA
K CENTRUM TRANSFERU TECHNOLOGII AG
KRAKOWIE