Badania naukowe
Wywiad z dr. inż. Bartoszem Ziółko na temat badań dotyczących technologii mowy, prowadzonych przez Zespół Przetwarzania Sygnałów AGH
Newsletter: Kto wchodzi w skład Zespołu Przetwarzania Sygnałów?
Dr Ziółko: W szerokim ujęciu jest to około 30 osób, gdyż traktujemy jako członków zespołu także studentów pracujących przy realizacji grantów. Natomiast do grona osób, które decydują o kierunkach i zakresie badań należy: prof. Mariusz Ziółko, dr Jakub Gałka i ja. Chciałbym również wspomnieć o dwóch wyróżniających się magistrach, tj. Dawidzie Skurzoku i Tomaszu Jadczyku, którzy naszym projektom poświęcają mnóstwo czasu, i w efekcie są głównymi programistami naszych systemów.
Newsletter: Czego dotyczą badania prowadzone przez Zespół?
Dr Ziółko: Naszym głównym celem jest stworzenie systemu rozpoznawania mowy, czyli programu, który mógłby zamieniać dowolne nagranie na plik w Wordzie (dźwięk głosu osoby mówiącej na tekst). Innymi słowy sygnał akustyczny byłby zamieniany na litery. Dzięki rozpoznawaniu mowy, teksty będzie można wprowadzać do komputera za pomocą mikrofonu, a nie (jak obecnie) klawiatury. Usprawni to pracę, gdyż należy pamiętać, że dyktowanie jest trzy razy szybsze od pisania na klawiaturze. System będzie mógł być użyty do dyktowania książek, raportów, a także automatycznego protokołowania w sądach i sejmie. Ponadto dzięki systemowi rozpoznawania mowy za pomocą głosu można będzie sterować wybranymi funkcjami komputera np. uruchamiać programy, wydawać komendy. Napisanie takiego programu jest skomplikowanym i wymagającym czasu przedsięwzięciem, gdyż nauczenie komputera jak zrozumieć ludzką mowę jest bardzo trudne.
Drugi duży projekt ma na celu stworzenie tzw. wyszukiwarki akustycznej. Wyszukiwarka umożliwiłaby przeszukiwanie dłuższych nagrań, aby znaleźć interesującą nas treść (słowa, wyrażenia) bez konieczności przesłuchiwania nagrań, trwających niekiedy, wiele tysięcy godzin.
Newsletter: Czy Państwa pomysły zostały już wykorzystane na szerszą skalę?
Dr Ziółko: Dużym zainteresowaniem cieszy się system rozpoznawania mówców. Polega on na tym, że na podstawie barwy i tonu głosu, a także cech biometrycznych związanych z budową toru głosowego człowieka można zidentyfikować osobę mówiącą. Oczywiście nie jesteśmy w stanie rozpoznać tożsamości osoby nieznanej, a więc aby zastosować system należy najpierw stworzyć bazę, która zawiera próbki głosów. Skuteczność systemu jest bardzo wysoka i co ważne, działa w trybie on-line. Może być wykorzystywany np. w infoliniach telefonicznych, automatycznym opisywaniu tożsamości osób zabierających głos w trakcie obrad lub posiedzeń. Systemem jest zainteresowany Polski Senat, dlatego też w październiku odbędą się w nim pierwsze prezentacje. Warte zaznaczenia jest to, że projekt w wyniku którego powstał system, rozpoczął się w grudniu 2012 roku, a już udało się stworzyć prototyp sys-
Newsletter: Kiedy można liczyć na wdrożenie Państwa wynalazków?
Dr Ziółko: Wiele osób dopytuje się, kiedy będzie można korzystać z naszych wynalazków, ale nie jest to takie proste. Istnieją problemy natury prawnej, a mianowicie polskie prawo z jednej strony zakłada, że algorytmy nie są wynalazkami, a z drugiej strony zabrania patentować za granicą, jeżeli nie zgłosiło się patentów w Polsce. Procedura jest zatem dość skomplikowana, bowiem trzeba zgłosić patent, wiedząc, że zostanie w Polsce odrzucony, a następnie zgłosić go za granicą.
Oczywiście mamy na koncie pierwsze sukcesy, tzn. wdrożenia. Firmy kupują licencje do naszych półproduktów i modułów. Największą popularnością cieszy się program, za pomocą którego można zamienić zapis ortograficzny na zapis fonetyczny, a więc taki, który potrafi podjąć decyzję, w jaki sposób słowo powinno być czytane.
Newsletter: W jakim stopniu badania są innowacyjne?
Dr Ziółko: Należy pamiętać, że technologie mowy są ściśle związane z językiem jakim się posługujemy. Oznacza to, że rozwiązania, które powstały na potrzeby np. języka angielskiego, ze względu na specyfikę wymowy, gramatyki itd. nie powinny być automatycznie przenoszone do innego języka. My zajmujemy się technologiami mowy w odniesieniu do języka polskiego i w tym zakresie, nasze badania rzeczywiście są innowacyjne. Oczywiście nie jesteśmy jedyni, bowiem istnieje kilka silnych