V Konferencja PLOUG
Zakopane
Październik 1999
MPEG-7 - standard informacji multimedialnej
Czesław Jędrzejek
e-mail: jedrzeje@itti.com.pl
Instytut Telekomunikacji, Akademia Techniczno-Rolnicza, Bydgoszcz
oraz Instytut Technik Telekomunikacyjnych i Informatycznych, Poznań
Streszczenie
Multimedialność w odniesieniu do baz danych występuje w kilku znaczeniach:
• płytkim przez występowanie danych w formie obrazu, dźwięku i wideo. Odwołanie nie następuje przez
zawartość (content), a przez plik binarny (BLOB). Schemat bazy jest relacyjny,
• odwoływanie do bazy danych następuje nie poprzez tekstowe słowo kluczowe, ale poprzez elementy
zawartości,
• najbardziej ogólnym: obiekty multimedialne są zsynchronizowane
• połączenie z bazą danych następuje poprzez skrypty współpracujące z WWW.
Powstający standard ISO MPEG-7 „Multimedia Content Description Interface” zunifikuje: formę informacji,
deskryptory i ich schematy oraz Data Definition Language. Zastosowania obejmą: wyszukiwanie, zarządzanie,
przetwarzanie i archiwizowanie informacji multimedialnej.
2
Wstęp
W chwili obecnej, gdy zalewa nas zwiększająca się masa informacji różnego typu coraz
większe znaczenie zdobywają metody zarządzania takimi informacjami. Większość
dotychczasowych rozwiązań bazuje na technice etykietowania przechowywanych
informacji. Jednak cała procedura etykietowania jest dość pracochłonna, i wymaga
zatrudnienia ludzi, którzy będą „wymyślali” etykiety dla poszczególnych informacji. Takie
rozwiązania nie oddają rzeczywistych podobieństw przechowywanych informacji i
powodują nieporozumienia podczas wyszukiwania według takich etykiet. Jedynym
słusznym rozwiązaniem jest danie użytkownikowi możliwości wyszukiwania informacji
bazującej na faktycznej zawartości bazy danych, a nie tylko na opisach tych informacji.
Całe zagadnienie jest niezwykle trudne i pracochłonne, ponieważ należy opracować
kryteria podobieństw informacji zależnych od jej typu. Nie można opierać się - jak to jest
możliwe w stosowanych dotychczas rozwiązaniach - na binarnej reprezentacji informacji.
Dwie zupełnie różne (binarnie) informacje mogą się okazać zdjęciami tej samej osoby
wykonanymi tylko w innej scenerii. Nadawanie sekwencjom wideo opisów słownych,
czyli tworzenie bazy obrazów indeksowanej tekstem ma następujące wady:
1. nie pozwala wyszukiwać wykorzystując własności wizualnych obrazu
2. wyniki są zależne od użytego słownictwa
3. nie pozwala na wyszukiwanie podobnych obrazów.
Ważne jest też opracowanie bardzo wydajnych algorytmów, które by umożliwiały
możliwie szybkie określenie stopnia podobieństwa dwóch informacji tego samego typu,
aby czas wyszukiwania zadanej przez użytkownika informacji z często kilku-gigabajtowej
bazy danych był dla niego zadawalający. Należy też rozwiązać sposób reprezentowania
informacji w bazie danych. Dotychczas wszystkie informacje niestandardowych typów
(obrazy, dźwięki, filmy, itp.) były przechowywane w polach binarnych, które nic nie
mówiły o rodzaju przechowywanej informacji. Wydaje się tu rozsądne wprowadzenie
większej liczby typów standardowych do przechowywania podstawowych informacji
multimedialnych, a także pozostawienia projektantowi (użytkownikowi) możliwości
definiowania własnych typów danych i funkcji podobieństwa dla tych typów co da bardzo
dużą elastyczność i
możliwość rozbudowy. Należy także się liczyć z kosztami
przechowywania informacji w formie cyfrowej, które czasem są droższe niż analogowe, a
w dodatku bardzo dużo informacji jest w tej chwili dostępne tylko w formie analogowej, a
proces ich digitalizacji może być bardzo kosztowny, tak więc istnieje potrzeba rozwiązania
problemu wyszukiwania informacji w zbiorach analogowych. Coraz większe możliwości
daje obecnie Internet, a w szczególności WWW. Należy więc zapewnić możliwość
udostępniania składowanych informacji przez Internet. Użytkownicy sieci WWW mają
coraz większe wymagania jeśli chodzi o wrażenia audio-wizualne.
Informacja multimedialna
Multimedialność w odniesieniu do baz danych występuje w kilku znaczeniach:
1. płytkim przez występowanie danych w formie obrazu, dźwięku i wideo. Odwołanie nie
następuje przez zawartość (content), a przez zwykły plik binarny (tzw. BLOB).
Schemat bazy jest relacyjny,
2. odwoływanie do bazy danych następuje nie tylko poprzez tekstowe słowo kluczowe,
ale także poprzez elementy zawartości,
3
3. najbardziej ogólnym: obiekty multimedialne są zsynchronizowane (istnieją między
nimi zależności czasowe) oraz istnieje interakcja użytkownika ze scenariuszem
(poprzez start, stop, pauzę, cofnięcie (wstecz) i przegląd)
4. połączenie z bazą danych następuje poprzez skrypty współpracujące z WWW (np.
CGI).
Multimedialne bazy danych na ogół wiążą się z obiektowością. Do tej pory obiektowe
bazy danych stanowiły zaledwie kilka procent całego rynku bazy danych. Jednak nowe
zastosowania wymuszają wprowadzanie obiektowych, lub relacyjno-obiektowych baz
danych.
Tendencją obserwowaną obecnie na rynku jest stopniowe przechodzenie materiałów np.
książek z postaci papierowej na postać cyfrową. Np. jedna z największych firm Schuster &
Schuster (o sprzedaży znacznie ponad 2 mld USD), (ulokowana w Nowym Yorku, USA)
planuje zwiększyć udział dochodów z wydawnictw elektronicznych (materiałów na CD-
ROM-ach, płyty wideo, wkrótce DVD, i materiałów on-line) z 25% do 50% w roku 2000.
Sam oddział dotyczący edukacji na poziomie szkół wyższych Higher Education Division
(o sprzedaży 500 mln USD) wykorzystuje w podręcznikach i CD-ROM-ach ponad 100 000
fotografii i ilustracji. Przejście na postać cyfrową wiąże się z kilkoma etapami:
pozyskiwaniem materiałów, obróbką (przetwarzanie obrazu i dźwięku), indeksowaniem
materiału multimedialnego (oraz rozliczaniem własności intelektualnej) i ich archiwizacją.
Wiele operacji łącznie z archiwizacją mogłoby być przeprowadzonych o wiele bardziej
wydajnie gdyby opanować technologię multimedialnych baz danych. Mimo to wiodące
firmy w dziedzinie mediów (Time-Warner, McGraw Hill, wydawca Business Week),
firmy w dziedzinie reklamy, oraz korporacje jak General Motors i Amway budują cyfrowe
archiwa swoich materiałów promocyjnych, aby ułatwić pracę swoim projektantom oraz
firmom współpracującym. Obecny sposób pozyskiwania fotografii jest bardzo uciążliwy.
Trzeba przeglądnąć oddzielnie archiwa agencji fotograficznych. Po zwróceniu się o
udostępnienie, wykonuje się odbitki w koszcie 75 USD za sztukę. Na ogół dla różnych
aplikacji trzeba wykonać oddzielne formatowanie. W przypadku archiwum cyfrowego
można dotrzeć do każdego przechowywanego materiału. Proces przeszukiwania jest
najważniejszy w całym procesie. Jest to poważny problem nawet przy przeszukiwaniu
tekstowym. Często podanie hasła w wyszukiwarce WWW przynosi kilkadziesiąt
bezużytecznych stron. Typowe jest, że wśród pierwszych z nich często nie ma np. strony
domowej poszukiwanej firmy.
Fotografie jest trudno scharakteryzować na podstawie wyrazów hasłowych. Podobne
problemy występują w przypadku materiałów dźwiękowych. Komputery nie rozpoznają w
prosty sposób wyrazu twarzy człowieka czy otoczenia. Standardowa procedura polega na
zleceniu przeglądnięcia zdjęcia lub przesłuchania nagrania i zapisaniu nagłówków
opisujących podstawowe atrybuty. W USA powszechnie nagrywa się programy TV lub
materiał na CD-ROM-ach w wersji z podpisami (closed captioned) dla głuchoniemych,
podobnie jak polskiej TV, nieliczne programy (filmy) zawierają okno w którym
dokonywany jest przekład na język migowy. Bardzo trudno jest jednak znaleźć zdjęcie do
wyrazów hasłowych reprezentujących stany lub uczucia. Rozwiązaniem jest zadawanie
pytań (query) w języku naturalnym i
poszukiwaniu podobnych znaczeń także
kontekstowych. Oracle Corp. i SRA International Inc. wprowadziły na rynek
oprogramowanie oparte na lingwistyce i sztucznej inteligencji. W USA istnieje kilka
mniejszych firm np. Cycorp z Austin oraz Natural Language Systems z Syracuse, które
korzystają z tysięcy reguł semantycznych i syntaktycznych klasyfikacji znaczenia. W ten
4
sposób hasło broń umożliwi znalezienie zdjęcia z występującym na nim czołgiem. Istnieją
inne sposoby klasyfikacji zdjęć po występujących kształtach i po kolorze.
Takie produkty posiada m.in. IBM (program QBIC, Query By Image Content) i Virage
Inc., VIR Image Engine. Oba systemy dokonują pomiaru statystyk kolorów w zdjęciu oraz
rozpoznają układ oraz charakterystyczne kształty. Komputer może jednak zamiast
czerwonej róży na białym tle znaleźć flagę Japonii. Dlatego używa się technik
komplementarnych. Gdy zdjęcie zostanie wybrane, archiwum przekazuje je do dalszej
obróbki (właściwy rozmiar i rozdzielczość, duża do książek, niska do Internetu). System
sam rozsyła obrazy oraz dodatkowe dokumenty np. formularze z kontraktami dotyczących
praw autorskich oraz dodaje do obrazów cyfrowe znaki wodne, watermarks. Znaki te są
niewidoczne (nie powodują pogorszenia jakości obrazu). Proste przetwarzanie obrazu np.
filtrowanie, zmiana skali nie usuwają znaku. Właściciel może je odzyskać dysponując
tylko sobie znanym kodem, w przypadku podejrzenia o plagiat.
Podane przykłady ilustrują tylko możliwości tkwiące w wykorzystaniu
zestrukturyzowanej i indeksowanej po zawartości informacji multimedialnej.
1. Szerokie obszary zastosowań informacji multimedialnej to:
2. Edukacja
3. Dziennikarstwo (np. wyszukiwanie przemówień polityków na podstawie głosu lub
twarzy)
4. Kultura (muzea, galerie itp.)
5. Telemedycyna i aplikacje biomedyczne
6. Informacja turystyczna
7. Rozrywka (np. wyszukiwanie gier)
8. Działania śledcze i detektywistyczne (rozpoznawanie ludzi)
9. Systemy informacji geograficznej
10. Obrazy satelitarne
11. Śledzenie (kontrola ruchu, kontrola produkcji)
12. Architektura, agencje mieszkaniowe
13. Archiwa filmu, wideo i dźwięku
Reprezentacja i standaryzacja danych multimedialnych
Problem reprezentacji i standaryzacji danych multimedialnych jest niezwykle złożony.
Zajmuje się nim wiele organizacji standaryzacyjnych, na różnych poziomach. ISO/IEC
SC32-Data Management and Interchange, Komitet zajmujący się wymianą danych i ich
zarządzaniem dąży do ujednolicenia i harmonizacji wysiłku w następującym zakresie:
1.
Modele odniesienia i ramy dla istniejących i przyszłych standardów
2.
Definicje dziedzin danych oraz struktur i typów danych, a także ich semantyki
3.
Języki, usługi i protokoły do archiwizowania, współzbieżnego dostępu, aktualizacji
i wymiany danych
4.
Metody, języki, usługi i protokoły do strukturyzacji i organizacji metadanych oraz
inne środki związane z wykorzystaniem wzajemnym i interoperacyjnością danych,
włączając handel elektroniczny.
W szczególności, SQL Multimedia (SQL/MM) [1] zamierza dokonać specyfikacji
abstrakcyjnych typów danych (ADT) w ramach SQL3 oraz zestandaryzować biblioteki
klas dla potrzeb przetwarzania pełnotekstowego i dokumentów oraz metody do
5
zarządzania obiektami multimedialnymi takimi jak obraz , dźwięk, animacja , muzyka i
wideo. Celem są także dowiązania do SQL obiektów zdefiniowanych przez inne komitety
standaryzacyjne ISO (np. SC18 dla dokumentów, SC24 dla obrazów i SC29 dla fotografii i
wideo). Generalnie prace nad SQL/MM postępują wolno – rozpoczęły się w 1993 r. i
ciągle są na poziomie edycji FCD (Final Committee Draft). Jest to odzwierciedlenie
wolnego postępu prac nad SQL3 w ogólności.
Przy standaryzacji danych multimedialnych możnaby skorzystać z doświadczeń w
zbliżonych dziedzinach [2] np. standaryzacji danych geograficznych. Komitet ISO/TC211
i konsorcjum Open GIS połączyło swoje wysiłki w celu przygotowaniu standardu 15046
Geographic Information części 1-19 wraz z dodatkowymi standardami 15854, 16569,
16822, 17753 i 17754. Standard ten definiuje schemat SQL dla celów archiwizacji,
odtwarzania, zapytań i aktualizacji danych geograficznych. Tablice cech są zgodne z
dwoma docelowymi środowiskami: SQL92 i SQL92 with Geometry Types. W standardach
tych używane są obiektowe modele danych geograficznych i ponieważ głównymi firmami
popierającymi te standardy są ESRI Inc., IBM, Informix, MapInfo i Oracle należy
spodziewać się szybkiej implementacji.
Dla danych multimedialnych istnieją rozwiązania firmowe. W przypadku Oracle istnieją
narzędzia autorskie do kreacji aplikacji interaktywnych, obecnie interMedia pod Oracle8i,
poprzednio Oracle Media Objects.
Są one kluczowe dla działania Oracle Video Server obecnie w wersji 3.1 stanowiącego
podstawową platformę do wdrażania usług interaktywnych w tym Video-on-Demand, w
skrócie VoD (wideo-na-żądanie). Oracle brał udział w dwu z trzech wczesnych prób z
VoD w latach 1994-96 (z Bell Atlantic i British Telecom), które wykazały całkowitą
nieopłacalność ekonomiczną takich usług. Obecnie jednak w wyniku rozwoju
wideoserwerów, przystawek, interaktywnych sieci kablowych, oraz szybkiego spadku cen
komputerów VoD staje się atrakcyjną usługą. Jednym w najbardziej zaawansowanych
opracowań schematu obiektowego informacji multimedialnej była baza Illustra, obecnie
występująca w postaci modułów (blades) produktu Dynamic Server z Universal Data
Option, bazy relacyjno-obiektowej firmy Informix, która nie osiągnęła jednak powodzenia
rynkowego.
MPEG-7
MPEG-7 jest inicjatywą Komitetu ISO/IEC SC29 WG11, którzy poprzednio
zestandaryzował MPEG-1, MPEG-2 i obecnie kończy standaryzację MPEG-4. Standard
MPEG jest jednym z największych sukcesów ISO w dziedzinie techniki cyfrowej.
Powstający standard ISO MPEG-7 „Multimedia Content Description Interface” zunifikuje:
formę informacji, deskryptory i ich schematy oraz Data Definition Language.
Zastosowania obejmą: wyszukiwanie, zarządzanie, przetwarzanie i archiwizowanie
informacji multimedialnej. Uczestnicy w procesie standaryzacji pochodzą ze środowisk
techniki wizyjnej, grafiki komputerowej i przetwarzania sieciowego, a nie baz danych co
nie stanowi dobrych perspektyw na przyszłość. Większość patentów dla algorytmów
obiektowego reprezentacji informacji multimedialnej należy do IBM i zostały one
stworzone przy opracowaniu systemu QBIC.
6
Choć na najwyższym poziomie podejście MPEG-7 używa zunifikowanego języka do
modelowania UML (Unified Modeling Language) [3], Rys. 1, nie jest ono sformułowane
obiektowo.
Schemat
Deskryptorów
0..*
1..*
*
opisuje
Cecha
Dane
oznacza
Deskryptor
Język Definicji
Deskryptorów
definiuje
*..1
1..*
Człowieka
albo Systemu
do
Element
audiowizualny
1..*
1..*
1..*
Rys. 1: Reprezentacja UML możliwych związków pomiędzy Ds and DSs.
Autorzy koncentrują się na podejściu funkcjonalnym, Rys. 2 [4].
7
Tworzenie
Deskrypto-
rów
Opis
MPEG-7
Deskryptory
zakodowane
w MPEG-7
Koder
Dekoder
Wyszuki-
warka
Filtry,
Agenty
System
przetwarzania
danych
Język Definicji
Deskryptorów (DDL)
Schematy
Deskryptorów (DS)
Deskryptory (D)
Materiał
multimedialny
Rys. 2: Abstrakcyjna reprezentacja możliwych aplikacji przy użyciu MPEG-7.
Podstawowymi pojęciami są cecha i deskryptor. W przypadku obiektu geometrycznego
cecha to np. kształt i tekstura. Deskryptorami może być zbiór współczynników DCT lub
falkowych. Niestety w ogóle nie wystepuje pojęcie obiektu i atrybutu, ponieważ nie
zdecydowano się jeszcze na skorzystanie ze znanych rozwiazań modelowania
obiektowego.
Na tym etapie patentuje się algorytmy wchodzące w skład Języka Definicji Deskryptorów
(Description Definition Language). Ceną za kompletny brak związku z istniejącymi
standardami SQL i schematami obiektowych baz danych może być odrzucenie standardu.
Praca częściowo wykonana w ramach grantu KBN 8T11E035 10.
Referencje
[1] SQL Multimedia (SQL/MM), http://www.jcc.com/SQLPages
[2] Unified Modeling Language, http://www.rational.com/uml/resources/documentation
[2] ISO/TC211 Geographic Information/Geomatics, Scope, http://www.statkart.no/isotc21
[4] F. Pereira, MPEG-7 requirements Document V.9, ISO/IEC SC29/WG11 N2859, lipiec
1999, Vancouver