I
nternet i do∏àczone do niego cyfro-
we biblioteki potencjalnie dajà do-
st´p do ogromnej iloÊci informacji.
Skuteczne jej odszukiwanie to zupe∏nie
inna sprawa. PomyÊlmy o archiwach
zdj´ç lub fragmentów filmów. JeÊli chce-
my odnaleêç coÊ tak prostego jak zdj´-
cie konia u wodopoju, to jedyna dziÊ na-
dzieja, ˝e ktoÊ wczeÊniej odpowiednio
je opisa∏.
DoÊwiadczenia wszystkich wa˝niej-
szych archiwów pokazujà, ˝e praktycz-
nie nie da si´ przewidzieç, jakie kryteria
b´dà stosowane przez przeszukujàcych.
Co wi´cej, wprowadzenie ka˝dego no-
wego ˝àdania – na przyk∏ad „Znajdê
wszystkie zdj´cia, na których jest koƒ
i trawa” – wymagaç mo˝e powtórnego
przejrzenia ca∏ej kolekcji.
Po zdj´cia w du˝ych zbiorach si´ga
si´ w rozmaitych celach, a i same kry-
teria wyszukiwania bywajà najró˝niej-
sze. KtoÊ mo˝e na przyk∏ad badaç w ar-
chiwum muzeum sztuki, jak cz´sto u˝y-
wano pewnego odcienia do oddania
barwy skóry na portretach, inny zaÊ –
przeglàdaç zdj´cia satelitarne, aby osza-
cowaç wielkoÊç przysz∏orocznych zbio-
rów kukurydzy. Grafik projektujàcy fol-
der biura turystycznego b´dzie szuka∏
w agencji fotograficznej zachodu s∏oƒca
na ok∏adk´, a meteorolog – studiowa∏
zdj´cia dróg wodnych w Kalifornii, aby
porównaç skutki powodzi w kolejnych
latach.
Wydaje si´, ˝e najbardziej odpowied-
ni do wyszukiwania takich informacji
jest automatyczny system analizy za-
wartoÊci zdj´ç. Pozornie prostym narz´-
dziem by∏by program potrafiàcy rozpo-
znaç, czy na zdj´ciu jest konkretny
obiekt, na przyk∏ad koƒ lub woda. Pro-
gram musia∏by poprawnie zidentyfiko-
waç poszukiwany przedmiot niezale˝-
nie od jego koloru, wielkoÊci, wyglàdu
i fotograficznego uj´cia. Niestety, wspó∏-
czesna wiedza na temat rozpoznawa-
nia obrazów nie potrafi podo∏aç temu
zadaniu. Naukowcy atakujà jednak pro-
blem z wielu stron, a ∏àczenie kilku me-
tod – od widzenia maszynowego po
sztucznà inteligencj´ – w koƒcu umo˝-
liwi zapewne skuteczniejszà analiz´ tre-
Êci zdj´cia.
Komputer mo˝e analizowaç zawar-
toÊç zdj´cia na wiele ró˝nych sposobów.
Niektóre programy starajà si´ znaleêç
obrazy bardzo podobne do wzorca. In-
ne analizujà ich ogólne cechy: szukajà
na przyk∏ad du˝ej liczby ˝ó∏tych pla-
mek (∏àka) albo jasnego czerwonego ob-
szaru poÊrodku (ogieƒ, zachód s∏oƒca
i niektóre samochody sportowe). Jesz-
cze innà mo˝liwoÊcià jest poszukiwa-
nie okreÊlonego obiektu, takiego jak koƒ
lub woda. Mamy wi´c trzy zasadniczo
Koƒ, jaki jest, ka˝dy widzi?
Komputery rozpoznajàce b´dà umia∏y odszukaç
w archiwum zdj´ç obraz osoby, przedmiotu lub miejsca
David Forsyth, Jitendra Malik i Robert Wilensky
ró˝ne podejÊcia do rozpoznawania ob-
razów: szukanie obrazów podobnych
do wzorca, analiza „plam” na obrazie
(obszarów o sta∏ym kolorze lub tekstu-
rze) oraz po prostu identyfikowanie
obiektów – co robià ludzie. [Zagadnienie
porównywania wzorców omówiono
równie˝ w artykule Johna Villasenora
i Williama H. Mangione-Smitha, „Kon-
figurowalne przetwarzanie”, strona 28.]
Proste, ale bezu˝yteczne
PrzydatnoÊç wymienionych metod
jest odwrotnie proporcjonalna do ∏atwo-
Êci ich implementacji. BezpoÊrednie po-
równanie obrazu z wzorcem jest bardzo
prostà technikà, lecz jej zastosowanie
ogranicza si´ do znajdowania obrazów
podobnych powierzchownie. Technika
ta nie jest za bardzo przydatna do wy-
szukiwania obiektów, gdy˝ zmiany u∏o-
˝enia, rozk∏adu lub konfiguracji unie-
mo˝liwiajà wi´kszoÊç porównaƒ: koƒ
z przodu nie jest podobny do konia
z profilu (z tego wzgl´du uwa˝amy, ˝e
proste porównywanie z wzorcem jest
algorytmicznym Êlepym zau∏kiem).
Odnajdywanie obrazów na podsta-
wie plam jest potencjalnie bardziej efek-
tywne, a wiele takich analiz nie stawia
zbyt du˝ych wymagaƒ pod wzgl´dem
obliczeniowym – okreÊlenie procento-
wej zawartoÊci czerwonych, zielonych
i niebieskich punktów (pikseli) w da-
nym obrazie zabiera u∏amek sekundy.
Poniewa˝ obiekty wyst´pujà na obrazie
jako „plamy” (tj. dwuwymiarowe ob-
szary spójne), naturalne jest rozpocz´-
cie przeszukiwania od identyfikacji
plam. Wi´kszoÊç wspó∏czesnych syste-
mów dzia∏a w∏aÊnie w ten sposób.
Najbardziej zapewne znany system
QBIC (Query by Image Content – wy-
szukiwanie na podstawie zawartoÊci
obrazu) opracowany przez zespó∏ IBM,
pozwala na przyk∏ad na okreÊlenie
przez operatora takich cech, jak kolor,
jego rozk∏ad i tzw. tekstura (która mo-
˝e byç prostym przek∏adaƒcem dwu
kolorów, np. pasami zebry, lecz tak˝e
bardziej z∏o˝onym wielokolorowym
wzorem). Na ich podstawie QBIC po-
rzàdkuje obrazy pod wzgl´dem stop-
nia zgodnoÊci z zadanym wzorcem. In-
ny popularny system, Photobook, dzie∏o
zespo∏u Alexa Pentlanda z Massachu-
setts Institute of Technology, w du˝ej
mierze opiera si´ na tym samym mode-
lu obrazu jako kola˝u spójnych, homo-
gennych obszarów, zawiera jednak bar-
dziej z∏o˝one opisy tekstur, a ponadto
potrafi automatycznie podzieliç obraz
na segmenty.
Chocia˝ mo˝liwoÊci tych systemów
sà imponujàce, jesteÊmy przekonani, ˝e
programy analizujàce wy∏àcznie plamy
majà ograniczonà u˝ytecznoÊç. Na przy-
k∏ad wyszukiwanie stosujàce kryterium
proporcji kolorów w rezultacie mo˝e
daç flag´ zarówno brytyjskà, jak i fran-
cuskà. Ogólnie rzecz bioràc, ludzi inte-
PRECYZYJNE WYSZUKIWANIE obra-
zów jest trudne, poniewa˝ ciàgle jesz-
cze w zbyt ma∏ym stopniu poznaliÊmy
mechanizmy rozpoznawania. W celu
znalezienia w bazie danych zdj´ç przed-
stawiajàcych fioletowe kwiaty wydano
prototypowemu programowi polecenie
wyszukania ma∏ych fioletowych kropek.
Niektóre ze wskazanych przez program
obrazów pokazano u góry strony. Nie
wszystkie odpowiadajà oczekiwaniom
u˝ytkownika, kilka jednak tak, ponie-
wa˝ rzeczywiÊcie kwiatki mo˝na z grub-
sza okreÊliç jako niewielkie plamki.
W przypadku bardziej skomplikowa-
nych obiektów, takich jak tygrys, trze-
ba u˝yç równie˝ bardziej skompli-
kowanych algorytmów wyszukujàcych
obszary odpowiednio u∏o˝onych plam
o zbli˝onych kolorze i teksturze. Rezul-
taty poszukiwania tygrysa przedstawio-
no na dole. Algorytm, dzi´ki któremu je
otrzymano, dzia∏a∏ o wiele dok∏adniej
od algorytmów ignorujàcych kszta∏t.
Obydwa programy powsta∏y w Univer-
sity of California w Berkeley.
resujà obiekty; ani podobieƒstwo do
wzorca, ani te˝ analiza plam rozwa˝a-
ne osobno nie sà dostatecznà podstawà
do rozpoznania treÊci obrazów.
W celu zbadania niektórych ze wspo-
mnianych zagadnieƒ stworzyliÊmy w
University of California w Berkeley sys-
tem wyszukiwania obrazów, stanowià-
cy cz´Êç Digital Library Project (projek-
tu biblioteki cyfrowej). System nasz,
którego g∏ównymi twórcami sà Ginger
Ogle i Chad Carson, b´dzie docelowo
zawiera∏ ponad 600 tys. fotografii. Ju˝
dziÊ oko∏o 50 tys. zdj´ç z ró˝nych êró-
de∏, m.in. fotografie lotnicze i satelitar-
ne, jest dost´pnych w witrynie WWW
naszego projektu.
System pozwala na bardzo ró˝ne
zlecenia; u˝ytkownik mo˝e pytaç za-
równo o obiekty, jak i o plamy. Obiekty
jednak trudniej znaleêç, tak wi´c w wie-
lu przypadkach warto zapytaç o obrazy
zawierajàce plamy, z których mo˝na z∏o-
˝yç poszukiwany obiekt. JesteÊmy zda-
nia, ˝e przedstawia si´ obiekty (a wi´c
i pyta o nie) w terminach zestawu plam.
Oznacza to, ˝e najbardziej celowe sà ta-
kie zapytania o plamy, na podstawie
których mo˝na zbudowaç reprezenta-
cj´ obiektu. Tak wi´c interfejs u˝ytkow-
nika powinien oferowaç wiele opcji:
mo˝na by pytaç o obiekty albo – gdy nie
istnieje dostatecznie dobra definicja
obiektu – ˝àdaç wyszukania ró˝nych
kombinacji roz∏o˝enia plam, o których
wiadomo, ˝e b´dà pomocne w rozwià-
zaniu zadania.
Kiedy jeden z twórców systemu chcia∏
znaleêç zdj´cia przedstawiajàce wind-
surfing, za˝àda∏ wyszukania obrazów
zawierajàcych co najmniej 30% koloru
zielonego lub niebieskiego (niebo albo
morze) i choç jednà ˝ó∏tà kropk´ (˝agiel
windsurfera). Bardzo wysoki odsetek
znalezionych przez komputer zdj´ç do-
tyczy∏ windsurfingu. Program wskaza∏
tak˝e zdj´cia nie zwiàzane z tematem,
a przeoczy∏ inne, w∏aÊciwe.
W wyszukiwaniu informacji mamy
z zasady do czynienia z kompromisem
pomi´dzy dok∏adnoÊcià a iloÊcià zna-
lezionej informacji – wybieranie danych
dok∏adnie odpowiadajàcych tematowi
spowoduje, ˝e niektóre po˝àdane in-
formacje nie przejdà przez sito, ∏agod-
niejsze natomiast kryterium sprawi, ˝e
prócz informacji poszukiwanych otrzy-
mamy dodatkowo mas´ innych. Na
przyk∏adzie windsurfingu pokazaliÊmy,
˝e pot´˝ny mechanizm wyszukiwania
na podstawie plam mo˝e byç w niektó-
rych przypadkach zupe∏nie skuteczny.
Przyk∏ad ten daje jednak równie˝ wy-
obra˝enie o intelektualnych wygibasach,
których nale˝y dokonaç, aby znaleêç
obiekt, pos∏ugujàc si´ opisem plam.
48 Â
WIAT
N
AUKI
Sierpieƒ 1997
W obecnym stadium rozwoju naszego
systemu u˝ytkownik mo˝e specyfiko-
waç tylko ma∏à klas´ obiektów, takich
jak konie, ∏odzie i nadzy ludzie. Aby zde-
finiowaç plam´, mo˝e on podaç procent
ró˝nych kolorów prawdopodobnie obec-
nych na obrazie, a tak˝e liczb´ i wielkoÊç
„kolorowych kleksów”. Mo˝na tak˝e po-
daç inne cechy zwiàzane z treÊcià obra-
zu, na przyk∏ad: czy na obrazie jest wi-
doczna linia horyzontu, jak równie˝
przeszukaç tzw. metadane – dodatko-
wà informacj´ do∏àczonà do obrazu, czy-
li podpis, imi´ i nazwisko autora, dat´
oraz miejsce, gdzie zrobiono zdj´cie, itp.
Zagro˝enia
JeÊli komputer wyposa˝y si´ w odpo-
wiednià wiedz´ – b´dzie potrafi∏ wyde-
dukowaç z plam, które sk∏adajà si´ na
obraz, jakie obiekty si´ na obrazie znaj-
dujà. Problem identyfikacji koni, ludzi
itp. nazywamy rozpoznawaniem obiek-
tów; jest on od dziesi´cioleci wa˝nym
przedmiotem badaƒ widzenia maszy-
nowego, przede wszystkim ze wzgl´du
na zastosowania przemys∏owe i wojsko-
we. Dzisiejsze techniki sprawdzajà si´
tylko w przypadku obrazów zawierajà-
cych niewielkà liczb´ obiektów, których
kszta∏ty sà dok∏adnie znane i które
bywajà zwykle przedstawiane tylko pod
pewnymi kàtami. W∏aÊciwie nie nada-
jà si´ do rozpoznania nawet pojedyn-
czego „zwyk∏ego” obiektu, takiego jak
cz∏owiek lub koƒ. Te bowiem charakte-
ryzujà si´ du˝à zmiennoÊcià rozmiaru,
wagi, znaków szczególnych, co wpro-
wadza w b∏àd programy komputero-
we, choç przecie˝ cz∏owiek pozostaje
cz∏owiekiem niezale˝nie od ubioru czy
fryzury.
Co wi´cej, musimy odró˝niaç obiek-
ty od t∏a. W pewnych przypadkach jest
to trudne nawet dla ludzi. Rozwa˝my
obraz lamparta na tle mieniàcej si´ Êwia-
t∏em d˝ungli. Aby cokolwiek rozpoznaç,
musimy wiedzieç, które cz´Êci obrazu
tworzà ca∏oÊç – czyli odró˝niç plamki
b´dàce c´tkami lamparta od refleksów
Êwietlnych t∏a. Innymi s∏owy, program
musi umieç przyporzàdkowywaç pla-
my obiektom.
To tzw. grupowanie percepcyjne by-
∏o przedmiotem intensywnych badaƒ
psychologów szko∏y Gestalt. Wskazali
oni wiele czynników, którymi mo˝na
by pos∏u˝yç si´ do stwierdzenia, kiedy
ró˝ne cz´Êci obrazu nale˝à do jednego
obiektu. Bardzo silnym kryterium jest
podobieƒstwo koloru lub tekstury: lu-
dzie ∏atwo asocjujà cz´Êci obrazu w tym
samym kolorze (np. spójny czerwony
obszar) lub o tej samej teksturze (szkoc-
ka krata). Na poziomie bardziej abstrak-
cyjnym obszary, które sà symetryczne
wzgl´dem jakiejÊ osi, mogà byç klasy-
fikowane jako rzuty przedmiotów trój-
wymiarowych o symetrii obrotowej, na
przyk∏ad wazonu.
SpecjaliÊci od widzenia maszynowe-
go od lat usi∏ujà przekszta∏ciç takie ja-
koÊciowe, empiryczne regu∏y w dzia∏a-
jàce algorytmy. Serge Belongie, Carson,
Hayit Greenspan i jeden z nas (Malik)
opracowali system, który mimo ˝e jego
umiej´tnoÊç percepcyjnego grupowania
Poszukiwanie konia kawa∏ek po kawa∏ku
A
lgorytmy rozpoznawania obiektów grupujà elementy obrazu w coraz to wi´ksze,
bardziej z∏o˝one obszary i wysuwajà hipotezy, co te obszary mogà przedstawiaç. Pro-
gram rozpoznajàcy czworonogi, takie jak konie, zaczyna analiz´ obrazu (a) od znalezie-
nia plam w kolorze przypominajàcym barwy koƒskiej sierÊci (b) i majàcych kszta∏t przed-
nich i tylnych koƒczyn, aby zdefiniowaç kontury tych plam (c), a nast´pnie sprawdziç
relacje przestrzenne pomi´dzy obszarami o kszta∏tach przypominajàcych cia∏o konia,
(korpus konia i jego nogi sà w przybli˝eniu walcami) (d) i wyeliminowaç niemo˝liwe ze
Zdj´cie
Plamy koloru koƒskiej sierÊci
przedmiotów wypada ˝a∏oÊnie blado
w porównaniu z ludzkà, potrafi doko-
naç u˝ytecznego rozk∏adu obrazu na
ma∏y zestaw obszarów o zgodnym ko-
lorze lub teksturze. Ka˝demu takiemu
„kleksowi” sà przypisywane atrybuty
okreÊlajàce jego po∏o˝enie, kszta∏t, ko-
lor i tekstur´. Zdefiniowane kleksy od-
zwierciedlajà najwa˝niejsze cechy kom-
pozycyjne obrazu.
Dzi´ki takim danym mo˝emy odna-
leêç zdj´cia samolotów na tle nieba, szu-
kajàc po prostu niebieskich kleksów
z szarà plamà w Êrodku. Zdj´cia tygry-
sów wyselekcjonujemy na podstawie
kleksów w kolorze i o teksturze odpo-
wiadajàcej skórze tygrysa oraz w kolo-
rze i o teksturze trawy rosnàcej w Êrodo-
wisku, w którym ˝yjà te drapie˝niki.
U˝ytkownik mo˝e okreÊliç, z jakà do-
k∏adnoÊcià kolor i tekstura ka˝dego
z kleksów ma byç wyspecyfikowana.
Jest rzeczà interesujàcà, ˝e ta repre-
zentacja obiektów jako zbioru obszarów
w okreÊlonym kolorze i teksturze z ∏a-
twoÊcià poddaje si´ uczeniu maszyno-
wemu. Cz∏owiek nie musi wymyÊlaç
najbardziej charakterystycznych cech
kleksów opisujàcych samoloty czy te˝
tygrysy – mo˝na do tego celu u˝yç sta-
tystycznych metod uczenia si´ maszy-
nowego. Na wejÊcie programu zwanego
klasyfikatorem statystycznym (statisti-
cal classifier) wprowadziliÊmy zdj´cia
przyk∏adowe (takie jak zdj´cia samolo-
tów i tygrysów) i nauczyliÊmy go rozpo-
znawania tych obiektów na fotografiach
mu nie znanych. Obecnie nasze progra-
my klasyfikujà obrazy tylko na podsta-
wie koloru i tekstury; po dodaniu od-
powiedniej informacji o kszta∏tach ob-
szarów powinnny umieç rozró˝niaç,
które z kolekcji kleksów sà cz´Êcià jed-
nego obiektu, a które nie. Dzi´ki uczeniu
algorytmów otrzymujemy naturalny
sposób radzenia sobie z nieistotnà
zmiennoÊcià obiektów jednej kategorii,
poniewa˝ program mo˝e si´ sam wy-
regulowaç i nie zwracaç uwagi na nie-
istotne odchylenia (niebo miewa ró˝ne
odcienie b∏´kitu, kszta∏ty chmur sà nie-
skoƒczenie ró˝norodne itd.).
Gdzie jest Waldo?*
Takeo Kanade i jego wspó∏pracowni-
cy z Carnegie Mellon University opraco-
wali programowy modu∏ rozpoznajàcy
twarze, który jest dobrym przyk∏adem
zastosowania uczenia si´ maszynowe-
go. Inni badacze mieli du˝e trudnoÊci
z identyfikacjà ust, oczu i nosa konkret-
nych osób. Zespó∏ Kanade natomiast na-
uczy∏ sieç neuronowà wykrywania
wszystkich tych elementów twarzy ∏àcz-
nie, jeÊli wyst´pujà one we w∏aÊciwej
konfiguracji. Bada∏ on tak˝e mo˝liwoÊç
powiàzania w analizie scen filmowych
obrazu z dêwi´kiem. Komputer rozpo-
znawa∏by na przyk∏ad brzmienie nazwi-
ska znanej osoby na Êcie˝ce dêwi´ko-
wej wiadomoÊci telewizyjnych i koja-
rzy∏by jà z obrazem twarzy na Êcie˝ce
wizyjnej.
Kolor i tekstura sà pomocne w iden-
tyfikacji obszarów obrazu. Kilka dodat-
kowych wskazówek pomaga w z∏o˝e-
niu obszarów w obraz obiektu. Przede
wszystkim wiele przedmiotów sk∏ada
si´ z cz´Êci, które majà proste trójwy-
miarowe kszta∏ty. Tak˝e relacje pomi´-
dzy cz´Êciami sà zwykle nieskompliko-
wane. Co wi´cej, proste formy zajmujà
na obrazach proste w kszta∏cie obszary.
Na przyk∏ad walec na zdj´ciu prawie
zawsze jest obszarem z liniowymi, pra-
wie równoleg∏ymi bokami. Program po-
trafi stosunkowo ∏atwo identyfikowaç
tego typu kszta∏ty.
Podobnie jeÊli wzajemne usytuowa-
nie ró˝nych cz´Êci nie mo˝e byç dowol-
ne – na przyk∏ad stawy ∏àczàce koÊci
ograniczajà mo˝liwe pozycje cz´Êci cia∏a
ludzi i zwierzàt – cz´sto jest ∏atwo roz-
strzygnàç, czy obszary nale˝àce pozor-
nie do jednego obiektu rzeczywiÊcie two-
rzà ca∏oÊç. Mówiàc skrótowo, ka˝dy
obszar obrazu stanowi êród∏o hipotez
dotyczàcych jego treÊci; hipotezy te z ko-
lei sugerujà strategie dalszej identyfika-
cji wi´kszych i bardziej zró˝nicowanych
grup obszarów obrazu. Teoria uczenia
si´ statystycznego dostarcza mechani-
zmów, dzi´ki którym mo˝na zadecydo-
waç o przyj´ciu lub odrzuceniu danej hi-
potezy. Post´pujàc w ten sposób, w chwi-
li identyfikacji dostatecznie du˝ego ob-
szaru uznajemy obiekt za rozpoznany.
Margaret Fleck z University of Iowa
i jeden z autorów tego artyku∏u (For-
syth) na podstawie tych obserwacji
stworzyli dwa systemy, które mogà roz-
poznawaç specyficzne obiekty w du-
˝ym zbiorze obrazów. Pierwszy wyszu-
kuje obszary, na których sà ludzie.
Nasza obecna wersja dzia∏a tylko w
przypadku zdj´ç osób skàpo ubranych
Â
WIAT
N
AUKI
Sierpieƒ 1997 49
wzgl´dów anatomicznych kombinacje koƒczyn (no-
gi i tu∏ów powinny byç do siebie prostopad∏e). Koƒ-
cowej klasyfikacji mo˝na czasami dokonaç tylko
na podstawie szczegó∏owej znajomoÊci koloru lub
tekstury; nawet cz∏owiek móg∏by mieç k∏opot z od-
ró˝nieniem sylwetek s∏onia z podwini´tà tràbà (u
góry z lewej) i niedêwiedzia (u góry z prawej).
Segmenty tworzàce schemat budowy konia
Kontury plam
Wszystkie mo˝liwe segmenty
DAVID FORSYTH i MARGARET FLECK
lub wr´cz nagich; kolor i tekstura skóry
sà zaskakujàco ma∏o zmienne w porów-
naniu z ubraniami. Program zaczyna od
wydzielenia z obrazu obszarów odpo-
wiadajàcych skórze ludzkiej (mo˝na to
doÊç dok∏adnie zrobiç) i eliminuje zdj´-
cia, na których nie ma obrazów ludzkiej
skóry lub jest jej ma∏o. Po po∏àczeniu
rozpoznanych obszarów w grupy przy-
pominajàce kszta∏tem walce (reprezen-
tujàce cz´Êci cia∏a) program sprawdza
relacje geometryczne pomi´dzy tymi
grupami, aby znaleêç zestawy, które
mogà odpowiadaç koƒczynom. Na ko-
niec bada zwiàzki mi´dzy ewentualnie
zidentyfikowanymi cz∏onkami, ustalajàc
rejony odpowiadajàce bardziej z∏o˝o-
nym uk∏adom.
Poniewa˝ nasz model cz∏owieka opie-
ra si´ g∏ównie na wzajemnym usytu-
owaniu ró˝nych cz´Êci cia∏a, jest mo˝-
liwa taka zmiana programu, aby
wyszukiwa∏ inne obiekty o strukturze
podobnej do cia∏a ludzkiego. Nasz dru-
gi system znajduje zdj´cia koni, bada-
jàc relacje pomi´dzy segmentami obra-
zu, w kolorze i o teksturze koƒskiej
sierÊci. „Wyszukiwacz” osób przete-
stowaliÊmy na prawie 5000 zdj´ç
z bardzo ró˝nych êróde∏; prawid∏owo
zidentyfikowa∏ ludzi w 40% przypad-
ków, a mylnie w 4%. Program rozpo-
znajàcy konie wykry∏ je tylko na 10%
w∏aÊciwych zdj´ç, za to „zobaczy∏” ko-
nie tam, gdzie ich nie by∏o, zaledwie na
0.4% fotografii. Nie wiemy jeszcze, jak
50 Â
WIAT
N
AUKI
Sierpieƒ 1997
Algorytmy
rozpoznawania twarzy
N
aukowcy z Carnegie Mellon Universi-
ty zamiast definiowaç explicite cechy,
które determinujà twarz ludzkà, „trenowa-
li” program – sieç neuronowà – na du˝ym
zbiorze zdj´ç, których cz´Êç przedstawia-
∏a twarze. Program „nauczy∏ si´” w koƒcu
rozró˝niaç oczy, nos i usta. Interfejs do-
st´pny w WWW umo˝liwia ch´tnym przed-
stawienie programowi dowolnego zdj´cia
z zapytaniem, czy zawiera ono obraz twa-
rzy. Kilka z setek zdj´ç, które komputer
uzna∏ za zawierajàce obraz twarzy, za-
mieszczono obok.
RÓ˚NE UJ¢CIA TEGO SAMEGO OBIEKTU program rozpoznajàcy mo˝e odbieraç jako zupe∏nie odmienne obiekty, niektóre natomiast
nies∏usznie uzna za podobne. Oprogramowanie opracowane przez jednego z autorów tego artyku∏u pozwala czasem okreÊliç, czy na zdj´-
ciu znajduje si´ koƒ (lub osoba) niezale˝nie od uj´cia i t∏a.
efektywnie dokonywaç podobnych
analiz w przypadku obrazów zawie-
rajàcych wiele ró˝nych obiektów do
rozpoznania.
Wydaje si´ nam, ˝e te ograniczone
mo˝liwoÊci odpowiadajà stanowi dzi-
siejszej techniki w dziedzinie „obiekto-
wego” wyszukiwania obrazów w du-
˝ych bazach danych. SkutecznoÊci
takich automatycznych systemów nie
nale˝y porównywaç z efektywnoÊcià
idealnego systemu, gdy˝ taki po prostu
nie istnieje.
Nawet najlepsze programy szukajà-
ce w doskonale zindeksowanych bazach
danych rzadko znajdujà wi´cej ni˝ 50%
˝àdanych informacji bez jednoczesne-
go dostarczenia du˝ej liczby zupe∏nie
niepotrzebnych. Dodajmy, ˝e nawet w
przypadku przeglàdania obrazów przez
ludzi spory procent zdj´ç zostaje prze-
oczony, a koszt takiej operacji jest prze-
cie˝ ogromny.
Mimo ˝e skupiliÊmy si´ tu na proble-
mie wyszukiwania zdj´ç w du˝ych ba-
zach danych, oczywiste jest, ˝e te za-
gadnienia dotyczà równie˝ innych
zastosowaƒ zwiàzanych z obrazami, na
przyk∏ad filtrowania informacji w Inter-
necie. Zeskanowane zdj´cia lub filmy w
Sieci stajà si´ coraz bardziej powszech-
ne – zarówno w postaci du˝ych baz
danych, jak i bardziej ulotnej: na elek-
tronicznych listach i na stronach domo-
wych WWW.
¸àczàc obszary podobne pod wzgl´-
dem tekstury i przestrzennego roz-
mieszczenia plam, poczyniliÊmy znacz-
ne post´py. Aby jednak zwi´k-
szyç odsetek poprawnie wyszu-
kiwanych zdj´ç, dzi´ki czemu
system sta∏by si´ naprawd´ u˝y-
teczny, potrzeba nowych rozwiàzaƒ. Ce-
lem jest odnajdywanie, na przyk∏ad ata-
kujàcego lamparta, po wpisaniu do
formularza okreÊleƒ: „c´tkowany”, „bu-
dowa cia∏a kocia”, „skaczàcy”. Nie jest
to cel niemo˝liwy do osiàgni´cia i war-
to do niego dà˝yç, poniewa˝ obrazów
w archiwach poszukuje wielu ludzi. Po-
nadto sukces b´dzie oznacza∏, ˝e zro-
zumieliÊmy w pe∏ni skomplikowane
mechanizmy rozpoznawania.
T∏umaczy∏
Aleksy Bartnik
* Nawiàzanie do serii dzieci´cych ksià˝ek, w któ-
rych na prze∏adowanych szczegó∏ami obrazkach
trzeba znaleêç tytu∏owego bohatera – Waldo. Wca-
le nie jest to ∏atwe (przyp. red.).
Â
WIAT
N
AUKI
Sierpieƒ 1997 51
Informacje o autorach
DAVID FORSYTH, JITENDRA MALIK i ROBERT WI-
LENSKY pracujà na Wydziale Informatyki University
of California w Berkeley i wspó∏pracujà z Digital Li-
brary Project. Forsyth, specjalista od widzenia maszy-
nowego, uzyska∏ tytu∏ licencjata i magistra na Wydzia-
le Elektrycznym University of the Witwatersrand,
a doktora w University of Oxford. W Berkeley pracuje
od 1994 roku. Malik zajmuje si´ widzeniem maszyno-
wym i komputerowym modelowaniem widzenia ludz-
kiego. Pracuje w Berkeley od 1986 roku. Studia magister-
skie ukoƒczy∏ w Indian Institute of Technology
w Kanpur, prac´ doktorskà natomiast obroni∏ w Stan-
ford University. Wilensky kieruje Digital Library Pro-
ject i jest dziekanem Wydzia∏u Informatyki w Berke-
ley; zajmowa∏ si´ wieloma dziedzinami sztucznej
inteligencji; tytu∏ magistra i doktora otrzyma∏ w Yale
University.
Literatura uzupe∏niajàca
DESCRIPTION AND RECOGNITION OF CURVED OBJECTS
. R. Nevatia i T. O. Binford, Artificial
Intelligence, vol. 8, ss. 77-98, 1977.
COLOR: WHY THE WORLD ISN’T GREY
. Hazel Rossotti; Priceton University Press, 1983.
THE LEGACY OF GESTALT PSYCHOLOGY
. I. Rock i S. Palmer, Scientific American, vol. 263,
nr 6, ss. 48-61, XII/1990.
QUERY BY IMAGE AND VIDEO CONTENT–THE QBIC SYSTEM
. M. Flickner i in., Computer, vol.
28, nr 9, ss. 23-32, IX/1995.
OBJECT REPRESENTATION IN COMPUTER VISION–II
. J. Ponce, A. Zisserman i M. Hebert;
Springer LNCS, nr 1144, 1996.
PHOTOBOOK–CONTENT BASED MANIPULATION OF IMAGE DATABASES
. A. Pentland, R. W.
Picard i S. Sclaroff, International Journal of Computer Vision, vol. 18, nr 3, ss. 233-254,
VI/1996.
OBJECT-BASED NAVIGATION: AN INTUITIVE NAVIGATION SYTLE FOR CONTENT-ORIENTED INTE-
GRATION ENVIRONMENT
. K. Hirata i in. Materia∏y z ACM Hypertext Conference,
Southampton, U.K., IV/1997.
University of California at Berkeley Digital Library Project jest dost´pny w WWW
pod adresem http://elib.cs.berkeley.edu
Poczynajàc od górnego lewego kolejno
: HARRI PULLI; KARINA MOELLER;
KLAUS-PETER ZAUNER; PAUL QUALTROUGH; DA VINCI; KLAUS-PETER ZAUNER; SARITA J. BROWN;
MICHAEL LOCKE; CARNEGIE MELLON UNIVERSITY; HIROYUKI KONISHI KONISHI