199708 kon jaki jest kazdy widz

background image

I

nternet i do∏àczone do niego cyfro-
we biblioteki potencjalnie dajà do-
st´p do ogromnej iloÊci informacji.

Skuteczne jej odszukiwanie to zupe∏nie
inna sprawa. PomyÊlmy o archiwach
zdj´ç lub fragmentów filmów. JeÊli chce-
my odnaleêç coÊ tak prostego jak zdj´-
cie konia u wodopoju, to jedyna dziÊ na-
dzieja, ˝e ktoÊ wczeÊniej odpowiednio
je opisa∏.

DoÊwiadczenia wszystkich wa˝niej-

szych archiwów pokazujà, ˝e praktycz-
nie nie da si´ przewidzieç, jakie kryteria
b´dà stosowane przez przeszukujàcych.
Co wi´cej, wprowadzenie ka˝dego no-
wego ˝àdania – na przyk∏ad „Znajdê
wszystkie zdj´cia, na których jest koƒ
i trawa” – wymagaç mo˝e powtórnego
przejrzenia ca∏ej kolekcji.

Po zdj´cia w du˝ych zbiorach si´ga

si´ w rozmaitych celach, a i same kry-
teria wyszukiwania bywajà najró˝niej-

sze. KtoÊ mo˝e na przyk∏ad badaç w ar-
chiwum muzeum sztuki, jak cz´sto u˝y-
wano pewnego odcienia do oddania
barwy skóry na portretach, inny zaÊ –
przeglàdaç zdj´cia satelitarne, aby osza-
cowaç wielkoÊç przysz∏orocznych zbio-
rów kukurydzy. Grafik projektujàcy fol-
der biura turystycznego b´dzie szuka∏
w agencji fotograficznej zachodu s∏oƒca
na ok∏adk´, a meteorolog – studiowa∏
zdj´cia dróg wodnych w Kalifornii, aby
porównaç skutki powodzi w kolejnych
latach.

Wydaje si´, ˝e najbardziej odpowied-

ni do wyszukiwania takich informacji
jest automatyczny system analizy za-
wartoÊci zdj´ç. Pozornie prostym narz´-
dziem by∏by program potrafiàcy rozpo-
znaç, czy na zdj´ciu jest konkretny
obiekt, na przyk∏ad koƒ lub woda. Pro-
gram musia∏by poprawnie zidentyfiko-
waç poszukiwany przedmiot niezale˝-

nie od jego koloru, wielkoÊci, wyglàdu
i fotograficznego uj´cia. Niestety, wspó∏-
czesna wiedza na temat rozpoznawa-
nia obrazów nie potrafi podo∏aç temu
zadaniu. Naukowcy atakujà jednak pro-
blem z wielu stron, a ∏àczenie kilku me-
tod – od widzenia maszynowego po
sztucznà inteligencj´ – w koƒcu umo˝-
liwi zapewne skuteczniejszà analiz´ tre-
Êci zdj´cia.

Komputer mo˝e analizowaç zawar-

toÊç zdj´cia na wiele ró˝nych sposobów.
Niektóre programy starajà si´ znaleêç
obrazy bardzo podobne do wzorca. In-
ne analizujà ich ogólne cechy: szukajà
na przyk∏ad du˝ej liczby ˝ó∏tych pla-
mek (∏àka) albo jasnego czerwonego ob-
szaru poÊrodku (ogieƒ, zachód s∏oƒca
i niektóre samochody sportowe). Jesz-
cze innà mo˝liwoÊcià jest poszukiwa-
nie okreÊlonego obiektu, takiego jak koƒ
lub woda. Mamy wi´c trzy zasadniczo

Koƒ, jaki jest, ka˝dy widzi?

Komputery rozpoznajàce b´dà umia∏y odszukaç

w archiwum zdj´ç obraz osoby, przedmiotu lub miejsca

David Forsyth, Jitendra Malik i Robert Wilensky

background image

ró˝ne podejÊcia do rozpoznawania ob-
razów: szukanie obrazów podobnych
do wzorca, analiza „plam” na obrazie
(obszarów o sta∏ym kolorze lub tekstu-
rze) oraz po prostu identyfikowanie
obiektów – co robià ludzie. [Zagadnienie
porównywania wzorców omówiono
równie˝ w artykule Johna Villasenora
i Williama H. Mangione-Smitha, „Kon-
figurowalne przetwarzanie”, strona 28.]

Proste, ale bezu˝yteczne

PrzydatnoÊç wymienionych metod

jest odwrotnie proporcjonalna do ∏atwo-
Êci ich implementacji. BezpoÊrednie po-
równanie obrazu z wzorcem jest bardzo
prostà technikà, lecz jej zastosowanie
ogranicza si´ do znajdowania obrazów
podobnych powierzchownie. Technika
ta nie jest za bardzo przydatna do wy-
szukiwania obiektów, gdy˝ zmiany u∏o-
˝enia, rozk∏adu lub konfiguracji unie-
mo˝liwiajà wi´kszoÊç porównaƒ: koƒ
z przodu nie jest podobny do konia
z profilu (z tego wzgl´du uwa˝amy, ˝e
proste porównywanie z wzorcem jest
algorytmicznym Êlepym zau∏kiem).

Odnajdywanie obrazów na podsta-

wie plam jest potencjalnie bardziej efek-
tywne, a wiele takich analiz nie stawia
zbyt du˝ych wymagaƒ pod wzgl´dem
obliczeniowym – okreÊlenie procento-
wej zawartoÊci czerwonych, zielonych
i niebieskich punktów (pikseli) w da-
nym obrazie zabiera u∏amek sekundy.

Poniewa˝ obiekty wyst´pujà na obrazie
jako „plamy” (tj. dwuwymiarowe ob-
szary spójne), naturalne jest rozpocz´-
cie przeszukiwania od identyfikacji
plam. Wi´kszoÊç wspó∏czesnych syste-
mów dzia∏a w∏aÊnie w ten sposób.

Najbardziej zapewne znany system

QBIC (Query by Image Content – wy-
szukiwanie na podstawie zawartoÊci
obrazu) opracowany przez zespó∏ IBM,
pozwala na przyk∏ad na okreÊlenie
przez operatora takich cech, jak kolor,
jego rozk∏ad i tzw. tekstura (która mo-
˝e byç prostym przek∏adaƒcem dwu
kolorów, np. pasami zebry, lecz tak˝e
bardziej z∏o˝onym wielokolorowym
wzorem). Na ich podstawie QBIC po-
rzàdkuje obrazy pod wzgl´dem stop-
nia zgodnoÊci z zadanym wzorcem. In-
ny popularny system, Photobook, dzie∏o
zespo∏u Alexa Pentlanda z Massachu-
setts Institute of Technology, w du˝ej
mierze opiera si´ na tym samym mode-
lu obrazu jako kola˝u spójnych, homo-
gennych obszarów, zawiera jednak bar-
dziej z∏o˝one opisy tekstur, a ponadto
potrafi automatycznie podzieliç obraz
na segmenty.

Chocia˝ mo˝liwoÊci tych systemów

sà imponujàce, jesteÊmy przekonani, ˝e
programy analizujàce wy∏àcznie plamy
majà ograniczonà u˝ytecznoÊç. Na przy-
k∏ad wyszukiwanie stosujàce kryterium
proporcji kolorów w rezultacie mo˝e
daç flag´ zarówno brytyjskà, jak i fran-
cuskà. Ogólnie rzecz bioràc, ludzi inte-

PRECYZYJNE WYSZUKIWANIE obra-
zów jest trudne, poniewa˝ ciàgle jesz-
cze w zbyt ma∏ym stopniu poznaliÊmy
mechanizmy rozpoznawania. W celu
znalezienia w bazie danych zdj´ç przed-
stawiajàcych fioletowe kwiaty wydano
prototypowemu programowi polecenie
wyszukania ma∏ych fioletowych kropek.
Niektóre ze wskazanych przez program
obrazów pokazano u góry strony. Nie
wszystkie odpowiadajà oczekiwaniom
u˝ytkownika, kilka jednak tak, ponie-
wa˝ rzeczywiÊcie kwiatki mo˝na z grub-
sza okreÊliç jako niewielkie plamki.
W przypadku bardziej skomplikowa-
nych obiektów, takich jak tygrys, trze-
ba u˝yç równie˝ bardziej skompli-
kowanych algorytmów wyszukujàcych
obszary odpowiednio u∏o˝onych plam
o zbli˝onych kolorze i teksturze. Rezul-
taty poszukiwania tygrysa przedstawio-
no na dole. Algorytm, dzi´ki któremu je
otrzymano, dzia∏a∏ o wiele dok∏adniej
od algorytmów ignorujàcych kszta∏t.
Obydwa programy powsta∏y w Univer-
sity of California w Berkeley.

background image

resujà obiekty; ani podobieƒstwo do
wzorca, ani te˝ analiza plam rozwa˝a-
ne osobno nie sà dostatecznà podstawà
do rozpoznania treÊci obrazów.

W celu zbadania niektórych ze wspo-

mnianych zagadnieƒ stworzyliÊmy w
University of California w Berkeley sys-
tem wyszukiwania obrazów, stanowià-
cy cz´Êç Digital Library Project (projek-
tu biblioteki cyfrowej). System nasz,
którego g∏ównymi twórcami sà Ginger
Ogle i Chad Carson, b´dzie docelowo
zawiera∏ ponad 600 tys. fotografii. Ju˝
dziÊ oko∏o 50 tys. zdj´ç z ró˝nych êró-
de∏, m.in. fotografie lotnicze i satelitar-
ne, jest dost´pnych w witrynie WWW
naszego projektu.

System pozwala na bardzo ró˝ne

zlecenia; u˝ytkownik mo˝e pytaç za-
równo o obiekty, jak i o plamy. Obiekty
jednak trudniej znaleêç, tak wi´c w wie-
lu przypadkach warto zapytaç o obrazy
zawierajàce plamy, z których mo˝na z∏o-
˝yç poszukiwany obiekt. JesteÊmy zda-
nia, ˝e przedstawia si´ obiekty (a wi´c
i pyta o nie) w terminach zestawu plam.
Oznacza to, ˝e najbardziej celowe sà ta-
kie zapytania o plamy, na podstawie
których mo˝na zbudowaç reprezenta-
cj´ obiektu. Tak wi´c interfejs u˝ytkow-
nika powinien oferowaç wiele opcji:
mo˝na by pytaç o obiekty albo – gdy nie
istnieje dostatecznie dobra definicja
obiektu – ˝àdaç wyszukania ró˝nych
kombinacji roz∏o˝enia plam, o których
wiadomo, ˝e b´dà pomocne w rozwià-
zaniu zadania.

Kiedy jeden z twórców systemu chcia∏

znaleêç zdj´cia przedstawiajàce wind-
surfing, za˝àda∏ wyszukania obrazów
zawierajàcych co najmniej 30% koloru
zielonego lub niebieskiego (niebo albo
morze) i choç jednà ˝ó∏tà kropk´ (˝agiel
windsurfera). Bardzo wysoki odsetek
znalezionych przez komputer zdj´ç do-
tyczy∏ windsurfingu. Program wskaza∏
tak˝e zdj´cia nie zwiàzane z tematem,
a przeoczy∏ inne, w∏aÊciwe.

W wyszukiwaniu informacji mamy

z zasady do czynienia z kompromisem
pomi´dzy dok∏adnoÊcià a iloÊcià zna-
lezionej informacji – wybieranie danych
dok∏adnie odpowiadajàcych tematowi
spowoduje, ˝e niektóre po˝àdane in-
formacje nie przejdà przez sito, ∏agod-
niejsze natomiast kryterium sprawi, ˝e
prócz informacji poszukiwanych otrzy-
mamy dodatkowo mas´ innych. Na
przyk∏adzie windsurfingu pokazaliÊmy,
˝e pot´˝ny mechanizm wyszukiwania
na podstawie plam mo˝e byç w niektó-
rych przypadkach zupe∏nie skuteczny.
Przyk∏ad ten daje jednak równie˝ wy-
obra˝enie o intelektualnych wygibasach,
których nale˝y dokonaç, aby znaleêç
obiekt, pos∏ugujàc si´ opisem plam.

48 Â

WIAT

N

AUKI

Sierpieƒ 1997

W obecnym stadium rozwoju naszego

systemu u˝ytkownik mo˝e specyfiko-
waç tylko ma∏à klas´ obiektów, takich
jak konie, ∏odzie i nadzy ludzie. Aby zde-
finiowaç plam´, mo˝e on podaç procent
ró˝nych kolorów prawdopodobnie obec-
nych na obrazie, a tak˝e liczb´ i wielkoÊç
„kolorowych kleksów”. Mo˝na tak˝e po-
daç inne cechy zwiàzane z treÊcià obra-
zu, na przyk∏ad: czy na obrazie jest wi-
doczna linia horyzontu, jak równie˝
przeszukaç tzw. metadane – dodatko-
wà informacj´ do∏àczonà do obrazu, czy-
li podpis, imi´ i nazwisko autora, dat´
oraz miejsce, gdzie zrobiono zdj´cie, itp.

Zagro˝enia

JeÊli komputer wyposa˝y si´ w odpo-

wiednià wiedz´ – b´dzie potrafi∏ wyde-
dukowaç z plam, które sk∏adajà si´ na
obraz, jakie obiekty si´ na obrazie znaj-
dujà. Problem identyfikacji koni, ludzi
itp. nazywamy rozpoznawaniem obiek-
tów; jest on od dziesi´cioleci wa˝nym
przedmiotem badaƒ widzenia maszy-
nowego, przede wszystkim ze wzgl´du
na zastosowania przemys∏owe i wojsko-
we. Dzisiejsze techniki sprawdzajà si´
tylko w przypadku obrazów zawierajà-
cych niewielkà liczb´ obiektów, których
kszta∏ty sà dok∏adnie znane i które
bywajà zwykle przedstawiane tylko pod
pewnymi kàtami. W∏aÊciwie nie nada-
jà si´ do rozpoznania nawet pojedyn-
czego „zwyk∏ego” obiektu, takiego jak
cz∏owiek lub koƒ. Te bowiem charakte-
ryzujà si´ du˝à zmiennoÊcià rozmiaru,
wagi, znaków szczególnych, co wpro-

wadza w b∏àd programy komputero-
we, choç przecie˝ cz∏owiek pozostaje
cz∏owiekiem niezale˝nie od ubioru czy
fryzury.

Co wi´cej, musimy odró˝niaç obiek-

ty od t∏a. W pewnych przypadkach jest
to trudne nawet dla ludzi. Rozwa˝my
obraz lamparta na tle mieniàcej si´ Êwia-
t∏em d˝ungli. Aby cokolwiek rozpoznaç,
musimy wiedzieç, które cz´Êci obrazu
tworzà ca∏oÊç – czyli odró˝niç plamki
b´dàce c´tkami lamparta od refleksów
Êwietlnych t∏a. Innymi s∏owy, program
musi umieç przyporzàdkowywaç pla-
my obiektom.

To tzw. grupowanie percepcyjne by-

∏o przedmiotem intensywnych badaƒ
psychologów szko∏y Gestalt. Wskazali
oni wiele czynników, którymi mo˝na
by pos∏u˝yç si´ do stwierdzenia, kiedy
ró˝ne cz´Êci obrazu nale˝à do jednego
obiektu. Bardzo silnym kryterium jest
podobieƒstwo koloru lub tekstury: lu-
dzie ∏atwo asocjujà cz´Êci obrazu w tym
samym kolorze (np. spójny czerwony
obszar) lub o tej samej teksturze (szkoc-
ka krata). Na poziomie bardziej abstrak-
cyjnym obszary, które sà symetryczne
wzgl´dem jakiejÊ osi, mogà byç klasy-
fikowane jako rzuty przedmiotów trój-
wymiarowych o symetrii obrotowej, na
przyk∏ad wazonu.

SpecjaliÊci od widzenia maszynowe-

go od lat usi∏ujà przekszta∏ciç takie ja-
koÊciowe, empiryczne regu∏y w dzia∏a-
jàce algorytmy. Serge Belongie, Carson,
Hayit Greenspan i jeden z nas (Malik)
opracowali system, który mimo ˝e jego
umiej´tnoÊç percepcyjnego grupowania

Poszukiwanie konia kawa∏ek po kawa∏ku

A

lgorytmy rozpoznawania obiektów grupujà elementy obrazu w coraz to wi´ksze,
bardziej z∏o˝one obszary i wysuwajà hipotezy, co te obszary mogà przedstawiaç. Pro-

gram rozpoznajàcy czworonogi, takie jak konie, zaczyna analiz´ obrazu (a) od znalezie-
nia plam w kolorze przypominajàcym barwy koƒskiej sierÊci (b) i majàcych kszta∏t przed-
nich i tylnych koƒczyn, aby zdefiniowaç kontury tych plam (c), a nast´pnie sprawdziç
relacje przestrzenne pomi´dzy obszarami o kszta∏tach przypominajàcych cia∏o konia,
(korpus konia i jego nogi sà w przybli˝eniu walcami) (d) i wyeliminowaç niemo˝liwe ze

Zdj´cie

Plamy koloru koƒskiej sierÊci

background image

przedmiotów wypada ˝a∏oÊnie blado
w porównaniu z ludzkà, potrafi doko-
naç u˝ytecznego rozk∏adu obrazu na
ma∏y zestaw obszarów o zgodnym ko-
lorze lub teksturze. Ka˝demu takiemu
„kleksowi” sà przypisywane atrybuty
okreÊlajàce jego po∏o˝enie, kszta∏t, ko-
lor i tekstur´. Zdefiniowane kleksy od-
zwierciedlajà najwa˝niejsze cechy kom-
pozycyjne obrazu.

Dzi´ki takim danym mo˝emy odna-

leêç zdj´cia samolotów na tle nieba, szu-
kajàc po prostu niebieskich kleksów
z szarà plamà w Êrodku. Zdj´cia tygry-
sów wyselekcjonujemy na podstawie
kleksów w kolorze i o teksturze odpo-
wiadajàcej skórze tygrysa oraz w kolo-
rze i o teksturze trawy rosnàcej w Êrodo-
wisku, w którym ˝yjà te drapie˝niki.
U˝ytkownik mo˝e okreÊliç, z jakà do-
k∏adnoÊcià kolor i tekstura ka˝dego
z kleksów ma byç wyspecyfikowana.

Jest rzeczà interesujàcà, ˝e ta repre-

zentacja obiektów jako zbioru obszarów
w okreÊlonym kolorze i teksturze z ∏a-
twoÊcià poddaje si´ uczeniu maszyno-
wemu. Cz∏owiek nie musi wymyÊlaç
najbardziej charakterystycznych cech
kleksów opisujàcych samoloty czy te˝
tygrysy – mo˝na do tego celu u˝yç sta-
tystycznych metod uczenia si´ maszy-
nowego. Na wejÊcie programu zwanego
klasyfikatorem statystycznym (statisti-
cal classifier) wprowadziliÊmy zdj´cia
przyk∏adowe (takie jak zdj´cia samolo-
tów i tygrysów) i nauczyliÊmy go rozpo-
znawania tych obiektów na fotografiach
mu nie znanych. Obecnie nasze progra-
my klasyfikujà obrazy tylko na podsta-

wie koloru i tekstury; po dodaniu od-
powiedniej informacji o kszta∏tach ob-
szarów powinnny umieç rozró˝niaç,
które z kolekcji kleksów sà cz´Êcià jed-
nego obiektu, a które nie. Dzi´ki uczeniu
algorytmów otrzymujemy naturalny
sposób radzenia sobie z nieistotnà
zmiennoÊcià obiektów jednej kategorii,
poniewa˝ program mo˝e si´ sam wy-
regulowaç i nie zwracaç uwagi na nie-
istotne odchylenia (niebo miewa ró˝ne
odcienie b∏´kitu, kszta∏ty chmur sà nie-
skoƒczenie ró˝norodne itd.).

Gdzie jest Waldo?*

Takeo Kanade i jego wspó∏pracowni-

cy z Carnegie Mellon University opraco-
wali programowy modu∏ rozpoznajàcy
twarze, który jest dobrym przyk∏adem
zastosowania uczenia si´ maszynowe-
go. Inni badacze mieli du˝e trudnoÊci
z identyfikacjà ust, oczu i nosa konkret-
nych osób. Zespó∏ Kanade natomiast na-
uczy∏ sieç neuronowà wykrywania
wszystkich tych elementów twarzy ∏àcz-
nie, jeÊli wyst´pujà one we w∏aÊciwej
konfiguracji. Bada∏ on tak˝e mo˝liwoÊç
powiàzania w analizie scen filmowych
obrazu z dêwi´kiem. Komputer rozpo-
znawa∏by na przyk∏ad brzmienie nazwi-
ska znanej osoby na Êcie˝ce dêwi´ko-
wej wiadomoÊci telewizyjnych i koja-
rzy∏by jà z obrazem twarzy na Êcie˝ce
wizyjnej.

Kolor i tekstura sà pomocne w iden-

tyfikacji obszarów obrazu. Kilka dodat-
kowych wskazówek pomaga w z∏o˝e-
niu obszarów w obraz obiektu. Przede

wszystkim wiele przedmiotów sk∏ada
si´ z cz´Êci, które majà proste trójwy-
miarowe kszta∏ty. Tak˝e relacje pomi´-
dzy cz´Êciami sà zwykle nieskompliko-
wane. Co wi´cej, proste formy zajmujà
na obrazach proste w kszta∏cie obszary.
Na przyk∏ad walec na zdj´ciu prawie
zawsze jest obszarem z liniowymi, pra-
wie równoleg∏ymi bokami. Program po-
trafi stosunkowo ∏atwo identyfikowaç
tego typu kszta∏ty.

Podobnie jeÊli wzajemne usytuowa-

nie ró˝nych cz´Êci nie mo˝e byç dowol-
ne – na przyk∏ad stawy ∏àczàce koÊci
ograniczajà mo˝liwe pozycje cz´Êci cia∏a
ludzi i zwierzàt – cz´sto jest ∏atwo roz-
strzygnàç, czy obszary nale˝àce pozor-
nie do jednego obiektu rzeczywiÊcie two-
rzà ca∏oÊç. Mówiàc skrótowo, ka˝dy
obszar obrazu stanowi êród∏o hipotez
dotyczàcych jego treÊci; hipotezy te z ko-
lei sugerujà strategie dalszej identyfika-
cji wi´kszych i bardziej zró˝nicowanych
grup obszarów obrazu. Teoria uczenia
si´ statystycznego dostarcza mechani-
zmów, dzi´ki którym mo˝na zadecydo-
waç o przyj´ciu lub odrzuceniu danej hi-
potezy. Post´pujàc w ten sposób, w chwi-
li identyfikacji dostatecznie du˝ego ob-
szaru uznajemy obiekt za rozpoznany.

Margaret Fleck z University of Iowa

i jeden z autorów tego artyku∏u (For-
syth) na podstawie tych obserwacji
stworzyli dwa systemy, które mogà roz-
poznawaç specyficzne obiekty w du-
˝ym zbiorze obrazów. Pierwszy wyszu-
kuje obszary, na których sà ludzie.
Nasza obecna wersja dzia∏a tylko w
przypadku zdj´ç osób skàpo ubranych

Â

WIAT

N

AUKI

Sierpieƒ 1997 49

wzgl´dów anatomicznych kombinacje koƒczyn (no-
gi i tu∏ów powinny byç do siebie prostopad∏e). Koƒ-
cowej klasyfikacji mo˝na czasami dokonaç tylko
na podstawie szczegó∏owej znajomoÊci koloru lub
tekstury; nawet cz∏owiek móg∏by mieç k∏opot z od-
ró˝nieniem sylwetek s∏onia z podwini´tà tràbà (u
góry z lewej)
i niedêwiedzia (u góry z prawej).

Segmenty tworzàce schemat budowy konia

Kontury plam

Wszystkie mo˝liwe segmenty

DAVID FORSYTH i MARGARET FLECK

background image

lub wr´cz nagich; kolor i tekstura skóry
sà zaskakujàco ma∏o zmienne w porów-
naniu z ubraniami. Program zaczyna od
wydzielenia z obrazu obszarów odpo-
wiadajàcych skórze ludzkiej (mo˝na to
doÊç dok∏adnie zrobiç) i eliminuje zdj´-
cia, na których nie ma obrazów ludzkiej
skóry lub jest jej ma∏o. Po po∏àczeniu
rozpoznanych obszarów w grupy przy-
pominajàce kszta∏tem walce (reprezen-

tujàce cz´Êci cia∏a) program sprawdza
relacje geometryczne pomi´dzy tymi
grupami, aby znaleêç zestawy, które
mogà odpowiadaç koƒczynom. Na ko-
niec bada zwiàzki mi´dzy ewentualnie
zidentyfikowanymi cz∏onkami, ustalajàc
rejony odpowiadajàce bardziej z∏o˝o-
nym uk∏adom.

Poniewa˝ nasz model cz∏owieka opie-

ra si´ g∏ównie na wzajemnym usytu-
owaniu ró˝nych cz´Êci cia∏a, jest mo˝-
liwa taka zmiana programu, aby
wyszukiwa∏ inne obiekty o strukturze
podobnej do cia∏a ludzkiego. Nasz dru-

gi system znajduje zdj´cia koni, bada-
jàc relacje pomi´dzy segmentami obra-
zu, w kolorze i o teksturze koƒskiej
sierÊci. „Wyszukiwacz” osób przete-
stowaliÊmy na prawie 5000 zdj´ç
z bardzo ró˝nych êróde∏; prawid∏owo
zidentyfikowa∏ ludzi w 40% przypad-
ków, a mylnie w 4%. Program rozpo-
znajàcy konie wykry∏ je tylko na 10%
w∏aÊciwych zdj´ç, za to „zobaczy∏” ko-
nie tam, gdzie ich nie by∏o, zaledwie na
0.4% fotografii. Nie wiemy jeszcze, jak

50 Â

WIAT

N

AUKI

Sierpieƒ 1997

Algorytmy

rozpoznawania twarzy

N

aukowcy z Carnegie Mellon Universi-
ty zamiast definiowaç explicite cechy,

które determinujà twarz ludzkà, „trenowa-
li” program – sieç neuronowà – na du˝ym
zbiorze zdj´ç, których cz´Êç przedstawia-
∏a twarze. Program „nauczy∏ si´” w koƒcu
rozró˝niaç oczy, nos i usta. Interfejs do-
st´pny w WWW umo˝liwia ch´tnym przed-
stawienie programowi dowolnego zdj´cia
z zapytaniem, czy zawiera ono obraz twa-
rzy. Kilka z setek zdj´ç, które komputer
uzna∏ za zawierajàce obraz twarzy, za-
mieszczono obok.

RÓ˚NE UJ¢CIA TEGO SAMEGO OBIEKTU program rozpoznajàcy mo˝e odbieraç jako zupe∏nie odmienne obiekty, niektóre natomiast
nies∏usznie uzna za podobne. Oprogramowanie opracowane przez jednego z autorów tego artyku∏u pozwala czasem okreÊliç, czy na zdj´-
ciu znajduje si´ koƒ (lub osoba) niezale˝nie od uj´cia i t∏a.

background image

efektywnie dokonywaç podobnych
analiz w przypadku obrazów zawie-
rajàcych wiele ró˝nych obiektów do
rozpoznania.

Wydaje si´ nam, ˝e te ograniczone

mo˝liwoÊci odpowiadajà stanowi dzi-
siejszej techniki w dziedzinie „obiekto-
wego” wyszukiwania obrazów w du-
˝ych bazach danych. SkutecznoÊci
takich automatycznych systemów nie
nale˝y porównywaç z efektywnoÊcià
idealnego systemu, gdy˝ taki po prostu
nie istnieje.

Nawet najlepsze programy szukajà-

ce w doskonale zindeksowanych bazach
danych rzadko znajdujà wi´cej ni˝ 50%
˝àdanych informacji bez jednoczesne-
go dostarczenia du˝ej liczby zupe∏nie
niepotrzebnych. Dodajmy, ˝e nawet w
przypadku przeglàdania obrazów przez
ludzi spory procent zdj´ç zostaje prze-

oczony, a koszt takiej operacji jest prze-
cie˝ ogromny.

Mimo ˝e skupiliÊmy si´ tu na proble-

mie wyszukiwania zdj´ç w du˝ych ba-
zach danych, oczywiste jest, ˝e te za-
gadnienia dotyczà równie˝ innych
zastosowaƒ zwiàzanych z obrazami, na
przyk∏ad filtrowania informacji w Inter-
necie. Zeskanowane zdj´cia lub filmy w
Sieci stajà si´ coraz bardziej powszech-
ne – zarówno w postaci du˝ych baz
danych, jak i bardziej ulotnej: na elek-
tronicznych listach i na stronach domo-
wych WWW.

¸àczàc obszary podobne pod wzgl´-

dem tekstury i przestrzennego roz-
mieszczenia plam, poczyniliÊmy znacz-

ne post´py. Aby jednak zwi´k-
szyç odsetek poprawnie wyszu-
kiwanych zdj´ç, dzi´ki czemu
system sta∏by si´ naprawd´ u˝y-

teczny, potrzeba nowych rozwiàzaƒ. Ce-
lem jest odnajdywanie, na przyk∏ad ata-
kujàcego lamparta, po wpisaniu do
formularza okreÊleƒ: „c´tkowany”, „bu-
dowa cia∏a kocia”, „skaczàcy”. Nie jest
to cel niemo˝liwy do osiàgni´cia i war-
to do niego dà˝yç, poniewa˝ obrazów
w archiwach poszukuje wielu ludzi. Po-
nadto sukces b´dzie oznacza∏, ˝e zro-
zumieliÊmy w pe∏ni skomplikowane
mechanizmy rozpoznawania.

T∏umaczy∏

Aleksy Bartnik

* Nawiàzanie do serii dzieci´cych ksià˝ek, w któ-
rych na prze∏adowanych szczegó∏ami obrazkach
trzeba znaleêç tytu∏owego bohatera – Waldo. Wca-
le nie jest to ∏atwe (przyp. red.).

Â

WIAT

N

AUKI

Sierpieƒ 1997 51

Informacje o autorach

DAVID FORSYTH, JITENDRA MALIK i ROBERT WI-

LENSKY pracujà na Wydziale Informatyki University

of California w Berkeley i wspó∏pracujà z Digital Li-

brary Project. Forsyth, specjalista od widzenia maszy-

nowego, uzyska∏ tytu∏ licencjata i magistra na Wydzia-

le Elektrycznym University of the Witwatersrand,

a doktora w University of Oxford. W Berkeley pracuje

od 1994 roku. Malik zajmuje si´ widzeniem maszyno-

wym i komputerowym modelowaniem widzenia ludz-

kiego. Pracuje w Berkeley od 1986 roku. Studia magister-

skie ukoƒczy∏ w Indian Institute of Technology

w Kanpur, prac´ doktorskà natomiast obroni∏ w Stan-

ford University. Wilensky kieruje Digital Library Pro-

ject i jest dziekanem Wydzia∏u Informatyki w Berke-

ley; zajmowa∏ si´ wieloma dziedzinami sztucznej

inteligencji; tytu∏ magistra i doktora otrzyma∏ w Yale

University.

Literatura uzupe∏niajàca

DESCRIPTION AND RECOGNITION OF CURVED OBJECTS

. R. Nevatia i T. O. Binford, Artificial

Intelligence, vol. 8, ss. 77-98, 1977.

COLOR: WHY THE WORLD ISN’T GREY

. Hazel Rossotti; Priceton University Press, 1983.

THE LEGACY OF GESTALT PSYCHOLOGY

. I. Rock i S. Palmer, Scientific American, vol. 263,

nr 6, ss. 48-61, XII/1990.

QUERY BY IMAGE AND VIDEO CONTENT–THE QBIC SYSTEM

. M. Flickner i in., Computer, vol.

28, nr 9, ss. 23-32, IX/1995.

OBJECT REPRESENTATION IN COMPUTER VISION–II

. J. Ponce, A. Zisserman i M. Hebert;

Springer LNCS, nr 1144, 1996.

PHOTOBOOK–CONTENT BASED MANIPULATION OF IMAGE DATABASES

. A. Pentland, R. W.

Picard i S. Sclaroff, International Journal of Computer Vision, vol. 18, nr 3, ss. 233-254,

VI/1996.

OBJECT-BASED NAVIGATION: AN INTUITIVE NAVIGATION SYTLE FOR CONTENT-ORIENTED INTE-

GRATION ENVIRONMENT

. K. Hirata i in. Materia∏y z ACM Hypertext Conference,

Southampton, U.K., IV/1997.

University of California at Berkeley Digital Library Project jest dost´pny w WWW

pod adresem http://elib.cs.berkeley.edu

Poczynajàc od górnego lewego kolejno

: HARRI PULLI; KARINA MOELLER;

KLAUS-PETER ZAUNER; PAUL QUALTROUGH; DA VINCI; KLAUS-PETER ZAUNER; SARITA J. BROWN;

MICHAEL LOCKE; CARNEGIE MELLON UNIVERSITY; HIROYUKI KONISHI KONISHI


Wyszukiwarka

Podobne podstrony:
kp 12 2001 Koń jaki jest każdy widzi
Wróblewski, Michał Komiks jaki jest, każdy widzi Krótka analiza kognitywna zjawiska (2014)
Karolina Krasuska Jaki gender jest, każdy widzi podstawowe terminy
Czy orientuje się ktoś jaki jest potrzebny wzór na Dp0 dla koła zębatego
Jaki jest mechanizm działania zabiegów na rozstępy
Jaki jest cel zmian w podatkach, Finanse
22.09.08-Jaki jest jesienny ogród, Konspekty
Jaki jest dzisiaj ojciec
Jaki jest cel zmian w podatkach
20030930205919, W świetle obowiązujących przepisów prawnych cudzoziemcem jest każdy, kto nie posiada
20030930205919, W świetle obowiązujących przepisów prawnych cudzoziemcem jest każdy, kto nie posiada
Polak+jaki+jest+ka BFdy+widzi+ 282 29
Jaki jest?l wykonywania oceny oddziaływania na środowisko
Jaki jest typ twojej partnerki
Jaki jest cel zmian w podatkach

więcej podobnych podstron