97 05 PrzeszukujÄ…c internet


RAPORT SPECJALNY
PRZESZUKUJŃC INTERNET
Czy po"Ä…czenie umiej´tnoĘci bibliotekarza i komputerowego guru
pomoŻe w opanowaniu anarchii w Internecie?
Clifford Lynch
z´sto nazywa si´ Internet umiej´tnoĘciami informatyka  auto-
Ęwiatową biblioteką epoki cy- matycznego indeksowania i przecho-
Cfrowej. To okreĘlenie nie wy- wywania informacji. Tylko synteza
trzymuje jednak nawet pobieŻnej ana- obu profesji pozwoli nowemu me-
lizy. Internet  a szczególnie jego dium zachowaç Å»ywotnoĘç.
zbiór multimedialnych zasobów zna- DziĘ prawie ca"a odpowiedzialnoĘç
ny jako World Wide Web  nie zosta" za uporzÄ…dkowanie informacji w In-
stworzony z myĘlą o uporządkowa- ternecie spoczywa na technice kom-
niu publikacji dajÄ…cym moÅ»liwoĘç puterowej. W teorii oprogramowa-
wyszukiwania ich tak jak w bibliotece. nie straci na tempie i doprowadzi do nie, które klasyfikuje i indeksuje zbiory
Jego rozwój doprowadzi" do czegoĘ, co uczynienia zeÅ‚ nowego Ęrodka komu- danych cyfrowych, powinno poradziç
da si´ porównaç do bez"adnego zbioru nikacji, zajdzie potrzeba zorganizowania sobie z zalewem informacji zgromadzo-
efektów pracy cyfrowych  maszyn dru- czegoĘ bardzo podobnego do tradycyj- nej w Sieci, co przekracza moŻliwoĘci
karskich na ca"ym Ęwiecie. Ten maga- nych us"ug bibliotecznych. B´dzie si´ to bibliotekarzy i archiwistów. Do auto-
zyn informacji zawiera nie tylko ksiąŻ- wiąza"o z koniecznoĘcią uporządkowa- matycznego przetwarzania informacji
ki i dokumenty, ale równieÅ» dane nia, udost´pniania i archiwizowania in- b´dÄ… s"uÅ»yç coraz szybsze i coraz taÅ‚-
naukowe, przepisy, reklamy, notatki ze formacji zgromadzonych w Sieci. Na- sze komputery; pozwoli to uniknÄ…ç wy-
spotkał, nagrania audio i wideo, zapi- wet wtedy Internet nie musi jednak sokich kosztów i opóęnieł związanych
sy interaktywnych konwersacji. Rzeczy przypominaç tradycyjnej biblioteki, po- z indeksowaniem wykonywanym przez
efemeryczne przemieszane sÄ… z pracami niewaÅ» jego zawartoĘç jest znacznie bar- cz"owieka.
o wartoĘci nieprzemijajÄ…cej. dziej rozproszona. Umiej´tnoĘci klasy- Ale jak wie kaÅ»dy, kto kiedykolwiek
MówiÄ…c krótko, Internet nie jest cy- fikacji i selekcji, którymi dysponujÄ… przeszukiwa" Sieç, automaty kategory-
frowÄ… bibliotekÄ…. Ale jeĘli jego rozwój bibliotekarze, trzeba b´dzie uzupe"niç zujÄ… informacje inaczej niÅ» ludzie. W
PRZESZUKIWARKA odwiedza ( przeczesuje ) róŻne miejsca w World Wide Web, po-
kazane tu jako niebieskie kule. Úó"te i niebieskie linie oznaczajÄ… dane wejĘciowe i wyjĘcio-
we serwera przeszukiwarki (czerwona wieŻa), gdzie strony WWW są wgrywane. Opro-
gramowanie serwera tworzy indeks (beÅ»owa kartka), do którego ma dost´p uÅ»ytkownik.
JEFF BRICE
BRYAN CHRISTIE
RAPORT SPECJALNY
pewnym sensie praca wykonywana matyczne indeksowa-
PRZYPUSZCZALNA SERWERY .com
przez rozmaite narz´dzia indeksujÄ…ce nie. Dokumenty w
LICZBA (PROCENT WSZYSTKICH SERWERÓW)
SERWERÓW WWW
i katalogujÄ…ce znane jako przeszukiwar- Sieci nie majÄ… struktu- 0 10 20 30 40 50 60 70
ki jest wysoce demokratyczna. Maszyna ry pozwalajÄ…cej pro- CZERWIEC 1993 130 2
GRUDZIEÄ„ 1993 620 5
ujednolica podejĘcie do kaÅ»dej informa- gramom wy"uskaç w
CZERWIEC 1994 2740 14
cji. W praktyce ten elektroniczny egali- sposób niezawodny
GRUDZIEÄ„ 1994 10 000 18
taryzm ma równieŻ z"e strony. Internau- najprostszych infor-
CZERWIEC 1995 23 500 31
ci, którzy formu"ują zapytanie, otrzy- macji, które cz"owiek
STYCZEÄ„ 1996 100 000 50
mujÄ… cz´sto w odpowiedzi listy zawie- uzyskuje, przeglÄ…da-
CZERWIEC 1996 230 000 68
rajÄ…ce tysiÄ…ce pozycji. Na listach tych jÄ…c dokument na ekra-
STYCZEÄ„ 1997 650 000 63
znajdujÄ… cz´sto odnoĘniki do nie zwiÄ…- nie  nazwisko autora,
zanych z tematem miejsc, brak na nich dat´ publikacji, d"u-
LICZBA KOMPUTERÓW BAZOWYCH

natomiast innych, które kierujÄ… do goĘç tekstu, jego te-
(MILIONY)
materia"ów istotnych. matyk´ (informacje ta- 0 2 4 6 8 10 12
kie nazywajÄ… si´ me- STYCZEÄ„ 1993 1.3
STYCZEÄ„ 1994 2.2
Roboty sieci tadanymi). Interneto-
STYCZEÄ„ 1995 4.9
wy robot moŻe zna-
STYCZEÄ„ 1996 9.5
Mechanizm elektronicznego indekso- leÄ™ç poszukiwany ar-
LIPIEC 1996 12.9
wania zrozumiemy, analizujÄ…c, jak sie- tyku" Jana Kowalskie-
ciowe przeszukiwarki, takie jak Lycos go, ale równieÅ» tysiÄ…- ROZWÓJ I ZMIANY w Internecie oddaje zwi´kszajÄ…ca si´ licz-
ba serwerów World Wide Web, komputerów bazowych i komer-
czy AltaVista, tworzÄ… za pomocÄ… progra- ce innych dokumen-
cyjnych serwerów, czyli tych, które znajdujÄ… si´ w domenie .com
mów indeksy i znajdują informacje, tów, w których to po-
o które pyta uÅ»ytkownik. Co pewien czas pularne imi´ i na-
uruchamiajÄ… one programy (b´dziemy zwisko pada w tekĘcie lub w przypisach juÅ» pewne rezultaty. Úaden program nie
je nazywaç robotami indeksujÄ…cymi  bibliograficznych. potrafi jednak wydedukowaç ukrytych
crawlers, spiders, indexing robots) od- Czasami ta nieselektywnoĘç automa- znaczeÅ‚ i konotacji kulturowych (nie od-
wiedzające kaŻde miejsce w Sieci, które tycznego indeksowania jest wykorzy- gadnie na przyk"ad, Że obraz, na którym
potrafiÄ… znaleÄ™ç. Miejsce zawiera zbiór stywana. KtoĘ moÅ»e spowodowaç, by grupa m´Å»czyzn si´ posila, przedstawia
dokumentów zwanych stronami inter- dany dokument by" wybierany cz´Ä˜ciej, OstatniÄ… Wieczerz´).
netowymi. Robot indeksujÄ…cy przeglÄ…- powtarzajÄ…c w nim kilkakrotnie s"owo JednoczeĘnie ciÄ…gle zmienia si´ struk-
da strony i stara si´ uzyskaç informacje, wyst´pujÄ…ce w wielu zapytaniach, na tura sieciowej informacji i cz´sto indek-
które mogÄ… pos"uÅ»yç do ich opisu. Proces przyk"ad  seks . Przeszukiwarka poka- sujÄ…cy robot nie umie tej informacji od-
ten  nieco inny w szczegó"ach w róŻ- zuje bowiem na poczÄ…tku te dokumen- czytaç. Wiele stron internetowych to juÅ»
nych przeszukiwarkach  polega na zlo- ty, w których szukane s"owo pojawia nie statyczne pliki, które dajÄ… si´ anali-
kalizowaniu wi´kszoĘci s"ów pojawiajÄ…- si´ najcz´Ä˜ciej. WykonujÄ…cy t´ samÄ… pra- zowaç i indeksowaç za pomocÄ… obecnie
cych si´ na stronach internetowych lub c´ ludzie nie daliby si´ nabraç na takie stosowanych programów. Coraz cz´Ä˜ciej
przeprowadzeniu zaawansowanej anali- naiwne sztuczki. informacja wyĘwietlana w dokumencie
zy w celu identyfikacji kluczowych s"ów Dla profesjonalisty sporządzającego jest tworzona w czasie jej wyszukiwania
czy fraz. Nast´pnie zostajÄ… one umiesz- indeks fakt, Å»e cz´Ä˜ci sk"adowe doku-  modyfikowana zgodnie z Żądaniem
czone w bazie danych przeszukiwarki mentu są róŻnego rodzaju (od tekstu po uŻytkownika. Serwer potrafi przygoto-
wraz z adresem dokumentu, z którego film wideo) nie przedstawia trudnoĘci  waç map´, tabel´ czy tekst, wykorzystu-
pochodzÄ…, zwanym URL (uniform re- potrafi je przypisaç do okreĘlonych ka- jÄ…c informacje z róŻnych obszarów swo-
source locator). UŻytkownik, korzysta- tegorii tematycznych. Fotografie z woj- jej bazy danych. Wydawca gazety w
jÄ…c z przeglÄ…darki takiej jak popularny ny secesyjnej mogÄ… na przyk"ad stano- Internecie moÅ»e pozwoliç czytelnikowi
Netscape, wysy"a pytania do bazy prze- wiç cz´Ä˜ç zbioru, który zawiera równieÅ» na okreĘlenie osobistych preferencji; taka
szukiwarki. W odpowiedzi otrzymuje li- muzyk´ z tamtego okresu czy wspo- wersja pisma b´dzie wyĘwietla"a wy"Ä…cz-
st´ zasobów internetowych wraz z ich mnienia Å»o"nierzy. Archiwista cz"owiek nie artyku"y o interesujÄ…cej go tematyce,
adresami; klika na nie, gdy chce po"Ä…- potrafi opisaç, jak zbiór zosta" zorgani- na przyk"ad dotyczÄ…ce przemys"u nafto-
czyç si´ z danym miejscem. zowany w miejscu, w którym magazy- wego. Baza danych, z której pochodzÄ…
Internetowe przeszukiwarki odpo- nuje si´ na przyk"ad programy dla te artyku"y, nie jest dost´pna dla robota
wiadajÄ… na miliony pytaÅ‚ dziennie. Sta- komputerów Mackintosh. Historia da- indeksujÄ…cego odwiedzajÄ…cego t´ zindy-
je si´ jasne, Å»e nie sÄ… one idealnym na- nego miejsca internetowego, cel jego po- widualizowanÄ… gazet´.
rz´dziem do przeszukiwania coraz wstania oraz charakter jest natomiast Coraz cz´Ä˜ciej prowadzi si´ badania
wi´kszych zasobów informacyjnych poza zasi´giem programu przeszuku- zmierzajÄ…ce do eliminacji niektórych
zgromadzonych w Sieci. Inaczej niÅ» lu- jÄ…cego Sieç. problemów zwiÄ…zanych z automatycz-
dzie trudniÄ…cy si´ archiwizacjÄ… automa- InnÄ… wadÄ… automatycznego indekso- nymi metodami klasyfikacji. Jedno z
tyczne programy miewajÄ… trudnoĘci wania jest to, Å»e wi´kszoĘç przeszukiwa- proponowanych podejĘç polega na do-
z identyfikacją charakteru dokumentu, rek rozpoznaje tylko tekst. Wielkie zain- dawaniu metadanych do dokumentów,
jego ogólnej tematyki lub rodzaju  na teresowanie ÂwiatowÄ… Paj´czynÄ… wzi´"o tak aby systemy indeksujÄ…ce mog"y te
przyk"ad nie odróŻniajÄ… powieĘci lub si´ jednak stÄ…d, Å»e pozwala ona równieÅ» informacje gromadziç. Najlepsze wyni-
poematu od reklamy. na wyĘwietlanie zdj´ç, rysunków czy wi- ki w tej dziedzinie majÄ… projekty specy-
Co wi´cej, w Internecie ciÄ…gle braku- deo. Badania nad rozpoznawaniem kolo- fikacji Dublin Core Metadata i zwiÄ…za-
je standardów, które by u"atwia"y auto- rów i wzorów na ilustracjach przynios"y ny z nim Warwick Framework  nazwa
ÂWIAT NAUKI Maj 1997 31
Na podstawie danych Mathew K. Graya: BRYAN CHRISTIE
RAPORT SPECJALNY
AUTOMATYCZNE INDEKSOWANIE Sie-
ci przez robota analizuje stron´ (z lewej)
przez oznaczenie wi´kszoĘci s"ów jako ter-
minów indeksujących (poĘrodku u góry) lub
grupowanie s"ów w proste wyraŻenia (po-
Ęrodku na dole). Indeksowanie wykonane
przez cz"owieka (z prawej) dzi´ki dodatko-
wym informacjom pozwala poznaç kontekst
uŻytych wyrazów.
pierwszego pochodzi od Dublina w sta-
nie Ohio, drugiego natomiast od War-
wick w Wielkiej Brytanii. Zatrudnione
przy nich zespo"y zdefiniowa"y zestaw
metadanych, które są prostsze niŻ w tra-
dycyjnych katalogach bibliotecznych,
oraz opracowa"y sposoby ich w"Ä…czania
do stron internetowych.
Klasyfikacja metadanych mia"aby obej-
mowaç róŻne kategorie: od tytu"u i auto-
ra do typu dokumentu (np. tekst czy wi-
deo). Ich wyszukiwaniem mogliby si´
zajmowaç zarówno ludzie, jak i progra-
my indeksujÄ…ce. Tak zdobyte metadane
Jak znaleÄ™ç obraz w Sieci
Gary Stix
nternet wyszed" na swoje kilka lat temu, gdy pojawi"a si´ World UÅ»ytkownik zaczyna wyszukiwanie od wy-
IWide Web z szerokÄ… paletÄ… fotografii, animacji, rysunków, dÄ™wi´- brania z menu kategorii  na przyk"ad  koty .
ku i wideo, zawierających wszystko  od wybitnych dzie" sztuki WebSEEk pokazuje wybrane ikony naleŻące
po czystÄ… pornografi´. Pomimo ogromnej liczby materia"ów mul- do tej kategorii. By ograniczyç zakres wyszu-
timedialnych znalezienie tych, które interesujÄ… uÅ»ytkownika na kiwania, uÅ»ytkownik klika na dowolnÄ… ikon´
setkach tysi´cy serwerów internetowych, ciÄ…gle jeszcze wyma- pokazujÄ…cÄ… czarnego kota. WykorzystujÄ…c prze-
ga wyszukiwania w indeksach s"ów lub liczb. prowadzonÄ… uprzednio analiz´ kolorów, prze-
KtoĘ, kto wpisze s"owa  polska flaga do popularnej przeszuki- szukiwarka dobiera obrazki o podobnej cha-
warki AltaVista, ma szans´ dotrzeç do obrazu polskiej flagi tylko rakterystyce kolorystycznej. Nast´pna grupa
wtedy, gdy jest ona tymi s"owami opisana. Ale co ma zrobiç ktoĘ, ikon moÅ»e pokazywaç czarne koty, ale rów-
kto pami´ta kolory flagi, ale nie wie, z jakiego kraju ona pochodzi? nieÅ» na przyk"ad koty rude leŻące na czarnych
Najlepiej by"oby, gdyby przeszukiwarka pozwoli"a uÅ»ytkowniko- poduszkach. GoĘç WebSEEka jeszcze bar-
wi narysowaç lub zeskanowaç prostokÄ…t, którego górna po"owa by- dziej uĘciĘla wyszukiwanie, okreĘlajÄ…c, jakie
"aby bia"a, a dolna czerwona, i nast´pnie odnalaz"a podobne ob- kolory musi lub jakich nie powinien zawieraç
razy wĘród milionów ilustracji umieszczonych na serwerach szukany obraz. Wy"ączając na przyk"ad kolor
internetowych. W ostatnich latach techniki "Ä…czÄ…ce indeksowanie czerwony i Å»ó"ty, pozb´dzie si´ kotów rudych.
s"ów i analiz´ obrazu zaczynajÄ… przecieraç szlak pierwszym ma- MoÅ»e to uczyniç jeszcze proĘciej, wskazujÄ…c te ikony, na których
szynom wyszukujÄ…cym grafik´. nie ma czarnych kotów. Do tej pory WebSEEk skopiowa" i zain-
Dzi´ki tym prototypowym rozwiÄ…zaniom moÅ»na juÅ» dziĘ doceniç deksowa" juÅ» ponad 650 tys. obrazków z dziesiÄ…tków tysi´cy ser-
moÅ»liwoĘci indeksowania informacji wizualnej, przy okazji widaç werów internetowych.
jednak równieÅ», Å»e obecne narz´dzia sÄ… jeszcze prymitywne i Å»e Nad projektami wyszukiwania grafiki prowadzone sÄ… równieÅ»
szukajÄ…c obrazów, ciÄ…gle musimy polegaç na tekĘcie. Jeden z pro- prace w University of Chicago, University of California w San Die-
jektów  WebSEEk stworzony w Columbia University  pozwala go, Carnegie Mellon University, w Media Lab MIT i w University
przeĘledziç, jak pracuje przeszukiwarka grafiki. WebSEEk zaczy- of California w Berkeley. Liczne firmy komercyjne, w tym IBM i Vi-
na od ĘciÄ…gni´cia plików znalezionych w Sieci. Nast´pnie wyszu- rage, stworzy"y oprogramowanie, które moÅ»e byç uÅ»ywane do
kuje wĘród nich te, które w nazwach mają rozszerzenia, takie jak przeszukiwania zbiorczych sieci czy baz danych. Dwie inne fir-
GIF czy MPEG, oznaczajÄ…ce, Å»e zawierajÄ… grafik´ lub filmy wi- my  Excalibur Technologies i Interpix Software  po"Ä…czy"y swo-
deo. Ponadto szuka w nazwach plików s"ów identyfikujÄ…cych ich je wysi"ki, by stworzyç oprogramowanie dla Yahoo i Infoseeka.
treĘç. Gdy program znajdzie obraz, bada, jakie przewaÅ»ajÄ… w nim Jeden z najstarszych programów, Query by Image Content (QBIC)
kolory i jakie jest ich roz"oÅ»enie. Dzi´ki tym informacjom moÅ»e powsta"y w IBM, dysponuje bardziej wyszukanymi metodami dopa-
rozróŻniç fotografie, grafik´, ilustracje bia"o-czarne lub w róŻnych sowywania cech obrazu niÅ», powiedzmy, WebSEEk. Potrafi nie tyl-
odcieniach szaroĘci. Program równieÅ» kompresuje kaÅ»dy obra- ko odróŻniaç kolory, ale równieÅ» kontrast (bia"e i czarne paski zebry),
zek i wyĘwietla go w postaci ikony, a w przypadku wideo  wybie- p"ynnoĘç linii (od"amki skalne i otoczaki) oraz ich kierunkowoĘç (s"up-
ra kilka charakterystycznych klatek z róŻnych scen. ki ogrodzenia i roz"oŻone na wszystkie strony p"atki kwiatów). Zada-
32 ÂWIAT NAUKI Maj 1997
BRYAN CHRISTIE
RAPORT SPECJALNY
do"Ä…czane sÄ… do strony internetowej, aby si´ potrzebne, b´dzie zaleÅ»a"o od uÅ»yt- bliotece, w której nie klasyfikuje si´ zaso-
automat przeszukujÄ…cy potrafi" je odczy- kowników Internetu i oceny op"acalno- bów pod wzgl´dem wartoĘci. PoniewaÅ»
taç. Precyzyjne komentarze napisane Ęci przedsi´wzi´cia przez wydawców. iloĘç informacji zgromadzonych w Sieci
przez cz"owieka pozwolą w przysz"oĘci Dla wielu spo"ecznoĘci naukowych mo- jest ogromna, jej uŻytkownicy potrzebu-
na stworzenie bardziej szczegó"owej cha- del zorganizowanego zbioru danych  jÄ… wskazówek, na co poĘwi´ciç ten ogra-
rakterystyki strony niÅ» sporzÄ…dzona cyfrowa biblioteka  ciÄ…gle wydaje si´ niczony czas, który przeznaczajÄ… na okre-
przez program indeksujÄ…cy. odpowiedni. Dla innych pozbawione ĘlonÄ… dziedzin´. Zainteresowani sÄ…
JeĘli wysokie koszty są uzasadnione, kontroli,  demokratyczne medium mo- poznaniem trzech  najlepszych doku-
do tworzenia bibliografii niektórych Å»e byç najlepszym mechanizmem roz- mentów dotyczÄ…cych tematu i otrzyma-
miejsc w Sieci angaÅ»uje si´ ludzi. Jest to prowadzania informacji. Niektórym niem tej informacji darmo, bez ponosze-
bardzo pracoch"onne zaj´cie. Baza da- uÅ»ytkownikom, od analityków finanso- nia kosztów zatrudnienia ludzi do
nych Yahoo, przedsi´wzi´cie komercyj- wych do szpiegów, potrzebny jest do- analizy i oceny tysi´cy internetowych
ne, grupuje internetowe miejsca w doĘç st´p do baz zawierajÄ…cych dane suro- miejsc. Jednym z rozwiÄ…zaÅ‚, które jed-
rozleg"e bloki tematyczne. Projekt ba- we, nie kontrolowane oraz nie reda- nak znów wymaga udzia"u cz"owieka,
dawczy prowadzony w University of gowane. Dla nich standardowe prze- jest dzielenie si´ opiniami o tym, co jest
Michigan natomiast stanowi jednÄ… z kil- szukiwarki sÄ… najlepszym narz´dziem warte zachodu, a co nie. Systemy ocen
ku prób stworzenia bardziej formal- w"aĘnie dlatego, Å»e nie selekcjonujÄ… zaczynajÄ… juÅ» opisywaç uÅ»ytkownikom
nych opisów tych stron, które zawiera- informacji. wartoĘç tych miejsc internetowych, któ-
jÄ… materia"y interesujÄ…ce pod wzgl´dem re odwiedzajÄ… [patrz: Paul Resnick,  Fil-
naukowym. To nie tylko biblioteka trowanie informacji , strona 40].
W jakim stopniu ludzkie umiej´tnoĘci Narz´dzia programistyczne przeszu-
klasyfikacji czy strategie automatyczne- RóŻnorodnoĘç materia"u w Sieci jest kujÄ… Internet oraz oddzielajÄ… dobre ma-
go indeksowania i wyszukiwania stanÄ… znacznie wi´ksza niÅ» w tradycyjnej bi- teria"y od z"ych. MogÄ… byç jednak po-
nie: róŻowa kropka na zielonym tle, powoduje znalezienie przez Iowa. Program ten analizuje najpierw kolory i faktur´ fotografii.
program fotografii kwiatów i innych przedmiotów o podobnych kszta"- Kiedy znajduje kolory odpowiadające kolorom cia"a, w"ącza algo-
tach i kolorach [ilustracja powyŻej]. Programy te umoŻliwią zarówno rytm, który poszukuje fragmentów w kszta"cie walca, mogących
wybór wzoru tapety, jak i znalezienie przez policj´ cz"onków gangu oznaczaç rami´ czy nog´. Po ich znalezieniu szuka innych wal-
na podstawie sposobu ubierania si´ przez nich. ców w kolorze cia"a, u"oÅ»onych pod odpowiednim kÄ…tem, które
Wszystkie te programy po prostu porównujÄ… tylko poszczegól- mogÄ… byç potwierdzeniem obecnoĘci na obrazie koÅ‚czyn. W ostat-
ne cechy obrazu. W dalszym ciÄ…gu potwierdzenie, czy znalezio- nio przeprowadzonym teĘcie pogram wybra" 43% zdj´ç ukazujÄ…-
ny obiekt jest kotem, czy poduszką, wymaga oceny cz"owieka cych 565 nagich ludzi spoĘród 4854, co jest dobrym wynikiem jak
(lub do"ączenia do ilustracji tekstu). Od ponad 10 lat badacze za- na ten rodzaj z"oŻonej analizy obrazu. Ponadto w wypadku zbio-
jmujÄ…cy si´ sztucznÄ… inteligencjÄ… próbujÄ…, z róŻnym skutkiem, ru zdj´ç nie pokazujÄ…cych nagich cia" da" tylko 4% fa"szywie po-
zmusiç komputery do bezpoĘredniej identyfikacji przedstawio- zytywnych odpowiedzi. Zdj´cia nagich ludzi pochodzi"y z WWW,
nych na ilustracji obiektów, niezaleŻnie od tego, czy są to koty, czy inne fotografie natomiast g"ównie z komercyjnych baz danych.
flagi. Metoda wprowadza korelacj´ mi´dzy kszta"tami na ilustra- Próby stworzenia komputerowego wzroku najprawdopodobniej
cjach a geometrycznymi modelami obiektów realnego Ęwiata. b´dÄ… trwa"y jeszcze ca"e dziesi´ciolecie albo d"uÅ»ej. Przeszuki-
Dzi´ki temu program moÅ»e wydedukowaç, czy róŻowy lub brÄ…- warki potrafiÄ…ce jednoznacznie rozróŻniç nagich ludzi, koty i fla-
zowy walec to, powiedzmy, ludzkie rami´. gi narodowe sÄ… ciÄ…gle nie zrealizowanym marzeniem. Jednak
Przyk"adem jest program szukajÄ…cy nagich ludzi autorstwa Da- w miar´ up"ywu czasu badacze na pewno zdo"ajÄ… wyposaÅ»yç pro-
vida A. Forsytha z Berkeley i Margaret M. Fleck z University of gramy wyszukujÄ…ce w umiej´tnoĘç rozumienia tego, co widzÄ….
ÂWIAT NAUKI Maj 1997 33
IBM CORPORATION/ROMTECH/COREL
RAPORT SPECJALNY
HARVEST, w którym zastosowano nowÄ… architektur´ przeszukiwarki, moÅ»e utwo-
rzyç indeks za pomocÄ… programów  zbieraczy (gatherers). Umieszczane sÄ… one
w oĘrodkach Sieci (ciemne wieŻyczki obok niebieskich kul) lub w centralnym kom-
puterze (wi´ksza szeĘciokÄ…tna wieÅ»a). Dzi´ki temu przeszukiwarka nie musi prze-
grywaç wszystkich dokumentów z danego miejsca WWW, co znacznie odciÄ…Å»a
Sieç. Serwer przeszukiwarki (czerwony obiekt w centrum) moÅ»e po prostu popro-
siç roboty zbierajÄ…ce (fioletowe strza"ki) o plik ze s"owami kluczowymi (czerwo-
ne strza"ki) i przetworzyç go w indeks (kartka), z którego skorzysta uÅ»ytkownik.
trzebne nowe programy, które zmniej- zmniejsza przepustowoĘç sieci (band- Gdy Internet okrzepnie, decyzja co do
szą obciąŻenia powodowane przez ro- width). Robot zbierający informacje wy- odpowiedniej metody zbierania informa-
boty internetowe, skanujÄ…ce co pewien sy"a natomiast tylko plik zawierajÄ…cy da- cji b´dzie zaleÅ»a"a g"ównie od uÅ»ytkowni-
czas kaÅ»de miejsce w Sieci. Niektórzy ne do indeksu. Co wi´cej, sÄ… to informacje ków. Dla kogo wi´c Internet stanie si´ ro-
administratorzy serwerów stwierdzają, tylko o tych stronach, które zosta"y zmie- dzajem biblioteki z jej formalnymi za-
Że ich komputery tracą mnóstwo czasu, nione po ostatniej  wizycie , co równieŻ sadami tworzenia zbiorów? Dla kogo na-
dostarczając robotom informacji po- znacznie zmniejsza obciąŻenie sieci tomiast pozostanie anarchiczny, z auto-
trzebnej do indeksowania, zamiast po- i komputerów do niej pod"Ä…czonych. matycznymi systemami dost´pu?
Ęwi´ciç go na obs"ug´ uÅ»ytkowników Roboty takie jak robot zbierajÄ…cy Har- UÅ»ytkownicy, którzy zgodzÄ… si´ op"a-
"Ä…czÄ…cych si´ z ich serwerem. vesta mogÄ… równieÅ» pe"niç inne funkcje. caç autorów, wydawców, archiwistów
PróbujÄ…c rozwiÄ…zaç ten problem, Mi- Dzi´ki nim wydawcy zyskajÄ… coĘ w ro- i recenzentów, mogÄ… podtrzymaç trady-
ke Schwartz i jego koledzy z University dzaju ogranicznika zasobu informacji eks- cj´ biblioteki. Tam, gdzie informacja jest
of Colorado w Boulder stworzyli opro- portowanych z serwerów. Kontrola taka udost´pniana bezp"atnie lub finansowa-
gramowanie o nazwie Harvest, które jest konieczna, poniewaÅ» WWW staje si´ na przez reklamodawców, dominowaç
pozwala serwerom WWW stworzyç in- juÅ» czymĘ wi´cej niÅ» medium swobod- b´dzie najprawdopodobniej tanie indek-
deks danych dla stron na nich umiesz- nego przekazywania darmowych infor- sowanie komputerowe  w rezultacie
czonych i wys"aç go na Żądanie róŻnym macji. Niejednokrotnie u"atwia dost´p do otrzymamy to samo pozbawione upo-
przeszukiwarkom. Dzi´ki temu auto- danych p"atnych. Programy przeszuku- rzÄ…dkowanej struktury Ęrodowisko, z któ-
matycznie indeksujÄ…cy robot Harvesta, jÄ…ce nie powinny penetrowaç takich ma- rym mamy do czynienia obecnie. Wyni-
czyli robot zbierający, zwalnia przeszu- teria"ów. Roboty zbierające mog"yby dys- ka z tego, Że na metody uzyskiwania
kiwarki z wysy"ania sieciÄ… ca"ej zawar- trybuowaç tylko te informacje, które chce informacji wp"ynie nie technika, lecz ra-
toĘci serwera. udost´pniç wydawca, na przyk"ad odno- czej czynniki spo"eczne i ekonomiczne.
Roboty, tworząc indeks, przenoszą na Ęniki do streszczeł lub przyk"ady za-
T"umaczy"
swój serwer kopi´ kaÅ»dej strony, co mieszczonych materia"ów. Jaros"aw ZieliÅ‚ski
Informacje o autorze Literatura uzupe"niajÄ…ca
CLIFFORD LYNCH jest dyrektorem dzia"u automatyzacji bi- THE HARVEST INFORMATION DISCOVERY AND ACCESS SYSTEM. C. M. Bowman i in.,
bliotecznej rektoratu University of California i tam nadzoruje Computer Networks and ISDN Systems, vol. 28, nry 1-2, ss. 119-125, XII/1995.
MELVYL, jeden z najwi´kszych systemów publicznego udo-  The Harvest Information Discovery and Access System jest dost´pny
st´pniania informacji. Lynch uzyska" doktorat z informatyki w World Wide Web: http://harvest.transarc.com/
w University of California w Berkeley. Obecnie wyk"ada w tam- THE WARWICK METADATA WORKSHOP: A FRAMEWORK FOR THE DEPLOYMENT OF RE-
tejszej School of Information Management and Systems. Jest SOURCE DESCRIPTION. Lorcan Dempsey i Stuart L. Weibel, D-lib Magazine, VII-
by"ym prezesem American Society for Information Science VIII/1996. Dost´pny w World Wide Web: http://www.dlib.org/dlib/ju-
i cz"onkiem American Association for the Advancement of ly96/07contents.html
Science. Kieruje Architectures and Standards Working Group THE WARWICK FRAMEWORK: A CONTAINER ARCHITECTURE FOR DIVERSE SETS OF META-
z ramienia Coalition for Network Information. DATA. Carl Lagoze, ibid.
34 ÂWIAT NAUKI Maj 1997
BRYAN CHRISTIE


Wyszukiwarka

Podobne podstrony:
TI 97 05 22 T pl(1)
TI 97 05 22 T pl(1)
TI 97 05 21 T pl(1)
TI 97 05 23 GT pl(1)
TI 97 05 21 L N pl(1)
97 05 Byle nie u mnie!
TI 97 05 22 T pl(1)
1997 05 Walentynki 97 1 Sawyer Meryl Czekoladowa fantazja
05 09 2012 INTERNA(1)
2007 05 in a Flash Cross Browser Internet Applications with Openlaszlo

więcej podobnych podstron