56 Â
WIAT
N
AUKI
Maj 1997
M
anuskrypty z Biblioteki Alek-
sandryjskiej w staro˝ytnym
Egipcie sp∏on´∏y doszcz´tnie
w czasie wielkiego po˝aru. Pierwsze
drukowane ksià˝ki rozpad∏y si´ na
strz´py, z których nic ju˝ nie mo˝na od-
czytaç. Wiele wczesnych dzie∏ kinema-
tografii zniszczono, aby odzyskaç sre-
bro z taÊm filmowych. Niestety, historia
mo˝e powtórzyç si´ w przypadku za-
sobów Internetu i jego multimedialnej
cz´Êci – World Wide Web.
Dotàd nikt nie pokusi∏ si´ o pe∏ne zar-
chiwizowanie tekstów i grafiki zawar-
tych w dokumentach publikowanych
na stronach WWW. Dzieje druku i fil-
mu to historia strat i cz´Êciowych rekon-
strukcji. Ten scenariusz nie musi si´ jed-
nak powtórzyç w przypadku Âwiatowej
Paj´czyny, która stopniowo staje si´ ma-
gazynem cennych informacji nauko-
wych, kulturalnych i historycznych.
Malejàcy stale koszt przechowywa-
nia informacji w postaci cyfrowej ozna-
cza, ˝e wykonanie trwa∏ej kopii WWW
i reszty Internetu le˝y w
zasi´gu mo˝liwoÊci nie-
wielkiej grupy informaty-
ków wyposa˝onych w
niezbyt wyrafinowany
zestaw komputerowych
stacji roboczych i sprz´t
do archiwizacji danych.
Rok temu przystàpi∏em
wraz z kilkoma osobami
do realizacji tej wizji, roz-
poczynajàc przedsi´wzi´-
cie, które nazwaliÊmy Ar-
chiwum Internetu.
Do koƒca lutego br. po-
winniÊmy mieç „odbitki”
wszystkich cz´Êci WWW,
które sà ogólnie dost´p-
ne i których odczytanie
by∏o dla nas technicznie
mo˝liwe. Ten „magazyn”
przypuszczalnie b´dzie li-
czyç nie mniej ni˝ dwa bi-
liony bajtów (2 TB) da-
nych ró˝nych typów: od tekstów przez
zapisy dêwi´kowe po nagrania wideo.
Dla porównania: Library of Congress
zawiera 20 TB danych tekstowych.
W nast´pnych miesiàcach zarchiwizu-
jemy pozosta∏e obszary Internetu, w tym
zasoby systemu Gopher oraz wiado-
moÊci grup dyskusyjnych Usenet. Zgro-
madzony do tej pory materia∏ ju˝ teraz
okaza∏ si´ cenny dla historyków. W
przysz∏oÊci mo˝e si´ staç podstawà elek-
tronicznej, wygodnej do przeszukiwa-
nia, indeksowanej biblioteki.
Z technicznego punktu widzenia na-
sze zadanie okaza∏o si´ doÊç ∏atwe. Ob-
s∏uga archiwum to 10-osobowy perso-
nel pracujàcy w biurach by∏ej bazy
wojskowej Presidio w centrum San
Francisco. G∏ówny komputer groma-
dzàcy informacje znajduje si´ natomiast
w San Diego Supercomputer Center w
University of California.
Oprogramowanie naszych kompute-
rów przeszukuje Sieç, kopiujàc jeden po
drugim zawarte w niej dokumenty,
zwane „stronami” lub „witrynami”
WWW. Gdy ju˝ taka witryna zostanie
zarchiwizowana, program szuka w niej
odwo∏aƒ do innych stron lub krzy˝o-
wych odniesieƒ. Do przejÊcia na inne
strony u˝ywa tzw. hiper∏àczy – adre-
sów wbudowanych w strony dokumen-
tów. Nast´pnie kopiuje znalezione
strony i znów szuka zawartych w nich
odwo∏aƒ. Program przeczesujàcy Sieç
identyfikuje unikatowà nazw´ ka˝dej
witryny (URL – uniform resource loca-
tor) i sprawdza, czy nie zosta∏a ona ju˝
zapisana w bazie danych; w ten spo-
sób unika powtórnego jej kopiowania.
Podobnego oprogramowania u˝ywajà
do indeksowania stron WWW takie sy-
stemy jak popularna przeszukiwar-
OCALIå OD ZAPOMNIENIA
Archiwum Internetu mo˝e okazaç si´ nieocenionym êród∏em informacji
dla w∏adz paƒstwowych, historyków i biznesmenów
Brewster Kahle
ARCHIWUM INTERNETU dostarczy∏o Na-
tional Museum of American History w
Smithsonian Institution kolekcj´ stron
WWW dotyczàcych kampanii prezydenckiej
1996 roku. Komputer jest cz´Êcià ekspozy-
cji poÊwi´conej kampaniom prezydenckim.
NATIONAL MUSEUM OF AMERICAN HISTORY, wystawa pn.
We the People: Winning the Vote
Â
WIAT
N
AUKI
Maj 1997 57
ka AltaVista firmy Digital Equipment
Corporation.
Ten eksperyment nie by∏by mo˝liwy,
gdyby nie spadajàce wcià˝ ceny elektro-
nicznych noÊników danych. Koszt 1 GB
(miliarda bajtów) pami´ci na twardym
dysku oscyluje dzisiaj wokó∏ 200 dola-
rów, podczas gdy archiwizowanie da-
nych na taÊmach magnetycznych za po-
mocà stacji samoczynnie wymienia-
jàcych taÊmy kosztuje 20 dolarów za gi-
gabajt. WybraliÊmy pami´ç dyskowà dla
tych informacji, do których przyszli u˝yt-
kownicy archiwum b´dà przypuszczal-
nie zaglàdaç doÊç cz´sto, i zapis na ta-
Êmach dla danych rzadziej potrzebnych.
Czas dost´pu w wypadku dysku twarde-
go wynosi Êrednio 15 ms, natomiast
w przypadku taÊmy – przeci´tnie 4 min.
Cz´sto u˝ywanymi danymi mogà byç
dokumenty historyczne lub wykaz nazw
zlikwidowanych stron.
Planujemy aktualizowaç zgromadzo-
ne informacje przynajmniej raz na kil-
ka miesi´cy. Utworzenie pierwszej pe∏-
nej kopii archiwum zaj´∏o prawie rok –
w przysz∏oÊci ka˝da nowa wersja b´-
dzie wymagaç znacznie mniej czasu,
gdy˝ wystarczy uaktualniç tylko te da-
ne, które zmieni∏y si´ od czasu ostatniej
archiwizacji.
Nigdy nie uda si´ zgromadziç wszy-
stkich tekstów, grafiki, nagraƒ dêwi´-
kowych i innego typu danych zawar-
tych w WWW, poniewa˝ nie sposób
za pomocà oprogramowania dotrzeç do
wielu setek tysi´cy miejsc w Sieci. Wy-
dawcy ograniczajà bowiem dost´p do
nich, przechowujàc dane lub doku-
menty w formatach nieczytelnych dla
prostych programów przeszukujàcych.
Pomimo to archiwum daje adekwatny
obraz tego, czym jest WWW w okre-
Êlonym czasie, nawet jeÊli jest to zbiór
niekompletny.
Jakie us∏ugi b´dzie Êwiadczyç archi-
wum po zgromadzeniu i zachowaniu
ogólnie dost´pnej cz´Êci Internetu? Ma-
my mo˝liwoÊç dostarczenia dokumen-
tów, które nie sà ju˝ dost´pne u ich wy-
dawców. Funkcja ta oka˝e si´ przydatna
zw∏aszcza wtedy, gdy hipertekstowy
system WWW stanie si´ standardem pu-
blikacji naukowych. (W przysz∏oÊci b´-
dzie on powszechnie u˝ywany jako obo-
wiàzujàcy format dokumentów dla
komputerów sieciowych – przyp. t∏um.)
Nasze us∏ugi mogà si´ okazaç cenne
równie˝ dla Êwiata biznesu. Archiwal-
ne dane przydadzà si´ te˝ agendom rzà-
dowym i wszystkim instytucjom, które
publikujà dokumenty w Sieci. Tak wi´c
po jakimÊ czasie archiwum zapewne
b´dzie przypominaç prawdziwà cyfro-
wà bibliotek´.
Materia∏ zgromadzony przez nas ju˝
przydaje si´ historykom. David Allison
ze Smithsonian Institution si´gnà∏ do
archiwum, tworzàc dla muzeum stron´
WWW poÊwi´conà wyborom prezy-
denckim (porównuje on ten projekt do
archiwizowania za pomocà nagraƒ wi-
deo pierwszych reklam telewizyjnych
zwiàzanych z kampaniami wyborczy-
mi). Wiele stron WWW z tamtego czasu
przesta∏o istnieç – na przyk∏ad te zwià-
zane kampanià senatora Phila Gramma
z Teksasu.
Znikajàce witryny
Tworzenie archiwum ∏àczy si´ z ca-
∏ym obszarem zagadnieƒ – od prawa do
prywatnoÊci po prawa autorskie. Za∏ó˝-
my, ˝e pewna studentka stworzy∏a pry-
watnà stron´, na której umieÊci∏a zdj´cia
swojej ówczesnej sympatii. PrzypuÊç-
my, ˝e póêniej postanowi∏a te zdj´cia
„wydrzeç”; znajdà si´ one jednak w ar-
chiwum. Czy ma prawo je stamtàd usu-
nàç? A czy postaç publiczna, przyk∏a-
dowo amerykaƒski senator, mo˝e kazaç
zniszczyç dane dotyczàce jego czasów
szkolnych? Czy gromadzenie informa-
cji, które by∏y kiedyÊ powszechnie do-
st´pne, gwa∏ci zasady prawa autorskie-
go? Nie jest ∏atwo odpowiedzieç na te
pytania.
Rozumiejàc te niepokoje, pozwolili-
Êmy autorom usuwaç ich dzie∏a z archi-
wum. Rozwa˝amy tak˝e projekt udo-
st´pniania badaczom tylko pe∏nego
spisu zarchiwizowanych danych za-
miast konkretnych dokumentów. Przy-
k∏adowo mo˝na b´dzie uzyskaç infor-
macj´ o liczbie odwo∏aƒ do tematu
„zwierz´ta gruboskóre”, ale nie da si´
obejrzeç strony poÊwi´conej konkretne-
mu s∏oniowi. Te zabiegi – mamy nadzie-
j´ – wystarczà jako odpowiedê na na-
tychmiast pojawiajàce si´ wàtpliwoÊci
co do ochrony prywatnoÊci i praw do
w∏asnoÊci intelektualnej. Po pewnym
czasie nasze dzia∏ania przy tworzeniu
archiwum mogà okazaç si´ przydatne
w rozwiàzaniu powy˝szych problemów
w szerszej skali – stanà si´ testem na
przyk∏ad w sprawie „godziwego u˝y-
cia” (fair use) publikacji internetowych.
Archiwizacja Internetu jest uzupe∏-
nieniem innych projektów majàcych na
celu zachowanie jego zasobów. Com-
mission on Preservation and Access (Ko-
misja Ochrony Danych) z Waszyngto-
nu bada, jak zapobiec utracie danych
komputerowych w wyniku zachodzà-
cych przez lata zmian standardowych
formatów ich zapisu. W innym progra-
mie badawczym Internet Engineering
Task Force i podobne grupy pracujà nad
technicznymi standardami umo˝liwia-
jàcymi nadawanie dokumentom cyfro-
wym jednoznacznie identyfikujàcych je
nazw. Te tzw. ujednolicone nazwy êró-
d∏owe (URN – uniform resource name)
mog∏yby uzupe∏niaç nazwy URL, dzi´-
ki którym mo˝na dziÊ dotrzeç do doku-
mentów sieciowych. Ich zastosowanie
zapewni∏oby dost´pnoÊç dokumentów
w sytuacji, gdy przesta∏yby istnieç pro-
wadzàce do nich hiper∏àcza – ocenia si´
bowiem, ˝e przeci´tny czas ˝ycia adre-
su URL wynosi tylko 44 dni. Dzi´ki
URN b´dzie mo˝na równie˝ dotrzeç do
adresów URL, które nadal dawa∏yby
dost´p do poszukiwanego dokumentu.
Prowadzone sà tak˝e prace, o mniej-
szym zasi´gu w porównaniu z naszym
archiwum, majàce na celu zachowanie
poszczególnych cz´Êci Internetu. Deja-
News archiwizuje wiadomoÊci z grup
dyskusyjnych Usenet, InReference na-
tomiast kolekcjonuje listy adresowe.
Obie czerpià dochody z og∏oszeƒ, które
mogà okazaç si´ w przysz∏oÊci cennym
êród∏em finansowania tak˝e naszego ar-
chiwum. Jak dotàd, fundusze na pro-
wadzenie naszej dzia∏alnoÊci pochodzà
ze sprzeda˝y oprogramowania i us∏ug
dla Internetu. Du˝e firmy komputerowe
ofiarowa∏y nam te˝ bezp∏atnie sprz´t.
Up∏ynie jeszcze wiele lat, zanim roz-
winie si´ w pe∏ni infrastruktura s∏u˝àca
zachowaniu zasobów i rozwiàzane zo-
stanà problemy dotyczàce w∏asnoÊci in-
telektualnej. JesteÊmy przekonani, ˝e
kontynuacja rozpocz´tego przez nas
procesu archiwizacji jest bardzo wa˝na,
gdy˝ materia∏y raz usuni´te z Sieci prze-
padajà na zawsze. JeÊli ich teraz nie za-
chowamy, stracimy równie˝ szans´ re-
jestracji narodzin nowego medium.
T∏umaczy∏
Jan Sobolewski
Informacje o autorze
BREWSTER KAHLE za∏o˝y∏ Archiwum In-
ternetu w kwietniu 1996 roku. W 1989 roku
wynalaz∏ system poszukiwania informacji
w Êrodowisku rozproszonym zwany WAIS
(Wide Area Information Servers), trzy lata
póêniej zaÊ powo∏a∏ WAIS, Inc., aby sprzeda-
waç komercyjnà wersj´ swojego oprogramo-
wania. Jego firma, oferujàca narz´dzia do two-
rzenia publikacji i us∏ug, przyczyni∏a si´ do
zaistnienia w Sieci wielu firm i agend rzàdo-
wych. Kahle by∏ równie˝ jednym z g∏ównych
projektantów superkomputera Connection
Machine wyprodukowanego przez Thinking
Machines. Studia ukoƒczy∏ w 1982 roku, uzy-
skujàc licencjat w MIT.
RAPORT SPECJALNY