199705 ocalic od zapomnienia

background image

56 Â

WIAT

N

AUKI

Maj 1997

M

anuskrypty z Biblioteki Alek-
sandryjskiej w staro˝ytnym
Egipcie sp∏on´∏y doszcz´tnie

w czasie wielkiego po˝aru. Pierwsze
drukowane ksià˝ki rozpad∏y si´ na
strz´py, z których nic ju˝ nie mo˝na od-
czytaç. Wiele wczesnych dzie∏ kinema-
tografii zniszczono, aby odzyskaç sre-
bro z taÊm filmowych. Niestety, historia
mo˝e powtórzyç si´ w przypadku za-
sobów Internetu i jego multimedialnej
cz´Êci – World Wide Web.

Dotàd nikt nie pokusi∏ si´ o pe∏ne zar-

chiwizowanie tekstów i grafiki zawar-
tych w dokumentach publikowanych
na stronach WWW. Dzieje druku i fil-
mu to historia strat i cz´Êciowych rekon-
strukcji. Ten scenariusz nie musi si´ jed-
nak powtórzyç w przypadku Âwiatowej
Paj´czyny, która stopniowo staje si´ ma-
gazynem cennych informacji nauko-
wych, kulturalnych i historycznych.

Malejàcy stale koszt przechowywa-

nia informacji w postaci cyfrowej ozna-
cza, ˝e wykonanie trwa∏ej kopii WWW
i reszty Internetu le˝y w
zasi´gu mo˝liwoÊci nie-
wielkiej grupy informaty-
ków wyposa˝onych w
niezbyt wyrafinowany
zestaw komputerowych
stacji roboczych i sprz´t
do archiwizacji danych.
Rok temu przystàpi∏em
wraz z kilkoma osobami
do realizacji tej wizji, roz-
poczynajàc przedsi´wzi´-
cie, które nazwaliÊmy Ar-
chiwum Internetu.

Do koƒca lutego br. po-

winniÊmy mieç „odbitki”
wszystkich cz´Êci WWW,
które sà ogólnie dost´p-
ne i których odczytanie
by∏o dla nas technicznie
mo˝liwe. Ten „magazyn”
przypuszczalnie b´dzie li-
czyç nie mniej ni˝ dwa bi-
liony bajtów (2 TB) da-

nych ró˝nych typów: od tekstów przez
zapisy dêwi´kowe po nagrania wideo.
Dla porównania: Library of Congress
zawiera 20 TB danych tekstowych.
W nast´pnych miesiàcach zarchiwizu-
jemy pozosta∏e obszary Internetu, w tym
zasoby systemu Gopher oraz wiado-
moÊci grup dyskusyjnych Usenet. Zgro-
madzony do tej pory materia∏ ju˝ teraz
okaza∏ si´ cenny dla historyków. W
przysz∏oÊci mo˝e si´ staç podstawà elek-
tronicznej, wygodnej do przeszukiwa-
nia, indeksowanej biblioteki.

Z technicznego punktu widzenia na-

sze zadanie okaza∏o si´ doÊç ∏atwe. Ob-
s∏uga archiwum to 10-osobowy perso-
nel pracujàcy w biurach by∏ej bazy
wojskowej Presidio w centrum San
Francisco. G∏ówny komputer groma-
dzàcy informacje znajduje si´ natomiast
w San Diego Supercomputer Center w
University of California.

Oprogramowanie naszych kompute-

rów przeszukuje Sieç, kopiujàc jeden po
drugim zawarte w niej dokumenty,

zwane „stronami” lub „witrynami”
WWW. Gdy ju˝ taka witryna zostanie
zarchiwizowana, program szuka w niej
odwo∏aƒ do innych stron lub krzy˝o-
wych odniesieƒ. Do przejÊcia na inne
strony u˝ywa tzw. hiper∏àczy – adre-
sów wbudowanych w strony dokumen-
tów. Nast´pnie kopiuje znalezione
strony i znów szuka zawartych w nich
odwo∏aƒ. Program przeczesujàcy Sieç
identyfikuje unikatowà nazw´ ka˝dej
witryny (URL – uniform resource loca-
tor) i sprawdza, czy nie zosta∏a ona ju˝
zapisana w bazie danych; w ten spo-
sób unika powtórnego jej kopiowania.
Podobnego oprogramowania u˝ywajà
do indeksowania stron WWW takie sy-
stemy jak popularna przeszukiwar-

OCALIå OD ZAPOMNIENIA

Archiwum Internetu mo˝e okazaç si´ nieocenionym êród∏em informacji

dla w∏adz paƒstwowych, historyków i biznesmenów

Brewster Kahle

ARCHIWUM INTERNETU dostarczy∏o Na-
tional Museum of American History w
Smithsonian Institution kolekcj´ stron
WWW dotyczàcych kampanii prezydenckiej
1996 roku. Komputer jest cz´Êcià ekspozy-
cji poÊwi´conej kampaniom prezydenckim.

NATIONAL MUSEUM OF AMERICAN HISTORY, wystawa pn.

We the People: Winning the Vote

background image

Â

WIAT

N

AUKI

Maj 1997 57

ka AltaVista firmy Digital Equipment
Corporation.

Ten eksperyment nie by∏by mo˝liwy,

gdyby nie spadajàce wcià˝ ceny elektro-
nicznych noÊników danych. Koszt 1 GB
(miliarda bajtów) pami´ci na twardym
dysku oscyluje dzisiaj wokó∏ 200 dola-
rów, podczas gdy archiwizowanie da-
nych na taÊmach magnetycznych za po-
mocà stacji samoczynnie wymienia-
jàcych taÊmy kosztuje 20 dolarów za gi-
gabajt. WybraliÊmy pami´ç dyskowà dla
tych informacji, do których przyszli u˝yt-
kownicy archiwum b´dà przypuszczal-
nie zaglàdaç doÊç cz´sto, i zapis na ta-
Êmach dla danych rzadziej potrzebnych.
Czas dost´pu w wypadku dysku twarde-
go wynosi Êrednio 15 ms, natomiast
w przypadku taÊmy – przeci´tnie 4 min.
Cz´sto u˝ywanymi danymi mogà byç
dokumenty historyczne lub wykaz nazw
zlikwidowanych stron.

Planujemy aktualizowaç zgromadzo-

ne informacje przynajmniej raz na kil-
ka miesi´cy. Utworzenie pierwszej pe∏-
nej kopii archiwum zaj´∏o prawie rok –
w przysz∏oÊci ka˝da nowa wersja b´-
dzie wymagaç znacznie mniej czasu,
gdy˝ wystarczy uaktualniç tylko te da-
ne, które zmieni∏y si´ od czasu ostatniej
archiwizacji.

Nigdy nie uda si´ zgromadziç wszy-

stkich tekstów, grafiki, nagraƒ dêwi´-
kowych i innego typu danych zawar-
tych w WWW, poniewa˝ nie sposób
za pomocà oprogramowania dotrzeç do
wielu setek tysi´cy miejsc w Sieci. Wy-
dawcy ograniczajà bowiem dost´p do
nich, przechowujàc dane lub doku-
menty w formatach nieczytelnych dla
prostych programów przeszukujàcych.
Pomimo to archiwum daje adekwatny
obraz tego, czym jest WWW w okre-
Êlonym czasie, nawet jeÊli jest to zbiór
niekompletny.

Jakie us∏ugi b´dzie Êwiadczyç archi-

wum po zgromadzeniu i zachowaniu
ogólnie dost´pnej cz´Êci Internetu? Ma-
my mo˝liwoÊç dostarczenia dokumen-
tów, które nie sà ju˝ dost´pne u ich wy-
dawców. Funkcja ta oka˝e si´ przydatna
zw∏aszcza wtedy, gdy hipertekstowy
system WWW stanie si´ standardem pu-
blikacji naukowych. (W przysz∏oÊci b´-
dzie on powszechnie u˝ywany jako obo-
wiàzujàcy format dokumentów dla
komputerów sieciowych – przyp. t∏um.)
Nasze us∏ugi mogà si´ okazaç cenne
równie˝ dla Êwiata biznesu. Archiwal-
ne dane przydadzà si´ te˝ agendom rzà-
dowym i wszystkim instytucjom, które
publikujà dokumenty w Sieci. Tak wi´c
po jakimÊ czasie archiwum zapewne

b´dzie przypominaç prawdziwà cyfro-
wà bibliotek´.

Materia∏ zgromadzony przez nas ju˝

przydaje si´ historykom. David Allison
ze Smithsonian Institution si´gnà∏ do
archiwum, tworzàc dla muzeum stron´
WWW poÊwi´conà wyborom prezy-
denckim (porównuje on ten projekt do
archiwizowania za pomocà nagraƒ wi-
deo pierwszych reklam telewizyjnych
zwiàzanych z kampaniami wyborczy-
mi). Wiele stron WWW z tamtego czasu
przesta∏o istnieç – na przyk∏ad te zwià-
zane kampanià senatora Phila Gramma
z Teksasu.

Znikajàce witryny

Tworzenie archiwum ∏àczy si´ z ca-

∏ym obszarem zagadnieƒ – od prawa do
prywatnoÊci po prawa autorskie. Za∏ó˝-
my, ˝e pewna studentka stworzy∏a pry-
watnà stron´, na której umieÊci∏a zdj´cia
swojej ówczesnej sympatii. PrzypuÊç-
my, ˝e póêniej postanowi∏a te zdj´cia
„wydrzeç”; znajdà si´ one jednak w ar-
chiwum. Czy ma prawo je stamtàd usu-
nàç? A czy postaç publiczna, przyk∏a-
dowo amerykaƒski senator, mo˝e kazaç
zniszczyç dane dotyczàce jego czasów
szkolnych? Czy gromadzenie informa-
cji, które by∏y kiedyÊ powszechnie do-
st´pne, gwa∏ci zasady prawa autorskie-
go? Nie jest ∏atwo odpowiedzieç na te
pytania.

Rozumiejàc te niepokoje, pozwolili-

Êmy autorom usuwaç ich dzie∏a z archi-
wum. Rozwa˝amy tak˝e projekt udo-
st´pniania badaczom tylko pe∏nego
spisu zarchiwizowanych danych za-
miast konkretnych dokumentów. Przy-
k∏adowo mo˝na b´dzie uzyskaç infor-
macj´ o liczbie odwo∏aƒ do tematu
„zwierz´ta gruboskóre”, ale nie da si´
obejrzeç strony poÊwi´conej konkretne-
mu s∏oniowi. Te zabiegi – mamy nadzie-
j´ – wystarczà jako odpowiedê na na-
tychmiast pojawiajàce si´ wàtpliwoÊci
co do ochrony prywatnoÊci i praw do
w∏asnoÊci intelektualnej. Po pewnym
czasie nasze dzia∏ania przy tworzeniu
archiwum mogà okazaç si´ przydatne
w rozwiàzaniu powy˝szych problemów
w szerszej skali – stanà si´ testem na
przyk∏ad w sprawie „godziwego u˝y-
cia” (fair use) publikacji internetowych.

Archiwizacja Internetu jest uzupe∏-

nieniem innych projektów majàcych na
celu zachowanie jego zasobów. Com-
mission on Preservation and Access (Ko-
misja Ochrony Danych) z Waszyngto-
nu bada, jak zapobiec utracie danych
komputerowych w wyniku zachodzà-

cych przez lata zmian standardowych
formatów ich zapisu. W innym progra-
mie badawczym Internet Engineering
Task Force i podobne grupy pracujà nad
technicznymi standardami umo˝liwia-
jàcymi nadawanie dokumentom cyfro-
wym jednoznacznie identyfikujàcych je
nazw. Te tzw. ujednolicone nazwy êró-
d∏owe (URN – uniform resource name)
mog∏yby uzupe∏niaç nazwy URL, dzi´-
ki którym mo˝na dziÊ dotrzeç do doku-
mentów sieciowych. Ich zastosowanie
zapewni∏oby dost´pnoÊç dokumentów
w sytuacji, gdy przesta∏yby istnieç pro-
wadzàce do nich hiper∏àcza – ocenia si´
bowiem, ˝e przeci´tny czas ˝ycia adre-
su URL wynosi tylko 44 dni. Dzi´ki
URN b´dzie mo˝na równie˝ dotrzeç do
adresów URL, które nadal dawa∏yby
dost´p do poszukiwanego dokumentu.

Prowadzone sà tak˝e prace, o mniej-

szym zasi´gu w porównaniu z naszym
archiwum, majàce na celu zachowanie
poszczególnych cz´Êci Internetu. Deja-
News archiwizuje wiadomoÊci z grup
dyskusyjnych Usenet, InReference na-
tomiast kolekcjonuje listy adresowe.
Obie czerpià dochody z og∏oszeƒ, które
mogà okazaç si´ w przysz∏oÊci cennym
êród∏em finansowania tak˝e naszego ar-
chiwum. Jak dotàd, fundusze na pro-
wadzenie naszej dzia∏alnoÊci pochodzà
ze sprzeda˝y oprogramowania i us∏ug
dla Internetu. Du˝e firmy komputerowe
ofiarowa∏y nam te˝ bezp∏atnie sprz´t.

Up∏ynie jeszcze wiele lat, zanim roz-

winie si´ w pe∏ni infrastruktura s∏u˝àca
zachowaniu zasobów i rozwiàzane zo-
stanà problemy dotyczàce w∏asnoÊci in-
telektualnej. JesteÊmy przekonani, ˝e
kontynuacja rozpocz´tego przez nas
procesu archiwizacji jest bardzo wa˝na,
gdy˝ materia∏y raz usuni´te z Sieci prze-
padajà na zawsze. JeÊli ich teraz nie za-
chowamy, stracimy równie˝ szans´ re-
jestracji narodzin nowego medium.

T∏umaczy∏

Jan Sobolewski

Informacje o autorze

BREWSTER KAHLE za∏o˝y∏ Archiwum In-

ternetu w kwietniu 1996 roku. W 1989 roku

wynalaz∏ system poszukiwania informacji

w Êrodowisku rozproszonym zwany WAIS

(Wide Area Information Servers), trzy lata

póêniej zaÊ powo∏a∏ WAIS, Inc., aby sprzeda-

waç komercyjnà wersj´ swojego oprogramo-

wania. Jego firma, oferujàca narz´dzia do two-

rzenia publikacji i us∏ug, przyczyni∏a si´ do

zaistnienia w Sieci wielu firm i agend rzàdo-

wych. Kahle by∏ równie˝ jednym z g∏ównych

projektantów superkomputera Connection

Machine wyprodukowanego przez Thinking

Machines. Studia ukoƒczy∏ w 1982 roku, uzy-

skujàc licencjat w MIT.

RAPORT SPECJALNY


Wyszukiwarka

Podobne podstrony:
Ocalić od zapomnienia
Ocalic od zapomnienia
Ocalić od zapomnienia
10 tydzień Ocalić od zapomnienia szukamy starych zawodów
OCALIĆ OD ZAPOMNIENIA M GRECHUTA
Ocalić od zapomnienia
Tablica 24 Ocalić od zapomnienia
Jak ocalić rodzinę od zniszczenia-d.wolkerson, wykłady-kazania, Kazania Dawida Wilkersona
David Wilkerson Jak ocalić rodzinę od zniszczenia
David Wilkerson Jak ocalić rodzinę od zniszczenia
od Elwiry, prawo gospodarcze 03
Uzależnienie od alkoholu typologia przyczyny
Najbardziej charakterystyczne odchylenia od stanu prawidłowego w badaniu
od relatywizmu do prawdy

więcej podobnych podstron