CYFROWE BIBLIOTEKI A WYSZUKIWANIE INFORMACJI 653
Wraz z wynalezieniem pisma zaczęto tworzyć repozytoria wiedzy o rozmiarach, które szybko przekroczyły możliwości percepcji człowieka. Aby umożliwić odnalezienie informacji w nich zgromadzonych, niezbędne było opracowanie metod, pozwalających te repozytoria przeszukiwać. Jaki mógłby być bowiem pożytek z biblioteki tak wielkiej, jak np. Biblioteka Aleksandryjska, jeśli niemożliwe byłoby odnalezienie w jej zasobach dziel, dotyczących tematów interesujących odwiedzających ją czytelników?
Nie sposób dziś dokładnie ustalić, jak zorganizowany był proces katalogowania w tej bibliotece. Niewątpliwie jej zbiory musiały być uporządkowane według jakiegoś systemu, gdyż w czasach jej największej świetności zgromadzono w niej ok. pół miliona zwojów (Trumble, 2003). Można przypuszczać, że jego istota polegała przede wszystkim na zapamiętywaniu organizacji kolekcji przez samych bibliotekarzy. Innymi słowy, musieli oni zapewne „nauczyć się biblioteki” i tym samym stanowili pierwsze - i jedyne - źródło informacji dla czytelnika, chcącego odszukać w jej zbiorach interesujące go dzieło. Z badań historyków wynika, że podstawowym opisem zawartości kolekcji starożytnej Biblioteki Aleksandryjskiej były przede wszystkim słynne Pina-kes (Tablice) Kalimacha z Cyreny (Parsons, 1952), jednak na podstawie zachowanych przekazów o ich budowie wnioskować można, że brakowało w nich ustrukturyzowanych metadanych, pozwalających szybko odnaleźć książki powiązane tematycznie. Chcąc zatem pomóc czytelnikowi w odnalezieniu dzieł na interesujący go temat, bibliotekarz polegał najprawdopodobniej na możliwościach pamięci asocjacyjnej ludzkiego umysłu, to zaś wymagało choćby pobieżnego przejrzenia zgromadzonych dzieł i częściowego zapamiętania ich treści.
Możliwość wykorzystania metadanych diametralnie zmienia sytuację. W niniejszym artykule metadane, rozumiane sąjako opis treści dokumentu sporządzony przez człowieka (tj. nie w wyniku działania programu komputerowego). Opis ten może być zarówno tekstem języka naturalnego (np. streszczeniem), jak też tekstem pewnego sztucznego języka informacyjno-wyszukiwawczego (np. zbiorem słów kluczowych, deskryptorów z pewnego tezaurusa, haseł przedmiotowych lub symboli pewnej klasyfikacji piśmiennictwa) albo też przyporządkowaniem opisywanego dokumentu do węzła sieci semantycznej, takiej jak ontologia, dokonanym w celu klasyfikacji jego treści. Metadane zawierają także informacje dotyczące opisywanego dokumentu, w szczególności zaś te, które wskazują sposób jego pozyskania, np. sygnaturę bądź cyfrowy adres zasobu, taki jak adres URL1. Jednak to opis rzeczowy jest najbardziej istotny dla problemu wyszukiwania informacji, czyli problemu zidentyfikowania zasobu jako należącego do zbioru zasobów interesujących użytkownika. Warto tu nadmienić, że z punktu widzenia informatyki tworzenie takiego opisu to proces stratnej kompresji danych, który jako taki jest także możliwy do wykonania w sposób maszynowy. Jakość tego procesu, określanego często mianem a u t o m a t y c z n ej sumaryzacji dokumentów (Gawrysiak, 1999, 2001), jest jednak obecnie wysoce niedoskonała, dlatego też w dalszej części artykułu przyjęto, iż rozważane w nim metadane tworzone są nieautomatycznie.
Termin metadane jest niejednoznaczny, określa się nim także struktury automatyczne, np. opisy plików w systemie plików zapisanym na dysku twardym komputera, w tym znaczeniu nie jest jednak stosowany w tekście niniejszego artykułu. Więcej o rodzajach, tworzeniu i wykorzystaniu metadanych w procesach wyszukiwania informacji. Zob. Nahotko, 2000, 2004.