komputerowi), na zasadzie prenumeraty indywidualnej lub instytucjonalnej. Zasoby te sta. nowią część ukrytego Webu i zapewne, ze względów komercyjnych, nieszybko zostaną udostępnione powszechnie, wspólnie z metadnnymi bibliotecznymi. Sq to:
• Abstraklowc bazy danych, powstałe na bazie wcześniej istniejących indeksów druko* wanych i serwisów abstrnktowych, w których gromadzono metadane dotyczące lite. ratury naukowej (głównie czasopism). Schemat metadanych zwykle tworzony jest na potrzeby określonej bazy danych; często struktura opisu pochodzi jeszcze z drukowanych poprzedników. Opisy zawierają zwykle rozbudowany opis rzeczowy ze słowami kluczowymi ora/ abstraktem, pochodzącymi z czasopisma lub tworzonymi w serwisie. Każda baza danych jest samodzielnym produktem, który ma najlepiej spełniać potrzeby informacyjne określonej grupy użytkowników. Z tego powodu brak jest jednolitego standardu struktury rekordu baz danych.
• Przeglądowe bazy danych, podobne do abstraktowych baz danych. Zawierają jednak obszerniejsze przeglądy literatury znanego autorstwa, zawierające opis i krytyczną ocenę artykułów. Oba rodzaje zasobów metadanych tracą mocno nu znaczeniu na rzecz baz pclnotekstowych.
• Pelnotekstowe bazy danych zawartości czasopism, które mogą być częścią aparatu informacyjnego biblioteki hybrydowej lub występować samodzielnie. Funkcjonuje wielu dostawców tego typu baz danych, z których żaden nie oferuje pełnych zasobów. Są to zazwyczaj w ielcy wydawcy komercyjni, tacy jak ScienccDirect Elsevicra‘n czy Sprin-gerLink" albo konsorcja uczelni lub bibliotek, typu JSTOR>:. Często metadane indeksowane są przez wyszukiwarki. Metadane stanowią tu pełny opis artykułu, zawierający pewne dodatkowe elementy, na przykład afiliację autorów. Tworzone są także wykazy bibliografii załącznikowych poszczególnych artykułów z aktywnymi odnośnikami do ich opisów lub pełnych tekstów. Dostępne są też indeksy cytowań.
Zasadą funkcjonowania bibliograficznych baz danych w Internecie, jako części serwisów globalnej biblioteki cyfrowej, jest bezpośrednie kierowanie użytkownika od metadanych do pełnych tekstów opisywanych dokumentów. Ich funkcja informacyjna jest więc w tym przypadku do tego stopnia bezpośrednio powiązana z funkcją udostępniania, że użytkownik może nie zdawać sobie sprawy z istnienia metadanych. Samo udostępnianie opisywanych obiektów może natomiast odbywać się na różnych zasadach, w trybie Open Access lub odpłatnie.
Wielkie zasoby metadanych są tworzone i gromadzone przez wyszukiwarki internetowe. chociaż często nie kojarzy się ich działalności z taką funkcją". Te skomplikowane, programistyczne narzędzia wyszukiwawcze gromadzą sporą ilość danych na temat indeksowanych stron (a więc ich metadanych). Sposób działania współczesnych wyszukiwarek opisany został w innej części książki, tutaj zajmę się tylko tymi funkcjami, z realizacją których wiąże się tworzenie, przechowywanie i stosowanie metadanych.
Podstawowymi danymi, którymi musi dysponować wyszukiwarka (a dokładnie jej szperacz), są adresy URL indeksowanych stron. Adresy te przechowywane są na specjalnych serwerach [Brin, Page 1998]. Pierwsze wyszukiwarki ograniczały się do indeksowania tytułów stron Web; obecnie indeksowane są zawartości całych stron Web, a także plików w innych formatach, na przykład PDF czy dokumentów Microsoft Office [Battelle 2006, s. 21].
m baza zawiera niemal 9 min artykułów oraz książek: hltp://www.scicnccdircct.com/.
" Baza zawiera ponad 3,6 min dokumentów różnego typu: http://www.springerlink.de/home/main.mpx.
12 Dostęp do ponad 770 tytułów czasopism: http://www.jstor.org/.
Piotr Gawrysiak na przykład metadane rozumie w sposób znacznie węższy, jedynie jako opis treści do* kumentu sporządzony przez człowieka (tj. nie w wyniku działania programu komputerowego). Dostrzega on także pewne inne funkcje metadanych (oprócz opisowych), takie jak dane dotyczące sposobu uzyskania dostępu (Gawrysiak 2008a, i. 653).
Strony Web, przeznaczone do indeksowaniu, przechowywane są w specjalnym repozytorium, wraz z ograniczoną liczbą opisujących je metadanych, takich jak identyfikator strony, długość strony, długość URL oraz sam URL Dane znalezione w tych dokumen* tuch odsyłane są do wielkich baz danych, zwanych indeksami. Są one efektem pracy algorytmów analizy tekstu, o których (a raczej o ich twórcach) Piotr Gawrysiak twierdzi, że nie są dużo głupsze od przeciętnej osoby katalogującej materiały biblioteczne [Gawrysiak 200Kc, s. 65).
W indeksie znajduje się lista słów, znalezionych na stronie Web, wraz z istotnymi danymi o niej (czyli metadanymi), takimi jak: na jakiej stronie wystąpiło słowo, jego pozycji w dokumencie, rozmiar czcionki, informacja o odnośnikach, tekst wokół i w obrębie odnośnika. Tworzone i przetwarzane są różnego rodzaju dane statystyczne. Specjalną rolę odgrywają metadane o odnośnikach, dzięki którym można określić, skąd i dokąd prowadzi każdy odnośnik oraz jaki tekst mu towarzyszy. Dane te są zorganizowane w taki sposób, aby znając adres URL można było odnaleźć związane z nim słowa.
Następnym krokiem jest odwrócenie bazy danych, czyli stworzenie indeksu odwróconego stron: listy słów z adresami URL. z których pochodzą. Indeks zawiera także inne informacje o słowach, na przykład miejsce w dokumencie, z którego słowo pochodzi. Szczególnie cenione są słowa z tytułu strony i z odnośnika, które podczas wyszukiwania uwzględniane są w pierwszej kolejności [Huuhka 2006], Indeks można sobie wyobrazić jako ogromną bazę wybranych, istotnych danych o zindeksowanych stronach Web i udostępnianych na nich obiektach. Podstawą funkcjonowania współczesnych firm, tworzących światowe wyszukiwarki, takie jak Google i Yahoo, jest obecnie głęboka analiza tej bazy danych, której efektem jest odkrywanie zależności statystycznych i algoiylmizowal-nych zjawisk, wykorzystywanych do zapewnienia jak najwyższej trafności odpowiedzi na zapytania użytkownika.
W procesie analizy indeksy zapełniane są znacznikami, które także stanowią pewnego rodzaju metadane. Mogą one na przykład informować o tym, że strona została zapisana w określonym języku lub też należy do określonej kategorii stron, na przykład spamer-skich. pornograficznych albo rzadko aktualizowanych. Strony mogą także byc oznaczane na przykład jako biograficzne (tzn. oferujące dane biograficzne, nie tylko i niekoniecznie zawierające słowo „biografia"), udostępniające recenzje (na przykład filmowe), notowania giełdowe lub prognozy pogody. Dzięki właśnie tym metadanym wyszukiwarka zwiększa szanse na przedstawienie trafnej odpowiedzi użytkownikowi. Wyszukiwarka tworzy swojego rodzaju klasyfikację treści zasobów Web na podstawie zapytań użytkowników.
Metadane zbierane są i zapisywane także na kolejnych etapach wyszukiwania. Tak zwany serwer zapytań służy m.in. do obserwacji treści i sposobu zadawania pytań przez użytkowników. Na podstawie metadanych o zapytaniach użytkowników powstają statystyczne wzorce zapytań. Za ich pomocą można uwzględniać lokalne różnice w formułowaniu zapytań i próbować zaradzić problemom, związanym ze stosowaniem przez użytkowników wyszukiwarek niczym nie kontrolowanego słownictwa. W tym celu wyszukiwarki obserwują i zapisują tak zwane intencje użytkownika - co jest szukane, które wyniki z przedstawionej listy są wybierane, jakie strony później są odwiedzane.
Odzwierciedleniem liczby i rodzaju gromadzonych metadanych są także możliwości, jakie daje tzw. wyszukiwanie zaawansowane. Większość wyszukiwarek pozwala zawęzić wyszukiwanie według kryterium wybranej frazy, domeny, rodzaju pliku, położenia geograficznego, języka i liczby wyświetlonych adresów. Możliwe jest dodawanie lub wykluczanie słów, określanie zasięgu czasowego a także wyszukiwanie stron, które są podobne do już znalezionych.
Dzięki tego typu narzędziom i procesom statystycznym wyszukiwarka, na podstawie gromadzonych przez siebie metadanych oraz ich modelom i strukturom powiązanym relacjami, które można określić mianem ontologii (zob. p. 2.7), staje się systemem sa-
11$