bic zdefiniowanego zesi^r,*C°'Vn**com na wProwadz«nie wartości mcladnnych w obrę. nych. awu elementów, w wyniku czego tworzony jest rekord niciada-
• Narzędzia służące i0 i,
jak HTML XML jub metadanych w odpowiednim języku kodowania (takim,
* Narzedz'1" k°nvvertujące, pozwalające zmienić pierwotny schemat metadanych na inny. ę zia automatycznego tworzenia metadanych na podstawie analizy treści obiektu cy rawego, o której mowa w dalszej części rozdziału.
Obecnie wciąt Stosunkowo niewiele obiektów Web zawiera ręcznie kodowane me. tadanc. Być może w przyszłości ich liczba wzrośnie dzięki temu, że autorzy zrozumiej.-) korzyści płynące z dołączania metadanych. rozpowszechnione zostaną standardy służące ich kodowaniu, powstaną narzędzia udostępniające interfejsy maksymalnie ułatwiające ich przygotowanie. Można na to liczyć szczególnie w komunikacji naukowej, gdzie czę. ścig kwalifikacji zawodowych pracownika nauki jest umiejętność przygotowania tekstu zawierającego wyniki badan, a obecnie dołączyła do tego umiejętność zakodowania go w sposób czytelny dla komputera; na tym w dużej mierze polegać może także zadanie bibliotekarzy współpracujących z pracownikami nauki w kolaboratoriach. Jest jednak wysoce prawdopodobne, że wraz z pojawianiem się coraz doskonalszych algorytmów, ro-snąć będzie rola schematów służących automatycznemu tworzeniu metadanych w wyniku analizy nieustmkturyzowanego tekstu, natomiast metadane usttukturyzowane, powstające dzięki rozumieniu zawartości obiektu (tekstu lub multimediów) będą tworzone w stosunkowo niewielkiej ilości w serwisach CBC. dostarczających informacji selekcjonowanej
przez pracowników m/onn / zakresie „oddolnego" tworzenia metadanych przez
Interesującą nową propo^^fro^ch ggfl fedg w HTML/XHTML. są
w rcow K , stmny dodawane są standardowe elementy, określające zawar-
mtkroformaty -. ^/^^dZhofbrmat hCard służy do oznaczania danych teleadre-gT- PO^cj^gmficznej. co może być wykorzystane do wywiania mapy, hReyiew - opinii! recenzji, natomiast rei-tag - opisu rzeczowego. Mikroformaty można dodawać do istniejących stron, na przykład do tnforrnacj. na blogu. Prowadzone są prace dla wykorzystania mikroformatów w Dublin Core fMendez i in. 2008, s. I42J.
Reczne tworzenie metadanych dla wszystkich wartościowych zasobow GBC me jest jednak możliwe. Dla funkcjonowania globalnej biblioteki cyfrowej duże znaczenie ma więc możliwość automatycznego tworzenia metadanych na podstawie treści dokumentów Większość metadanych przed powstaniem Webu zestawiana była przez ludzi podczas kosztownych, bo pracochłonnych procesów katalogowania, realizowanych w bibliotekach. Później pojawiły się wyszukiwarki internetowe, które przeglądają i indeksują znaczną część stron internetowych, pozwalając na dostęp do nich po niewielkich kosz-tachO tym, że indeksy wyszukiwarek także mogą być uważane za zbiory metadanych już wspomniałem wcześniej. Teraz omówię metody automatycznego wykrywania znaczenia tekstu, w celu tworzenia metadanych ustrukturyzowanych, na wzór inteligentnego katalogowania. Dają one także wyobrażenie o sposobach funkcjonowania algorytmów wyszukiwarek.
Dzięki zaawansowanej technologii przetwarzania języka naturalnego i wyszukiwania informacji, system informacyjny może pobierać metadane bezpośrednio z treści przeszukiwanych zasobów [Gawrysiak 2008b, s. 658J. Automatyczne wyodrębnianie (eksplora-
°,t*onac^ internetowych, dostarczanych przez wyszukiwarki globalne, jest z punktu (rn in"ronr?^ ^.ti" * 'warki bezpłatny, gdyż twórcy wyszukiwarek uzyskują dochody w inny sposób 11P°pmt Specjalne Pasjonowanie), bez bezpośredniego pobierania opla. od użytkowników.
ISO
cjo) informacji z Ickslu, zwinie po angielsku lexl niinuifi lub ilala itiming'1, jest przcdimo-lCln wielu aktualnie prowadzonych badań [Witten, liainbridge 2003, s. 266J, jako część zagadnień wydobywania wiedzy z buz danych (kiwwledgc discowiy in dalabaits), polegającego na przetwarzaniu chaotycznych danych w uporządkowani) wiedzę (Chen, C hen ?007, s. 712). Znaczenie automatycznego tworzenia metadanych w środowisku GIK’, zawierającym ogromne ilości danych tekstowych, jest trudne do przecenienia. Obecnie narzędzia indeksujące generują streszczenia dokumentów, automatycznie tłumaczą teksty, dobierają słowa kluczowe i kategorie pochodzące z mitologu Niestety, w tej dziedzinie trudno wskazać na jakąś podstawową i ogólnie przyjętą teonę, natomiast istniejące metody heurystyczne są skomplikowane, dostosowane do indywidualnych przypadków i trudne do wielokrotnego stosowania, a przez to do obiektywnej oceny.
Eksploracja tekstu rozpoczyna się zwykle od stworzenia zestawu leksyki, czyli podzielenia Ickslu na słowa kluczowe z wykorzystaniem stop-listy i oddzielenia tematów slow od przed- i przyrostków. Następnie stosowane są metody statystyczne, jak obliczanie częstotliwości występowania słów i grupowanie słów ze względu na tendencję do wspólwy-stępowania. Można także obliczać ich odległość semantyczną, co pozwala tworzyć grupy terminów bliskich znaczeniowo (cluslers). W dalszej kolejności możliwe jest stosowanie niżej opisanych heurystyk.
Automatyczne tworzenie metadanych oparte jest obecnie na wcześniejszych osiągnięciach i zasadach automatycznego indeksowania [Andersen, Pćrez-Carballo 2001, s. 232J, polegającego na komputerowym wspomaganiu albo w pełni komputerowym indeksowaniu dokumentów. Pierwsze prace w tym zakresie polegały na badaniu możliwości tworzenia opisów treści: określaniu ich przedmiotów, wyodrębnianiu słów kluczowych i abstrahowaniu. Obecnie automatyczne tworzenie metadanych znajduje raczej zastosowanie w opisie formalnym, wyróżnianiu takich elementów opisu, jak autor, tytuł, dala. format i inne [Greenberg, Spurgin, Crystal 200$, s. 3). Prace te można podzielić na dwie grupy: badanie struktury tekstu dokumentu oraz stosowanie systemów organizacji wiedzy (SOW).
Badaniem struktury tekstu, w tym strukturą tematyczno-rematyczną wypowiedzenia, strukturą akapitu, zależnościami między miejscem wypowiedzi w tekście a ich wartością informacyjną, zajmuje się lingwistyka tekstu [Bojar 2009, s. 18], Emma Tonkin i Henk Muller przedstawili pięć rodzajów struktur tekstów, które mogą być badane w celu pobierania metadanych:
* Dokumenty mogą posiadać strukturę wynikającą z ich formatu pliku, takiego jak XML, ale także XHTMl, a nawet HTML, z którego można na przykład pobierać etykiety typu <title>, znajdujące się w nagłówku (sekcja HEAD). Języki kodowania, takie jak XML, narzucające wewnętrzną strukturę tekstom, ułatwiają „zrozumienie", czy raczej wychwycenie wybranych, zwykle najważniejszych elementów treści dokumentu zarówno komputerom, jak i ludziom. Pozwalają one na zakodowanie wybranych elementów tre-. ści wprost, w taki sposób, aby mogły one być łatwo wydobyte przez analizę składniową
struktury dokumentu.
* Dokument może posiadać strukturę służącą wizualizacji treści. Przykładem są dokumenty w formacie PostScript oraz PDF, w których określa się sposób rozmieszczenia tekstu na stronie, co może być wykorzystane do określenia jego struktury. Na przykład grupa liter umieszczona w obok siebie zapewne oznacza słowo, a grupa słów obok siebie na tym samym poziomie może oznaczać część zdania.
* Struktura tekstu dokumentu może wynikać z tradycji lub uzgodnionych zasad. Podstawowe metadane o dokumencie, szczególnie naukowym, takie jak jego tytuł, autor, wydawca, data wydania, słowa kluczowe czy abstrakt, mają swoje standardowe miejsce na
11 Dokładnie mówiąc, iexi mining polega na zastosowaniu metod dola mining do zasobów tekstowych [Solka 2008, s. %]. Można więć uważać eksplorację tekstu za szczególny przypadek eksploracji danych.
IS1