3784500547

Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ... 227

1. Wstęp

W obecnych czasach, kiedy dostęp do Internetu jest praktycznie nieograniczony a ilość zgromadzonych tam informacji ogromna, bezdyskusyjnym staje się potrzeba szybkiego i efektywnego wyszukiwania w zasobach sieci potrzebnych informacji. Różnorodne narzędzia realizujące to zadanie (ang. Information retrieval, IR) powstawały niemal równolegle z upowszechnianiem się Internetu. Współcześnie w zdecydowanej większości przypadków użytkownicy tych narzędzi (wyszukiwarek) poszukują interesujących informacji podając jako kryterium poszukiwań maksymalnie kilka fraz (słów), które w ich odczuciu najlepiej oddają cel poszukiwań. Wyszukiwarki dysponując z jednej strony taką skromną informacją oraz z drugiej olbrzymią ilością zaindeksowanych przez siebie zasobów, zwracają gigantyczne ilości wyników „pasujących” (w odpowiednim, ściśle zdefiniowanym sensie) do zapytania. Zwykle użytkownik nie jest w stanie przejrzeć tak wielkiej ilości danych. W pracy pokazujemy wybrane techniki automatycznego tworzenia podsumowań dokumentów tekstowych (ang. automatic text summarizatioń), które mogą być pomocne m.in. do szybkiego zapoznania się ze zwróconymi przez wyszukiwarkę wynikami (czytamy streszczenia a nie cale dokumenty).

Interesować nas będą podsumowania mające postać ściśle określonego objętościowo zbioru zdań i słów kluczowych wybranych bezpośrednio z podsumowywanego dokumentu (na przykład zaw ierającego 10% objętości dokumentu lub też określoną ilość słów). Istota zadania sprowadza się do tego, aby wybrany zbiór jak najlepiej opisywał zawartość dokumentu. Zadanie takie w literaturze nazywa się ekstrakcją zawartości (ang. extract of contents) i często oparte jest na statystycznej analizie treści dokumentu (np. badanie częstości występow'ania i wspólwystępowa-nia takich elementów tekstu jak słowa, zdania, akapity, itp.). Inny rodzaj podsumowania, zwany w literaturze streszczeniem (ang. abstract of contents) polega na podsumowaniu zawartości dokumentu przy użyciu słów i zwrotów niekoniecznie występujących w podsumowywanym tekście. Chodzi w'ięc o automatyczne stworzenie logicznego tekstu skorelowanego z głównymi treściami dokumentu. Używane w tym podejściu techniki wywodzą się często z metod sztucznej inteligencji oraz metod przetwarzania języka naturalnego (ang. natural language processing, NLP). Wydaje się jednak, że na obecnym etapie rozwoju nauki, mimo podejmowanych w tym kierunku wysiłków, to podejście nie daje jak na razie zadaw alających wyników.

W pracy pokazujemy, w jaki sposób, korzystając z modeli algebraicznych, dokonać można ekstrakcji zawartości dokumentu. Pokazujemy, że pozornie trudne zadanie budowy sensowych podsumowań, jest możliwe do wykonania stosunkowo prostymi metodami algebraicznymi. Pracę kończ>' rozdział, w którym zademonstrowano wybrane funkcje systemu Oracle Text, które związane są z tematem arty kułu. Pokazujemy rozw iązania dedykowane dla generowania podsumowań, oraz znajdywania słów kluczowych zaindeksowanych dokumentów'. Zwracamy uwagę na występujące ograniczenia dotyczące pracy z tekstami w językach innych niż język angielski.

1.1. Pionierskie prace

Wymieńmy krótko dwie najwcześniejsze i wielokrotnie cytowane prace, które niejako zainicjowały badania związane z automatycznym tworzeniem podsumowań. Pierwsza z nich [Luhn58] pokazywała jak generować w yniki (wybór zdań z tekstu) na podstawie analizy staty stycznej doty czącej występujących w dokumencie zdań oraz składających się na nie słów. Druga [Edmund-son69] skupiała się na klasyfikacji w tekście tych elementów, zwrotów czy miejsc występowania, które wskazywać mogą na merytorycznie istotne jego fragmenty'. Na rysunku 1 pokazano dwa oryginalne rysunki z ty ch prac, ilustrujące istotę zastosowanych tam podejść.