3784500547

3784500547



Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...    227

1. Wstęp

W obecnych czasach, kiedy dostęp do Internetu jest praktycznie nieograniczony a ilość zgromadzonych tam informacji ogromna, bezdyskusyjnym staje się potrzeba szybkiego i efektywnego wyszukiwania w zasobach sieci potrzebnych informacji. Różnorodne narzędzia realizujące to zadanie (ang. Information retrieval, IR) powstawały niemal równolegle z upowszechnianiem się Internetu. Współcześnie w zdecydowanej większości przypadków użytkownicy tych narzędzi (wyszukiwarek) poszukują interesujących informacji podając jako kryterium poszukiwań maksymalnie kilka fraz (słów), które w ich odczuciu najlepiej oddają cel poszukiwań. Wyszukiwarki dysponując z jednej strony taką skromną informacją oraz z drugiej olbrzymią ilością zaindeksowanych przez siebie zasobów, zwracają gigantyczne ilości wyników „pasujących” (w odpowiednim, ściśle zdefiniowanym sensie) do zapytania. Zwykle użytkownik nie jest w stanie przejrzeć tak wielkiej ilości danych. W pracy pokazujemy wybrane techniki automatycznego tworzenia podsumowań dokumentów tekstowych (ang. automatic text summarizatioń), które mogą być pomocne m.in. do szybkiego zapoznania się ze zwróconymi przez wyszukiwarkę wynikami (czytamy streszczenia a nie cale dokumenty).

Interesować nas będą podsumowania mające postać ściśle określonego objętościowo zbioru zdań i słów kluczowych wybranych bezpośrednio z podsumowywanego dokumentu (na przykład zaw ierającego 10% objętości dokumentu lub też określoną ilość słów). Istota zadania sprowadza się do tego, aby wybrany zbiór jak najlepiej opisywał zawartość dokumentu. Zadanie takie w literaturze nazywa się ekstrakcją zawartości (ang. extract of contents) i często oparte jest na statystycznej analizie treści dokumentu (np. badanie częstości występow'ania i wspólwystępowa-nia takich elementów tekstu jak słowa, zdania, akapity, itp.). Inny rodzaj podsumowania, zwany w literaturze streszczeniem (ang. abstract of contents) polega na podsumowaniu zawartości dokumentu przy użyciu słów i zwrotów niekoniecznie występujących w podsumowywanym tekście. Chodzi w'ięc o automatyczne stworzenie logicznego tekstu skorelowanego z głównymi treściami dokumentu. Używane w tym podejściu techniki wywodzą się często z metod sztucznej inteligencji oraz metod przetwarzania języka naturalnego (ang. natural language processing, NLP). Wydaje się jednak, że na obecnym etapie rozwoju nauki, mimo podejmowanych w tym kierunku wysiłków, to podejście nie daje jak na razie zadaw alających wyników.

W pracy pokazujemy, w jaki sposób, korzystając z modeli algebraicznych, dokonać można ekstrakcji zawartości dokumentu. Pokazujemy, że pozornie trudne zadanie budowy sensowych podsumowań, jest możliwe do wykonania stosunkowo prostymi metodami algebraicznymi. Pracę kończ>' rozdział, w którym zademonstrowano wybrane funkcje systemu Oracle Text, które związane są z tematem arty kułu. Pokazujemy rozw iązania dedykowane dla generowania podsumowań, oraz znajdywania słów kluczowych zaindeksowanych dokumentów'. Zwracamy uwagę na występujące ograniczenia dotyczące pracy z tekstami w językach innych niż język angielski.

1.1. Pionierskie prace

Wymieńmy krótko dwie najwcześniejsze i wielokrotnie cytowane prace, które niejako zainicjowały badania związane z automatycznym tworzeniem podsumowań. Pierwsza z nich [Luhn58] pokazywała jak generować w yniki (wybór zdań z tekstu) na podstawie analizy staty stycznej doty czącej występujących w dokumencie zdań oraz składających się na nie słów. Druga [Edmund-son69] skupiała się na klasyfikacji w tekście tych elementów, zwrotów czy miejsc występowania, które wskazywać mogą na merytorycznie istotne jego fragmenty'. Na rysunku 1 pokazano dwa oryginalne rysunki z ty ch prac, ilustrujące istotę zastosowanych tam podejść.



Wyszukiwarka

Podobne podstrony:
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przy kładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przy kładzie automatycznego ...
XVI Konferencja PLOUG Kościelisko Październik 2010 Metody algebraiczne w zadaniach eksploracji
img1 (10) Program wykładu Zadania administratora DBMS na przykładzie PostgreSGL: ♦    
13 54.    Buszko, Andrzej: Metody badań w dziedzinie nauk o zarządzaniu na przyk
case study in an enierprise). 2.    Zastosowanie metod eksploracji danych na wybranym
str 46 47 Armin GUGELMAN Szwajcaria ZADANIA PEDAGOGIKI SPECJALNEJ NA PRZYKŁADZIE SZWAJCARII Szkolnic
Metodykazarządzania jednostkami wymiaru sprawiedliwościStudium przypadku na przykładzieSądu Rejonowe
10870 slajd11 (178) EKSPLORACJA DANYCHZadania eksploracji danych: klasyfikacja Przykłady zadań klasy
32985 plyta 1 1 ĆWICZENIE 4PŁYTA ZASTOSOWANIE METODY MORY DO OKREŚLANIA PRZEMIESZCZEŃ NA PRZYKŁADZIE

więcej podobnych podstron