3784500551

Metody algebraiczne w zadaniach eksploracji danych na przy kładzie automatycznego ... 231

After step 3: token = disproportion	After step 3: token = database
After step 4: token = disproport	After step 4: token = database
After step 5a: token = disproport	After step 5a: token = databas
After step 5b: token = disproport	After step 5b: token = databas

Zauważmy, że ty pową cechą stemmera regułowego (a jest nim stemmer Portera) jest częste otrzymywanie jako końcowego wyniku nieistniejącego w rzeczywistości słowa. Nie jest to jednak wada, gdyż zadaniem stemmera jest jedynie sprowadzenie słowa do jakiejś formy, która byłaby identyczna dla wszystkich jego form fleksyjnych.

Tabela 4. Przykład użycia algorytmu Portera dla wybranego rzeczywistego fragmentu tekstu

Removing suffi.\es by aulomatic ineans is an operation which is especially useful in the field of Information retrieval. In a typical IR environment. one has a collection of documents. each described by the words in the document title and possibly by words in the document abstract. Ignoring the issue of precisely where the words originate. we can say that a document is represented by a vetor of words, or

\tcnns\. Terms witli a commoii stcm w ill usually haye similar meanings._

remov suffix by automat mean is an oper which is especi us in the field of inform retriev. in a typie ir em iron. on ha a colle

ct of document. each describ by the word in the document titl and possibl by word in the docu-ment abstract. ignor the issu of

piecis where the w ord origin, we can sai that a document is repres by a retor of word, or \term\. term with a common stem will

usual have similar mean._

Działanie stemmera słownikowego dla języka polskiego pokazano w tabeli 5. Z uwagi na korzystanie przez niego z bardzo rozbudowanego słownika języka polskiego, jedną z jego cech jest częste zwracanie więcej niż jednej możliwej formy podstawowej słowa. Niektóre słowa nie zostały również przetworzone (zaznaczono je myślnikiem, a później ręcznie wpisano ich formę oryginalną). W tabeli pominięto również pewne informacje generowane przez program (dotyczące znaczników gramatycznych). Pismem pochyłem zaznaczono wspomniane powtórzenia wybranych słów. Automatyczne rozstrzygnięcie, której formy użyć w konkretnym przypadku nic wydaje się prostym zadaniem, a pozostawienie powtórzeń prawdopodobnie istotnie zniekształciłoby wyniki analiz. Dlatego też arbitralnie usunięto wszystkie oprócz pierwszej wygenerowanej formy.

Tabela 5. Przykład użycia stemmera Morfologik. W kolejności tekst oryginalny, tekst przejściowy uwzględniający powtórzenia niektórych słów, ostateczny tekst nadający się do dalszej analizy

Celem Stowarzyszenia jest: informowanie użytkowników i potencjalnych użytkowników technologii Oracle o funkcjonowaniu, rozwoju oraz nowych rozwiązaniach systemu Oracle i innych systemów informatycznych: ułatwianie przepływu informacji i doświadczeń między użytkownikami systemu: przekazywanie producentow i systemu opinii i sugestii jego użytkowników : popieranie działalności edukacyjnej

w dziedzinie zastosowania tego systemu._

- - być informować użytkownik i potencjalny użytkownik technologia - o funkcjonować rozwój oraz nowe nowa nowy nowy rozwiązać rozwiązanie system - i inny system informaty czny ułatwiać przepływ informacja i doświadczyć doświadczenie między między użytkownik system przekazywać producent system opinia i sugestia on on użytkownik popierać działalność edukacyjny edukacyjny w dziedzina

zastosować zastosowanie ten -_

Celem Stowarzyszenia być informować użytkownik i potencjalny użytkownik technologia Oracle o funkcjonować rozwój oraz nowe rozwiązanie system Oracle i inny' system informatyczny ułatwiać przepływ informacja i doświadczenie między użytkownik system przekazywać producent system opinia i sugestia on uży tkow nik popierać działalność edukacyjny w dziedzina zastosowanie ten systemu._

3. Struktury danych

Jednymi z pierwszych zastosowań klasycznych struktur danych typu TDM było ich wykorzy stywanie w zadaniach IR [Elden07], Struktury te oraz ich odpow iednie przekształcenia matematyczne wykorzystać można również do innych zadań, niejako uzupełniających proces wyszukiwania informacji. Do zadań takich należy na przykład automatyczne tworzenie krótkich podsumowań treści znalezionych dokumentów'.