Metody algebraiczne w zadaniach eksploracji danych na przy kładzie automatycznego ... 231
After step 3: token = disproportion |
After step 3: token = database |
After step 4: token = disproport |
After step 4: token = database |
After step 5a: token = disproport |
After step 5a: token = databas |
After step 5b: token = disproport |
After step 5b: token = databas |
Zauważmy, że ty pową cechą stemmera regułowego (a jest nim stemmer Portera) jest częste otrzymywanie jako końcowego wyniku nieistniejącego w rzeczywistości słowa. Nie jest to jednak wada, gdyż zadaniem stemmera jest jedynie sprowadzenie słowa do jakiejś formy, która byłaby identyczna dla wszystkich jego form fleksyjnych.
Tabela 4. Przykład użycia algorytmu Portera dla wybranego rzeczywistego fragmentu tekstu
Removing suffi.\es by aulomatic ineans is an operation which is especially useful in the field of Information retrieval. In a typical IR environment. one has a collection of documents. each described by the words in the document title and possibly by words in the document abstract. Ignoring the issue of precisely where the words originate. we can say that a document is represented by a vetor of words, or
\tcnns\. Terms witli a commoii stcm w ill usually haye similar meanings._
remov suffix by automat mean is an oper which is especi us in the field of inform retriev. in a typie ir em iron. on ha a colle
ct of document. each describ by the word in the document titl and possibl by word in the docu-ment abstract. ignor the issu of
piecis where the w ord origin, we can sai that a document is repres by a retor of word, or \term\. term with a common stem will
usual have similar mean._
Działanie stemmera słownikowego dla języka polskiego pokazano w tabeli 5. Z uwagi na korzystanie przez niego z bardzo rozbudowanego słownika języka polskiego, jedną z jego cech jest częste zwracanie więcej niż jednej możliwej formy podstawowej słowa. Niektóre słowa nie zostały również przetworzone (zaznaczono je myślnikiem, a później ręcznie wpisano ich formę oryginalną). W tabeli pominięto również pewne informacje generowane przez program (dotyczące znaczników gramatycznych). Pismem pochyłem zaznaczono wspomniane powtórzenia wybranych słów. Automatyczne rozstrzygnięcie, której formy użyć w konkretnym przypadku nic wydaje się prostym zadaniem, a pozostawienie powtórzeń prawdopodobnie istotnie zniekształciłoby wyniki analiz. Dlatego też arbitralnie usunięto wszystkie oprócz pierwszej wygenerowanej formy.
Tabela 5. Przykład użycia stemmera Morfologik. W kolejności tekst oryginalny, tekst przejściowy uwzględniający powtórzenia niektórych słów, ostateczny tekst nadający się do dalszej analizy
Celem Stowarzyszenia jest: informowanie użytkowników i potencjalnych użytkowników technologii Oracle o funkcjonowaniu, rozwoju oraz nowych rozwiązaniach systemu Oracle i innych systemów informatycznych: ułatwianie przepływu informacji i doświadczeń między użytkownikami systemu: przekazywanie producentow i systemu opinii i sugestii jego użytkowników : popieranie działalności edukacyjnej
w dziedzinie zastosowania tego systemu._
- - być informować użytkownik i potencjalny użytkownik technologia - o funkcjonować rozwój oraz nowe nowa nowy nowy rozwiązać rozwiązanie system - i inny system informaty czny ułatwiać przepływ informacja i doświadczyć doświadczenie między między użytkownik system przekazywać producent system opinia i sugestia on on użytkownik popierać działalność edukacyjny edukacyjny w dziedzina
zastosować zastosowanie ten -_
Celem Stowarzyszenia być informować użytkownik i potencjalny użytkownik technologia Oracle o funkcjonować rozwój oraz nowe rozwiązanie system Oracle i inny' system informatyczny ułatwiać przepływ informacja i doświadczenie między użytkownik system przekazywać producent system opinia i sugestia on uży tkow nik popierać działalność edukacyjny w dziedzina zastosowanie ten systemu._
Jednymi z pierwszych zastosowań klasycznych struktur danych typu TDM było ich wykorzy stywanie w zadaniach IR [Elden07], Struktury te oraz ich odpow iednie przekształcenia matematyczne wykorzystać można również do innych zadań, niejako uzupełniających proces wyszukiwania informacji. Do zadań takich należy na przykład automatyczne tworzenie krótkich podsumowań treści znalezionych dokumentów'.