3784500549

3784500549



Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...    229

Tabela 1. Bardzo prosty przykład macierzy term-dokument oraz przykładowy wektor zapytania

Docl

Doc2

Doc3

D«c4

Terml

5

4

5

1

Term2

7

3

Term3

2

3

Term4

7

2

Term5

2

10

3

Pierwotnie struktura taka służyła do indeksowania zawartości zbioru dokumentów na potrzeby wyszukiwania w nich tych pozycji, które najlepiej „pasują” do zapytania mającego postać zwykle kilku słów kluczowych. Zapytanie O kierowane do pokazanej w tabeli 1 „bazy danych” jest traktowane jako kolejny wektor dokumentu. W rozważaniach będących tematem pracy wektor ten nie jest istotny i został przedstawiony jedynie w celach ilustrujących pierwotne zastosowanie struktur TDM w dziedzinie IR. Wyrażając to w języku matematycznym, chodzi o określenie podobieństwa wektora zapytania Q do wektorów dokumentów w postaci pewnej wartości liczbowej. Bardzo często używana jest tu wartość kosinusa kąta pomiędzy tymi wektorami lub ich wzajemna odległość euklidesowa. Ta pierwsza wyraża się prostą zależnością, szczególnie łatwą do obliczenia, gdy zastosuje się normalizację jednostkową wektorów dokumentów (patrz rozdział 3.1):

cos(a) -


= d\od2,


d\°d2

\dl\*\d2\ gdzie operacja o oznacza iloczyn skalamy wektorów dokumentów dl oraz d2 a | | oznacza długości wektorów. Na rysunku 3 pokazano prosty przykład poszukiwania najbardziej zbliżonego do zapytania Q dokumentu z ich zbioru dl-d4. Pojawia się tutaj przekształcenie o nazwie IDF, które zostanie wyjaśnione w dalszej części pracy.

d2,d3


Rys. 3. Ilustracja miary podobieństwa wektora zapytania Q do wektorów dokumentów d1-d4

2. Wstępne przetwarzanie danych

W praktyce prawie zawsze, przed zbudowaniem ostatecznej struktury danych, konieczne jest: (a) usunięcie z tekstu słów uznawanych w danym języku za nieistotne (tzw. stop lista), (b) zastąpienie pozostałych słów ich formami podstawowymi. O tak przekształconym tekście zwykło się mówić jak o zbiorze nie słów, ale termów. Pierwsza operacja zdecydowanie zmniejszają listę koniecznych do zaindeksowania termów, nie zmieniając przy tym informacyjnej zawartości tak przekształconych danych. Usuwamy więc z dokumentu wszystkie słowa, takie jak spójniki, zaimki, słowa pomocnicze, itp. Druga operacja również przyczynie się do zmniejszenia ilości poddawanych analizie danych, gdyż słowa występujące w wielu formach zamieniane są na jedną formę podstaw'owąi dalej traktowane są już jako jeden term.



Wyszukiwarka

Podobne podstrony:
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...   &nb
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przy kładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przy kładzie automatycznego ...
XVI Konferencja PLOUG Kościelisko Październik 2010 Metody algebraiczne w zadaniach eksploracji
img1 (10) Program wykładu Zadania administratora DBMS na przykładzie PostgreSGL: ♦    
13 54.    Buszko, Andrzej: Metody badań w dziedzinie nauk o zarządzaniu na przyk
case study in an enierprise). 2.    Zastosowanie metod eksploracji danych na wybranym
str 46 47 Armin GUGELMAN Szwajcaria ZADANIA PEDAGOGIKI SPECJALNEJ NA PRZYKŁADZIE SZWAJCARII Szkolnic
Metodykazarządzania jednostkami wymiaru sprawiedliwościStudium przypadku na przykładzieSądu Rejonowe
10870 slajd11 (178) EKSPLORACJA DANYCHZadania eksploracji danych: klasyfikacja Przykłady zadań klasy
32985 plyta 1 1 ĆWICZENIE 4PŁYTA ZASTOSOWANIE METODY MORY DO OKREŚLANIA PRZEMIESZCZEŃ NA PRZYKŁADZIE

więcej podobnych podstron