Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ... 229
Tabela 1. Bardzo prosty przykład macierzy term-dokument oraz przykładowy wektor zapytania
Docl |
Doc2 |
Doc3 |
D«c4 | |
Terml |
5 |
4 |
5 |
1 |
Term2 |
7 |
3 | ||
Term3 |
2 |
3 | ||
Term4 |
7 |
2 | ||
Term5 |
2 |
10 |
3 |
Pierwotnie struktura taka służyła do indeksowania zawartości zbioru dokumentów na potrzeby wyszukiwania w nich tych pozycji, które najlepiej „pasują” do zapytania mającego postać zwykle kilku słów kluczowych. Zapytanie O kierowane do pokazanej w tabeli 1 „bazy danych” jest traktowane jako kolejny wektor dokumentu. W rozważaniach będących tematem pracy wektor ten nie jest istotny i został przedstawiony jedynie w celach ilustrujących pierwotne zastosowanie struktur TDM w dziedzinie IR. Wyrażając to w języku matematycznym, chodzi o określenie podobieństwa wektora zapytania Q do wektorów dokumentów w postaci pewnej wartości liczbowej. Bardzo często używana jest tu wartość kosinusa kąta pomiędzy tymi wektorami lub ich wzajemna odległość euklidesowa. Ta pierwsza wyraża się prostą zależnością, szczególnie łatwą do obliczenia, gdy zastosuje się normalizację jednostkową wektorów dokumentów (patrz rozdział 3.1):
cos(a) -
= d\od2,
d\°d2
\dl\*\d2\ gdzie operacja o oznacza iloczyn skalamy wektorów dokumentów dl oraz d2 a | | oznacza długości wektorów. Na rysunku 3 pokazano prosty przykład poszukiwania najbardziej zbliżonego do zapytania Q dokumentu z ich zbioru dl-d4. Pojawia się tutaj przekształcenie o nazwie IDF, które zostanie wyjaśnione w dalszej części pracy.
d2,d3
Rys. 3. Ilustracja miary podobieństwa wektora zapytania Q do wektorów dokumentów d1-d4
W praktyce prawie zawsze, przed zbudowaniem ostatecznej struktury danych, konieczne jest: (a) usunięcie z tekstu słów uznawanych w danym języku za nieistotne (tzw. stop lista), (b) zastąpienie pozostałych słów ich formami podstawowymi. O tak przekształconym tekście zwykło się mówić jak o zbiorze nie słów, ale termów. Pierwsza operacja zdecydowanie zmniejszają listę koniecznych do zaindeksowania termów, nie zmieniając przy tym informacyjnej zawartości tak przekształconych danych. Usuwamy więc z dokumentu wszystkie słowa, takie jak spójniki, zaimki, słowa pomocnicze, itp. Druga operacja również przyczynie się do zmniejszenia ilości poddawanych analizie danych, gdyż słowa występujące w wielu formach zamieniane są na jedną formę podstaw'owąi dalej traktowane są już jako jeden term.