Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ... 233
Przykłady obliczeń: A1 (1,1) = 5 * log2(4/4) = 0
A 1(2,2) = 7*log2(4/2) = 7
A 1(5,1) = 2*log2(4/3) = 2* log 10(4/3) / logl0(2) = 0.83 A2(5,l) = 0.83 / sqrt(2A2 + 0.83A2) = 0.38
Zauważmy, że Terml został „odrzucony” z powodu występowania we wszystkich dokumentach. Jest więc on nieistotny w analizowanym zbiorze dokumentów. W praktyce (duże rzeczywiste zbiory dokumentów) taka sytuacja będzie miała miejsce bardzo rzadko.
Macierz (1) jest w praktyce macierzą bardzo rzadką (ang. sparse). Jedynie znikoma część jej elementów ma wartości różne od zera. Ilustruje to rysunek 4, na którym pokazano stopień wypełnienia przykładowej macierzy wygenerowanej dla pewnego zbioru liczącego 1063 dokumentów, który zawiera ok. 9000 różnych termów (liczba po zastosowaniu stop listy oraz stemmera). Dla czytelności rysunku uwzględniono na nim wszystkie dokumenty oraz jedynie pierwsze 600 termów. Macierz zawiera jedyni 0.59% niezerowych elementów!
vtyi-Y’ i-li -ty | |
Rys. 4. Pierwsze 600 wierszy macierzy TDM dla przykładowego zbioru 1063 indeksowanych dokumentów
Istotną wadą przedstawionego modelu TDM jest fakt równego traktowania każdego termu, czyli nieuwzględnienie żadnej semantycznej zależności pomiędzy poszczególnymi słowami. W każdym języku istnieją jednak synonimy (np. akcja, papier wartościowy, walor) oraz tzw. poli-semy (np. zamek (w drzwiach) i zamek (obronny)). Wskutek tego trudno będzie na przykład odnaleźć w zbiorze dokumentów zaindeksowanym podstawową strukturą TDM pozycji dobrze pasujących do wydanego zapytania (ang. relevant documents), ale niezawierających w sobie jawnie fraz użytych w zapytaniu. Rozwiązaniem tego problemu jest odpowiednie przekształcenie macierzy TDM do postaci, która uwidacznia tzw. ukryte znaczenie semantyczne (ang. latent semantics). Analiza przeprowadzana na tak zmodyfikowanej strukturze danych zwana jest w literaturze analizą LSA (ang. latent sematic analysis) lub indeksowaniem LSI (ang. latent semantic indexing) [BD095, FDD88].
Analiza LSA oparta jest na algebraicznym przekształceniu (dekompozycji) SVD (ang. singular value decompositioń). Przekształcenie SVD jest operacją, która wykonana na macierzy TDM między innymi istotnie poprawia semantyczną jakość wyników zwracanych przez wyszukiwarki oparte o model wektorowy.
Istota pomysłu sprowadza się do wydobywania relacji leksykalnych (tu w znaczeniu podobieństwa semantycznego) pomiędzy słowami występującymi w analizowanym tekście. Pierwszym krokiem w analizie LSA jest oczywiście zbudowanie odpowiedniej macierzy TDM, co zostało