232 Jarosław Gramacki. Artur Gramacki
Główna modyfikacja podstawowej struktury macierzy TDM polega na takiej modyfikacji elementów tej macierzy, aby lepiej opisywały one faktyczne zależności występujące w zbiorze dokumentów. Niech macierz TDM będzie postaci:
A = [aij], (1)
gdzie a jest wartością zwaną wagą termu i w dokumencie j. Uwzględnijmy trzy komponent)’ tych wag:
aij=lng,dj> (2)
gdzie l] jest tzw. komponentem lokalnym, gt jest tzw. komponentem globalnym, dj jest komponentem opisującym ew. zastosowaną normalizację wektora dokumentu j .
Istnieje wiele wariantów wymieniony ch komponentów’. Najczęściej uży wane to:
l,=f„ g,=log2W, (3)
gdzie y],jest ilością (częstością) wystąpienia termu i w dokumencie j, g, jest wielkością uwzględniającą jak często term i występuje w całej kolekcji dokumentów. Tak zdefiniowane komponenty określa się skrótami TF (ang. Term Freąuency) oraz IDF (ang. Inverse Document Freąuency). W wyrażeniu (3) n jest całkow itą liczbą dokumentów, n, jest liczbą dokumentów, które zawierają w sobie term /'. Normalizacja d, zwykle ma postać normalizacji do długości jednostkowej:
Jest ona konieczna, gdy indeksujemy dokumenty’ o istotnie różnych długościach. Wtedy nie są faworyzowane dokumenty długie, które z oczywistych powodów zawierają więcej termów niż dokumenty krótkie.
W tabeli 6 pokazano przekształcone dane z tabeli 1. Raz użyto tylko komponentu globalnego IDF, drugi raz dodatkowo wyniki przeskalowano zgodnie ze wzorem (4).
Tabela 6. Po lewej: macierz A1 po zastosowaniu komponentu IDF, po prawej: macierz A2 po zastosowaniu komponentu IDF oraz po normalizacji. Puste miejsca oznaczają wartości zero
Docl |
Doc2 |
Doc3 |
Doc4 | |
Terml | ||||
Term2 |
7 |
3 | ||
Term3 |
2 |
3 | ||
Tcrm4 |
7 |
2 | ||
Term5 |
0.83 |
4.15 |
1.25 |
Docl |
Doc2 |
Doc3 |
Doc4 |
0.86 |
0.62 | ||
0.92 |
0.62 | ||
1 |
0.41 | ||
0.38 |
0.51 |
0.26 |
5 Postać wyrażenia (2). powszechnie tak właśnie przedstawiana w literaturze, jest myląca, gdyż sugeruje przemnożenie komponentów’ / oraz g przez d. W rzeczywistości chodzi o dokonanie stosownej normalizacji kolumn macierzy po jej wyliczeniu z ew. uwzględnieniem komponentów’ / orazg.