3784500552

3784500552



232 Jarosław Gramacki. Artur Gramacki

3.1. Struktura TF*IDF

Główna modyfikacja podstawowej struktury macierzy TDM polega na takiej modyfikacji elementów tej macierzy, aby lepiej opisywały one faktyczne zależności występujące w zbiorze dokumentów. Niech macierz TDM będzie postaci:

A = [aij],    (1)

gdzie a jest wartością zwaną wagą termu i w dokumencie j. Uwzględnijmy trzy komponent)’ tych wag:

aij=lng,dj>    (2)

gdzie l] jest tzw. komponentem lokalnym, gt jest tzw. komponentem globalnym, dj jest komponentem opisującym ew. zastosowaną normalizację wektora dokumentu j .

Istnieje wiele wariantów wymieniony ch komponentów’. Najczęściej uży wane to:

l,=f„ g,=log2W,    (3)

gdzie y],jest ilością (częstością) wystąpienia termu i w dokumencie j, g, jest wielkością uwzględniającą jak często term i występuje w całej kolekcji dokumentów. Tak zdefiniowane komponenty określa się skrótami TF (ang. Term Freąuency) oraz IDF (ang. Inverse Document Freąuency). W wyrażeniu (3) n jest całkow itą liczbą dokumentów, n, jest liczbą dokumentów, które zawierają w sobie term /'. Normalizacja d, zwykle ma postać normalizacji do długości jednostkowej:


Jest ona konieczna, gdy indeksujemy dokumenty’ o istotnie różnych długościach. Wtedy nie są faworyzowane dokumenty długie, które z oczywistych powodów zawierają więcej termów niż dokumenty krótkie.

W tabeli 6 pokazano przekształcone dane z tabeli 1. Raz użyto tylko komponentu globalnego IDF, drugi raz dodatkowo wyniki przeskalowano zgodnie ze wzorem (4).

Tabela 6. Po lewej: macierz A1 po zastosowaniu komponentu IDF, po prawej: macierz A2 po zastosowaniu komponentu IDF oraz po normalizacji. Puste miejsca oznaczają wartości zero

Docl

Doc2

Doc3

Doc4

Terml

Term2

7

3

Term3

2

3

Tcrm4

7

2

Term5

0.83

4.15

1.25


Docl

Doc2

Doc3

Doc4

0.86

0.62

0.92

0.62

1

0.41

0.38

0.51

0.26


5 Postać wyrażenia (2). powszechnie tak właśnie przedstawiana w literaturze, jest myląca, gdyż sugeruje przemnożenie komponentów’ / oraz g przez d. W rzeczywistości chodzi o dokonanie stosownej normalizacji kolumn macierzy po jej wyliczeniu z ew. uwzględnieniem komponentów’ / orazg.



Wyszukiwarka

Podobne podstrony:
234 Jarosław Gramacki, Artur Gramacki opisane w poprzednich rozdziałach. Następnym krokiem jest znal
236 Jarosław Grainacki. Artur Gramacki 43    [C] Practical Methods for Optimal Contro
238 Jarosław Gramacki, Artur Gramacki Rys. 6. Wzajemne położenie tytułów książek w 2-wymiarowej
240 Jarosław Gramacki. Artur Gramacki Tabela 10. Przykładowy dokument, który należy podsumować:
242 Jarosław Grainacki, Artur Gramacki Tabela 11. Wynik podsumowania tekstu z tabeli 10 w postaci 3
244 Jarosław Gramacki. Artur Gramacki5. Oracle Text Moduł Oracle Text (OT) to instalowany jako opcja
228 Jarosław Gramacki, Artur Gramacki 0
230 Jarosław Gramacki. Artur Gramacki2.1. Stop lista Procedura usuwania słów nieistotnych jest
Jarosław Nocoń Artur LaskaTeoria Jarosław Nocoń Artur Laska Polityki Wprowadzenie
Jarosław Nocoń Artur LaskaTeoriaPolityki Wprowadzenie
Jarosław Nocoń Artur I.askaTeoriaPolityki Oprowadzenie
Stanisław Bożyk (red.) Andrzej Jackiewicz, Lech Jamróz Grzegorz Kryszert, Jarosław Matwiejuk Ar
Jarosław : Wydawnictwo Państwowej Wyższej Szkoły Techniczno-E Biblioteka Wydziału Zarządzania i Pods
Dawkę przepisanego środka farmaceutycznego określa się na recepcie w gramach, cyframi arabskimi 
Kaloryczne bomby Sycące, pyszne i tuczące 1 W Inergii Porcja w gramach/ml Seks Bigos Budyń czek
IMAG0462 (3) sjestrowano zawartość nikotyny ^losowo ^branych papl^^da-^^ rozkład

więcej podobnych podstron