228 Jarosław Gramacki, Artur Gramacki
0 10 20 33 40 50 60 70 80 90 10°
(a) (b)
Rys. 1. Kluczowe ilustracje z prac (a) Luhn’a, (b) EdmundsorTa
Kolejna pionierska praca to [Salton75], która jest najczęściej cytowana w odniesieniu do pierwszych algebraicznych sposobów modelowania zbioru przeszukiwanych dokumentów. W pracy pojawia się pojęcie modelu w przestrzeni wektorowej (ang. vector space model, VSM). Na rysunku 2 pokazano oryginalny rysunki z tej pracy ilustrujący istotę pomysłu oraz wyniki jego zastosowanie (w postaci tzw. wykresu Precision Recall) do zadania wyszukiwania informacji. Podejście VSM będzie używane w' niniejszej pracy jako punkt wyjścia dla zadania automatycznego tworzenia podsumowań dokumentów.
Rys. 2. Kluczowa ilustracje z pracy SaltorTa ilustrujące wektorowy model zbioru dokumentów tekstowych oraz jego zastosowanie do zadania wyszukiwania informacji
Wspomniana przestrzeń wektorowa jest zwykle opisywana macierzą zwaną term-dokument (ang. term-document matrix, TDM) [Elden07], Przykładowo dla 4. dokumentów, zawierających w sumie 5 różnych słów, otrzymujemy macierz A pokazaną w tabeli 1, w której kolumny są tzw. wektorami dokumentów a wiersze są wymiarami.