3784500548

3784500548



228 Jarosław Gramacki, Artur Gramacki

0    10    20    33    40    50    60    70    80    90    10°

(a)    (b)

Rys. 1. Kluczowe ilustracje z prac (a) Luhn’a, (b) EdmundsorTa


Kolejna pionierska praca to [Salton75], która jest najczęściej cytowana w odniesieniu do pierwszych algebraicznych sposobów modelowania zbioru przeszukiwanych dokumentów. W pracy pojawia się pojęcie modelu w przestrzeni wektorowej (ang. vector space model, VSM). Na rysunku 2 pokazano oryginalny rysunki z tej pracy ilustrujący istotę pomysłu oraz wyniki jego zastosowanie (w postaci tzw. wykresu Precision Recall) do zadania wyszukiwania informacji. Podejście VSM będzie używane w' niniejszej pracy jako punkt wyjścia dla zadania automatycznego tworzenia podsumowań dokumentów.



Rys. 2. Kluczowa ilustracje z pracy SaltorTa ilustrujące wektorowy model zbioru dokumentów tekstowych oraz jego zastosowanie do zadania wyszukiwania informacji

1.2. Przestań wektorowa i macierz TDM

Wspomniana przestrzeń wektorowa jest zwykle opisywana macierzą zwaną term-dokument (ang. term-document matrix, TDM) [Elden07], Przykładowo dla 4. dokumentów, zawierających w sumie 5 różnych słów, otrzymujemy macierz A pokazaną w tabeli 1, w której kolumny są tzw. wektorami dokumentów a wiersze są wymiarami.



Wyszukiwarka

Podobne podstrony:
234 Jarosław Gramacki, Artur Gramacki opisane w poprzednich rozdziałach. Następnym krokiem jest znal
236 Jarosław Grainacki. Artur Gramacki 43    [C] Practical Methods for Optimal Contro
238 Jarosław Gramacki, Artur Gramacki Rys. 6. Wzajemne położenie tytułów książek w 2-wymiarowej
240 Jarosław Gramacki. Artur Gramacki Tabela 10. Przykładowy dokument, który należy podsumować:
242 Jarosław Grainacki, Artur Gramacki Tabela 11. Wynik podsumowania tekstu z tabeli 10 w postaci 3
244 Jarosław Gramacki. Artur Gramacki5. Oracle Text Moduł Oracle Text (OT) to instalowany jako opcja
230 Jarosław Gramacki. Artur Gramacki2.1. Stop lista Procedura usuwania słów nieistotnych jest
232 Jarosław Gramacki. Artur Gramacki3.1. Struktura TF*IDF Główna modyfikacja podstawowej struktury
Jarosław Nocoń Artur LaskaTeoria Jarosław Nocoń Artur Laska Polityki Wprowadzenie
Jarosław Nocoń Artur LaskaTeoriaPolityki Wprowadzenie
Jarosław Nocoń Artur I.askaTeoriaPolityki Oprowadzenie
Stanisław Bożyk (red.) Andrzej Jackiewicz, Lech Jamróz Grzegorz Kryszert, Jarosław Matwiejuk Ar
Dawkę przepisanego środka farmaceutycznego określa się na recepcie w gramach, cyframi arabskimi 
Kaloryczne bomby Sycące, pyszne i tuczące 1 W Inergii Porcja w gramach/ml Seks Bigos Budyń czek
IMAG0462 (3) sjestrowano zawartość nikotyny ^losowo ^branych papl^^da-^^ rozkład
skanuj0002 300 Ciężar nerek w gramach i i i • i    _____L_ 0
06 (87) •Pm. gdzie: m, - masa suchej sproszkowanej próbki do badania, w gramach; mi - masa wypełnion

więcej podobnych podstron