3784500542

3784500542



Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...    241

ona m termów i n zdań. W następnych punktach pokazane zostanie jak skorzystać z niej w zadaniu automatycznego wyboru zdań do podsumowania.

4.2. Podsumowanie oparte o przekształcenie SVD macierzy TSM

Jedną z możliwości rozwiązania zadania może być następujące podejście: załóżmy, że waga danego zdania powinna być tym wyższa, im zawiera ono więcej ważnych termów oraz odwrotnie: waga danego termu powinna być tym wyższa, im pojawia się ono w zdaniach o wysokiej wadze. Te pozornie dwa sprzeczne zadania rozwiązać można stosując dekompozycję SVD macierzy TSM.

Oznaczmy wagę termu i przez u, a wagę zdania j przez v . Zgodnie z uw agami powyżej waga termu i jest proporcjonalna do sumy wag zdań, w którym się on pojawia. Współczynnikiem tej proporcjonalności są elementy macierzy TSM (1).

u i °c ^ agVj, i = 1,2,..., m.    (7)

7=1

Podobnie waga zdania /jest proporcjonalna do sumy wag słów w tym zdaniu:

Vj cc ^ aiJui, j - 1,2,(8)

Grupując dalej te elementy w wektory o wymiarach odpowiednio m i n otrzymujemy:

(9)


P„u = Av,

P,.v = Atu, gdzie PU,PV są stałymi proporcjonalności. Podstawiając jedno równanie do drugiego otrzymuje-

P, u = —AA ru,

(10)


Pv

Bv = —-—v4^'j4v.

A

Następnie ze związku wiążącego wartości własne macierzy z jej wartościami osobliwymi wnioskujemy, że wektory u oraz v są wektorami osobliwymi macierzy A. Wykonując więc przycięte do rzędu k=l przekształcenie SVD macierzy A i wybierając p największych elementów z wektorów u i v wyznaczymy p najistotniejszych słów kluczowych dokumentu oraz p najistotniejszych zdań dokumentu. W ten sposób wybraliśmy słowa i zdania o opisanych wcześniej największych wagach.

Przykład 1

Zbudujmy dla przykładowego tekstu z tabeli 10 macierz TSM postaci TF*IDF (plus stemming, plus usunięcie słów ze top listy', plus normalizacja) i pokażmy na wykresie wartości elementów' tych wektorów (wektory termów i zdań). Macierz TSM ma wymiary 166 x 26. Wyniki odczytane z rysunku 8 zamieszczono w tabelach 11 i 12 w postaci trzech najistotniejszych zdań oraz dziesięciu najistotniejszych słów podsumowywanego tekstu.



Wyszukiwarka

Podobne podstrony:
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...   &nb
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przy kładzie automatycznego ...
Metody algebraiczne w zadaniach eksploracji danych na przy kładzie automatycznego ...
XVI Konferencja PLOUG Kościelisko Październik 2010 Metody algebraiczne w zadaniach eksploracji
img1 (10) Program wykładu Zadania administratora DBMS na przykładzie PostgreSGL: ♦    
13 54.    Buszko, Andrzej: Metody badań w dziedzinie nauk o zarządzaniu na przyk
case study in an enierprise). 2.    Zastosowanie metod eksploracji danych na wybranym
str 46 47 Armin GUGELMAN Szwajcaria ZADANIA PEDAGOGIKI SPECJALNEJ NA PRZYKŁADZIE SZWAJCARII Szkolnic
Metodykazarządzania jednostkami wymiaru sprawiedliwościStudium przypadku na przykładzieSądu Rejonowe
10870 slajd11 (178) EKSPLORACJA DANYCHZadania eksploracji danych: klasyfikacja Przykłady zadań klasy
32985 plyta 1 1 ĆWICZENIE 4PŁYTA ZASTOSOWANIE METODY MORY DO OKREŚLANIA PRZEMIESZCZEŃ NA PRZYKŁADZIE

więcej podobnych podstron