Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ... 241
ona m termów i n zdań. W następnych punktach pokazane zostanie jak skorzystać z niej w zadaniu automatycznego wyboru zdań do podsumowania.
Jedną z możliwości rozwiązania zadania może być następujące podejście: załóżmy, że waga danego zdania powinna być tym wyższa, im zawiera ono więcej ważnych termów oraz odwrotnie: waga danego termu powinna być tym wyższa, im pojawia się ono w zdaniach o wysokiej wadze. Te pozornie dwa sprzeczne zadania rozwiązać można stosując dekompozycję SVD macierzy TSM.
Oznaczmy wagę termu i przez u, a wagę zdania j przez v . Zgodnie z uw agami powyżej waga termu i jest proporcjonalna do sumy wag zdań, w którym się on pojawia. Współczynnikiem tej proporcjonalności są elementy macierzy TSM (1).
u i °c ^ agVj, i = 1,2,..., m. (7)
7=1
Podobnie waga zdania /jest proporcjonalna do sumy wag słów w tym zdaniu:
Vj cc ^ aiJui, j - 1,2,(8)
Grupując dalej te elementy w wektory o wymiarach odpowiednio m i n otrzymujemy:
(9)
P„u = Av,
P,.v = Atu, gdzie PU,PV są stałymi proporcjonalności. Podstawiając jedno równanie do drugiego otrzymuje-
P, u = —AA ru,
(10)
Bv = —-—v4^'j4v.
A
Następnie ze związku wiążącego wartości własne macierzy z jej wartościami osobliwymi wnioskujemy, że wektory u oraz v są wektorami osobliwymi macierzy A. Wykonując więc przycięte do rzędu k=l przekształcenie SVD macierzy A i wybierając p największych elementów z wektorów u i v wyznaczymy p najistotniejszych słów kluczowych dokumentu oraz p najistotniejszych zdań dokumentu. W ten sposób wybraliśmy słowa i zdania o opisanych wcześniej największych wagach.
Przykład 1
Zbudujmy dla przykładowego tekstu z tabeli 10 macierz TSM postaci TF*IDF (plus stemming, plus usunięcie słów ze top listy', plus normalizacja) i pokażmy na wykresie wartości elementów' tych wektorów (wektory termów i zdań). Macierz TSM ma wymiary 166 x 26. Wyniki odczytane z rysunku 8 zamieszczono w tabelach 11 i 12 w postaci trzech najistotniejszych zdań oraz dziesięciu najistotniejszych słów podsumowywanego tekstu.