3784500535

3784500535



234 Jarosław Gramacki, Artur Gramacki

opisane w poprzednich rozdziałach. Następnym krokiem jest znalezienie pewnej aproksymacji tej macierzy. Uzyskujemy to poprzez zastosowanie przekształceniem SVD macierz}' TDM.

3.2.1. Przekształcenie SVD

Przekształcenie (dekompozycja) SVD jest najistotniejszym elementem analizy LSA. Polega ono na obliczeniu rozkładu macierzy A o wymiarach mxn (gdzie bez strat}' ogólności możemy założyć m >=n) w postaci iloczynu trzech macierz}-:

<5)

gdzie Umxm, Vnxn są macierzami ortogonalnymi, ZA.xA. jest macierzą diagonalną, której element}' zwane są wartościami osobliwymi (ang. singular values). Element}- te są umieszczone na diagonalnej macierzy w kolejności malejącej. Kolumny macierzy U oraz V są zwane wektorami osobliwymi (ang. singular vectors). Kolumny macierzy U oraz V tworzą również nowe (ortogonalne) bazy dla przestrzeni kolumn / wiersz}' macierzy ,4. Interpretacja powyższego w kontekście macierzy TDM znajduje się w tabeli 7. Na rysunku 5 zilustrowano to przekształcenie w wersji pełnej (ang .fuli), cienkiej (ang. thiri) oraz przyciętej (ang. truncated) dla macierzy A o wymiarach 5x3.

Rys. 5. Przekształcenie SVD w wersji pełnej (linia ciągła pogrubiona), cienkiej (linia ciągła cienka) oraz przyciętej do stopnia k = 2 (zaciemnienie)

Na potrzeby analiz}' LSA nie wykonuje się pokazanej powyżej pełnej wersji przekształcenia, a jedynie jego wersję przyciętą, otrzymując w ten sposób aproksymację rzędu k oryginalnej macierzy (ang. rank-k approximatioń). Zakłada się przy tym, że k < r gdzie r jest rzędem macierzy1.

A = Ak=UkT.kVkr; Amxn, Umxk, ZA.xA., VTkxn    (6)

Matematyczne rozważania pokazują2, że taka aproksymacja jest najlepsza (stąd często używana nazwa best rank-k approximation) w pewnym ścisłym matematycznym sensie i nie jest możliwe znalezienie lepszego przybliżenia macierzy A inną macierzą rzędu k. Oczywiście przycięta wersja SVD nie jest dokładną dekompozycją oryginalnej macierzy. Ale jak zostanie to pokazane, otrzymane przybliżenie jest mimo wszystko bardzo użyteczne.

Tabela 7. Interpretacja komponentów przekształcenia SVD w kontekście metody LSA

Ak

najlepsza aproksymacja rzędu k macierzy A

m

liczba termów

U

macierz wektorów termów

n

liczba dokumentów

1

macierz wartości singulamych

k

liczba czynników

V

macierz wektorów dokumentów

r

rząd macierzy A

1

   N rysunku 5 zakładamy, że macierz A jest pełnego rzędu czyli rank(A)=3.

2

   Wykazano to w 1936 roku (twierdzenie Eckarta-Younga), kiedy niewiele jeszcze myślano o prakty cznych zastosowaniach przekształcenia SVD! Patrz też opis w [Stewart93],



Wyszukiwarka

Podobne podstrony:
img415 2 6 22. W ogniwie opisanym w poprzednim pytaniu^ kj Mg jest redaktorem, a^Ag^jest utleniaczem
236 Jarosław Grainacki. Artur Gramacki 43    [C] Practical Methods for Optimal Contro
238 Jarosław Gramacki, Artur Gramacki Rys. 6. Wzajemne położenie tytułów książek w 2-wymiarowej
240 Jarosław Gramacki. Artur Gramacki Tabela 10. Przykładowy dokument, który należy podsumować:
242 Jarosław Grainacki, Artur Gramacki Tabela 11. Wynik podsumowania tekstu z tabeli 10 w postaci 3
244 Jarosław Gramacki. Artur Gramacki5. Oracle Text Moduł Oracle Text (OT) to instalowany jako opcja
228 Jarosław Gramacki, Artur Gramacki 0
230 Jarosław Gramacki. Artur Gramacki2.1. Stop lista Procedura usuwania słów nieistotnych jest
232 Jarosław Gramacki. Artur Gramacki3.1. Struktura TF*IDF Główna modyfikacja podstawowej struktury
Wstyd i przemo0118 234 Wstyd i przerw* drudzy, a jak pokazują dowody omówione w poprzednim rozdziale
DSC00278 (26) 1.3.5. Ograniczenie skutków harmonicznych W poprzednim rozdziale opisano pochodzenie h
Obraz (1236) Rozdział 6POZOSTAŁE INSTRUMENTY POLITYKI PIENIĘŻNEJ NA PRZYKŁADZIE POLSKI Opisane w pop
skanuj0010 (221) ‘Rozdział XMETODY POMIARU TEKSTURY ŻYWNOŚCI Wprowadzenie Czytelnik poprzedniego roz
image 077 Rozdział 5Szyki antenowe liniowe i planarne W poprzednich rozdziałach rozważaliśmy narzędz
image 094 Rozdział 6Wybrane problemy projektowania anten i szyków antenowych W poprzednich rozd

więcej podobnych podstron