Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ... 237
Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ... 237
Tabela 9.180 termów macierzy TDM z przykładu 1
academ actuat adapt advanc algorithm analysi analyz anova antholog appli applic approach approxim aspect backstep base basie bayesian bootstrap boundari case challeng classic close collabor combinator coinpar cornput concept confid control cooper coupl cours data decis delai design deviat dictionari diffus direct diseas distribut dynam edit eigenvalu elicit emphas empir engin english error estim event experi e.xperi-ment expert extend fast feedback flow fonnul function fuzzi gamę gasc gaug geoinetri graphic guarante guid gupta impro\ indefinit industri inequ inf inform input intens interv introduct jackknif judgment jump labo-ratori larg limit linear liquid make mathemat mathematica matlab matric matrix mean measur method metho-dolog mix model multipl multivari network neural neuro noncoop nonlinear nonparametr nonsmooth numer observ optiin order output pancliapakesan parainet pde perspect perturb pierr pitman plan popul practic primer probabl problem procedur process product program properti proport proxim quadrat quantil random rank ratę recurr reguł reliabl repair represent resampl research revievv rich robust russian sampl scalę select sequenti seri shanti sliape signific simul singular solid spline sport stabil stabiliz statist stocliast strongli stmetur studi system test theorem theori tutori uav unifi
W kolejnym kroku obliczamy przycięte przekształcenie SVD dla macierzy TDM przyjmując k = 2 (pamiętamy, że, pierwotnie dane rozpięte są na przestrzeni 75-wymiarowej!). Otrzymujemy w ten sposób aproksymację rzędu 2 tej macierzy: A2 = U2 E2F27. Pamiętając o interpretacji składowych dekompozycji SVD w analizie LSA (tabela 7) możemy pokazać na wykresie 2D położenie poszczególnych tytułów względem siebie. Odpowiednie współrzędne otrzymamy z macierzy V2 . Mamy więc: pierwsza kolumna macierzy V2 pomnożona przez pierwszą wartość osobliwą z Z2 da współrzędne x analizowanego zbioru tytułów. Druga kolumna macierzy V2 pomnożona przez drugą wartość osobliwą z Z2da współrzędne y. Poruszamy się tu w tzw. przestrzeni konceptów (ang. concept space) i w tejże przestrzeni pokażemy za chwilę wzajemne położenie tytułów w stosunku do siebie. Zastosowanie 2-wymiarowej przestrzeni konceptów jest w przykładzie uzasadnione, gdyż z góry wiemy, do ilu grup tematycznych należą analizowane dane.
Na ry sunku 6 pokazano wykres 2D zbioru dokumentów (tytułów książek). Tytuły z każdej grupy tematycznej wyróżniono innym znakiem graficznym. Widać, że pewne ukryte semanty czne zależności pomiędzy' słowami tytułów książek z dwóch zdecydowanie różnych merytory cznie grup tematycznych uwidoczniły się bardzo wyraźnie. Większość tytułów z każdej z grup poprawnie układa się na wykresie blisko siebie. Pokazuje to, że stosując analizę LSA możliwe jest wykrycie niewidocznych explicite, ale istniejących współzależności pomiędzy termami, a co za tym idzie i dokumentami, które je zawierają. W literaturze, dla określenia tej właściwości, często pojawia się określenie „redukcja szumu lingwistycznego” uzyskiwana właśnie dzięki rzutowaniu ory ginalnych danych do innej, o niższym wymiarze, przestrzeni.