238 Jarosław Gramacki, Artur Gramacki
Rys. 6. Wzajemne położenie tytułów książek w 2-wymiarowej przestrzeni konceptów
Przyjęta aproksymacja rzędu 2 miała oczywisty cel dydaktyczny uzasadniony dodatkowo charakterem danych. W praktyce należałoby przyjąć nieco większą wartość. Nie istnieją niestety precyzyjne wskazówki dotyczących optymalnego wyboru tej liczby. W praktycznych zastosowaniach przyjmuje się ich liczbę jako „około 10%” oryginalnej wymiarowości. Stosuje się również podejście znane na przykład z analizy PCA (ang. principal components analysis), polegające na analizie tzw. wykresu osuwiskowego (ang. scree plot)1.
Zupełnie innym problemem, którego tu nie omawiamy, jest procedura grupowania danych w k-wymiarowej przestrzeni. Nic nie stoi jednak na przeszkodzie, aby użyć tu dowolnego algorytmu grupowania (np. znanego algorytmu k-średnich z odpowiednią do zadania miarą podobieństwa). Podejście to zastosowane zostanie w dalszej części pracy dotyczącej generowania podsumowań.
3.2.3. Przykład 2
Wykonajmy jeszcze jeden ciekawy eksperyment. Na rysunku 7a pokazano stopień wypełnienia macierzy TDM (tej z poprzedniego przykładu). Dwa wskazane owalem termy występują w bardzo wielu dokumentach. Zidentyfikowano je jako „ControF oraz „Statistics / StatisticaF. Fakt ten z pewnością ułatwia poprawne grupowanie, biorąc pod uwagę tematykę obu grup tytułów. Usuńmy je jednak z macierzy. Po wykonaniu analogicznej jak w pierwszym przykładzie analizy widać, że grupowanie się jednorodnych tematycznie tytułów również jest widoczne (rysunek 7b). Dla tytułów z grupy ^Statistics" umieszczono na wykresie ich numery zgodne z tymi z tabeli 8, celem łatwiejszej ich identyfikacji. Jak widać, niektóre pozycje „odjechały” w stronę drugiej kategorii -najbardziej tytuły o numerach 10, 22, 32 (wyróżniono je większą czcionką). Powodem tego jest fakt, że brzmią one jak ... tytuły z dziedziny „Control & Systems Theory”, a nie „Statistics”. Przykładowo pozycję 22 „Statistieał Design and Analysis of Experiments" większość osób, biorąc pod uwagę tylko jej tytuł, zaklasyfikuje do dziedziny „Control & Systems Theory”.
Ponadto z rysunku 7b można odczytać, że tytuły z grupy „Statistics” (pomijając wspomniane trzy wartości odstające) są dużo bardziej podobne do siebie niż tytuły z drugiej grupy. Innymi słowy ich „semantyczny rozrzut” jest dużo mniejszy - tytuły z tej dziedziny są bardziej lingwistycznie jednolite!
PCA jest, z matematycznego punktu widzenia, silnie pow iązane z rozkładem SVD.