Metody algebraiczne w zadaniach eksploracji danych na przykładzie automatycznego ... 239
Rys. 7. (a) - wizualizacja rozkładu wartości niezerowych w macierzy TDM, (b) - wzajemne położenie tytułów książek w 2-wymiarowej przestrzeni konceptów po usunięciu często występujących słów
Pokazane powyżej przykłady miały jedynie zademonstrować główną ideę metody LSA. Istnieje jednak bardzo wiele innych zastosowań analizy LSA. Jedno z nich jest podobne do pokazanego w przykładzie. Dotyczy generowania rekomendacji dla użytkownika, który kupuje jakąś pozycję w księgami internetowej. Budując strukturę danych analogiczną do pokazanej w przykładzie, w której zamiast tytułów książek będą użyte ich streszczenia i/lub spis treści, możliwe będzie sugerowanie klientowi „semantycznie podobnych” pozycji w stosunku do tej, którą właśnie kupuje. Istnieją również rozwiązania, które w trybie on-line grupują wyniki zwracane przez wyszukiwarkę internetową. Upraszcza to szybkie zapoznanie się z dużą ilością otrzymanych wyników.
W następnym rozdziale pokażemy jak można zastosować analizę LSA do budowy systemów generujących automatycznie streszczenia dokumentów.
Zadaniem systemów automatycznie generujących podsumowania (ang. automatic text summa-rization) jest wybór z analizowanego tekstu tych zdań, które najlepiej oddają treść dokumentu. Z reguły określa się z góry liczbę p wybranych zdań i / lub procentową objętość podsumowania w stosunku do całości tekstu. Niezależnie od użytej metody, zadanie sprowadza się do określenia ważności1 (wagi) każdego zdania według jakiegoś kryterium a następnie wybraniu p zdań o największej wadze. Często używa się w tym celu również pojęcia podobieństwa zdań i na tej podstawie wybiera się podzbiór zdań tworzących podsumowanie. Zdania budowane są ze słów, więc w naturalny sposób rozważa się również ważność słów (termów).
Pierwszy przykład operować będzie na tekście, który jest wprowadzeniem do systemu Oracle Text. Pobrano go z dokumentu White Paper dotyczącego tego produktu (patrz tabela 10).
W literaturze angielskiej dotyczącej ogólnie dyscypliny naukowej IR używa się pojęcia saliency score.