• Trudności w przetwarzaniu, indeksowaniu
i przeszukiwaniu wielu dokumentów opisanych ^ bardzo dużą liczbą termów
• Potrzeba redukcji wymiaru danych tekstowych:
• Latem Scmatic Indexing
Podobne dokumenty mają podobne częstości słów.
Macierz częstości dokumentów i termów należy transformować
macierzy A.S.B, gdzie A i B mają ortogonalne kolumny a Sjest macierzą diagonalną:
Uw zględnia się tylko £e| 100.300] największy ch wartości S,
• Stosowane także inne algorytmy, np. grupowania lub SOM
kolumny macierzy U tworzą ortogonalną bazę w i przestrzeni kolumn macieizy A
wektory te wykazują podobieństwo do „tematów" ■ obecnych w A