Pojęcia Text Mining
® Korzyści z drążenia tekstu są oczywiste, zwłaszcza w środowiskach bogatych tekstowo
> Np. prawo (wyroki), badania naukowe (artykuły), finanse (raporty kwartalne), medycyna (wypisy szpitalne), biologia (interakcje molekularne), technika (pliki patentowe), marketing (komentarze klientów) itd.
<s> Zadania w komunikacji elektronicznej (np. Email)
> Filtrowanie spamu
> Priorytetyzacja i kategoryzacja emaili
> Automatyczne generowanie odpowiedzi Zastosowania Text Mining
® Ekstrakcja informacji - identyfikacja kluczowych fraz w tekście za pomocą dopasowywania wzorców
<§> śledzenie tematów - w oparciu o profil użytkownika i oglądane przez niego dokumenty, przewidywanie innych dokumentów mogących go zainteresować
® Sumaryzacja - Podsumowywanie dokumentu aby oszczędzić czas użytkownika
® Kategoryzacja - identyfikacja głównych tematów dokumentu i w oparciu o nie przypisanie dokumentu do odpowiedniej kategorii
® Grupowanie - grupowanie podobnych dokumentów bez predefiniowanego zbioru kategorii
® Łączenie pojęć - łączenie powiązanych dokumentów poprzez identyfikację wspólnych pojęć
® Odpowiedzi na pytania - znajdowanie najlepszej odpowiedzi na pytanie za pomocą sterowanego wiedzą dopasowywania wzorców.
Terminologia Text Mining
® Dane nieustrukturyzowane lub pół-ustrukturyzowane
<s> Korpus - duży, ustrukturyzowany zbiór tekstów przygotowanych do odkrywania wiedzy
® Termy - pojedyncze słowa lub zdania wyekstrahowane bezpośrednio z korpusu za pomocą metod przetwarzania języka naturalnego (NLP)
® Pojęcia - wygenerowane ze zbioru dokumentów za pomocą metod manualnych, statystycznych, regułowych. Wyższy poziom abstrakcji niż termy.
® Stemming - proces redukcji słów do ich rdzenia (lematyzacja)
<s> Słowa „stop" (słowa szumy) - słowa filtrowane przed lub po przetwarzaniu tekstu, np. rodzajniki, słówka pomocnicze i inne nie mające wartości różnicującej