Text Mining
dr Jarosław Olejniczak
Jaroslaw.Olejniczak@wat.ed
u.pl
Text mining
definicje
Tekst mining jest to zbiór narzędzi analitycznych
umożliwiających wydobywanie, porządkowanie i
wykorzystanie wiedzy z dokumentów tekstowych
występujących w wersji elektronicznej.
R. Feldman,J. Sanger The text mining handbook,
Advanced Approaches in Analyzing Unstructured
Data, Cambridge University Press, 2007
Text mining
Źródła
• Dokumenty
• Zbiory dokumentów
dynamiczne
Statyczne
Text mining
Pojęcia związane z dokumentem
• Znaki
• Słowa
• Określenia
• Pojęcia
Text mining
Tendencje i wzorce
• Poszukiwanie wzorców
• Poszukiwanie tendencji
Text mining
Tendencje i wzorce - przykłady
Przykładowo w zbiorze artykułów
prasowych dotyczących polityka X,
słowo skandal oznacza negatywny
obraz tego polityka co powinno
skutkować próbą zmiany jego
wizerunku przez popierającą go
partię.
Rosnąca liczba artykułów dotycząca
Firmy X i produktu Y może oznaczać
zmianę polityki produkcyjnej firmy X
co może być interesujace dla
konkurencji.
Text mining
Tendencje i wzorce - przykłady
Przykłady analizy tendencji
• Jaka jest tendencja dotycząca podejmowania
określonych tematów w określonych
okresach (rozumianych jako różne zbiory
dokumentów)
• Czy tematy podejmowane w prasie w dwóch
różnych przedziałach czasowych się różnią
czy są podobne.
• Czy można zidentyfikować nowe i zanikające
tematy
• Czy któryś z tematów ma taka samą częstość
występowania w ciągu dwóch okresów
Text mining
Zasada działania
Text mining
Architektura uniwersalna
Text mining
Architektura dla systemów dziedzinowych
Text mining
Architektura dla systemów z bazą wiedzy
Text mining
Podstawowe operacje
• Badanie rozkładu
Selekcja pojęć
Szukanie proporcji (odstetek
pojęć)
• Badanie częstości
• Poszukiwanie relacji
Text mining
Podstawowe operacje
Text mining
Podstawowe operacje
• Podział na kategorie
• Grupowanie
• Ekstrakcja
• Wizualizacja
• Analiza powiązań
Text mining
Podział na kategorie
• Indeksacja tekstu z
wykorzystaniem określonego
słownictwa
• Sortowanie i filtrowanie tekstu
• Tworzenie drzew pojęciowych dla
stron www
Text mining
Grupowanie
• Określenie problemu
• Szukanie miar bliskości
• Grupowanie
• Nadawanie etykiet znalezionym
grupom
• Ocena
Text mining
Ekstrakcja
Text mining
Ekstrakcja
entity {
ID = 1,
NAME = “Fletcher Maddox”
DESCRIPTOR = “Former Dean of
USCD Business School”
CATEGORY = person
}
entity {
ID = 2
NAME = “La Jolla Genomatics”
ALIAS = “LJG”
DESCRIPTOR = “”
CATEGORY = organization
}
entity {
ID = 3
NAME = “La Jolla”
DESCRIPTOR = “the Maddox
family hometown”
CATEGORY = location
}
Text mining
Wizualizacja
Text mining
Wizualizacja
Text mining
Wizualizacja
Text mining
Szukanie powiązań