Text mining

background image

Text Mining

dr Jarosław Olejniczak
Jaroslaw.Olejniczak@wat.ed
u.pl

background image

Text mining

definicje

Tekst mining jest to zbiór narzędzi analitycznych
umożliwiających wydobywanie, porządkowanie i
wykorzystanie wiedzy z dokumentów tekstowych
występujących w wersji elektronicznej.

R. Feldman,J. Sanger The text mining handbook,
Advanced Approaches in Analyzing Unstructured
Data, Cambridge University Press, 2007

background image

Text mining

Źródła

Dokumenty

Zbiory dokumentów

dynamiczne
Statyczne

background image

Text mining

Pojęcia związane z dokumentem

Znaki

Słowa

Określenia
Pojęcia

background image

Text mining

Tendencje i wzorce

Poszukiwanie wzorców

Poszukiwanie tendencji

background image

Text mining

Tendencje i wzorce - przykłady

Przykładowo w zbiorze artykułów
prasowych dotyczących polityka X,
słowo skandal oznacza negatywny
obraz tego polityka co powinno
skutkować próbą zmiany jego
wizerunku przez popierającą go
partię.

Rosnąca liczba artykułów dotycząca
Firmy X i produktu Y może oznaczać
zmianę polityki produkcyjnej firmy X
co może być interesujace dla
konkurencji.

background image

Text mining

Tendencje i wzorce - przykłady

Przykłady analizy tendencji

Jaka jest tendencja dotycząca podejmowania

określonych tematów w określonych
okresach (rozumianych jako różne zbiory
dokumentów)

Czy tematy podejmowane w prasie w dwóch

różnych przedziałach czasowych się różnią
czy są podobne.

Czy można zidentyfikować nowe i zanikające

tematy

Czy któryś z tematów ma taka samą częstość

występowania w ciągu dwóch okresów

background image

Text mining

Zasada działania

background image

Text mining

Architektura uniwersalna

background image

Text mining

Architektura dla systemów dziedzinowych

background image

Text mining

Architektura dla systemów z bazą wiedzy

background image

Text mining

Podstawowe operacje

Badanie rozkładu

Selekcja pojęć
Szukanie proporcji (odstetek
pojęć)

Badanie częstości
Poszukiwanie relacji

background image

Text mining

Podstawowe operacje

background image

Text mining

Podstawowe operacje

Podział na kategorie

Grupowanie
Ekstrakcja

Wizualizacja

Analiza powiązań

background image

Text mining

Podział na kategorie

Indeksacja tekstu z

wykorzystaniem określonego
słownictwa

Sortowanie i filtrowanie tekstu
Tworzenie drzew pojęciowych dla

stron www

background image

Text mining

Grupowanie

Określenie problemu
Szukanie miar bliskości

Grupowanie

Nadawanie etykiet znalezionym

grupom

Ocena

background image

Text mining

Ekstrakcja

background image

Text mining

Ekstrakcja

entity {
ID = 1,
NAME = “Fletcher Maddox”
DESCRIPTOR = “Former Dean of
USCD Business School”
CATEGORY = person
}
entity {
ID = 2
NAME = “La Jolla Genomatics”
ALIAS = “LJG”
DESCRIPTOR = “”
CATEGORY = organization
}
entity {
ID = 3
NAME = “La Jolla”
DESCRIPTOR = “the Maddox
family hometown”
CATEGORY = location
}

background image

Text mining

Wizualizacja

background image

Text mining

Wizualizacja

background image

Text mining

Wizualizacja

background image

Text mining

Szukanie powiązań


Document Outline


Wyszukiwarka

Podobne podstrony:
text mining, SAS
Wykad 3, Dokumenty STUDIA SKANY TEXT TESTY, ADMINISTRACJA UNIWEREK WROCŁAW MAGISTER, POŚ - PRAWO OCH
Metafizyka, wykłady i tym podobne, skrypty, itp, text
SYSTEM OCHRON PRAWNEJ Wykla 17[1].10.2009, Dokumenty STUDIA SKANY TEXT TESTY, ADMINISTRACJA UNIWEREK
Referat wypis z ewidencji text
protesters TEXT
text, informa, metody numeryczne
Capturing Text Output from Hyperterminal
Dodatkowe Wytyczne projektu, Data mining - Grzenda
Test z ZZL-2 calosc-2, Dokumenty STUDIA SKANY TEXT TESTY, ADMINISTRA
Data mining w rekomendacji

więcej podobnych podstron