2008-10-07

Ogólna charakterystyka web miningu

Web mining

Wykład 1.

Rok akademicki: 2008/2009

Plan wykładu

• Pojęcie i rozwój web miningu

• Podstawowe problemy rozważane na gruncie web miningu

– analiza zawartości serwisów internetowych

– analiza zachowań użytkowników

– analiza struktury połączeń pomiędzy serwisami

• Zastosowania web miningu

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 2

1

2008-10-07

Zaliczenie przedmiotu

• Egzamin pisemny (test)

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 3

Data mining - definicja

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

W. Frawley and G. Piatetsky-Shapiro and C. Matheus, Knowledge Discovery in Databases: An Overview. AI Magazine, Fall 1992, pp. 213-228.

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 4

2

2008-10-07

Data mining - definicja

The science of extracting useful information from large data sets or databases.

D. Hand, H. Mannila, P. Smyth: Principles of Data Mining. MIT Press, Cambridge, MA, 2001. ISBN 0-262-08290-X

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 5

Data mining - definicja

Data mining, also known as knowledge-discovery in databases (KDD), is the practice of automatically searching large stores of data for patterns. To do this, data mining uses computational techniques from statistics, machine learning and pattern recognition.

http://en.wikipedia.org/wiki/Data_mining

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 6

3

2008-10-07

Data mining

Data mining to określenie grupy metod szeroko rozumianej analizy danych mających na celu identyfikację nieznanych wcześniej prawidłowości występujących w dużych zbiorach danych. Powstałe wyniki mają postać łatwą do interpretacji przez prowadzącego badania.

Eugeniusz Gatnar, 1997

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 7

Zasadniczy cel badań

• Analiza danych, mająca na celu wykrycie wzorców, a przez to wzbogacenie wiedzy człowieka.

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 8

4

2008-10-07

Web mining

• Web mining – data mining zawartości serwisów

internetowych oraz zachowań ich użytkowników

• Podstawowe problemy rozważane na gruncie web miningu to:

– analiza zawartości serwisów internetowych,

– analiza zachowań użytkowników,

– analiza struktury połączeń pomiędzy serwisami.

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 9

Zakres badań web miningowych

• Podstawowe problemy rozważane na gruncie Web Miningu to:

– analiza zawartości serwisów internetowych,

• podejście text miningowe,

• podejście oparte na ontologiach i sieciach semantycznych,

– analiza zachowań użytkowników,

– analiza struktury serwisów internetowych.

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 10

5

2008-10-07

Analiza zawartości serwisów internetowych oparta na podejściu text miningowym

• Text mining – proces mający na celu wydobycie z zasobów tekstowych nieznanych wcześniej informacji (Marti A. Hearst, 1999).

• Serwisy WWW publikują przede wszystkim informacje tekstowe

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 11

Informacje tekstowe

• Wysoki stopień upowszechnienia informacji tekstowych,

• Łatwość przetwarzania tekstów przez człowieka,

• Trudności z automatyzacją przetwarzania spowodowane przez:

– niski stopień strukturyzacji tekstów,

– brak jednoznacznych metod interpretacji

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 12

6

2008-10-07

Korzenie text miningu

• Data mining,

• Uczenie maszynowe,

• Przetwarzanie języka naturalnego,

• Wyszukiwanie informacji,

• Statystyka,

• Matematyka (algebra liniowa),

• Informatyka.

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 13

Zastosowania text miningu

• Pozyskiwanie informacji z tekstów,

• Identyfikacja wiadomości zawierających określone treści,

• Generowanie streszczeń,

• Klasyfikacja wzorcowa,

• Klasyfikacja bezwzorcowa,

• Identyfikacja powiązań,

• Wizualizacja,

• Generowanie odpowiedzi na pytania.

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 14

7

2008-10-07

Przebieg analizy text miningowej

• Określenie celu, zakresu i kosztów badań,

• Wstępne przetworzenie dokumentów,

• Określenie sposobu reprezentacji informacji zawartych w dokumentach,

• Konstrukcja modelu,

• Realizacja obliczeń,

• Ocena modelu,

• Interpretacja uzyskanych wyników.

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 15

Cel, zakres, koszty

• Identyfikacja typu rozpatrywanego problemu:

– klasyfikacja wzorcowa,

– klasyfikacja bezwzorcowa (analiza skupień),

– współwystępowanie zjawisk,

– określenie podobieństwa (np. identyfikacja plagiatów),

– ...

• Sformułowanie celu zadania badawczego,

• Relacje pomiędzy celem, zakresem i budżetem badań.

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 16

8

2008-10-07

Wstępne przetworzenie dokumentów

• Transformacja dokumentów do postaci tekstowej,

• Usunięcie znaków formatujących,

• Ujednolicenie sposobu kodowania znaków.

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 17

Reprezentacja informacji (1) – macierz częstości

• Zapamiętywany jest fakt lub liczba wystąpień danego słowa w dokumencie

• Pomija informację o kolejności słów

• Prowadzi do utworzenia macierzy częstości.

• Najbardziej rozpowszechniona – prosta i nie stwarzająca problemów obliczeniowych,

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 18

9

2008-10-07

Reprezentacja informacji (2) – reprezentacja listowa

• Poszczególne fragmenty dokumentu przechowywane są w postaci list.

• Zachowuje kolejność słów.

• Stwarza problemy obliczeniowe.

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 19

Reprezentacja informacji (3) – drzewa i grafy

• Reprezentacja oparta na strukturach drzewiastych i grafowych

• Pozwala na uwzględnienie zależności hierarchicznych (drzewa)

• Stanowi dogodne narzędzie do reprezentacji struktury gramatycznej

• Pozwala reprezentować związki pomiędzy elementami (graf tworzący sieć semantyczną)

• Stwarza problemy obliczeniowe

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 20

10

2008-10-07

Tworzenie macierzy częstości

• Podział dokumentów na wyrazy

• Usunięcie wyrazów nieistotnych

• Przekształcenie wyrazów do formy podstawowej

• Utworzenie macierzy częstości

• Przekształcenie macierzy częstości

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 21

Wyznaczanie macierzy częstości (1)

• Podział dokumentów na wyrazy

Mowa jest srebrem, lecz milczenie złotem.

↓

mowa

jest

srebrem

lecz

milczenie

złotem

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 22

11

2008-10-07

Wyznaczanie macierzy częstości (2)

• Usunięcie słów nieistotnych (stop-lista)

Mowa jest srebrem, lecz milczenie złotem.

↓

mowa

jest

srebrem

lecz

milczenie

złotem

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 23

Wyznaczanie macierzy częstości (3)

• Przekształcenie wyrazów do formy podstawowej (rdzenia) Mowa jest srebrem, lecz milczenie złotem.

↓

mowa - mowa

jest - być

srebrem - srebro

lecz - lecz

milczenie - milczenie

złotem - złoto

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 24

12

2008-10-07

Wyznaczanie macierzy częstości (4)

• Utworzenie wspólnej listy dla wszystkich dokumentów Milczenie - przyjaciel który, nigdy nie zdradza

Książka to przyjaciel, który nigdy nie zdradzi

książka, który, milczenie, nie, nigdy, przyjaciel, to, zdradzać Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 25

Wyznaczanie macierzy częstości (5)

• Utworzenie macierzy częstości

Dokumenty

x – liczba wystąpień i-tego

ij

wyrazu w j-tym dokumencie

X

X =

Wyrazy

Zwykle uwzględnia się

tylko te wyrazy,

które występują

przynajmniej w dwóch

dokumentach

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 26

13

2008-10-07

Modyfikacje macierzy częstości (1)

• Reprezentacja binarna

2 0 4 ... 4

1 0 1 ... 1

1 0 3 ... 0

bin

1 0 1 ... 0

X

bi

b n

i

X

X =

Xb =

... ... ... ...

... ... ... ...

0 1 2 ... 1

0 1 1 ... 1

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 27

Modyfikacje macierzy częstości (2)

• Reprezentacja logarytmiczna

2 0 .. 4

1,301 0,000 .. 1,602

1 0 .. 0

lo

l g

o

1,000 0.000 .. 0,000

X

X =

Xlog =

.. .. .. ..

.. .. .. ..

0 1 .. 2

0,000 1,000 .. 1,301

x →

ij

1 + log(xij)

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 28

14

2008-10-07

Modyfikacje macierzy częstości (3)

• Ważona reprezentacja logarytmiczna

Reprezentacja logarytmiczna

x →

ij

1 + log(xij)

WaŜona reprezentacja logarytmiczna

x →

ij

(1 + log(xij)) * log(N/dfi)

N - liczba wszystkich dokumentów

dfi - liczba dokumentów zawiejących i-ty wyraz Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 29

Modyfikacje macierzy częstości (4)

• Rozkład według wartości osobliwych

X = U S VT

X

=

U

S

VT

macierz U - wyrazy w przestrzeni wyznaczonej przez składowe macierz V - dokumenty w przestrzeni wyznaczonej przez składowe macierz S - macierz diagonalna, znaczenie kolejnych składowych Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 30

15

2008-10-07

Modyfikacje macierzy częstości (5)

• Rozkład według wartości osobliwych

X = U S VT

X

=

U

S

VT

współrzędne wyrazów: UrSr

współrzędne dokumentów: VrSr

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 31

Metody analizy macierzy częstości

• Metody taksonomiczne,

• Drzewa klasyfikacyjne i regresyjne,

• Sieci neuronowe,

• i inne ...

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 32

16

2008-10-07

Aforyzmy i przysłowia (1)

A.

Milczenie bywa wymowniejsze od mowy.

B.

Milczenie – przyjaciel, który nigdy nie zdradza.

C.

Często najmądrzejszą odpowiedzią jest milczenie.

D.

Mowa jest srebrem, lecz milczenie złotem.

E.

Mowa słodsza niż miód.

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 33

Aforyzmy i przysłowia (2)

F.

Trucizna prawdy jest lepsza od miodu kłamstwa.

G.

Milsza prawda niż przyjaciel.

H.

Książka jest przyjacielem, który nigdy nie oszukuje.

I.

Książka to przyjaciel, który nigdy nie zdradza.

J.

Kto znalazł przyjaciela, skarb znalazł.

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 34

17

2008-10-07

Aforyzmy i przysłowia (3)

K.

Nie ten przyjaciel, co cię chwali, ale ten, co ci prawdę powie.

L.

Pewnego przyjaciela poznaje się w niepewnym położeniu.

M. Pewnego przyjaciela poznaje się w sytuacji niepewnej.

N.

Ten przyjaciel, co prawdę mówi.

O.

Wierny bowiem przyjaciel potężną obroną, kto go znalazł, skarb znalazł.

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 35

Aforyzmy i przysłowia - waŜona reprezentacja logarytmiczna, bez redukcji do rdzenia Metoda Warda

Milczenie bywa wymowniejsze od mowy

Często najmądrzejszą odpowiedzią jest milczenie

Milsza prawda niŜ przyjaciel

Ten przyjaciel, co prawdę mówi

Mowa jest srebrem, lecz milczenie złotem

Mowa słodsza niŜ miód

Milczenie - przyjaciel, który nigdy nie zdradza

KsiąŜka to przyjaciel. który nigdy nie zdradzi

KsiąŜka jest przyjacielem, który nigdy nie oszukuje Nie ten przyjaciel, co cię chwali, ale ten, co ci prawdę mówi Trucizna prawdy jest lepsza od miodu kłamstwa

Pewnego przyjaciela poznaj się w niepewnym połozeniu Pewnego przyjaciela poznaje się w sytuacji niepewnej Kto znalazł przyjaciela, skarb znalazł

Wierny bowiem przyjaciel potęŜną obroną, kto go znalazł, skarb znalazł

3 4 5 6 7 8 9 0 111

Odległość

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 36

wiąz.

18

2008-10-07

Klasyfikacja wybranych utworów literatury polskiej (1)

• Adam Mickiewicz, Dziady III

• Juliusz Słowacki, Kordian

• Stanisław Wyspiański, Noc Listopadowa

• Stanisław Wyspiański, Wesele

• Bolesław Prus, Katarynka

• Henryk Sienkiewicz, Janko Muzykant

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 37

Klasyfikacja wybranych utworów literatury polskiej (2)

• Maria Konopnicka, Nasza Szkapa

• Gabriela Zapolska, Moralność Pani Dulskiej

• Adam Mickiewicz, Pan Tadeusz

• Henryk Sienkiewicz, Krzyżacy (t. I)

• Eliza Orzeszkowa, Nad Niemnem (t. I)

• Władysław Reymont, Chłopi (t. I)

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 38

19

2008-10-07

Klasyfikacja wybranych utworów literatury polskiej waŜona reprezentacja logarytmiczna, bez redukcji do rdzenia Metoda Warda

A. Mickiewicz, Dziady III

J. Słowacki, Kordian

S. Wyspiański, Noc Listopadowa

S. Wyspiański, Wesele

B. Prus, Katarynka

H. Sienkiewicz, Janko Muzykant

M. Konopnicka, Nasza szkapa

G. Zapolska, Moralność Pani Dulskiej

A. Mickiewicz, Pan Tadeusz

H. Sienkiewicz, KrzyŜacy, t. I

E. Orzeszkowa, Nad Niemnem, t. I

W. Reymont, Chłopi, t. I

0

20

40

60

80

100

120

Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 39

Odległość wiąz.

20