background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Wykład 5

Rozpoznawanie wzorców

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

2

Struktura wykładu:

• Metody grupowania

• Analiza skupień

• Analiza asocjacji i sekwencji

• Statystyka opisowa 

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

3

Metody grupowania

Grupowanie pod nadzorem

Grupowanie bez nadzoru

Dana jest jednoznacznie określona 
zmienna celu.

Nie istnieje jednoznacznie 
określona zmienna celu. 
Algorytm eksploracji danych 
poszukuje wzorców i struktur 
wśród wszystkich zmiennych.

• Drzewa decyzyjne
• Regresja logistyczna
• Metoda k-najbliższych sąsiadów

• Metoda k-śrenich
• Metoda SOM – Kohonena

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Metody grupowania – inny podział

1.

Metody hierarchiczne:

Skupienia tworzą drzewa binarne i w ten sposób uzyskiwana jest hierarchia 
tj. jedne skupienia są zawarte w drugich. 

Uwzględniając kryterium rozpoczęcia procesu grupowania wyróżniamy: 
metody aglomeracyjne i metody podziałowe. 

Ze względu na sposób wyznaczania odległości między skupieniami 
najczęściej spotykane metody aglomeracyjne to: najbliższego sąsiedztwa, 
najdalszego sąsiedztwa, mediany, środka ciężkości, średniej odległości 
wewnątrz skupień, średniej odległości między skupieniami, minimalnej 

wariancji Warda.

2.

Metody optymalizacyjno-iteracyjne:

Wymagają wstępnego podziału zbioru obiektów na określona liczbę
podzbiorów. Wybrany sposób podziału jest iteracyjnie modyfikowany. 
Np. metoda k-średnich. 

3.

Metody obszarowe:

Przestrzeń grupowania jest dzielona na rozłączne obszary a obiekty 
znajdujące się w otrzymanych obszarach tworzą grupy.

4.

Inne metody

4

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

5

Grupowanie – analiza skupień

Grupa, skupienie (cluster) – zbiór obiektów, które są podobne 

do siebie nawzajem i niepodobne do obiektów z innych grup.

Grupowanie (clustering) – oznacza grupowanie obserwacji (rekordów) 

w klasy (grupy) podobnych obiektów.

Zmienność pomiędzy grupami (between-cluster variation, BCV

Zmienność wewnątrz grupy (within-cluster variation, WCV

Analiza skupień (cluster analysis) – grupowanie bez nadzoru, ma za 

cel wykrycie w zbiorze obserwacji skupień, czyli grup.

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Liczba grup (skupień)

Dwa skupienia

Dwa lub cztery skupienia

6

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Algorytm k-średnich

1.

Określamy na ile grup (k) zbiór danych ma zostać podzielony.

2.

Losowo wybieramy rekordów (obserwacji) jako początkowe 
ś

rodki grup.

3.

Dla każdego rekordu znajdujemy najbliższy środek grupy, 
wyznaczając w ten sposób podział zbioru na grup.

4.

Dla każdej z grup wyznaczamy centroid grupy i aktualizujemy 
położenie każdego środka grupy jako nową wartość centroidu.

5.

Powtarzamy punkty od 3 do 5 aż do osiągnięcia określonego 
warunku stopu.

7

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Algorytm k-średnich – warunek stopu

Algorytm k-średnich kończy działanie, gdy centroidy już się nie 
zmieniają.

Algorytm może skończyć działanie, gdy zostanie spełnione pewne 
kryterium zbieżności, np. brak istotnego zmniejszania 
sumarycznego błędu kwadratowego:

grupy

centroid i-tej grupy

punkt danych z i-tej grupy

(

)

=

=

i

C

p

i

k

i

m

p

d

2

1

,

SSE

i

C

i

m

i

C

p

8

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

9

Metoda k-średnich - przykład

Przypuścimy, że mamy 
zbiór punktów danych 
w dwuwymiarowej 
przestrzeni.

Jesteśmy zainteresowani 
odkryciem np. trzech grup.

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

10

Metoda k-średnich - przykład

Wybieramy k=3 elementów, które 
traktujemy jako potencjalne 
ś

rednie (środki) skupień.

Wszystkie pozostałe elementy 
są przydzielane do  skupienia, 
którego środek jest mu 
najbliższy.

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

11

Metoda k-średnich - przykład

W każdym ze skupień na nowo 
wyznaczany jest centroid 
(średnia, środek) i powtarzany 
jest ostatni krok.

Algorytm kończy swoje działanie, 
jeśli w danym kroku nie zostanie 
zmienione przypisanie żadnego 
z punktów.

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Charakterystyka obiektów

Badane obiekty tworzą skończony zbiór (populacja lub próba wylosowana 
z populacji).

Każdy obiekt opisany jest przez pewien zestaw zmiennych przyjmujących 
wartości liczbowe.

Obiekt opisany przez zmienne                         przedstawiamy jako punkt                                

n-wymiarowej przestrzeni. 

Zbiór punktów jest reprezentowany w przestrzeni wielowymiarowej 
zwanej przestrzenią grupowania.

UWAGA: Metody wykorzystywane w analizie skupień dają możliwość uwzględnienia 

dużej ilości zmiennych, ale nie dostarczają żadnych wskazówek, które zmienne 
należy wybrać.

n

X

X

X

,

,

,

2

1

K

(

)

n

x

x

x

x

,

,

,

2

1

K

=

12

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

13

Wyznaczanie odległości

Dla większego wymiaru:

Metryka euklidesowa

Metryka taksówkowa

(

)

2

1

y

y

y

=

(

)

2

1

x

x

x

=

(

)

(

)

(

)

2

2

2

2

1

1

,

y

x

y

x

y

x

d

e

+

=

(

)

2

2

1

1

,

y

x

y

x

y

x

d

t

+

=

(

)

2

1

y

y

y

=

(

)

2

1

x

x

x

=

(

)

(

)

=

i

i

i

e

y

x

y

x

d

2

,

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

14

Pułapka wymuszonego grupowania przykład

W metodzie k-średnich istnieje ryzyko złego doboru liczby skupień.

Przykład 1
Analizie poddano zakupy mydła przez klientów: wyróżniono dwie zmienne: 
cena za sztukę i liczba sztuk.

Podział na 2 grupy (k-średnich)

Faktyczna liczba grup klientów = 3

cena

L

ic

z

b

a

 s

z

tu

k

cena

L

ic

z

b

a

 s

z

tu

k

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Metoda SOM – sieci Kohonena

Sieci samoorganizujące (Self Organization Maps, SOM) stanowią

klasę sieci neuronowych bez warstwy ukrytej.

Szczególnym przypadkiem sieci samoorganizujących są

sieci 

Kohonena.

Sieci samoorganizujące:

Przekształcają złożone, wielowymiarowe sygnały wejściowe 
w prostsze, mniej wymiarowe odwzorowania. 

Neurony położone bliżej siebie są bardziej podobne do siebie 
niż do innych neuronów znajdujących się dalej.

15

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Procesy sieci samoorganizujących

1.

Rywalizacja: neurony wyjściowe rywalizują ze sobą, by uzyskać
najlepszą wartość odległości np. euklidesowej. Węzeł wyjściowy 
z najmniejszą odległością euklidesową pomiędzy danymi 
wejściowymi a wagami zostaje zwycięzcą.

2.

Współdziałanie: pobudzany jest neuron wygrywający oraz inne 
neurony z nim sąsiadujące.

3.

Adaptacja: wszystkie neurony z sąsiedztwa neuronu 
wygrywającego uczestniczą w adaptacji czyli uczeniu. Wagi ich są
tak dopasowywane, aby neurony te miały większe szanse 
na ponowne wygranie rywalizacji w przypadku podobnego rekordu.

16

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Sieci Kohonena - przykład

Przykład 2

Rozważmy zbiór danych, w którym każdy rekord (obserwacja) jest opisany przez 

10 zmiennych, zatem mamy dziesięciowymiarowy wektor wejściowy.

Załóżmy, że chcemy użyć sieci Kohonena o rozmiarze 5 x 5.

Każdy neuron jest również opisany przez dziesięciowymiarowy wektor wag.

W procesie uczenia sieci wagi są modyfikowane. 

i-ty rekord

sieć

1

i

x

2

i

x

10

i

x

M

17

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Sieci Kohonena

Z wykorzystaniem odpowiedniego odwzorowania każda obserwacja 
otrzymuje swoją reprezentację w siatce neuronów (punktów).

Ponieważ każda kratka w siatce odpowiada jednemu skupieniu, 
zatem liczba obserwacji (rekordów) musi być większa niż liczba 
zadeklarowanych węzłów w siatce.

sąsiad

najbliższy 
sąsiad

sąsiad

sąsiad

Reprezentacja 
obserwacji na siatce

18

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Sieci Kohonena

Każdy neuron jest zdefiniowany przez wektor wag i lokalizację w siatce.

W procesie budowy sieci wagi neuronów są modyfikowane.

Wektory wag podążają w stronę punktów centralnych skupień danych.

Obszar utworzony przez neurony, w którym znajduje się dana 
obserwacja jest następnie zacieśniany.

Proces jest kontynuowany dla wszystkich pozostałych obserwacji. 

19

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Sieci Kohonena

Ostatecznie otrzymujemy siatkę z neuronami odzwierciedlającymi 

skupienia. 

Sąsiadujące neurony reprezentują grupy rekordów o zbliżonych 

cechach.

Na rysunku większe natężenie koloru odpowiada większej liczności 

danego skupienia.

20

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Metoda k-średnich i metoda SOM – Kohonena

Przed wykorzystaniem obu metod grupowania bez nadzoru należy 
dokonać normalizacji/standaryzacji danych.

( )

( )

( )

( )

( )

X

X

X

X

X

X

X

X

min

max

min

zakres

min

*

=

=

21

( )

( )

X

X

X

X

σ

ś

rednia

*

=

Normalizacja:

Standaryzacja:

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

22

Analiza asocjacji

Analiza asocjacji zajmuje się badaniem związków między 
zachodzeniem pewnych wydarzeń lub istnieniem cech

Analiza asocjacji kryje się również pod nazwą „analiza koszykowa 
(koszyka sklepowego)” (market basket analysis), daje ona możliwość
znajdowania odpowiedzi m.in. na pytanie:

„Czy jeśli klient kupi produkt A, to czy kupi również produkt B? ”

A

B

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Reguły asocjacyjne

Regułą asocjacyjną nazwiemy każdą implikację: A

B

„ Jeśli poprzednik, to następnik”.

Odpowiednie miary wyznaczają jakość takiej reguły asocjacyjnej.

Liczba możliwych reguł asocjacyjnych rośnie wykładniczo wraz 
ze wzrostem liczby atrybutów. Dla atrybutów binarnych liczba 
możliwych reguł asocjacyjnych wynosi:            , dla 10 rodzajów 
różnych usług (artykułów) mamy                        

Do odkrywania reguł asocjacyjnych wykorzystywany jest

algorytm 

a priori, który daje możliwość zredukowania przedstawionego 
problemu do mniejszego wymiaru.

1

2

k

k

5120

2

10

9

=

23

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Prezentacja danych w analizie koszykowej

Transakcja

Artykuł

1

1

1

1

2

2

2

A

B

D

E

A

B

C

24

Transakcja

A

B

C

D

E

1

2

3

4

5

6

7

8

1

1

1

1

0

0

1

1

1

1

0

1

1

0

0

1

0

1

1

1

1

1

0

1

1

0

0

0

1

1

0

0

1

0

1

0

1

0

1

1

M

M

Transakcyjny format danych

Macierzowy format danych

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

25

Reguły asocjacyjne (A       B)

Podstawowe miary w analizie asocjacji:

Wsparcie (Support)

(suma transakcji zawierających produkt A i B)

(suma wszystkich transakcji )

Zaufanie (Confidence)

(suma transakcji zawierających produkt A i B)

(suma transakcji zawierających produkt A)

Oczekiwane zaufanie (Expected Confidence)

(suma transakcji zawierających produkt B)

(suma wszystkich transakcji )

Korelacja asocjacyjna (Lift)

Zaufanie

Oczekiwane zaufanie

(

)

=

∩ B

A

P

(

)

(

)

( )

=

=

A

P

B

A

P

A

B

P

|

( )

=

B

P

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

26

Reguły asocjacyjne – przykład 

Przykład 3
Zbadamy na podstawie poniższych danych, czy istniej reguła asocjacyjna 
łącząca dwie usługi ubezpieczeń samochodowych: 
ubezpieczenie NW i AC.

AC → NW
Support = 50%
Confidence = 75%
Expected Confidence = 77,8%
Lift = 0,75/0,778 = 0.96 < 1                         brak zależności

500        2500

1500      4500

NW

Tak

AC

Nie

Tak

Nie

3000

6000

9000

2000

7000

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

27

Reguły asocjacyjne – przykład

Przykład 4
Zbadamy na podstawie poniższych danych, czy istniej reguła asocjacyjna 
łącząca dwie usługi ubezpieczeń: samochodowe ubezpieczenie AC 
i ubezpieczenie domu.

AC → Dom
Support = 50%
Confidence = 64%
Expected Confidence = 57%
Lift = 0,64/0,57 = 1,12>1                        badana reguła jest prawdziwa

1000      500

2000      3500

Dom

Tak

AC

Nie

Tak

Nie

1500

5500

7000

3000

4000

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

28

Prawdziwa reguła asocjacyjna

Przykład 4 c.d.

Proponowane działania marketingowe maksymalizujące zysk ze 

sprzedaży obu usług: ubezpieczenia AC i ubezpieczenia domu:

zakwalifikować każdy z produktów do różnych pakietów

nie reklamować jednocześnie obu produktów

do sprzedaży obu tych produktów dołączyć inny słabo sprzedawany 
produkt

podnieść cenę jednego produktu obniżyć cenę drugiego

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Odkrywanie reguł asocjacyjnych

Częstość zbioru zdarzeń – liczba transakcji zawierająca dany zbiór 

zdarzeń.

Zbiór częsty – zbiór zdarzeń, który występuje przynajmniej pewną

minimalna liczbę razy, czyli z określoną częstością

Odkrywanie reguł asocjacyjnych:

1. Należy znaleźć wszystkie zbiory częste.

2. Na podstawie zbiorów częstych należy wyznaczyć reguły 

asocjacyjne, spełniające warunek minimalnego wsparcia i zaufania.

Własność a priori w analizie asocjacji – jeśli zbiór zdarzeń nie jest 

częsty, to dodanie dowolnego artykułu 

do tego zbioru nie 

spowoduje tego, że zbiór ten będzie zbiorem częstym.

29

φ

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

Tworzenie reguł asocjacyjnych

Tworzenie reguł asocjacyjnych za pomocą częstych zbiorów zdarzeń:
1. Utworzyć niepuste podzbiory częstego zbioru zdarzeń. 
2. Przeanalizować regułę asocjacyjną:

niepusty podzbiór częstego zbioru zdarzeń
częsty zbiór zdarzeń bez uwzględnionego podzbioru

3. Rozważ wszystkie reguły asocjacyjne dla wszystkich podzbiorów 

częstego zbioru zdarzeń. 

Przykład 5
Przyjmijmy następujący zbiór częsty trzyelementowy: {A, B, C}.
Właściwe podzbiory: {A}, {B}, {C}, {A, B}, {A, C}, {B, C}.
Reguły asocjacyjne: 
{A}           {B, C}
{B}           {A, C}
{C}           {A, B}
{A, B}         {C}
{A, C}         {B}
{B, C}         {A}

30





background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

31

Schemat analizy asocjacji w SAS Enterprise Miner

Diagram gwiaździsty

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

32

Analiza sekwencji

Analiza sekwencji – analiza asocjacji uwzględniająca wymiar czasowy

Analizujemy dane zawierające informacje o zdarzeniach, które wystąpiły 

w określonym przedziale w czasie.

Analiza sekwencji daje ona możliwość znajdowania odpowiedzi m.in. 

Na pytanie:

„Czy jeśli klient kupił produkt w ubiegłym miesiącu, to czy kupi 
również produkt w tym miesiącu? ”

• Wymaga uwzględnienia w modelu dodatkowej zmiennej czasowej.

background image

DATA MINING  – nr przedmiotu 233100-0997

Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH

dr Wioletta Grzenda

33

Dziękuję za uwagę !