Analiza skupień 2006

marcin.mazurek@wat.edu.pl 2006

Analiza skupień

Sformułowanie problemu

Analiza, której celem jest ułożenie obiektów w grupy w taki sposób, aby stopień powiązania

obiektów z obiektami należącymi do tej samej grupy był jak największy, a z obiektami z

pozostałych grup jak najmniejszy.

Analiza skupień jedynie wykrywa struktury w danych bez wyjaśniania dlaczego one

występują.

Podstawą grupowania w większosci algorytmów jest podobieństwo pomiędzy elementami -

wyrażone przy pomocy funkcji podobieństwa.

Przykłady zastosowań

Amerykańska armia wydawała zbyt dużo na utrzymanie pełnej „rozmiarówki” mundurów

dla kobiet. Postanowiono przeprowadzić badania, które wskazałyby czy nie ma grup
„rozmiarowych” wśród kobiet, tak że w magazynie można będzie przechowywać wyłącznie
mundury o rozmiarze charakterystycznym dla każdej z grup.
(Berry, Linoff, 1997)

podział wszystkich gwiazd na białe karły, czerwone giganty oraz główną grupę

segmentacja klientów w banku na podstawie sposobu użycia kart kredytowych – według
rodzaju dokonywanych zakupów, ilości wydawanych pieniędzy, częstości używania karty,
miejsca zamieszkania.

zidentyfikowane grupy mogą być przydatne dla celów marketingowych- odpowiednie

materiały reklamowe.

Metryki (miara odległości)

Odległość pomiędzy dwoma punktami x,y w n-wymiarowej
przestrzeni:

- miara Euklidesowa

∑

−

)

(

)

(

- miara w przestrzeni ulicznej

∑

−

)

(

- miara Minkovskego

(

)

(















−

∑

Dla p=2 miara Minkovskego jest metryką Euklidesową, dla
p=1 uliczną

Miara podobieństwa wektorów binarnych

Niech dane będą dwa n-wymiarowe binarne wektory x o raz y.
x

∈

{0,1} i=1.n

∈

{0,1} i=1.n

a – liczba atrybutów, dla których x

=1 oraz y

b – liczba atrybutów, dla których x

=0 oraz y

c – liczba atrybutów, dla których x

=1 oraz y

d – liczba atrybutów, dla których x

=0 oraz y

Miary podobieństwa pomiędzy dwoma punktami opisanymi w n-wymiarowej przestrzeni cechami binarnymi.

- Simple Matching Coefiicient (SMC)

SMC

)

(

- Jacard Coefficient

)

(

- Rao’s Cofficient

)

(

Miara podobieństwa wektorów binarnych

Przykład:

Niech będą dane dwa wektory w 8 wymiarowej przestrzeni:
x=[0,0,1,1,0,1,0,1];
y=[0,1,1,0,0,1,0,0]

Elementy macierzy koincydencji wynoszą odpowiednio:

a = 2

(gdyż wektory są zgodne na 2 pozycjach: dla i=3 oraz i=6)

b = 1

( tylko na pozycji i=2 y przyjmuje wartość 1 a x 0)

c = 2

(dla i=4 oraz i=8)

d = 3

(dla i=1, 5, oraz 7 zarówno x jak i y mają składowe równe 0).

SMC

= 5 / 8

= 2 / 5

= 2 / 8

Inne miary

Mutual Neighbor Distance (MND)

MND (x,y) = NN(x,y) + NN(y,x).

NN(x,y) – kolejność sąsiedztwa x w odniesieniu do y. Jeżeli x jest jest najbliższym sąsiadem y, NN(x,y)=1,
jeżeli drugim w kolejności NN(x,y)=2, itd...

Przykład:

MND(A,B) = NN(B,A) + NN(A,B)
NN(A, B) = 1
NN(B,A) = 1
MND (A,B) = 2

MND(B,C) = NN(B,C) + NN(C,B)
NN(B,C) = 1
NN(C,B) = 2
MND(B,C) = 3

MND(A,C) = NN(A,C) + NN(C,A)
NN(A,C) = 2
NN(C,A) = 2
MND(A,C) = 4

Algorytmy wyznaczania skupień

Algorytmy hierarchiczne

grupowania, aglomeracyjne (

agglomerative

)

Każdy punkt wyznacza oddzielne skupienie, w kolejnych krokach łączymy
najbliższe skupienia.

podziału, rozdzielające (

divisible

)

Wszystkie punkty należą do tego samego skupienia, w kolejnych krokach
dokonujemy podziału na mniejsze skupienia. Algorytm powtarzamy dla
każdego z otrzymanych po podziale skupień.

Metody rozdzielające są bardziej wymagające obliczeniowo i są stosowane
w węższym zakresie niż metody aglomeracyjne.

Algorytmy niehierarchiczne

algorytm k-średnich

Odległości skupień

Funkcje oceny

T – suma kwadratów odległości
między parami punktów próby.

WC – suma kwadratów odległości
pomiędzy parami punktów
należących do tego samego
skupienia

BC – suma kwadratów odległości
pomiędzy parami punktów
należących do różnych skupień.

T = const , (W →min) (B → max)

m – środki skupień (średnie
wektorowe)

Bezpośrednie rozwiązania zadania
optymalizacji jest niemożliwe ze
względu na złożoność obliczeniową!
Liczba możliwych podziałów zbioru k
elementów na K grup:

Zadanie pochodne – minimalizacja
sumy W

RMSSTD (root-mean-square standard

deviation)

(

)

(

)

(

)

(

)

(

)

(

)

i C

j C

i C

j C

i C

∈

∉

∈

⋅

∑∑

∑ ∑ ∑

∑

∑ ∑

∑

∑ ∑

∑

x x

x m

( )

K k

−





−









∑

(

)

RMSSTD

−

Hierarchiczne grupowanie

Mając daną macierz odległości pomiędzy skupieniami
wyznacza się parę skupień najmniej odległych od siebie.

Znalezione skupienia łączy się w jedno.

Wyznacza się odległości wszystkich pozostałych skupień do
nowo utworzonego skupienia.

Powyższe operacje powtarza się aż do chwili, kiedy wszystkie
obiekty utworzą jedno skupienie.

Modyfikacja macierzy odległości

P,Q łączone skupienia –
P powiększane jest o wszystkie elementy z Q

J – skupienie dla którego wyznaczmy zmodyfikowaną odległość

– liczba elementów należących do skupienia P

– liczba elementów należących do skupienia Q

– liczba elementów należących do skupienia J

Reguła aktualizacji odległości Lance-Williams:

−

Wyznaczanie odległości skupień

Odmienność najbliższego sąsiada (single linkage) -> efekt
łańcuchowy

Odmienność najdalszego sąsiada (complete linkage)-> skupienia
kuliste

Average

Median, centroid, Ward

wymagają istnienia tabeli z danymi, a nie tylko macierzy odległości

skupienia mogą być reprezentowane przez ich środek.

Wyznaczanie odległości skupień

Metoda

Opis

najdalsze
sąsiedztwo

complete linkage

Największa odległość spośród wszystkich
odległości między punktami należącymi do
różnych skupień

0,5

max{d

}

najbliższe
sąsiedztwo

single linkage

Najmniejsza odległość spośród wszystkich
odległości między punktami należącymi do
różnych skupień

0,5

-0,5

min{d

}

mediana

median linkage

odległość środkowa ze wszystkich odległości
pomiędzy punktami należącymi do różnych
skupień.

0,5

-0,25

0,5d

+0,5d

0,25d

rednia

grupowa

Weighted
average linkage

rednia arytmetyczna wyznaczona ze

wszystkich odległości elementów tworzących
te skupienia

⋅

rodek

cieżkości

centroid linkage

różnica odległości środków ciężkości

(

)

⋅

−

Ward

Minimalizacja wariancji wewnątrz skupień

−

Przykład

Założenie:
- metryka Euklidesowa
- metoda najbliższe sąsiedztwa

Skupienie

Q1 {X1}

Q2 {X2}

Q3 {X3}

2,23

Q4 {X4}

5,39

Q5 {X5}

5,39

4,47

Skupienie

Q1 {X1,X3}

Q2 {X2}

Q4 {X4}

5,39

Q5 {X5}

4,47

Skupienie

Q1 {X1,X2,X3}

Q4 {X4}

Q5 {X5}

4,47

Skupienie

Q1 {X1,X2,X3}

Q4 {X4. X5}

Dendrogram :

Hierarchiczny podział

Wybór skupienia do podziału:

każde skupienie jest dzielone (pełne drzewo binarne)

dzielone jest skupienie o największej liczbie elementów

dzielone jest skupienie o największym rozrzucie elementów

Dla każdego istniejącego obiektu wyznacza się parę
najbardziej odległych od siebie obiektów, a następnie pośród
par wybiera się tę, dla której odległość jest największa.

Skupienie dzieli się na dwa, tak by obiekty z wyznaczonej
pary trafiły od różnych skupień

Rozdziela się pozostałe z obiektów ze skupienia do jednego z
dwóch powstałych skupień.

Operacje powyższe powtarza się aż do momentu otrzymania
liczby skupień równej liczbie obiektów.

Metody rozdziału (divisive algorithms)

Należy przydzielić punkt X do jednego ze
skupień C1, C2.. CN

W każdym utworzonym skupieniu
wyszukujemy punkt najbardziej oddalony
od punktu X. Punkt X zostaje przydzielony
do tego skupienia, w którym odległość do
znalezionego punktu jest najmniejsza.

W każdym istniejącym skupieniu
wyszukujemy punkty leżące najbliżej X.
Punkt X zostaje przydzielony od tego
skupienia, w którym odległość jest
najmniejsza.

Niehierarchiczne algorytmy

Algorytm k-średnich (k-means), [Forgy 1965]

Inicjalny (losowy) podział całej próbki na K podzbiorów.

Generacja nowego podziału w oparciu o przyporządkowanie każdego
punktu do „najbliższego” skupienia

Wyliczenie środków nowych skupień

Iteracyjne powtórzenie kroków 2 i 3 aż do momentu, kiedy
osiągniemy ekstremum funkcji kryterium bądź nie będzie zmian w
przyporządkowaniu elementów do skupień.

Przykład

K = 2 - liczba skupień

Początkowy przydział punktów do skupień (wygenerowany losowo):

C

= { X1, X3, X5}

= { X2, X4}

rodki ciężkości skupień:

















































Wariancje wewnątrz skupień:

(

)

(

)

(

)

d X M

(

)

(

)

(1 3)

2 3

6 3

16, 67













−

























(

)

(

)

d X M

(

)

(

)

(1 3 )

3 2

1 3

6 2

14,5





−









Całkowita wariancja wewnątrzskupieniowa:

31,17

Zmiana przydziału obiektów od skupień na podstawie ich odległości od środków ciężkości skupień:

(3 , 5/3 )

(3.5 , 2 )

(1,1)

d(X

, M

)=2,1

d(X

, M

)=2,69

∈

(1,3)

d(X

, M

)=2,4

d(X

, M

)=2,69

∈

(2,1)

d(X

, M

)=1,2

d(X

, M

)=1,80

∈

(6,1)

d(X

, M

)=3,07

d(X

, M

)=2,69

∈

(6,3)

d(X

, M

)=3,28

d(X

, M

)=2,69

∈

Kolejna iteracja:

Przydział punktów do skupień
C

= { X1, X2, X3 }

= { X4, X5}

rodki ciężkości skupień:





































(

)

Wariancje wewnątrz skupień:

(

)

(

)

(

)

3,33

d X M

(

)

(

)

d X M

Całkowita wariancja wewnątrzskupieniowa:

5,33

Zmiana przydziału obiektów od skupień na podstawie ich odległości od środków ciężkości skupień:

(4/3 , 5/3 )

(6, 2 )

(1,1)

d(X

, M

)=0,74

d(X

, M

)=5,10

∈

(1,3)

d(X

, M

)=1,37

d(X

, M

)=5,10

∈

(2,1)

d(X

, M

)=0,94

d(X

, M

)=4,12

∈

(6,1)

d(X

, M

)=4,71

d(X

, M

)=1

∈

(6,3)

d(X

, M

)=4,84

d(X

, M

)=1

∈

Zadanie 1

Mając dany zbiór obserwacji:

X1 = {1, 0},

X2 = {0, 1},

X3 = {2, 1},

X4 = {3, 3},

zgrupowanych inicjalnie w dwa skupienia:

C1 = {X1, X3}

C2 = {X2, X4}.

Wykonaj pierwszą iterację algorytmu K-means. Wyznacz nowe środki

skupień?

O ile zmieniła się wariancja wewnątrz skupień W ?

Wykonaj drugą iterację algorytmu.

Literatura

Hand David, Mannila Heikki, Smyth Padhraic „Eksploracja
danych”, WNT 2005

Mehmed Kantardzic „Data Mining: Concepts, Models,
Methods, and Algorithm” Wiley & Sons 2003

Jacek Koronacki, Jan Ćwik „Statystyczne systemy uczące
się”, WNT 2005

Wyszukiwarka

Podobne podstrony:
Analiza mechanizmu 2006
analiza skupien id 61367 Nieznany
L2 analiza skupień klucz
Analiza asocjacji 2006
analiza skupien
L2 analiza skupień
analiza skupien
Analiza skupień - podręcznik internetowy, Technika Rolnicza, Metody taksonometrii
Analiza mechanizmu 2006
Trizna I Taro kak sistema analiza i vozdeystviya 2006
Algorytmy analizy skupien e 0c47
Robert Roczniok Zastosowanie analizy skupień w procesie naboru do pływania sportowego

więcej podobnych podstron