analiza skupien

background image

1

Segmentacja. Analiza skupień

Algorytm grupowania usiłuje podzielić cały zbiór danych na zgodne

podgrupy, przy czym podobieństwo rekordów wewnątrz grup jest

maksymalizowane, a podobieństwo do obiektów z poza grup

minimalizowane

Założenia

nie istnieją żadne warunki wstępne, na jakich musiałoby się opierać

postępowanie segmentacyjne

nie zakłada się żadnej informacji o właściwościach ani o liczbie grup

podział jest dokonywany w całości w oparciu o informację zawartą

w obiektach

background image

2

Możliwy cel grupowania:

Ekstrapolacja danych – ustalenie określonej struktury hierarchicznej

np. w postaci drzewa binarnego

Porównanie istniejącej typologii wynikającej z teorii (albo

wcześniejszych badań) z wynikami empirycznymi

Agregacja informacji w pojedynczych obiektach do poziomu grup.

Dzięki temu w dalszym etapie badań można się posługiwać grupami

– zamiast pojedynczymi obiektami

Metody hierarchiczne

Aglomeracyjne – punktem wyjścia jest sytuacja, gdzie każdy obiekt jest

osobnym skupieniem. Dalej oblicza się odległość między wszystkimi

obiektami i łączny dwa najbliższe. Cała procedura trwa, aż wszystkie

obiekty będą w jednym skupieniu

Podziałowe – (algorytm działa w przeciwnym kierunku). Punktem wyjścia

jest jedno skupienie, do którego należą wszystkie obiekty. W kolejnych

krokach tworzy się grupy obiektów najbardziej się różniących. W końcu

otrzymuje się pojedyncze obiekty

background image

3

Etapy działania

1.

Przekształcenie zmiennych – doprowadzenie zmiennych do

porównywalności – normalizacja.

Typowe metody przekształcania zmiennych

Standaryzacja. Cel: jest otrzymanie zmiennych o jednostkowym

odchyleniu standardowym

)

(

j

j

ij

ij

x

S

x

x

z

=

,

gdzie:

)

(x

S

- odchylenie standardowe,

__

x

średnia wartość zmiennej

Unitaryzacja. Cel: uzyskanie zmiennych o ujednoliconym zakresie

zmienności

{ }

{ }

{ }

ij

i

ij

i

ij

i

ij

ij

x

x

x

x

z

min

max

min

=

2.

Wybór miary podobieństwa, która pozwoli wyznaczyć macierz

odległości obiektów

Typowe miary odległości (podobieństwa)

Odległość euklidesowa

=

=

p

k

jk

ik

ij

x

x

d

1

2

)

(

Odległość Mińkowiskego

m

m

jk

p

k

iki

ij

x

x

d

1

1

)

|

|

(

=

=

Odległość miejska

=

=

p

k

jk

ik

ij

x

x

d

1

|

|

Odległość Mahalanobisa

∑∑

=

=

=

p

k

kl

jl

il

jk

ik

p

l

ij

s

x

x

x

x

d

1

1

)

)(

(

Odległość Czebyszewa

|}

{|

max

,...

1

jk

ik

p

k

ij

x

x

d

=

=

background image

4

3.

Wyznaczenie macierzy odległości

Wybór najmniejszej wartości w macierzy odległości i utworzenie

skupienia z jednostek, których ta najmniejsza odległość dotyczy.

Liczba obiektów w tym kroku zmniejszyła się z n do n-1.

4.

i kolejne kroki….

Ponowne wyznaczenie macierzy odległości dla zredukowanego – o

dokonane połączenie w kroku pierwszym – zbioru obiektów

Liczba obiektów zmniejsza się o kolejną jednostkę.

Po n-tym powtórzeniu wszystkie badane jednostki będą w jednej

grupie.

Metody wyznaczania kolejnych odległości

Metoda najbliższego sąsiedztwa

Metoda najdalszego sąsiedztwa

Metoda średniej

Metoda mediany

Metoda centroidalna

Metoda Warda

background image

5

Metoda najbliższego sąsiedztwa (pojedyncze wiązanie)

odległość między dwoma skupieniami to najmniejsza z odległości

pomiędzy ich elementami;

Metoda najdalszego sąsiedztwa (pełne wiązanie)

odległość między dwoma skupieniami to największa odległość

między ich elementami

Metoda średniej

Odległość między dwoma skupieniami – średnia z odległości między

jednostkami jednego i drugiego skupienia

Metoda mediany

Odległość między dwoma skupieniami – mediana z odległości

między jednostkami jednego i drugiego skupienia

Metoda centroidalna

W każdym kroku po utworzeniu skupienia wyznacza się nową

macierz odległości na podstawie uśrednionych wartości cech

(stanowiących kryteria segmentacji) tych jednostek, które połączono

w skupienia

Metoda Warda (preferowana)

Kryterium grupowania jednostek: minimum zróżnicowania wartości

cech, względem wartości średnich skupień tworzonych w kolejnych

krokach

Gdy powiększymy jedno ze skupisk, wówczas wariancja

wewnątrzgrupowa (liczona jako kwadraty odchyleń od średnich w

skupisku) rośnie; metoda polega na takiej fuzji skupisk, aby nastąpił

jak najmniejszy przyrost wariancji dla danej iteracji

background image

6

Metody optymalnego podziału. Metoda k – średnich

W ramach metody algorytm dzieli zbiór danych na ustaloną liczbę skupień

optymalizując pewne kryterium celu – np. podobieństwo wewnątrz skupień.

Etapy działania:

Ustalenie a priori docelowej liczby segmentów

Dla ustalonej liczby segmentów dokonuje się rozdziału jednostek

według wstępnie wybranych przedstawicieli każdego segmentu

Zasada rozdziału: kryterium najmniejszej odległości względem

wybranych przedstawicieli

Krok 1. Wybór przedstawicieli segmentów

Krok 2. Wyznaczenie środków ciężkości dla utworzonych skupień

Ś

rodki ciężkości – wartości średnie zmiennych, które stanowią

podstawę grupowania – wyznaczone dla tych jednostek, które tworzą

grupę

Krok 3. Określenie odległości każdej jednostki od wszystkich

wyznaczonych środków ciężkości. Skorygowanie składu grup

Po wykonaniu segmentacji należy ocenić jej jakość oraz

dokonać profilowania utworzonych klas


Wyszukiwarka

Podobne podstrony:

więcej podobnych podstron