63163 P3200034

Tablica 4.1. Harmonogram skupiania

Agglomeration Schedule

Stage	Cluster C	ombined	Coefficients	Stage Cluster First Appears
Stage	Cluster 1	Cluster 2	Coefficients	Cluster 1	Cluster 2
i	5	6	1,000	0	0	3
2	3	4	1,250	0	0	5
3	5	7	2,000	1	0	5
4	1	2	5,000	0	0	6
5	3	5	6,250	2	3	6
6	1	3	10,000	⁴	5	0

Źródło: obliczenia własne

Z tablicy można odczytać, które skupienia są łączone w danym kroku (Cluster Combined), ile wynosi współczynnik skupiania (Coefficients), kiedy pojedynczy obiekt wchodzi po raz pierwszy do skupienia (0 w kolumnie Stage Cluster First Appears), w którym kroku skupienie będzie następny raz łączone (Next Stage).

Procedury hierarchiczne nie rozstrzygają w jednoznaczny sposób, w którym miejscu należy przerwać proces łączenia (dzielenia) skupień tzn. jaką liczbę grup uznać za najlepszą. SPSS pozwala utworzyć nowe zmienne określające przynależność obiektów do grup, ale musimy tu a priori określić pożądaną liczbę grup. Jeżeli celem analizy jest grupowanie, to zaleca się po wykonaniu wstępnego przebiegu algorytmu i obejrzeniu dendrogramu odcinać najdłuższe gałęzie drzewa. Można wykorzystać informację o współczynnikach skupiania. zawartą w powyższej tablicy (Coefficients) i analizując zmiany tych współczynników w kolejnych krokach aglomeracji [Hair i in., 1995]. Ilorazy sąsiednich współczynników aynoszą: 1,25 1,60 2,50 1,25 1.60. Największa zmiana (2,50) jest zaobserwowana przy przejściu z kroku 3 do kroku 4, co oznacza, że 4 grupy jest wielkością optymalną.

Metody optymalizacyjno-iteracyjm*

Punktem wyjścia metod optymalizacyjna-Ueracyjnych jest wstępny podział zbioru obiektów na k grup. Zadaniem tych metod jest poprawianie w kolejnych iteracjach wstępnego podziału z punktu widzenia pewnej zdefiniowanej funkcji kryterium. Nie jest ustalona hierarchia skupień, a obiekty mogą w kolejnych iteracjach przechodzić z jednej grupy do innej. Do najbardziej znanych metod optymalizacyjno-iteracyjnych należą metody: k-średnich, k-centroidów, Forgy-Jancey*a, Wisharta, Thomdike'a [Grabiński. 1992]. Tutaj opiszemy dokładniej metodę k-średnich (k-Means), która jest najpowszechniej realizowana przez procedury zawarte w programach statystycznych

Wyszukiwarka