Tablica 4.1. Harmonogram skupiania
Agglomeration Schedule
Stage |
Cluster C |
ombined |
Coefficients |
Stage Cluster First Appears | ||
Cluster 1 |
Cluster 2 |
Cluster 1 |
Cluster 2 | |||
i |
5 |
6 |
1,000 |
0 |
0 |
3 |
2 |
3 |
4 |
1,250 |
0 |
0 |
5 |
3 |
5 |
7 |
2,000 |
1 |
0 |
5 |
4 |
1 |
2 |
5,000 |
0 |
0 |
6 |
5 |
3 |
5 |
6,250 |
2 |
3 |
6 |
6 |
1 |
3 |
10,000 |
4 |
5 |
0 |
Źródło: obliczenia własne
Z tablicy można odczytać, które skupienia są łączone w danym kroku (Cluster Combined), ile wynosi współczynnik skupiania (Coefficients), kiedy pojedynczy obiekt wchodzi po raz pierwszy do skupienia (0 w kolumnie Stage Cluster First Appears), w którym kroku skupienie będzie następny raz łączone (Next Stage).
Procedury hierarchiczne nie rozstrzygają w jednoznaczny sposób, w którym miejscu należy przerwać proces łączenia (dzielenia) skupień tzn. jaką liczbę grup uznać za najlepszą. SPSS pozwala utworzyć nowe zmienne określające przynależność obiektów do grup, ale musimy tu a priori określić pożądaną liczbę grup. Jeżeli celem analizy jest grupowanie, to zaleca się po wykonaniu wstępnego przebiegu algorytmu i obejrzeniu dendrogramu odcinać najdłuższe gałęzie drzewa. Można wykorzystać informację o współczynnikach skupiania. zawartą w powyższej tablicy (Coefficients) i analizując zmiany tych współczynników w kolejnych krokach aglomeracji [Hair i in., 1995]. Ilorazy sąsiednich współczynników aynoszą: 1,25 1,60 2,50 1,25 1.60. Największa zmiana (2,50) jest zaobserwowana przy przejściu z kroku 3 do kroku 4, co oznacza, że 4 grupy jest wielkością optymalną.
Metody optymalizacyjno-iteracyjm*
Punktem wyjścia metod optymalizacyjna-Ueracyjnych jest wstępny podział zbioru obiektów na k grup. Zadaniem tych metod jest poprawianie w kolejnych iteracjach wstępnego podziału z punktu widzenia pewnej zdefiniowanej funkcji kryterium. Nie jest ustalona hierarchia skupień, a obiekty mogą w kolejnych iteracjach przechodzić z jednej grupy do innej. Do najbardziej znanych metod optymalizacyjno-iteracyjnych należą metody: k-średnich, k-centroidów, Forgy-Jancey*a, Wisharta, Thomdike'a [Grabiński. 1992]. Tutaj opiszemy dokładniej metodę k-średnich (k-Means), która jest najpowszechniej realizowana przez procedury zawarte w programach statystycznych