272
4. Analiza skupień
4.6.5. Metoda centroidalna
Istota metody centroidalnej lub środka ciężkości (ang. centroid linkagey4 polega na tym, że do określenia odległości między skupieniami wykorzystuje się ich punkty ciężkości, czyli centroidy, którymi są punkty o współrzędnych równych średnim wartościom cech wszystkich obiektów w poszczególnych skupieniach (rysunek 4.11). Algebraicznie reprezentują je wektory średnich.
Rysunek 4.11. Ilustracja istoty metody centroidalnej (źródło: Pielou, 1984)
Dla dwóch skupień r i 5 są to wektory x f oraz x,. Na poszczególnych etapach łączone są dwa skupienia o najbardziej zbliżonych centroidach. Nowe skupienie p=rUs będzie miało środek ciężkości, który jest średnią ważoną centroidów dwóch łączonych skupień
xp =(nrxr + nfxt)/(nr + nt) (4.99)
Ze względu na to, że każde skupienie w metodzie centroidalnej jest reprezentowane przez dokładnie wyspecyfikowany punkt, ma ona przejrzystą geometryczną wizualizację. Odległość między dwoma skupieniami jest łatwo identyfi-kowalna, jest to odległość miedzy punktami ciężkości. Takiej jasnej geometrycznej interpretacji odległości między skupieniami nie ma metoda średniego połączenia.
Metoda środka ciężkości ma jednak tę niekorzystną cechę, że jeśli liczebności dwóch łączonych grup są bardzo różne, to centroid nowej grupy będzie bliski punktowi ciężkości większej z tych dwóch grup i może pozostawać w jej obrębie. Na rysunku 4.11 mamy więc przedstawioną sytuację, że nt > nr i stąd centroid nowego skupienia p leży bliżej centroidu skupienia s niż skupienia r. Charakterystyczne własności małych grup są wówczas zasadniczo tracone (zob. Everitt, 1993).
Niech macierz D‘“ będzie macierzą kwadratów odległości euklidesowych między cen troi da mi skupień, dn = (d'ę2))2 =||x, — x (112. Aby obliczyć analo-
M Metoda ta według nomenklatury Sneatha i Sokala nazywa się nieważoną metodą centroidalną (zob. Ludwig i Reynolds. 1988). Jest to zapewne odmiana metody centroidalnej o inaczej definiowanych wagach.
giczną odległość między nowo powstałym skupieniem p a skupieniem i którego centroidem jest wektor średnich \ można zastosować wzór*5
n, n. n.n.
d. = —du + —4--~d (4.100)
n n n
r p
Metodę centroidalną można rozumieć jako pewne przybliżenie do podziału posiadającego tę własność, iż suma kwadratów odległości między każdą parą centroidów jest minimalizowana.
Wzór (4.100) na obliczanie odległości w metodzie centroidalnej można wyko rzystywać tylko wówczas, gdy wykorzystujemy kwadratowe odległości euklide sowę między centroidami. W takim też ujęciu pojaw ia się on w schemacie l^ance a i Williamsa. Jest więc oczyw iste, że kwadraty odległości mają słuz>c tylko wyko naniu przeliczeń odległości, zaś dendrogram należałoby rysować posługując się pierwiastkami kwadratowymi odległości, na których nastąpiły połączenia Tylko przy takim sporządzaniu dendrogramu będzie on porow nyw alny / dendrograma mi innych metod grupowania, gdzie posłużono się odległościami euklidesowymi
W metodzie centroidalnej można jednak odległości między środkami ciężkości wyznaczać inaczej, ale wzór powyższy nie będzie miał zastosowania An derberg (1973) twierdzi co praw'da, że równanie to można stosować dla jakiej kolwiek innej macierzy odległości lub podobieństwa zarowno dla obiektów jak i zmiennych. Ostrzega on jednak, że wyniki będzie trudno wówczas tnterpre tować, a ponadto będą się one różniły od tych. które uzyskalibyśmy dla kwadratów' odległości euklidesowrvchS6. Ostrzeżenie takie jest konieczne bowiem w przypadku jakiejkolwiek innej odległości nie ma żadnej prosto relacji między dir .d.,. <L i dn.
u n
Do metody centroidalnej powrócimy pod koniec tego punktu w związku z ważną własnością braku monotoniczności.
Przykład 4.6. {grupowanie hierarchiczne - metoda centroidalna)
Metoda centroidalna zastosowana do macierzy odległości D * z przykładu 4.3 daje dendrogram przedstawiony na rysunku 4.12.
85 Na wykresie zaznaczono kąty. które należy uwzględniać, jeżeli chce się wykazać słuszność wzo-tu (4.100), (porównaj rysunek 4.1 P
Takie podejście było niew łaściwe, otwiera bowiem furtkę do złych zastosowań Niektóre pro-fcramy statystyczne stosują kwadraty odległości (jak na przykład SAS), ale używa się także odległości niekwadratowych (zob. Timm, 2002)