382 _4. Analiz .
luP»cń
Na zakończenie tego fragmentu opracowania podsumujemy omówione str legie grupowania hierarchicznego w postaci tablicy (zob. tablica 4.4), w której ; stały zawarte informacje o współczynnikach algorytmu Lancea i William^ tj|. przeliczania odległości na kolejnych etapach procedury.
Tablica 4.4. Parametry algorytmu Lance a i Williamsa dla strategii grupowania hierarchicznego
Strategia |
«2 |
fi |
Y | |
Najbliższego sąsiada |
0.5 |
0.5 |
0 |
-0,5 |
Najdalszego sąsiada |
0.5 |
0.5 |
0 |
0.5 |
Średniej grupowej |
n, |
n, |
0 |
~~ |
n |
"P |
0 | ||
Średniej grupowej ważonej |
0.5 |
0,5 |
0 |
0 |
Centroidalna (tylko dla |
nr |
iij |
—nrH| | |
kwadratowej odległości |
n1 |
0 | ||
euklidesowej) |
p |
"p |
p | |
Mediany (tylko dla kwadratowej odległości euklidesowej) |
0.5 |
0.5 |
-0,25 |
0 |
Warda (tylko dla kwadratowej |
ni + nr |
tij + /i, |
—n, |
0 |
odległości euklidesowej) |
ii + nr + nt |
ii + nr + n, |
nf + n, + n, | |
Elastyczna |
0,625 |
0,625 |
-0,25 |
0 |
Zwróćmy uwagę na to, że wśród kilku metod objętych schematem Lancea i Williamsa występują cztery wersje metody średniego połączenia, przy czym można je pogrupować w sposób następujący, w zależności od typu średniej (nie-ważona i ważona) oraz punktów, względem których jest mierzona odległość (tablica 4.5 podana za Pielou, 1984).
Tablica 4.5. Cztery metody średniej odległości grupowania hierarchicznego
Typ średniej |
Odległość międzygrupowa | |
Średnia z odległości między punktami |
Odległości między centroidami | |
Nieważona |
Metoda średniej grupowej (wzór 4.98) |
Metoda centroidalna (wzór 4.100) |
Ważona |
Metoda ważonej średniej grupowej (odnośnik 83) |
Metoda mediany (wzór 4.101) |
Algorytm Lance a i Williamsa doczekał się w 1978 roku uogólnienia na więk
liczbę parametrów, zaproponowany przez M Jambu zmodyfikowaliy algo im ma postać (zob. Gordon, 1999)
dv — ccxdir + a2du + fidn + y\dm —du\+dxht + d2h + t h (4109)
odz>e h, iest wysokością na drzewku połączeń skupienia i, czyli poziomem, na kio rym się ono zawiązało.
Jeżeli najbardziej podobną parą, którą łączymy na pewnym etapie grupowania jest {r, 5}, to wysokość na dendrogramie ich połączenia WrUi; )esi dana przez j . Jeżeli zarówno r, jak i s są grupami jednoelementowymi, to wysokość jest rów na wyjściowej odległości dn. W przeciwnym przypadku należy ją wyznaczyć zrównania (4.109).
W odniesieniu do omówionych strategii algorytm Jambu nie wnosi nic no wego, niemniej umożliwia włączenie do schematu innych strategii takich jak sumy kwadratów (ang. sum of sąuares) czy średniej odległości (ang mam dissimila rity). Te strategie są jednak mniej znane.
Zastosowanie do macierzy odległości D jednej z technik aglomeraty jnego gru powania hierarchicznego daje w wyniku dendrogram, który uzewnętrznia ko lejność łączenia się obiektów w skupienia i poziomy, na których obiekty po raz pierwszy się połączyły. Ponieważ wiele z wyjściowych odległości między obiek tami jest traconych w wyniku przeliczania odległości, to można powiedzieć ze dendrogram stanow i tylko pewne podsumowanie informacji zawartej w macierzy odległości D (Everitt, 1978). Można być zatem zainteresowanym tym. jak dobre jest to podsumowanie. Staw ia się często pytanie, czy dendrogram otrzymany za pomocą danej techniki grupowania hierarchicznego dobrze pasuje do macierzy odległości, tzn. jak dobrze w yjściowa macierz odległości jest utrwalona na den drogramie. Dendrogram oddaje oczywiście charakterystyczne cechy łączenia hie rarchicznego, jakie w ynikają z zastosowanej techniki, jeśli jednak zbytnio wypacza on wyjściową macierz odległości, to grupowanie można uznać za nieudane Everitt (1978) twierdzi, że dendrogram jako ilustracja macierzy odległości jest szczególnie użyteczny, jeżeli dane wykazują silną hierarchiczną strukturę grupową.
W literaturze przedmiotu można spotkać pewne propozycje dotyczące sposobów mierzenia dopasowania dendrogramu wynikającego z zastosowania określonej procedury grupowania hierarchicznego do macierzy odległości. Oparte są one na porównaniu wyjściowej macierzy odległości i macierzy odległości na den-