283
40 Grupowanie hierarchiczne
|tia podsu muicni) omov\ U)|^ lUcyiiob tublica 4 4) w s,|a IgorYtmu Lance a i Wi||,tlI^ '1 <u occdur\
vila strategii grupowania
15 |
0 | ||
[5 |
0 | ||
0 |
0 | ||
5 |
0 |
0 | |
—flr ttf | |||
| |
r |
0 | |
I |
-0,25 |
0 | |
—n | |||
♦ 1^ + 11 |
0 | ||
-0.25 |
0 | ||
ubjętyc |
h schematem |
Lance, |
—~W- r —i-------i w
mości od typu średniej (i jest mierzona odległość
erarchicznego
cen troi dam i Metoda centroidalna (wzór 4.100)
rdzygrupowa
Odległości między
Metoda mediany (wzór 4.101)
Algorytm Lance a i W illiamsa doczekał się w 1978 roku uogólnienia na więk s/ą liczbę parametrów; zaproponowany przez M. jambu zmodyfikowany algorytm ma postać (zob. Gordon, 1999)
<łf = a,<ł„ + a2i„ +pdn + y|<ł*-dJ+óA + ó2Ji,+* *, (4.109)
gdzie h jest wysokością na drzewku połączeń skupienia i, czyli poziomem, na którym się ono zawiązało.
leżeli najbardziej podobną parą, którą łączymy na pewnym etapie grupowania jest {r, s}, to wysokość na dendrogramie ich połączenia, h{r U 5), jest dana przez J Jeżeli zarówno r, jak i s są grupami jednoelementowymi, to wysokość jest równa wyjściowej odległości dn. W przeciwnym przypadku należy ją wyznaczyć zrównania (4.109).
W odniesieniu do omówionych strategii algorytm Jambu nie wnosi nic nowego, niemniej umożliwia włączenie do schematu innych strategii, takich jak sumy kwadratów (ang. sum ofsquares) czy średniej odległości (ang. mean dissimila-rity). Te strategie są jednak mniej znane.
Zastosowanie do macierzy odległości D jednej z technik aglomeracyjnego grupowania hierarchicznego daje w wyniku dendrogram, który uzewnętrznia kolejność łączenia się obiektów w skupienia i poziomy, na których obiekty po raz pierwszy się połączyły. Ponieważ wiele z wyjściowych odległości między obiektami jest traconych w wyniku przeliczania odległości, to można powiedzieć, że dendrogram stanowi tylko pewne podsumowanie informacji zawartej w macierzy odległości D (Everitt, 1978). Można być zatem zainteresowanym tym, jak dobre jest to podsumowanie. Stawia się często pytanie, czy dendrogram otrzymany za pomocą danej techniki grupowania hierarchicznego dobrze pasuje do macierz) odległości, tzn. jak dobrze wyjściowa macierz odległości jest utrwalona na dendrogramie. Dendrogram oddaje oczywiście charakterystyczne cechy łączenia hierarchicznego, jakie wynikają z zastosowanej techniki, jeśli jednak zbytnio wypacza on wyjściową macierz odległości, to grupowanie można uznać za nieudane. Everitt (1978) twierdzi, że dendrogram jako ilustracja macierzy odległości jest szczególnie użyteczny, jeżeli dane wykazują silną hierarchiczną strukturę grupową.
W literaturze przedmiotu można spotkać pewne propozycje dotyczące sposobów mierzenia dopasowania dendrogramu wynikającego z zastosowania określonej procedury grupowania hierarchicznego do macierzy odległości. Oparte są one na porównaniu wyjściowej macierzy odległości i macierzy odległości na den-