(4
289
80
(4
l5)
'li
^ch
aci
'4 IJ9)
'ostat
i6 Grupowanie hierarchiczne
wszystkie odległościIW, powiedzmy dwukrotnie, to korelacja byłaby idealna lf = I). natomiast wska/mk <5 przyjąłby wartość równą 6 — £dr> i świadczyłby o wyjątkowo dużej niezgodności Dlatego wskaźniki ó czy óm nie są alternatywą dla współczynnika korelacji kofenetycznej Mają one inną wartość informacyjną, oceniają inne własności grupowania.
C zasami można zakładać, ze w obserwowanych odległościach lub podo bien.stwach znaczenie ma tylko porządek, a nie bezwzględne poziomy łączenia Wówczas miarą ogólnego dopasowania dendrogramu może być współczynnik korelacji rang lub na przykład współczynnik y Goodmana-Kruskala103 o postaci
(4.120)
gdzie C oraz D oznaczają odpowiednio liczby zgodnych (ang, concordant) i niezgodnych (ang. discordant) par {(r,s),(t,u)}.
Współczynnik y porównuje zatem wszystkie pary obiektów ze względu na odległość (lub podobieństwo) między nimi, czyli wszystkie pary odległości, w macierzy odległości i macierzy dendrogramu. Porównanie między parami (r, s) i (ł, u) można zapisać w postaci relacjid^R^d^ oraz crsRcctu, gdzie symbole Rd i Rc oznaczają relacje mniejszości (<) i większości (>). Jako parę zgodną określimy taką parę, dla której (Rd ,RC) = (<, <) lub (Rd ,RC) = (>,>)• Rozbieżność znaków nierówności jest świadectwem niezgodności. Współczynnik y opiera się na łącznej liczbie zgodnych i niezgodnych par (pomija się w nim wartości remisowe). Podobnie jak współczynnik korelacji przyjmuje on wartości z przedziału —l<y<l od pełnej niezgodności do pełnej zgodności (zob. Gordon, 1999). Współczynnik y Goodmana-Kruskala jest także miarą efektywności różnych metod grupowania stosowanych do tych samych danych.
Zapewne mniej znaną i rzadziej stosowaną miarą zgodności dwóch ugrupowań jest współczynnik Randa. W. Rand zaproponował go w 1971 roku dla oceny podobieństwa dwóch podziałów, powiedzmy: P, = {Cu ,C2ł,CKI} oraz P} = {Cl2 ,Cn.... ,CK2), które spełniają kryteria podane w punkcie 4.2. Współczynnik zdefiniowano następująco
RAND =
£ Vn
r, t,r< s
n(n -1)
(4.121)
rania <3 2
Praktycznie taka sytuacja nic może min miejsca, choćby ze względu na to, żc przynajmniej na pierwszym etapie łączenia zachowana zostaje rzeczywista odległość dwóch najbardziej podobnych obiektów.
KO Współczynnik Goodmana i K ruskala Jest zasadniczo stosowany do oceny zgodności upo rządkowań i może być wykorzystywany do grupowania zmiennych (por. współczynnik r-Kendalla).