7 Analiza »Łi
• Suma odchyleń od centrum
7 Analiza »Łi
H
v
(4.129)
gdzie mt iest wartością środkową (mediany) zmiennej j w zbiorze n . obiektów grupy g (w przykładzie 4.11 H ' = 68).
• Średnica (ang. diarneter)
(4.130)
H * = max {d:ig }
oparta na największej zaobserwowanej odległości między parami obiektów w grupie g (w przykładzie 4.11 najmniej podobnymi obiektami są pierwszy i szósty.
1548).
Iest jeszcze wiele innych miar hcterogcniczności (zob. Han sen i jaumard, 1997; Gordon. 1999). przez co możliwości wyboru są duże.
Miara H v opiera się na pomiarze hcterogcniczności względem środka ciężkości i jakkolw iek jest bliska mierze H' , piervvsza z nich odnosi się właściwie do przypadku, gdy obiekty są charakteryzowane za pomocą cech ilościowych. Druga natomiast miara może być formalnie stosowana do danych jakiejkolwiek natury, jeśli tylko zdefiniujemy właściwą miarę odległości.
Mając miary hcterogcniczności dla każdej grupy wyróżnionej w podziale, można je łęczyc w kryteria adekwatności podziału . Dla miar H'J‘. //(21 oraz
//[." kryterium p(xJziału stanowi suma miar po wszystkich grupach danej partycji
(4.131)
/■i 1
przy czym jego wykorzystanie sprowadza się do znalezienia partycji, która minimalizuje tę sumę. fak już wspomniano, najpowszechniej stosowanym w algorytmach grupowania podziałowego kryterium jest minimalizowanie łącznej sumy kwadratów, czyli
W odniesieniu do miary H * kryterium adekwatności partycji ma już inną konstrukcję, a mianowicie
(4.133)
W/, Mu-)= max //
czyli grupa ..najgorsza’’ (najbardziej heterogeniczna) wyznacza optymalną par lycję.
"* Miary adekwatności można także odnosić do grupowania hierarchicznego, oceniając poszczególne podziały w hierarchii.
W odróżnieniu od miar hetc-rogeniczności miary izolacji są oparte na odległościach między obiektami danej grupy u obiektami spoza tej grupy Wsrod ntiar izolacji grupy znajdują się między inny mi następujące wielkości • Miara rozdzielenia (ang sphti
I
mi n {d,
•4134
u którym za miarę izolacji przyjęto najmniejsza sposrod odległości między obick
tam i należącym do grupy g (i = 1.....n .) a obiektami nienależne y mi do ici grupy
(k= 1.....n — n ). Im ta minimalna odległość jest większa tym dana grupa iest
bardziej izolowana.
• Miara przecięcia (ang rur i
4135
która jest sumą odległości między obiektami w skupieniu g '• V
a obiektami, które do tego skupienia nie należą (k = 1-----n — * .) Miar5 przecie
cia / można normalizować (ang. nortnalized cul > w celu uwolnienia jei od u po w u wielkości grupy
n. (n — n„)
Konstruowanie kryterium adekwatności dla ntiar izolacji r.otipuK bąd/ to
poprzez sumowanie po grupach wyróżnionych w party ci; • np dia miary .u.
4 137
P(/.Z)= 2 1
przy czym poszukuje się podziału, który maksymalizuj. to kryterium bądź tez poprzez znajdywanie najmniejszej wartości miary
4 138
P(l. Min)® min /
co oznacza, żc najmniej izolowana grupa wy znac/a opt\ nudny podział \\ ten spo sób wykorzystuje się miarę izolacji I : "spii:" dla którci kry (crium można zapi sać jako P(I^\ Min).
lacji są wzajemnie powiązane, na przy kład minimalizowanie P( H 2 iest równoważne maksymalizowaniu P{ I 2 zob Gordon ł óQd t.
Kryteria adekwatności oparte na miarach hcterogcniczności i na miarach izo