294
294
(4.123)
(4.124)
Niezależnie od tego w pewnych kryteriach wykorzystuje się odległości d między obiektem i a obiektem k (/, k = 1, 2,..., n).
W konstruowaniu kryterium podziału najczęściej stosuje się miarę hetero-geniczności grupy zwaną wewnątrzgrupową sumą kwadratów107
H'!1 = SK
(4.125)
gdzie x jest średnią wartością cechy j w grupie g (wzór 4.123).
Jest to więc suma kwadratów odchyleń wartości cech obiektów należących do skupienia g od średnich wartości cech (tj. centroidu) w tym skupieniu.
W roku 1965 Edwards i Cavalli-Sforza wykazali, że wewnętrzną sumę kwadratów SK im ,, można wyrazić w kategoriach odległości (zob. Gordon, 1981)
(4.126)
gdzie = Z'=I (.v.v — *%)J są kwadratami odległości euklidesowych między
obiektem i a obiektem k w grupie g, czyli według wzoru (4.6).
Relację Edwardsa i Cavalli-Sforzy możemy zatem zapisać w następującej postaci
W tym sensie termin „suma kwadratów” może być pozostawiony jako nazwa tej miary, jakkolwiek należałoby mówić „suma kwadratów odległości euklideso-wych" Miarę sumy kwadratów oraz wynik Edwardsa i Sforzy zilustrujemy w przykładzie 4.11 (zob. też przykład 4.12).
Przykład 4 11
Przyjmijmy, że skupienie liczy n f = 6 obiektów, z których każdy jest opisany dwiema zmiennymi A, oraz X2. Wartości tych cech, jr., oraz , u sześciu obiektów podano w następującym zestawieniu: 107 Suma kwadratów odchyleń względem centroidu, czyli wewnętrzna suma kwadratów N'Krl ., jest też nazywana sumą kwadratów błędu tang. errorsum of sąuares).
Obiekt (i) |
» T |
j |
3 |
4 |
6 ; X. \ | ||
*u |
_*_1 |
U |
_\L. |
18 |
» \ |
'28'-’ ?7 1 | |
xa |
......jg-J |
9 |
17 |
_L |
28 |
22 |
12 \ 28 \ |
Korzystając ze wzoru (4.125), obliczamy sumę kwadratów odchyleń od śred nich:
== (6 — 17)- + (11 - 17)2 +.. .+(20 - 18)' +.. .+(12- 18)2 =316+ 238=554
Ten sam wynik powinniśmy otrzymać, wykorzystując wzór (4.126). W tym celu obliczymy kwadraty odległości euklidesowych
dn = (6 — 11)J + (20 — 9)3 =146
in =(6 —16)2 + (20 -17)2 = 109
d56 = (23— 28)2 + (22— 12)J = 125 które możemy przedstawić w postaci macierzy odległości
f 0 | ||||
1146 |
0 | |||
1109 |
89 |
0 | ||
| 208 |
410 |
125 |
0 | |
1 293 |
313 |
74 |
61 |
° \ |
[548 |
298 |
169 |
356 |
125 0] |
146+ 109+...+ 125 6
Otrzymamy wartość miary heterogeniczności H ;
= 554
3324
6
Zdefiniowane zostały również inne miary heterogeniczności, jak na przykład • Suma odległości (ang. cligue)
(4128
która jest sumą odległości między parami obiektów w skupieniu g. a więc sumą elementów dolnego trójkąta macierzy odległości D jest ona związana z miarą H relacją. H ^ = n f • H ’ , jeżeli pomiar odległości następuje według kwadratu me tryki euklidesowej.