218 4- Anahza skupień
a dla dużych p, jak to zwykle bywa w praktyce, oczekiwana wartość d jest bliska
Tę samą przeciętną miarę obliczoną dla zmiennych standaryzowanych R.B. Cattell przekształcił w pewną formę współczynnika korelacji. Współczynnik ten, zwany współczynnikiem Cattella (ang. coejfficient ojpattem similarity), ma postać'22
(4.10)
C _ 2*ĆU> - pdl 2XlMp) + pdl
gdzie xiti.pt jest medianą w rozkładzie chi-kwadrat dla p stopni swobody.
Zależność między dn a r‘ jest liniowa, stąd obie miary dają klasyfikacje niemal identyczne.
Między wartościami metryk bezwzględnych a wartościami metryk uśrednionych zachodzi proporcjonalność, z uwagi na stały dzielnik, odpowiednio p oraz
i
Niejednokrotnie warto się posługiwać odległościami opartymi na metrykach znormalizowanych, które otrzymuje się, stosując względną transformację do odległości bezwzględnych (zob. Ludwig i Reynolds, 1988). Dwie takie miary to:
• Względna odległość euklidesowa (ang. relative euclidian distance)
(4.11)
której wartości wahają się w przedziale od 0 do V2.
• Względna odległość absolutna (ang. relative absolute distance)
d
n
? P
(4.12)
która z kolei przyjmuje wartości z przedziału od 0 do 2.
Pewnym innym sposobem ominięcia wpływu wartości zmiennej X na porruar odległości jest użycie przeciętnej kwadratowej różnicy standaryzowanej
(4.13)
-- Współczynniki korelacji (dowolnej postaci) są miarami podobieństwa. Zobacz punkt 4.3.2 gdzieś, jest odchyleniem standardowym cechy Xt (;= 1,2,....p)
Przeciętna kwadratowa różnica standaryzowana jest niczym innym jak prze ciętną odległością euklidesową dla cech standaryzowanych.
Szczególnymi przypadkami metryki potęgowej (4.3j są dwie następujące me tryki:
• Metryka dominacji lub odległość Czebyszewa (jeżeli
dn = maxta - x I (4.14)
• Metryka minimum
dn
min
choć nie wydaje się, aby miały one jakieś większe praktyczne znaczenie
Metryczne miary odległości oraz ich uśrednienia mogą byt obliczane iakz< dla cech alternatywnych, jakkolwiek rezerw uje się dla takich zmiennych inne nieco miary (zob. punkt 4.3.3).
W miarę potrzeby można się też posługiwać miarami zróżnicowania, które me spełniają postulatów' stawianych odległościom metrycznym, a zwłaszcza postu latu nierówności trójkąta, nie są zatem metrykami przestrzeni, lecz co najwyżej semimetrykami. Opierają się one na takich funkcjach wartości a . i a lak rozmea. bezwzględna różnica, iloraz, iloraz różnicy i sumy, różnica kwadratów cz\ rozmea pierwiastków modułów. Pomimo, że miary odległości oparte na tych funkcjach są subiektywne, a ich znaczenie jest ograniczone do pewnych szczególnych zasto sowań, wymienimy parę z nich.
• Metryka Canberra (ang. Canberra metric)2?
r I * - JT J
d = 2 --- dla a*. >0 (4.16)
która jest pewmą odmianą metryki miejskiej Przyjmuje ona w artości z przedziału 0<dn<p, gdyż ilorazy (|.v); - v |) /(.vi; + xB) < l Metryka Canberra cechuje się dużą wrażliwością na mak zmiany wartości a. i a- bliskie zeru (Gordon, 1999). Konstrukcja metryki nie umożliw ia jej stosowania do zmiennych zerojedynkowych. Występuje ona również w wersji uśrednionej (dzielenie przez p) i wówczas przyjmuje wartości z przedziału od 0 do 1.
w opracowaniach statystycznych spotkamy się bardzo często z wersją metryki Canberra ze Cienionym nieco mianownikiem. dr - l -.Yj/(i.vJ+|A'J)]. jeśli nie nakłada się ograniczenia