ZAJ
• Współczynnik Lance a i Williamsa
(4.17)
ktorego licznik jest metryką miejską, zaś mianownik można traktować jako miarę łącznej wielkości dwóch obiektów (zob. Anderberg, 1973). Jest to zatem również pewna odmiana metryki miejskiej i uogólnienie odległości Czekanowskiego1 Niezależnie od tego współczynnik ten jest uogólnieniem współczynnika Dicea, niemniej nie jest on miarą metryczną2 3.
Zarówno metryka Canberra, jak i współczynnik Lancea i Williamsa są zalecane dla danych cechujących się skośnością oraz występowaniem wartości skrajnych (zob. Timm, 2002).
• Współczynnik dywergencji (ang. coefficient of divergence)
rs
X.: + X
* 7
(4.18)
użyty po raz pierwszy przez Clarka w 1952 roku na gruncie biologii. Przybiera on wartości z przedziału [0,1 ], a przez to jest stosowany dość często (zob. Sneath i Sokal, 1973).
• Miara odległości Matusity 6
(4.19)
n
gdzie K; jest rozstępem zmiennej X . Z jej konstrukcji widzimy, że przyjmuje ona wartości z przedziału [0, l]27.
Zauważmy, że zarówno metryka Canberra, jak i współczynnik Lance a i Wil ■ liamsa są tak skonstruowane, że można je stosować tylko dla zmiennych dodatnio określonych (aby nie było ujemnych odległości) i dlatego nie są one właściwe dla danych centrowanych lub standaryzowanych. Trzy ostatnie współczynniki lei wady nie posiadają. W przypadku metryki Canberra pojawia sic problem, jeśli dane pochodzą ze zliczeń, jak to często bywa w zagadnieniach ekologicznych Jeżeli bowiem x ■ — x sj = 0, to mianownik składnika sumy jest równy 0 i wówczas ów składnik należy potraktować jako równy 0. Uzasadnieniem takiego postępowania jest to, że x n — x ^ = 0 oznacza identyczność obiektów ze względu na zmienną X , a zatem nie może zwiększać wartości miary odległości
Odległości taksonomiczne oparte na metrykach stosowane do wyjściowych zmiennych X , a więc do liczb mianowanych, uwzględniają rząd wielkości zmień nych i nie mają zatem określonych górnych granic. Wartości tych miar kształtują się przede wszystkim pod wpływem wartości zmiennych wyrażonych dużymi liczbami28, a wówczas jako miary podobieństw a mogą one być niedogodne Miary odległości oparte na metrykach oraz inne miary niemetryczne należy stosować gdy wszystkie rozpatrywane zmienne są mierzone w tych samych jednostkach lub ich wartości są niemianowane, a ponadto mają ten sam rząd wartości Wymaga to zazwyczaj normalizacji zmiennych (zob. punkt 4.3) lub jakiegoś szczególnego sposobu ważenia29. Wagi a. mogą być wprow adzone do wszystkich powyższych wzorów, na przykład w odniesieniu do metryk w następujący sposób
Zmienne o dużym rzędzie wartości mogą być skalow ane w dół poprzez użycie takiej funkcji wagowej.
Wyznaczone wartości mierników odległości między obiektami są przedstawiane w postaci kwadratowej i symetrycznej macierzy odległości o wymiarach (n X n), równych liczbie obiektów 4 5
Miara to bywa też nazywana współczynnikiem Czekanowskiego (zob. Timm, 2002). Co do ną zwy tego współczynnika, to nie ma pełnej jasności - czasami jest on przypisywany Brayowi i Cun1' sowi (zob. Janowitz, 2002).
Jeżeli współczynnik Lancea i Williamsa zastosujemy do zmiennych binarnych (0- 1),tootrTi
mamy dopełnienie współczynnika Dicea do 1, ponieważ £|x.( — | —ora?
+ x») 6 + &)+ (6+ c)(zob. punkt 4.4.3).
Miara ta jest też nazywana odległością Hellingera (zob. Gordon, 1999).
27 Zobacz współczynnik Gowcra dla zmiennych różnego typu w punkcie 4.3.6
Z uwagi na to, że różnice między dwoma obiektami są agregowane liniowo, wystarczy nieraz, wartości jednej zmiennej wyrazić w setkach lub tysiącach jednostek, aby radykalnie zmniejszyć odległość.
W odniesieniu na przykład do gazowych zanieczyszczeń powietrza atmosferycznego punktem wyjścia do zdefiniowania wag mogłaby być toksyczność poszczególnych gazów.
Metryka Gowera