fov
arP
•li?
e;
(4.18)
lera on h iS0-
[4.19)
4.20)
jo na-Curti-
I i, Podobieństwo obiektów i jego pomiai
221
gilzie K iest rozstępem zmiennej X Z jej konstrukcji widzimy, że przyjmuje ona wartości z przedziału [O, 1] .
Zauważmy, że zarówno metryka Canberra, jak i współczynnik Lance a i Wil liumsa są tak skonstruowane, że można je stosować tylko dla zmiennych dodatnio określonych (aby nie było ujemnych odległości) i dlatego nie są one właściwe dla danych centrowanych lub standaryzowanych. Trzy ostatnie współczynniki tej wady nie posiadają. W przypadku metryki Canberra pojawia się problem, jeśli dane pochodzą ze zliczeń, jak to często bywa w zagadnieniach ekologicznych, leżeli bow iem xn — x . = 0, to mianownik składnika sumy jest równy 0 i wówczas ów składnik należy potraktować jako równy 0. Uzasadnieniem takiego postępowania jest to, że xq = x sj=0 oznacza identyczność obiektów ze względu na zmienną X , a zatem nie może zwiększać wartości miary odległości.
Odległości taksonomiczne oparte na metrykach stosowane do wyjściowych zmiennych A . a więc do liczb mianowanych, uwzględniają rząd wielkości zmiennych i nie mają zatem określonych górnych granic. Wartości tych miar kształtują się przede wszystkim pod wpływem wartości zmiennych wyrażonych dużymi liczbami"*, a wówczas jako miary podobieństwa mogą one być niedogodne. Miary odległości oparte na metrykach oraz inne miary niemetryczne należy stosować, gdy wszystkie rozpatrywane zmienne są mierzone w tych samych jednostkach lub ich wartości są niemianowane, a ponadto mają ten sam rząd wartości. Wymaga to zazwyczaj normalizacji zmiennych (zob. punkt 4.3) lub jakiegoś szczególnego sposobu ważenia29. Wagi a mogą być wprowadzone do wszystkich powyższych wzorów, na przykład w odniesieniu do metryk w następujący sposób
i
Zmienne o dużym rzędzie wartości mogą być skalowane w dół poprzez użycie takiej funkcji wagowej.
Wyznaczone wartości mierników odległości między obiektami są przedstawiane w postaci kwadratowej i symetrycznej macierzy odległości o wymiarach (n X n), równych liczbie obiektów
3trzy- I 17 Zobacz współczynnik Gowera dla zmiennych różnego typu w punkcie 4.3.6.
Z uwagi na to, że różnice między dwoma obiektami są agregowane liniowo, wystarczy nieraz wartości jednej zmiennej wyrazić w setkach lub tysiącach jednostek, aby radykalnie zmniejszyć odległość.
** W odniesieniu na przykład do gazowych zanieczyszczeń powietrza atmosferycznego punktem wyjścia do zdefiniowania wag mogłaby być toksyczność poszczególnych gazów.