W dalszych punktach przedstawiono wiele różnych miar odległości i podobieństwa. Wbrew pozorom ich liczba, jeśli uwzględnić rodzaj miary, jest nieco mniejsza Pewne miary dla cech mierzalnych mają bowiem swoje odpowiedniki dla zmiennych binarnych lub w formie kategorii. W literaturze występują one jednak pod innymi nazwami (a nierzadko jedna miara ma wiele różnych nazw). Na takie sytuacje będziemy zwracali uwagę, gdyż znacznie to ułatwi poruszanie się w gąszczu miar.
Miary odległości są pewnymi funkcjami wartości cech X,.... ,Xp
opartymi na odległościach (dystansach) między punktami risw przestrzeni wielowymiarowej (zob. Guzik, 1989), przy czym r,s= 1,... ,n, jeśli rozważamy rzeczywiste obiekty. Każdy badany obiekt, zgodnie z podstawowym założeniem statystycznej analizy wielowymiarowej, jest bowiem punktem w przestrzeni cech, w której odległość dwóch punktów jest wartością metryki tej p-wymiarowej piv,e-str/eni (X,.....X ). Metryka ma następujące własności:
1) 4r( = 0 wtedy i tylko wtedy, gdy x r = x t
(należy to rozumieć w ten sposób, że metryka nie rozróżnia obiektów identycznych),
2) dn > 0 dla wszystkich r i s, dla których xr^x,
(odległość nie może być ujemna; równocześnie znaczy to, że obiekty nieiden-tyczne są rozróżniane przez metrykę),
3) dn = d „ dla wszystkich r i s
(oznacza to, że odległość między obiektem r a obiektem sznaczy tyle co odległość między obiektem s a obiektem r; odległość dwóch obiektów jest relacją symetryczną),
4) dn S dm + dm dla wszystkich r i s
(suma odległości między obiektami r i w oraz między obiektami iv i s jest nic mniejsza niż odległość między obiektami r i s; jest to tz.w nierówność trójkąta długość jednego boku nic jest dłuższa niż. suma dwóch pozostałych boków). Można wykazać, że suma dwóch metryk jest też metryką, ale już iloczyn dwóch metryk (a zwłaszcza kwadrat metryki) nie musi spełniać nierówności trój kąta i może nie być metryką. Metryki, które spełniają trzy pierwsze warunki, lecz nie spełniają nierówności trójkąta, są określane jako półmetryki lub semimetryki lub też pseudometryki. Z kolei metryki, które dodatkowo spełniają relację dn < max (dm ,d w), noszą nazwę ultrametryk, a sama nierówność nosi nazwę nie-