222
' 0 d}2 . | |||
O II Cc II |
cc ... O |
- d2n | |
dmX dn2 .. |
0 |
ii Analiza ukopią
(4.22)
Zawiera ona wartości odległości między (n — l)n/2 różnymi parami obiektów, zaś na przekątnej ma zera (odległość obiektu od samego siebie).
Z punktu widzenia podobieństwa obiektów interesująca może być minimalna min{dri} i maksymalna max {drs} odległość, których różnica: max{d„} - min{drj}
(i = r,s — 1,2,..., n) ukazuje rozstęp odległości. Mają one pewne znaczenie w różnych technikach grupowania.
Podobieństwo obiektów jest przeciwieństwem zróżnicowania - im bardziej podobne są do siebie dwa obiekty, tym mniej się różnią. Miary podobieństwa są konstruowane w ten sposób, że większe ich wartości świadczą o większym podobieństwie, a więc odwrotnie niż miary zróżnicowania. Miary podobieństwa będziemy ogólnie oznaczali symbolem sn, od angielskiego słowa similarity. Z uwagi na dużą liczbę różnych miar podobieństwa, w poszczególnych przypadkach stosowane będą także inne oznaczenia.
Dla dwóch obiektów x r oraz x t w p-wymiarowej przestrzeni cech (tj. opisanych cechami X,.....X) miary podobieństwa powinny spełniać następujące
warunki:
1) 05 sn < ldla wszystkich obiektów x r i x s
(oznacza to, że miara jest zawsze dodatnia i unormowana),
2) sn = 1 jeżeli i tylko wtedy, gdy x r = x t
(oznacza to, że identyczność obiektów pociąga wartość miary równą 1),
3) sn = s 9 dla wszystkich r i s
(oznacza to, że podobieństwo dwóch obiektów jest relacją symetryczną). Jeżeli miara podobieństwa spełnia powyższe warunki, to można zawsze tworzyć miarę zróżnicowania, korzystając z relacji dn = 1 — sn, lub jakiejś innej funkcji malejącej, choć tak otrzymana miara odległości może nie być metryczna. Również odwrotnie, mając miarę odległości, można tworzyć miarę podobieństwa w sposób następujący
Ponieważ jednak większość miar odległości dti nic ma określonej górnej granicy, to wówczas wynikająca miara podobieństwa przyjmuje wartości z przedziału 0 < sn < 1 czyli nigdy nie osiąga wartości 0 W takiej sytuacji me powinno się w ten sposób tworzyć miary podobieństwa Można wówczas odwołać się do ogólnych relacji: dn — sm — sn. gdzie su jest górną granicą miary podobieństwa orazSB = I — dn, gdzie z kolei I jest górną granicą miary zróżnicowania
Pomiar podobieństwa obiektów ze względu na cechy ilościowe może od bywać się w drodze transformacji miary odległości w miarę podobieństwa (zob wzór 4.23). Zaproponowano jednak pewne sposoby wyrażania podobieństwa wprost, a nie poprzez miary odległości Jednym z nich jest użycie współczynnika korelacji. Znany powszechnie współczynnik korelacji Pearsona jako miara li niowej współzależności między dwiema cechami w zbiorze obiektów może być .odwrócony” i służyć jako miara podobieństwa dwóch różnych wielo wy miaro wych obiektów (zob. Dagnelie, 1975). Taki „odwrócony1 współczynnik korelacji można zapisać w postaci
— *,)(* B — x t)
<4.24
gdzie: x i x sj - wartości cechy X . w jednostce odpow iednio r i s. x i x - średnie wartości wszystkich cech dla jednostki r i s.
Współczynnik korelacji liniowej jako miara podobieństw a obiektów jest kon trowersyjny. Już samo uśrednianie obiektów ze względu na rożne ilościowe zmienne, prowadzące do „przeciętnej wartości zmiennej’ dla każdej jednostki, spotkało się z krytyką i wręcz odrzuceniem tej miary jako absurdalnej W istocie
średnie (x = - I a li wariancje! s] = — 2L(x — i ): \ obiektów z wielu zmień-V ' P/ V PM
nych o zróżnicowanych jednostkach miary są pozbawione sensu Można zauważyć, iż transformacja jednej tylko cechy (np. prosta zmiana skali) spowoduje, że zmienią się dwie wartości {x , x dla dwóch obiektów) w korelowanych rekordach, a w konsekwencji zmieni się w artość współczynnika korelacji. Niezależnie od tego podaje się przykłady idealnego skorelowania obiektów przy różnych układach wartości zmiennych. Oznacza to. że miara wskazuje na identyczność obiektów, mimo że x , ^ x .. Można wykazać, że sytuacja taka będzie miała miejsce wówczas, gdy jeden ciąg w artości jest liniową funkcją drugiego ciągu wartości. Współczynnik korelacji wskazuje więc raczej na podobieństwo profili niż bez-
od „zwykłego” współczynnika dla cech. Powinien on się również kojarzyć z Q-analizą.
Stosujemy symbol q na oznaczenie współczynnika korelacji między obiektami, aby odróżnić go