230 lAlUllij-;, SJ.U Picn
230 lAlUllij-;, SJ.U Picn
Po
Na tej relacji opiera się badanie metrycznych własności wskaźnikóv
dobienstwa
Do najbardziej znanych i najczęściej stosowanych wskaźników podob' ■ twa należą :
• Współczynnik Russela-Rao (ang. positive matching dicholomy coefficient)
(4.35)
lub WM=-P P
który jest proporcją cech obecnych u obu obiektów i jest miarą skojarzenia Współczynnik Russela-Rao jest półmetryką.
• Współczynnik Jacearda (ang. Jaccards dichotomy coefficient)
W' =
lub W =-—
a + b+ c
(4.36)
który jest proporcją cech obecnych wobec wszelkich obecności (pomija przy tym negatywne skojarzenia). Ta bodajże najstarsza miara (1908) zawiera się w prze-dziale od 0 do 1 i jest metryczna.
Współczynnik Dicea lub Sórensena
WD = -
lub W° =
ang. quotient ojsimilarity) 2a
2a+b+c
(4.37)
który jest zmienioną wersją współczynnika Jacearda i został skonstruowany jako średnia harmoniczna dwóch stosunków prt / pn = a / (a + b) oraz Pn i Pu =a/(J + c), czyli współobecności w łącznej liczbie obecności cechy
„ , 2
w dwóch porównywanych obiektach; --—■—-—
(p„/pj+(p„
-—-. Można zauważyć, że / p„)
w stosunku do współczynnika Jacearda wzmacnia on wagę współobecności, podwajając ją. Zawiera się on również w przedziale od 0 do 1, lecz daje wynik przeciętnie o jedną trzecią wyższy. Łatwo się jest przekonać, że współczynnik Dice a
J7 Dysponując tym narzędziem. Czytelnik może sam sprawdzić, który ze wskaźników podobieństwa omawianych w tym punkcie jest metryką. Warto przy tym pamiętać, iż jeżeli dn jest metryką, to metryką jest również dn /(tv+ dn), gdzie w jest dowolną wartością liczbową. Ilekroć będziemy stwierdzać, iż ta czy inna miara podobieństwa jest metryczna, będziemy mieli na myśli to, iż miara odległości in = 1 -IV’ jest metryką czy półmetryką.
38 Przynajmniej niektóre z tych współczynników możemy otrzymać jako metryczne miary odległości lub ich funkcje dla danych alternatywnych (zerojedynkowych).
39 L.R. Dice zastosował go w 1945 roku w badaniach i kologicznych. a po nim w 1948 roku T. Sóren sen - w zagadnieniach socjologii roślin (zob. Sneath i Sokal, 1973 oraz Ludwig i Reynolds, 1988). Wydaje się jednak, żc już w 1920 roku współczynnik ten został zaproponowany przez H A. Gica sona w badaniach ekologicznych do oceny współwystępowania gatunków roślin: C 3 2h»/(0+ H. gdzie w jest liczbą gatunków wspólnych dla obu stanowisk, zaś a i b - liczbą wszystkich gatunków występujących w jednym i drugim z dwóch porównywanych stanowisk (zob. Kershaw, 1978). Tak odczytane znaczenia podanych symboli odpowiadają dokładnie wzorowi (4.37).
;est równoznaczny ze współczynnikiem podobieństwa Braya i Curtisa (zob wzór 4.27) dla cech binarnych. Jest on ponadto dopełnieniem do wartości jeden współczynnika Lance a i Williamsa zastosowanego do danych binarnych
X A\ -X
b-ł- c
(a + b) + (a + c)
2a + b+ c
(4.38)
Z uwagi na relację tego współczynnika ze współczynnikiem 4 17) jest on też nazywany współczynnikiem Czekano w skiego (zob Timm 2002 lesi on me tryczną miarą podobieństwa.
• Współczynnik Sokala-Michenera (ang simple mauhing coefficieni)
Pn Z P» -
p
w»i _ p» + (P~ Pn-Prn+Pm\_l
p
P
(4 39
który jest proporcją łącznej liczby zgodnych obecności i nieobecności lest to je den ze starszych (z roku 1958) i najrozsądniejszych w skazntkow Bywa on tez na zywany wskaźnikiem podobieństwa (ang similańiy indac) lub współczynnikiem koincydencji (zob. Kendall i Buckland, 1975. Maxwell. 1977) Tak jak poprzednie współczynniki zawiera się w przedziale [0, 1] i spełnia warunki metryki W swei komplementarnej postaci 1 - W SM = (b + c) / p jest on równy kwadratowi prze ciętnej odległości euklidesowej opartej na niestandaryzow anych cechach, przyjmujących wartości 0 lub 1
Wraz ze współczynnikiem Sokala i Michenera powraca problem łącznych nieobecności. Doceniając komizm cytowanego w nim przykładu Snetha i Sokala, musimy podkreślić, że to nie współczynniki podobieństwa poprzez swą konstrukcję uwzględniającą współ-nieobecności są złe. lecz absurdalny dobor zmiennych przez badacza może doprowadzić do takich sytuacji. Znaczenie współ-nie-obecności jako indykatora podobieństwa zależy od dziedziny badan (np. inne znaczenie może mieć w mikrobiologii), konkretnego zagadnienia i staranności w doborze zmiennych. Jeżeli negatywne skojarzenia mają być wykluczone, to sięgniemy do współczynnika Jacearda, jeśli zaś mają znaczenie, to wykorzystamy współczynnik Sokala i Michenera.
Everitt (1993) przytacza ą Go worem, że w „charakterze odległości euklidesowej' może występować wyrażenie d = ^2(1 — U ), pod warunkiem, że macierz współczynników podobieństwa jest
dodatnio pół-określona. Warunek ten spełniają współczynniki Sokala i Michenera (U’5** ) oraz Jac carda (W;).