240 4. Analiza skupię
240 4. Analiza skupię
(4.49)
jest często stosowaną w badaniach ekologicznych miarą współwystępowania gatunków (ang. niche overlap between species) (zob. Ludwig i Reynolds, 1988; Manly,
1994)
Przedstawiliśmy sposoby mierzenia podobieństwa lub niepodobieństwa obiektów dla określonego typu cechy. Nie wyczerpuje to jednak problemu. W wielu, jeśli nie w większości badań stosujemy równocześnie zmienne różnego typu. Ograniczenie badań do zbiorów danych jednego typu spowodowałoby, że analiza byłaby niepełna, znacznie uboższa. Nie ma jednoznacznej opinii, w jaki sposób traktować takie zróżnicowane zmienne (Janowitz, 2002). Pojawiły się zatem różne sugestie w zakresie łączenia różnych zmiennych w jednej analizie. Najprostsze rozwiązanie problemu polega na konwersji wszystkich zmiennych w zmienne typu binarnego (np. staż pracy „do 10 lat” i „ 10 lat i dłuższy”), co oczywiście wiąże się z utratą znacznej ilości informacji. Co więcej, następuje istotne wypaczenie informacji, jaką niesie dokładna wartość zmiennej (np. osoby o stażu pracy 11 lat i 30 lat stają się nierozróżnialne, zaś osoby o stażu 10,1 lat i 9,9 lat różne). Wyjściem znacznie lepszym jest wykorzystanie takiej miary podobieństwa, która uwzględniałaby różnorodność typów zmiennych, bez poważniejszych negatywnych skutków.
Janowitz (2002) podaje ogólną regułę postępowania. Polega ona na tym, że cechy dzielimy na grupy według typów: nominalne (n), binarne (6), mierzalne (m), porządkowe (p) i stosujemy właściwą miarę odległości (ale może być to miara podobieństwa) do każdego typu cechy. Cząstkowe mierniki odległości należy scalić, definiując odpowiednią funkcję
dn = w d "' 4- w. d(°] + w d{m) + w dlr
n n rs d rs m n p rs
gdzie w,, wk, wm , w są właściwie dobranymi wagami.
Wśród takich miar podobieństwa lub odległości najbardziej znany jest współczynnik J.C. Gowera (zob.: Sneath i Sokal, 1973; Gower, 1985; Everitt, 1993, Gordon, 1999), który zaproponował w roku 1971 współczynnik o postaci51
51 J.C. Gower, A generał coefficient ofsimilarity and someofits pmperties, Biometrics, 27, 1971; 857-8/4
L L
jtlW
Wn = ;- lub dGa = ^ (4.50)
|wBij £wri)
odzie: s(M - podobieństwo między obiektami ris mierzone ze względu na cechę ; (lub odpowiednio dn t jest odległością), w„ j ~ funkcja wskaźnikowa przyjmująca wartość 1 lub 0.
Mamy tu więc do czynienia z cząstkowymi wskaźnikami podobieństwa, o których była mowa w punkcie 4.3.4. W przypadku zmiennych w formie kategorii, y! tym także zmiennych alternatywnych, składnik s, przyjmuje wartość jeden ody dwie jednostki mają taką samą wartość. W przeciwnym zaś przypadku sr przyjmuje wartość zero. Jeżeli zmienna jest ilościowa, to wartość składnika sr określa się według wzoru
gdzie: - wartości cechy j u porównywanych jednostek r i s.
R - rozstęp zmiennej / w zbiorze grupowanych jednostek Według wzoru (4.51) można mierzyć podobieństwo obiektów, gdy pomiar jest dokonywany w skali porządkowej, xii -1,2,... ,n Wówczas rozstęp wyniesie R = n -1 gdzie n jest liczbą porównywanych obiektów
Ten pomiar podobieństwa sięga do koncepcji metryki miejskiej1 wyrażenie j.r - x |). Dzielenie bezwzględnej różnicy wartości zmiennej przez zaobserwo wany rozstęp w rozkładzie tejże zmiennej ma na celu unitaryzację tej różnicy, tj. sprowadzenie jej do wielkości przyjmującej wartości z przedziału[0. lj . Odjęcie ilorazu \x^ — x sj |/Ri od liczby 1 jest prostą konwersją miary odległości w miarę podobieństwa.
Przypisanie danej zmiennej jednej z dwóch wartości funkcji wskaźnikowej wn. zależy od kilku czynników, a mianowicie od tego czy.
1) porównanie ze względu na cechę; jest z punktu widzenia celu badania ważne (1) czy też nie (0), co jest równoznaczne włączeniu danej zmiennej do analizy lub jej odrzuceniu;
2) wartości zmiennej j są znane (1), czy też nie są znane dla jednego lub obu porównywanych obiektów (0) ,
52 Odjemnik we wzorze (4.51) definiuje miarę odległości, która bywa nazywana metryką Gowera (zob. wzór (4.20) oraz zob. Timm, 2002).
8 Zagadnienie unitaryzacji oraz innych form normalizacji zmiennych zostało wyjaśnione w punk oie 4.5.
54 Należy sądzić, że autor pomysłu nie wnikał w kwestię, czy jest możliwe i celowe uzupełnianie brakujących danych w drodze jednego z zabiegów, jakie oferuje statystyka.