P3200156

P3200156



240 4. Analiza skup

240 4. Analiza skup


(4.49)

jest często stosowaną w badaniach ekologicznych miarą współwystępowania gatunków (ang. niche overlap between species) (zob. Ludwig i Reynolds, 1988; Manly,

1994)


4.3.6. Pomiar podobieństwa obiektów według zmiennych różnego

typu

Przedstawiliśmy sposoby mierzenia podobieństwa lub niepodobieństwa obiektów dla określonego typu cechy. Nie wyczerpuje to jednak problemu. W wielu, jeśli nie w większości badań stosujemy równocześnie zmienne różnego typu. Ograniczenie badań do zbiorów danych jednego typu spowodowałoby, że analiza byłaby niepełna, znacznie uboższa. Nie ma jednoznacznej opinii, w jaki sposób traktować takie zróżnicowane zmienne (Janowitz, 2002). Pojawiły się zatem różne sugestie w zakresie łączenia różnych zmiennych w jednej analizie. Najprostsze rozwiązanie problemu polega na konwersji wszystkich zmiennych w zmienne typu binarnego (np. staż pracy „do 10 lat” i „ 10 lat i dłuższy”), co oczywiście wiąże się z utratą znacznej ilości informacji. Co więcej, następuje istotne wypaczenie informacji, jaką niesie dokładna wartość zmiennej (np. osoby o stażu pracy 11 lat i 30 lat stają się nierozróżnialne, zaś osoby o stażu 10,1 lat i 9,9 lat różne). Wyjściem znacznie lepszym jest wykorzystanie takiej miary podobieństwa, która uwzględniałaby różnorodność typów zmiennych, bez poważniejszych negatywnych skutków.

Janowitz (2002) podaje ogólną regułę postępowania. Polega ona na tym, że cechy dzielimy na grupy według typów: nominalne (n), binarne (6), mierzalne (m), porządkowe (p) i stosujemy właściwą miarę odległości (ale może być to miara podobieństwa) do każdego typu cechy. Cząstkowe mierniki odległości należy scalić, definiując odpowiednią funkcję

dn = w d "' 4- w. d(°] + w d{m) + w dlr

n    n rs    d rs    m n    p rs

gdzie w,, wk, wm , w są właściwie dobranymi wagami.

Wśród takich miar podobieństwa lub odległości najbardziej znany jest współczynnik J.C. Gowera (zob.: Sneath i Sokal, 1973; Gower, 1985; Everitt, 1993, Gordon, 1999), który zaproponował w roku 1971 współczynnik o postaci51

51 J.C. Gower, A generał coefficient ofsimilarity and someofits pmperties, Biometrics, 27, 1971; 857-8/4

L    L

jtlW

Wn =    ;- lub dGa = ^    (4.50)

|wBij    £wri)

odzie: s(M - podobieństwo między obiektami ris mierzone ze względu na cechę ; (lub odpowiednio dn t jest odległością), w„ j ~ funkcja wskaźnikowa przyjmująca wartość 1 lub 0.

Mamy tu więc do czynienia z cząstkowymi wskaźnikami podobieństwa, o których była mowa w punkcie 4.3.4. W przypadku zmiennych w formie kategorii, y! tym także zmiennych alternatywnych, składnik s, przyjmuje wartość jeden ody dwie jednostki mają taką samą wartość. W przeciwnym zaś przypadku sprzyjmuje wartość zero. Jeżeli zmienna jest ilościowa, to wartość składnika sokreśla się według wzoru

gdzie:    - wartości cechy j u porównywanych jednostek r i s.

R - rozstęp zmiennej / w zbiorze grupowanych jednostek Według wzoru (4.51) można mierzyć podobieństwo obiektów, gdy pomiar jest dokonywany w skali porządkowej, xii -1,2,... ,n Wówczas rozstęp wyniesie R = n -1 gdzie n jest liczbą porównywanych obiektów

Ten pomiar podobieństwa sięga do koncepcji metryki miejskiej1 wyrażenie j.r - x |). Dzielenie bezwzględnej różnicy wartości zmiennej przez zaobserwo wany rozstęp w rozkładzie tejże zmiennej ma na celu unitaryzację tej różnicy, tj. sprowadzenie jej do wielkości przyjmującej wartości z przedziału[0. lj . Odjęcie ilorazu \x^x sj |/Ri od liczby 1 jest prostą konwersją miary odległości w miarę podobieństwa.

Przypisanie danej zmiennej jednej z dwóch wartości funkcji wskaźnikowej wn. zależy od kilku czynników, a mianowicie od tego czy.

1)    porównanie ze względu na cechę; jest z punktu widzenia celu badania ważne (1) czy też nie (0), co jest równoznaczne włączeniu danej zmiennej do analizy lub jej odrzuceniu;

2)    wartości zmiennej j są znane (1), czy też nie są znane dla jednego lub obu porównywanych obiektów (0) ,

52 Odjemnik we wzorze (4.51) definiuje miarę odległości, która bywa nazywana metryką Gowera (zob. wzór (4.20) oraz zob. Timm, 2002).

8 Zagadnienie unitaryzacji oraz innych form normalizacji zmiennych zostało wyjaśnione w punk oie 4.5.

54 Należy sądzić, że autor pomysłu nie wnikał w kwestię, czy jest możliwe i celowe uzupełnianie brakujących danych w drodze jednego z zabiegów, jakie oferuje statystyka.


Wyszukiwarka

Podobne podstrony:
61178 Untitled Scanned 04 (11) Strona 4 (^ó?Analiza fundamentalna akcji jest finansowo-ekonomicznym
P3200174 27t Analiza skupici kialac). Na pierwszych etapai h, na których łączą się w jedno skupienie
81081 P3200141 210 4. Analiza skupień Naszą uwagę będziemy koncentrowali przede wszystkim na podstaw
10409 P3200176 280 4. Analiza skupień pewnia, żc a, + «2 +/5 = 19~. Tak zdefiniowana strategia nosi
77909 P3200171 270 4. Analiza skupień Pewna doza niepewności, jaka tkwi w tych dwóch metodach, a zwł

więcej podobnych podstron