248 4. Analiza skupień
zależność będzie osiągnięta, gdy liczebności skoncentrują się wzdłuż dłuższej przekątnej. Liczba klas diagonalnych wyniesie min {r, s} i wówczas statystyka chi-kwadrat będzie równa n • min {(r — l);(s — 1)}, a (p2 przyjmie wartość min{(r— l);(s — 1)}.
Powyższe omówienie nie wyczerpuje miar podobieństwa między zmiennymi nominalnymi. Pewne informacje na temat innych miar podają m.in. Goodman i Kruskal (1954) czy Anderberg (1973).
W zakresie badania podobieństwa cech alternatywnych istnieje duża różnorodność. Podstawowym i najbardziej naturalnym punktem wyjścia do zdefiniowania miar podobieństwa jest tablica asocjacji, która jest szczególnym przypadkiem tablicy kontyngencyjnej. Badając więc określoną liczbę n obiektów, dane o występowaniu lub niewystępowaniu dwóch cech przedstawiamy w formie takiej właśnie tablicy. Jest ona identyczna z tablicą omówioną w punkcie 4.3.3, z tym że miejsce dwóch obiektów r i s zajmują dwie cechy alternatywne57, zaś liczby w czterech głównych polach pochodzą ze zliczenia obiektów, u których realizują się różne kombinacje występowania i niewystępowania dwóch cech (1 — 1; 1 — 0; 0 - 1; 0 - 0). Liczby te oznaczamy literami a, b, c i d w układzie takim jak w tablicy
4.3. Liczebności brzegowe są wyrażone sumami: a + b i c + d oraz a 4- c i b + d. Liczba obserwowanych obiektów (np. liczebność próby) wynosi n=*a + b+c + d.
Tablica 4.3. Schemat tablicy asocjacji dla obliczania wskaźników asocjacji cech
W yszczególnienie |
Cecha B |
Razem | ||
Występuje (1) |
Nie występuje (0) | |||
Cecha A |
Występuje (1) |
a |
b |
a + b |
Nie występuje (0) |
c |
A |
c + d | |
Razem |
a + c |
b + d |
a+b+c+d |
Mając taką tablicę, możemy skopiować miary podobieństwa obiektów z punktu 4.3.3 i zastępując w nich p przez n wykorzystać jako miary podobieństwa cech. Ta odwracałność czy raczej dwufunkcyjność zarówno ujęcia danych, jak i miar jest szczególnie widoczna w badaniach ekologicznych.
Obok takiego podejścia do pomiaru podobieństwa można także korzystać z wyników badań teoretycznych nad współzależnością cech alternatywnych, przy czym kluczowym pojęciem jest tu asocjacja. Asocjacja, lub skojarzenie w węż-57 Taką sytuację określamy mianem podwójnej dychotomii.
■ 58 ■
,/yIn sensie , jest stopniem zależności między dwiema dychotomicznymi cc ’j,ami w tablicy 2 X 2(zob. Kendall i Bucki and, 1975). Jeżeli cechy A i fi nie są mc ^eżne,1:0 ProP°rcje określone równaniami typu
(4.64)
a b a a + b
-s --- oraz---
d + c b+ a a + c n
nic
zachodzą i powiadamy, że cechy są skojarzone w określony sposób Jeżeli
a >
(a + b)(a + c)
n
(4.65)
jo cechy A i fi są skojarzone dodatnio, jeżeli zaś
(d + b){a + c)
a <
(4.66)
n
to są one skojarzone ujemnie.
Mówiąc inaczej, cechy A i B są skojarzone dodatnio tylko wtedy gdy poją wiają się łącznie (liczebność a) z większą częstotliwością niż należałoby lego oczekiwać, gdyby były one niezależne W przeciwnym przypadku będziemy mówili o skojarzeniu ujemnym (lub przeciwskojarzeniu) Abstrahując zaś od kie-runku skojarzenia, o skojarzeniu lub zależności cech zaświadcza nierówność
I (d + b)(d + c)
a
4.67
Opierając się na łącznym kryterium niezależności dwóch cech alternatywnych w tablicy asocjacji
ad = bc (4.68)
zdefiniowano parę miar zależności, które można z powodzeniem wykorzystać jako miary podobieństwa cech. Są to miary typu korelacyjnego Należą do nich i Współczynnik asocjacji Yule a (ang coefficient of association)’
ad — bc ^ik = ad+bc
M Skojarzenie w najogólniejszym znaczeniu jest to stopień zależności lub niezależności występujący między dwiema zmiennvmi losowymi ilościowymi lub jakościowymi (zob. Kendall i Buck land, 1975).
w Współczynnik asocjacji Y ule a iest identyczny / późniejszym współczynnikiem y Goodmana iKruskala (1954), jako szczególny przypadek ogólniejszej miary asocjacji dla tablicy kontyngencyj nejrx t.