P3200159

P3200159



246 4. Analiza skupie,

Liczebności n. oraz n, nazywamy liczebność iami brzegowymi.

Podstawą do konstruowania miar podobieństwa (współzależności) dwóch cech nominalnych jest kryterium niezależności, które w odniesieniu do klasyfikacji wielodzielczej (politomicznej) jest następujące: jeżeli cechy A i B są całkowicie niezależne w całej zbiorowości, to dla wszystkich klas At B zachodzi równość

nJ% * n*(

n - (i= 1,2,... ,r;j = 1,2,... s)    (4.54)

n

Oznaczmy dla wygody teoretyczne liczebności w komórkach tablicy wielodzielczej przez n;i (prawa strona równości 4.54). Jeżeli cechy A i B nie są całkowicie niezależne, to wielkości i n. będą różne dla różnych par kategorii (i, j), czyli klas klasyfikacyjnych A, Bl. Różnicę między zaobserwowaną liczebnością w komórce tablicy wielodzielczej a liczebnością oczekiwaną przy założeniu, że dwie cechy są niezależne w sensie probabilistycznym

<5* = n.. - n..    (4.55)

nazywamy kontyngencyjnością lub wielodzielczością (zob. Kendall i Buckland, 1975), przy czym

2A =0 (i= l,2,...,r) oraz Ź<5,=0 (j=l,2,...,s)    (4.56)

1*1 9    i—l 9

Łącznym miernikiem skojarzenia dla wszystkich A, jest wyrażenie

i

= n


'=i ;-i nimn .


(4.57)


zwane kontyngencyjnością kwadratową, znane powszechnie jako statystyka chi-kwadrat. Jest to wielkość niezależna od znaku różnic <5. i przyjmuje wartości X1 > Ol przy czym jeżeli cechy są niezależne .. = 0), to x2 — 0. Ponieważ nie jest określona góma granica tej statystyki, to nie może ona być odpowiednia jako miara współzależności i podobieństwa.

Częściowo tę niedogodność usuwa miernik skojarzenia

n


który nosi nazwę średniej kontyngencyjności kwadratowej (ang. mean scjuarecon-tingency). O ile jednak dla tablicy o wymiarach 2Xs (s> 2) 0 < (p1 < 1 i może występować w roli współczynnika, to dla tablicy r X s <p2 > 0, a jego wielkość zależy od wymiarów tablicy.

pearson zaproponował inną miarę, która umożliwiałaby bardziej jednoznuc/.


współzależności cech. Takim współczynnikiem jest



\ 1+ \n+X


(4.59)


znany p°d nazwą współczynnika przypadkowości (lub koniyngencji) Pctnona iang coefficient ojcontingency). Jeżeli ą wzrasta toC rośnie do wartości jeden, lecz nigdy jej nie osiąga. W tablicy kwadratowe) r X r górną granicą dlaC jest


(4.60

(np. w tablicy 2x2 mamy C = V1/ 2 = 0,707). Nieznana jest górna granica dla la blicr X s (r^ s). Dwa współczynnikiC nie są porównywalne chyba że pochodzą z tablic o tych samych wymiarach.

Inna próba unormowania miary *p2 pochodzi od Czuprowa Czynnikiem nor muiąeym jest tu średnia geometryczna dwóch wielkość i r — \ oraz s — 1 czyli -1) (j 1). Doprowadziło to do miernika znanego szeroko jako współczynnik

TCzuprowa o postaci


(4.61)

Uwzględniając wzory (4 58) i (4 59). możemy go tez zapisać vako

(4.62)


\ (1- C2 )4ir — l)(s -1)    \ riyj{r — lKs-U

Dla tablic o wymiarach r\r przyjmuje on w artosci 0 < T < 1 zas dla tablic rx$(r*s) 0<T<1

Nieco zmodyfikowaną w stosunku do współczynnika Czuprowa iesi propozycja Cramera, który maksymalizował <p‘ w sposob następujący


(4.63)

Wyjaśnienie istoty wyrażenia min {(r — IV (s — \)J jest następujące. W tablicy kwadratowej idealna zależność występuje, gdy n.. = n.( = n dla wszystkich i. Oznacza to. że wszystkie kategorie, poza r klasami na przekątnej, są puste. Jeżeli wę wzorze na chi-kwadrat (druga postać wzoru 4.57) uwzględnimy relację — n„. to wartość statystyki chi-kwadrat wyniesie n(r — 1) i jest to maksymalna wartość <p ’ Jeśli teraz rozważymy tablicę prostokątną(r* $), to idealna


Wyszukiwarka

Podobne podstrony:
P3200160 248 4. Analiza skupień zależność będzie osiągnięta, gdy liczebności skoncentrują się wzdłuż
81081 P3200141 210 4. Analiza skupień Naszą uwagę będziemy koncentrowali przede wszystkim na podstaw
10409 P3200176 280 4. Analiza skupień pewnia, żc a, + «2 +/5 = 19~. Tak zdefiniowana strategia nosi
77909 P3200171 270 4. Analiza skupień Pewna doza niepewności, jaka tkwi w tych dwóch metodach, a zwł
P3200176 280 4. Analiza skupień pewnia, żc a, + «2 +/5 = 19~. Tak zdefiniowana strategia nosi nazwę

więcej podobnych podstron