TEST NIEZALEŻNOŚCI χ2 (CHI - KWADRAT)
Badanie zbiorowości ze względu na dwie cechy ma zazwyczaj na celu poszukiwanie zależności między tymi cechami. Poszukiwanie to ma sens tylko wtedy gdy między cechami istnieje logicznie uzasadniony związek przyczynowo - skutkowy.
Analizując związek przyczynowo skutkowy między cechami ustalamy, która z cech może być traktowana jako niezależna a którą uznamy za cechę zależną. W niektórych przypadkach można stwierdzić zarówno wpływ cechy X na Y jak i odwrotnie. Mówimy wówczas o współzależności cech.
Zależność między cechami może mieć dwojaki charakter.
Po pierwsze funkcyjny polegający na tym, że każdej wartości zmiennej X odpowiada ściśle określona dokładnie jedna wartość zmiennej Y.
Po drugie statystyczny inaczej pro balistyczny definiowany za pomocą pojęć z rachunku prawdopodobieństwa. Mówiąc najprościej zależność statystyczna polega na tym , że zależne są rozkłady prawdopodobieństwa cech X i Y. W praktyce oznacza to, że wpływ jednej cechy na drugą zależy również od czynników losowych wspólnie działających na te cechy ,oprócz innych czynników działających na każdą z nich oddzielnie.
W sytuacji gdy badamy zbiorowość statystyczną jednocześnie ze względu na dwie cechy X i Y zachodzi konieczność porządkowania danych z uwzględnieniem wariantów każdej z tych cech. Jeżeli zamierzamy badać występowanie zależności statystycznej między cechami dane musimy uporządkować w tablicy korelacyjnej.
X |
Y |
ni• |
|||
|
Y1 |
Y2 |
… |
Yr |
|
X1 |
n11 |
n12 |
… |
n1r |
n1• |
X2 |
n21 |
n21 |
… |
n2r |
n2• |
… |
… |
… |
… |
… |
… |
XS |
ns1 |
ns2 |
… |
nsr |
ns• |
n•j |
n•1 |
n•2 |
… |
n•r |
n |
Załóżmy , że dane dotyczące cechy X mierzalnej lub niemierzalnej otrzymane dla elementowej zbiorowości pogrupowane zostały w S-wariantów X1, X2 , X3...........XS zaś dane statystyczne cechy Y mierzalnej lub niemierzalnej pogrupowane zostały w R- wariantów Y1 , Y2, Y3 ..............Yr . Dla każdej jednostki statystycznej mamy zatem parę (X,Y) wariantów obu tych cech i możemy obliczyć liczbę jednostek w zbiorowości mających dany układ wariantów tych cech. Liczbę taką oznaczamy nij . wyniki tego grupowania podamy w tabeli.
W skrajnej prawej kolumnie umieszczono liczebności
r
ni• = ∑ nij
j=1
oznaczające liczby jednostek mających wariant Xi cechy X niezależnie od wariantu Y.
W dolnym wierszu umieszczono liczebności
s
n•j = ∑ nij
i=1
oznaczające liczbę jednostek mających wariant Yi cechy Y niezależnie od wariantu cechy X
Ogólna liczebność
r s s r
n = ∑ ∑ nij = ∑ ni• = ∑ n•j
j=1 i=1 i=1 j=1
Przykład:
Badano preferencje pracujących mieszkańców dużych miast przy wyborze serwisów informacyjnych w radiu lub telewizji i otrzymano następuje dane :
RODZAJ ŚRODKA PRZEKAZU |
WIEK MIESZKAŃCÓW (W LATACH) |
ni• |
|||
|
20-30 |
30-40 |
40-50 |
50-60 |
|
RADIO |
50 (135•400) / 900 = (60) |
125 (230•400) / 900 = (102,22) |
70 (200•400) / 900 = (88,89) |
155 (335•400) / 900 = (148,89) |
400 |
TELEWIZJA |
85 (135•500) / 900 = (75) |
105 (230•500) / 900 = (127,78) |
130 (200•500) / 900 = (111,11) |
180 (335•500) / 900 = (186,1) |
500 |
n•j |
135 |
230 |
200 |
335 |
900 |
Tabela :Liczba mieszkańców w zależności od wieku i wybranego środka przekazu
Problem oceny współzależności lub zależności jednej z nich od drugiej występuje ze względu na rodzaj cech w różnych sytuacjach:
Gdy obie cechy są mierzalne
Gdy obie cechy są niemierzalne
Gdy jedna z cech jest mierzalna a druga niemierzalna
Ponadto w praktyce często zachodzi konieczność oceny czy badane cechy są zależne w całej zbiorowości generalnej gdy mamy do dyspozycji jedynie wyniki z próby. We wszystkich tych sytuacjach możemy zastosować test niezależności χ2
Hipoteza : H0 cechy X i Y są niezależne
H1 cechy X i Y nie są niezależne
Będziemy chcieli te warunki określone w hipotezach zapisać w sposób formalny. Aby to osiągnąć wprowadzamy oznaczenia:
nij
pij = ——
n
Częstość występowania w próbie jednostek o wariantach (Xi , Yj) badanych cech:
ni•
pi• = ——
n
Częstość występowania w próbie jednostek o wariancie cechy X niezależnie od wariantu cechy Y
n•j
pi• = ——
n
Częstość występowania w próbie jednostek o wariancie Yi cechy Y niezależnie od wariantu cechy X.
Przy pomocy tych oznaczeń , hipotezy zapiszemy następująco :
H0 : pij = pi• p•j
H1 : pij ≠ pi• p•j
Dla danych w tablicy korelacyjnej wprowadzamy liczebności teoretyczne
^ ni• • n•j
nij = ————
n
i jako sprawdzian hipotezy wybieramy statystykę χ2
^
s r ( nij - nij )2
χ2 = ∑ ∑ —— ^——
i=1 j=1 nij
Statystyka ta ma przy założeniu prawdziwości hipotezy H0 rozkład χ2 o l = (5-1) (α -1)
stopniach swobody.
Po zapisaniu hipotezy zerowej i alternatywnej tok postępowania jest następujący:
Dla danego poziomu istotności α i ustalonej liczby stopni swobody l znajdujemy w tablicach rozkładu
χ2 taką wartość χ2 α aby p ( χ2 ≥ χ2 α ) =
Wyznaczamy obszar krytyczny pamiętając że w teście niezależności χ2 jest to zawsze obszar prawostronny
OK = ( χ2 α ; ∞ )
Obliczamy wartość statystyki χ2 dla danych z próby i podejmujemy decyzje:
Jeśli obliczona wartość należy do obszaru krytycznego odrzucamy hipotezę o niezależności
Jeśli nienależny do tego obszaru stwierdzamy , że nie mamy podstaw do odrzucenia hipotezy niezależności
Aby wyznaczyć wartość statystyki χ2 budujemy tabelę obliczeń pomocniczych
nij |
^ nij |
^ nij - nij |
^ ( nij - nij ) 2 |
^ ( nij - nij ) 2 ——^—— nij |
50 |
60 |
-10 |
100 |
1,667 |
125 |
102,22 |
22,778 |
518,83 |
5,075 |
70 |
88,89 |
-18,889 |
356,79 |
4,014 |
155 |
148,89 |
6,111 |
37,35 |
0,251 |
85 |
75 |
10 |
100 |
1,333 |
105 |
127,78 |
-22,778 |
518,83 |
4,060 |
130 |
111,1 |
18,889 |
356,79 |
3,211 |
180 |
186,11 |
-6,111 |
37,346 |
0,201 |
19,81 |
χ2 = 19,81
Przyjmujemy poziom istotności α = 0,05
W przykładzie mamy 2 warianty cech X i 4 warianty cechy Y
l- liczba stopni swobody
l = (2-1) (4-1) = 3
χ2 α = 7,815
Obszar krytyczny:
OK. = ( 7,815 ; ∞ )
7,18 χ2 19,81
(zawsze prawostronny obszar krytyczny)
Na poziomie istotności α = 0,05 odrzucamy hipotezę o niezależności wyboru środka masowego przekazu od wieku mieszkańców. Jeśli chcemy ocenić siłę związku między badanymi cechami możemy posłużyć się jedną z miar opartych na funkcji χ2 współczynnika zbieżności T-Czuprowa.
χ2
T = √ ———————
n √ ( r-1) (s-1)
19,81
T = √ ——————— = 0,1127
900 √ (4-1) (2-1)
Współczynnik zbieżności T-Czuprowa przyjmuje wartości (0,1) . im większa jest jego wartość tym silniejsza zbieżność miedzy cechami. W naszym przypadku obliczona wartość wskazuje na bardzo słabą zależność wyboru środka masowego przekazu od wieku mieszkańców.
Przykład 2
W grupie 500 osób zarejestrowanych obecnie lub w przeszłości jako bezrobotne przeprowadzono badania mające na celu ustalenie czy istnieje zależność między wiekiem osób bezrobotnych a czasem pozostawania bez pracy. Ze względu na czas pozostawania bez pracy w miesiącach, ustalono następujący podział :
Czas bez pracy 0-1 1-6 6-12 12-24 24-36 ponad 36
(w miesiącach)
Ze względu na wiek w latach ustalono podział :
Wiek 18-25 25-35 35-45 45-55 ponad 55
(w latach)
Do badania przyjęto poziom istotności α = 0,05 i zastosowano test niezależności χ2
H0 : pij = pi• p•j - czas pozostawania bezrobotnym nie zależy od wieku bezrobotnego
H1 : pij ≠ pi• p•j - wiek bezrobotnych ma wpływ na czas pozostawania bez pracy
Na podstawie zgromadzonych danych wartość statystyki χ2= 42,56
Wyznaczamy obszar krytyczny dla poziomu istotności α = 0,05 i liczb stopni swobody
l= 6 wariantów* 5 wariantów
l = (6-1) (5-1) = 20 stopni swobody
χ2 α = 31,41
OK. = (31,41; ∞)
χ2 € OK
(należy)
Odrzucamy hipotezę o niezależności czasu pozostawania bez pracy od wieku bezrobotnego.
Współczynnik zbieżności T- Czuprowa
42,56
T = √ ——————— = 0,14
500 √ (6-1) (5-1)
Co wskazuje na nie wielką siłę tej zależności.