TEST NIEZALEZNOSCI , Statystyka


TEST NIEZALEŻNOŚCI χ2 (CHI - KWADRAT)

Badanie zbiorowości ze względu na dwie cechy ma zazwyczaj na celu poszukiwanie zależności między tymi cechami. Poszukiwanie to ma sens tylko wtedy gdy między cechami istnieje logicznie uzasadniony związek przyczynowo - skutkowy.

Analizując związek przyczynowo skutkowy między cechami ustalamy, która z cech może być traktowana jako niezależna a którą uznamy za cechę zależną. W niektórych przypadkach można stwierdzić zarówno wpływ cechy X na Y jak i odwrotnie. Mówimy wówczas o współzależności cech.

Zależność między cechami może mieć dwojaki charakter.

W sytuacji gdy badamy zbiorowość statystyczną jednocześnie ze względu na dwie cechy X i Y zachodzi konieczność porządkowania danych z uwzględnieniem wariantów każdej z tych cech. Jeżeli zamierzamy badać występowanie zależności statystycznej między cechami dane musimy uporządkować w tablicy korelacyjnej.

X

Y

ni•

Y1

Y2

Yr

X1

n11

n12

n1r

n1

X2

n21

n21

n2r

n2

XS

ns1

ns2

nsr

ns

n•j

n1

n2

nr

n

Załóżmy , że dane dotyczące cechy X mierzalnej lub niemierzalnej otrzymane dla elementowej zbiorowości pogrupowane zostały w S-wariantów X1, X2 , X3...........XS zaś dane statystyczne cechy Y mierzalnej lub niemierzalnej pogrupowane zostały w R- wariantów Y1 , Y2, Y3 ..............Yr . Dla każdej jednostki statystycznej mamy zatem parę (X,Y) wariantów obu tych cech i możemy obliczyć liczbę jednostek w zbiorowości mających dany układ wariantów tych cech. Liczbę taką oznaczamy nij . wyniki tego grupowania podamy w tabeli.

W skrajnej prawej kolumnie umieszczono liczebności

r

ni = ∑ nij

j=1

oznaczające liczby jednostek mających wariant Xi cechy X niezależnie od wariantu Y.

W dolnym wierszu umieszczono liczebności

s

nj = ∑ nij

i=1

oznaczające liczbę jednostek mających wariant Yi cechy Y niezależnie od wariantu cechy X

Ogólna liczebność

r s s r

n = ∑ ∑ nij = ∑ ni = ∑ nj

j=1 i=1 i=1 j=1

Przykład:

Badano preferencje pracujących mieszkańców dużych miast przy wyborze serwisów informacyjnych w radiu lub telewizji i otrzymano następuje dane :

RODZAJ ŚRODKA PRZEKAZU

WIEK MIESZKAŃCÓW (W LATACH)

ni•

20-30

30-40

40-50

50-60

RADIO

50

(135•400) / 900 = (60)

125

(230•400) / 900 = (102,22)

70

(200•400) / 900 = (88,89)

155

(335•400) / 900 = (148,89)

400

TELEWIZJA

85

(135•500) / 900 = (75)

105

(230•500) / 900 = (127,78)

130

(200•500) / 900 = (111,11)

180

(335•500) / 900 = (186,1)

500

n•j

135

230

200

335

900

Tabela :Liczba mieszkańców w zależności od wieku i wybranego środka przekazu

Problem oceny współzależności lub zależności jednej z nich od drugiej występuje ze względu na rodzaj cech w różnych sytuacjach:

  1. Gdy obie cechy są mierzalne

  2. Gdy obie cechy są niemierzalne

  3. Gdy jedna z cech jest mierzalna a druga niemierzalna

Ponadto w praktyce często zachodzi konieczność oceny czy badane cechy są zależne w całej zbiorowości generalnej gdy mamy do dyspozycji jedynie wyniki z próby. We wszystkich tych sytuacjach możemy zastosować test niezależności χ2

Hipoteza : H0 cechy X i Y są niezależne

H1 cechy X i Y nie są niezależne

Będziemy chcieli te warunki określone w hipotezach zapisać w sposób formalny. Aby to osiągnąć wprowadzamy oznaczenia:

nij

pij = ——

n

Częstość występowania w próbie jednostek o wariantach (Xi , Yj) badanych cech:

ni

pi• = ——

n

Częstość występowania w próbie jednostek o wariancie cechy X niezależnie od wariantu cechy Y

nj

pi• = ——

n

Częstość występowania w próbie jednostek o wariancie Yi cechy Y niezależnie od wariantu cechy X.

Przy pomocy tych oznaczeń , hipotezy zapiszemy następująco :

H0 : pij = pipj

H1 : pij ≠ pipj

Dla danych w tablicy korelacyjnej wprowadzamy liczebności teoretyczne

^ ni n•j

nij = ————

n

i jako sprawdzian hipotezy wybieramy statystykę χ2

^

s r ( nij - nij )2

χ2 = ∑ ∑ —— ^——

i=1 j=1 nij

Statystyka ta ma przy założeniu prawdziwości hipotezy H0 rozkład χ2 o l = (5-1) (α -1)

stopniach swobody.

Po zapisaniu hipotezy zerowej i alternatywnej tok postępowania jest następujący:

  1. Dla danego poziomu istotności α i ustalonej liczby stopni swobody l znajdujemy w tablicach rozkładu

χ2 taką wartość χ2 α aby p ( χ2 ≥ χ2 α ) =

  1. Wyznaczamy obszar krytyczny pamiętając że w teście niezależności χ2 jest to zawsze obszar prawostronny

OK = ( χ2 α ; ∞ )

  1. Obliczamy wartość statystyki χ2 dla danych z próby i podejmujemy decyzje:

Aby wyznaczyć wartość statystyki χ2 budujemy tabelę obliczeń pomocniczych

nij

^

nij

^

nij - nij

^

( nij - nij ) 2

^

( nij - nij ) 2

——^——

nij

50

60

-10

100

1,667

125

102,22

22,778

518,83

5,075

70

88,89

-18,889

356,79

4,014

155

148,89

6,111

37,35

0,251

85

75

10

100

1,333

105

127,78

-22,778

518,83

4,060

130

111,1

18,889

356,79

3,211

180

186,11

-6,111

37,346

0,201

19,81

χ2 = 19,81

Przyjmujemy poziom istotności α = 0,05

W przykładzie mamy 2 warianty cech X i 4 warianty cechy Y

l- liczba stopni swobody

l = (2-1) (4-1) = 3

χ2 α = 7,815

Obszar krytyczny:

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
OK. = ( 7,815 ; ∞ )

0x08 graphic

7,18 χ2 19,81

(zawsze prawostronny obszar krytyczny)

Na poziomie istotności α = 0,05 odrzucamy hipotezę o niezależności wyboru środka masowego przekazu od wieku mieszkańców. Jeśli chcemy ocenić siłę związku między badanymi cechami możemy posłużyć się jedną z miar opartych na funkcji χ2 współczynnika zbieżności T-Czuprowa.

χ2

T = √ ———————

n √ ( r-1) (s-1)

19,81

T = √ ——————— = 0,1127

900 √ (4-1) (2-1)

Współczynnik zbieżności T-Czuprowa przyjmuje wartości (0,1) . im większa jest jego wartość tym silniejsza zbieżność miedzy cechami. W naszym przypadku obliczona wartość wskazuje na bardzo słabą zależność wyboru środka masowego przekazu od wieku mieszkańców.

Przykład 2

W grupie 500 osób zarejestrowanych obecnie lub w przeszłości jako bezrobotne przeprowadzono badania mające na celu ustalenie czy istnieje zależność między wiekiem osób bezrobotnych a czasem pozostawania bez pracy. Ze względu na czas pozostawania bez pracy w miesiącach, ustalono następujący podział :

Czas bez pracy 0-1 1-6 6-12 12-24 24-36 ponad 36

(w miesiącach)

Ze względu na wiek w latach ustalono podział :

Wiek 18-25 25-35 35-45 45-55 ponad 55

(w latach)

Do badania przyjęto poziom istotności α = 0,05 i zastosowano test niezależności χ2

H0 : pij = pipj - czas pozostawania bezrobotnym nie zależy od wieku bezrobotnego

H1 : pij ≠ pipj - wiek bezrobotnych ma wpływ na czas pozostawania bez pracy

Na podstawie zgromadzonych danych wartość statystyki χ2= 42,56

Wyznaczamy obszar krytyczny dla poziomu istotności α = 0,05 i liczb stopni swobody

l= 6 wariantów* 5 wariantów

l = (6-1) (5-1) = 20 stopni swobody

χ2 α = 31,41

OK. = (31,41; ∞)

χ2 € OK

(należy)

Odrzucamy hipotezę o niezależności czasu pozostawania bez pracy od wieku bezrobotnego.

Współczynnik zbieżności T- Czuprowa

42,56

T = √ ——————— = 0,14

500 √ (6-1) (5-1)

Co wskazuje na nie wielką siłę tej zależności.



Wyszukiwarka

Podobne podstrony:
Test ze statystyki z zima 2007 grupa A[1], 1)
Test ze statystyki 2007 (z wykładu), 1)
Test ze statystyki biały sugerowane rozwiązanie
Test z egzaminu statystyka kuszewski[1]
Test ze statystyki 2007 zima grupa b, Test ze statystyki 2006 (z ćwiczeń)
test 2, PK, Statystyka
Metodologia ze statystyką - Test - Sędek, Statystyka i metodologia(1)
test 4 -wersja 3, Statystyka testy
test sumujacy statystyka, UTP, II semestr, STATYSTYKA
test se statystyki
Test z egzaminu - statystyka - T. Kuszewski, Finanse i rachunkowość (WSFiZ)
Test ze statystyki żółty sugerowane rozwiązanie
Statystyka TEST (2), magisterka, statystyka
test ze statystyki indukcyjnej[2], To jest wersja html pliku http://www

więcej podobnych podstron