chi kwadrat


Test 2 (test niezależności dwóch zmiennych nominalnych)
Mamy dwie zmienne nominalne: X o w-kategoriach wartości i Y o k-kategoriach wartości.
Dane z n-elementowej próby mają postać dwudzielnej tablicy frekwencji (o w wierszach i k
kolumnach). Przy założeniu, że X i Y są niezależne w populacji, prawdopodobieństwo jednoczesnej
realizacji kategorii  i zmiennej X oraz kategorii  j zmiennej Y (dla i = 1,2& w, j = 1,2& ,k)
wynosi:
Pij = P(X = i, Y = j) = P(X=i)*P(Y=j).
Zatem każdej parze kategorii zmiennej (X, Y), poza frekwencją otrzymaną w badaniu (fo) można
przyporządkować frekwencję oczekiwaną (fe) przy założeniu, że hipoteza zerowa jest prawdziwa.
Problem: Czy w populacji młodzieży akademickiej istnieje zależność pomiędzy zadowoleniem z
własnych osiągnięć a umiejscowieniem poczucia kontroli?
Mamy dwie zmienne nominalne, każda z ma dwie kategorie: zadowolenie z własnych osiągnięć
zadowolony i niezadowolony; umiejscowienie poczucia kontroli zewnątrzsterowni i
wewnątrzsterowni. Zależność pomiędzy zmiennymi nominalnymi nazywamy kontyngencją.
H0: zadowolenie z osiągnięć i umiejscowienie kontroli są niezależne
H1: ~H0
Zbadaliśmy n = 200 osób, a ich wyniki rozłożyły się w następujący sposób w tabeli o liczbie
wierszy w = 2 i liczbie kolumn k = 2, czyli w tabeli 2x2, czteropolowej:
Zadow. Niezadow. Ł
a b
Zewnątrz (40) (40) a+b = 80
30 50
c d
Wewnątrz (60) (60) c+d = 120
70 50
a+c= b+d=
Ł n = 200
100 100
Weryfikacja hipotezy zerowej: porównanie frekwencji oczekiwanych (fe) i otrzymanych (fo).
Jak wyglądałyby frekwencje w poszczególnych kratkach, gdyby zmienne były niezależne  czyli
gdyby była prawdziwa hipoteza zerowa.
W tym celu obliczamy frekwencje oczekiwane  fe dla każdej kratki w tabeli:
iloczyn _ sum _ brzegowych _ dla _ danej _ kratki
fe =
i
n
A następnie sprawdzamy, na ile frekwencje otrzymane w badaniu różnią się od frekwencji
oczekiwanych przy braku zależności pomiędzy zmiennymi. Dla każdej kratki w tabeli obliczamy
kwadratowe odległości pomiędzy frekwencjami otrzymanymi (fo) i oczekiwanymi (fe),
zrelatywizowane do wielkości frekwencji oczekiwanej (żeby nie nadważyć dużych kategorii).
k
( foi - fei )2
2
 =
"
fei
i=1
Dla naszego przykładu:
(30 - 40)2 (50 - 40)2 (70 - 60)2 (50 - 60)2
2
 = + + + = 2,5 + 2,5 +1,67 +1,67 = 8,34
40 40 60 60
Otrzymaną wartość porównujemy z wartością krytyczną dla danych stopni swobody:
df = (w-1) (k-1)
gdzie k  liczba kolumn, w  liczba wierszy w tabeli (stopnie swobody zależą więc od ilości
poziomów zmiennych  ilości kratek w tabeli dwudzielnej).
2 2
Jeżeli  > ą ,df H0 odrzucamy (przy przyjętym poziomie istotności ą)
2 2
Jeżeli  d" ą ,df nie ma podstaw do odrzucenia H0
W naszym przykładzie:
df = (2-1) (2-1) = 1
2
Wartość krytyczna testu 2 dla ą = 0,05 wynosi 3,841 ( 0,05,3 = 3,841) (por. tabela C w podręczniku
F& T: wartości krytyczne chi-kwadrat).
8,34 > od wartości krytycznej H0 odrzucamy.
W populacji młodzieży akademickiej istnieje związek pomiędzy umiejscowieniem poczucia
kontroli a zadowoleniem z własnych osiągnięć.
Względem jakiego rozkładu porównujemy wartość statystyki chi-kwadrat?
ZMIENNA O ROZKAADZIE 2
Wezmy k zmiennych losowych, z1, z2, z3, & zk. Każda z nich ma rozkład normalny o średniej
równej zero i odchyleniu standardowym równym 1 (zmienne normalne wystandaryzowane: Zi
N(0; 1)). Niech zmienne te będą nieskorelowane. Rozkład zmiennej Y(k) będącej sumą kwadratów k
zmiennych zi nazywamy rozkładem 2 o k stopniach swobody. Każdą zmienną mającą taki rozkład
będziemy nazywać zmienną o rozkładzie 2 i k stopniach swobody.
k
2
Y(k) =
"zi
i=1
Przebieg funkcji gęstości prawdopodobieństwa zmiennej o takim rozkładzie zależy tylko od
jednego parametru  liczby stopni swobody k; ź = k, 2 = 2k. Funkcja gęstości rozkładu 2 jest
bardzo asymetryczna dla małych wartości k. W miarę wzrostu k asymetria rozkładu maleje i
rozkład chi-kwadrat upadania się do rozkładu normalnego (w praktyce dla k > 30 dystrybuanta
zmiennej o rozkładzie 2 jest dostatecznie podobna do dystrybuanty zmiennej o odpowiednim
rozkładzie normalnym, by je utożsamić i traktować jedną jako przybliżenie drugiej).
Statystyka testu 2 ma asymptotyczny rozkład 2 z df = (w-1) (k-1)  co oznacza, że w miarę
wzrostu n, rozkład statystyki testu zbliża się do rozkładu 2, im n większe, tym większa bliskość.
Testem chi-kwadrat weryfikujemy hipotezę zerową o niezależności dwóch zmiennych
nominalnych. W przypadku odrzucenia H0 możemy ocenić siłę tej zależności przy pomocy
współczynników kontyngencji.
MIARY KONTYNGENCJI
Współczynnik kontyngencji dla tabeli 2x2 (czteropolowej)  współczynnik Ć  Yule a
Jest to pierwiastek z ilorazu danej wartości chi-kwadrat przez maksymalne chi-kwadrat, które dla
tabeli 2x2 wynosi tyle, ile n.
2 2
 
 = =
2
max n
Tak obliczony współczynnik przyjmuje wartości z zakresu <0;1>.
Dla naszego przykładu:
8,3
 = = 0,204
200
Współczynnik kontyngencji Ć jest tożsamy z współczynnikiem korelacji r-Pearsona. Zatem także
przypadku dychotomicznych skal nominalnych możemy operować pojęciem zróżnicowania
wyjaśnionego i niewyjaśnionego.
Ć2  część całkowitego zróżnicowania zmiennej Y wyjaśniona przez zmienność zmiennej X
(dla naszego przykładu Ć2 = (0,204)2 = 0,04; 4% zmienności X jest wyjaśniona przez Y). Ć Yule a
osiąga wartość max = 1 tylko gdy rozkłady brzegowe frekwencji odpowiadają sobie, czyli gdy
niezerowe frekwencje układają się na jednej z przekątnych tabeli (na drugiej mamy zera), co zdarza
się niezwykle rzadko, mimo tego NIE KORYGUJEMY WARTOŚCI Ć, gdyż poprawka
utrudnia interpretację wskaznika (poprawka jest niewrażliwa na różnice rozkładów zmiennych).
Współczynnik kontyngencji dla wszystkich innych tabel  współczynnik C-Pearsona
2

C =
2
 + n
Przyjmuje wartości z zakresu <0;1>, ale z definicji NIE OSIGA 1!!!
Z tego powodu wartość współczynnika C-Pearsona musi być ZAWSZE KORYGOWANA.
2

2
 + n
C
CKOR = =
CMAX CMAX
2 max dla tabeli k x k (ilość kolumn = ilość wierszy; k e" 3) = (k-1)n , czyli n.p.: dla tabeli 3x3
2n 2n 2
max 2 = 2n Cmax = = = = 0,816; dla tabeli 4x4 max 2 = 3n Cmax =
2n + n 3n 3
3n 3n 3
= = = 0,866; itd. Gdy tabela jest prostokątna (w `" k), CMAX = [CMAX (k x k) +
3n + n 4n 4
CMAX (w x w)] / 2, np.: dla tabeli 3 x 4, CMAX = (0,816 + 0,866) / 2 = 1,682 / 2 = 0,841.


Wyszukiwarka

Podobne podstrony:
Rozkład chi kwadrat
Tablica rozkladu chi kwadrat2
Test Chi kwadrat
Rozgrzewka po kwadracie – cz 2
Zestaw 1 Funkcja kwadratowa Funkcja homograficzna Równanie liniowe
NAN BEI WUSHU SHAOLIN SANDA TAI CHI CHUAN BAGUA XINGYI5
Równania kwadratowe matematyka
bilans wodny metoda najmniejszych kwadratow rownanie bubendeya
Neuroshima Gladiator do kwadratu
Ho chi min Testament polityczny
fun kwadrat panelsuwaki
4 Funkcja kwadratowa

więcej podobnych podstron