x2, wykłady i notatki, statystyka matematyczna


χ2 - chi-kwadrat

Testy chi-kwadrat to bardzo przydatna rodzina testów statystycznych. Dla nas najważniejsze są dwa ich zastosowania: sprawdzanie równoliczności wartości zmiennej oraz do testowania niezależności dwóch zmiennych na skali nominalnej (innymi słowy: czy jest związek między dwoma zmiennymi mierzonymi na skali nominalnej).

Ideą testu chi-kwadrat jest porównanie liczebności oczekiwanych i obserwowanych. Wyobraźmy sobie, że badamy reakcje na prośby o pieniądze. Gdyby świat był banalny, równie dużo ludzi odpowiada pozytywnie na takie prośby (daje jałmużnę) co odmawia datków. Hipoteza zerowa brzmiałaby: liczba osób, które dadzą pieniądze jest równa liczbie osób, które odmówią. Nasza hipoteza alternatywna (badawcza) będzie brzmiała: liczba ludzi, którzy odmówią datków jest inna niż ludzi, którzy dadzą jałmużnę,

Po przeprowadzeniu (fikcyjnego) badania okazało się, że 62 osoby na 100 odmawiają datków.

Wzór na chi-kwadrat wygląda następująco (nie musicie go umieć na pamięć):

0x01 graphic

Gdzie Oj oznacza częstość obserwowaną, a Ej częstość oczekiwaną. Musimy więc dla każdego poziomy zmiennej obliczyć różnicę liczebności obserwowanej i oczekiwanej. Każdą z tych różnic podnieść do kwadratu a następnie (każdą podniesioną do kwadratu różnicę) podzielić przez wartość oczekiwaną. Wyniki tych działań sumujemy i otrzymujemy wartość statystyki chi-kwadrat. Na przykładzie wygląda to tak:

Dali jałmużnę

Nie dali jałmużny

Wartości obserwowane (ile osób)

38

62

Wartości oczekiwane (ile by było, gdyby hipoteza zerowa była prawdziwa)

50

50

Różnica wartości obserwowanych i oczekiwanych

- 12

12

Kwadrat różnicy wartości obserwowanych i oczekiwanych

144

144

Iloraz kwadratu różnicy i wartości oczekiwanej

2,88

2,88

Suma ilorazów

5,76

χ2

5,76

Skoro znamy wartość statystyki χ2 musimy teraz określić jej istotność. Jednak zanim to zrobimy, musimy znać liczbę stopni swobody, jakie mamy w tych obliczeniach. W przypadku chi-kwadrtat wzór na liczbę stopni swobody to df = (r - 1) * (c - 1); gdzie r i c to ilość poziomów zmiennych, dla których obliczamy statystykę. Ponieważ mamy tylko jedną zmienną, która ma dwa poziomy, będziemy mieli jeden stopień swobody: df = 1.

Df \ Istotność

0,1

0,05

0,01

1

2,705

3,841

6,635

Zerkamy na tablicę statystyczną i stwierdzamy, że aby istotność statystyki chi-kwadrat dla jednego stopnia swobody była mniejsza niż 0,05 wartość tego testu musi być większa niż χ2 = 3,841. Ponieważ nasz wynik był większy niż ta wartość w związku z czym stwierdzamy, że występują istotne statystycznie różnice między liczbą ludzi, którzy dają jałmużnę a liczbą ludzi, którzy jałmużny nie dają. W SPSS klikamy Analiza, Statystyki nieparametryczne,
Chi-kwadrat. Proste

Sprawa wygląda podobnie gdy mamy dwie zmienne i chcemy sprawdzić niezależność zmiennych. Nie będę podawał przykładu, bo przecież i tak policzy to za nas SPSS, chcę jednak zwrócić uwagę na kilka kwestii technicznych (które warto wiedzieć). Po pierwsze test chi-kwadrat dla tabel krzyżowych w SPSS znajduje się w zakładce Analiza - Opis statystyczny - Tabele krzyżowe - Statystyki.

Przedstawmy teraz przykład obliczania chi-kwadrat dla tabeli krzyżowej: do planu eksperymentalnego wprowadzamy dodatkową zmienną, płeć osoby proszącej o pieniądze:

Jałmużna

Dali jałmużnę

Nie dali jałmużny

Oczekiwane (E)

Obserwowane (O)

Oczekiwane (E)

Obserwowane (O)

Płeć

Kobieta

19

29

31

21

Mężczyzna

19

9

31

41

Ogółem

38

62

Dlaczego wartości oczekiwane dla osób które dały wynoszą 19 a nie dały 31? Ponieważ nie testujemy równoliczności komórek, ale niezależność zmiennych. Wartość oczekiwana to liczba obserwacji podzielona przez liczbę kategorii zmiennej.

χ2 = (29 - 19)2 / 19 + (9 - 19)2 / 19 + (21 - 31)2 / 31 + (41 - 31)2 / 31 =

= 102 / 19 + (- 10)2 / 19 + (- 10)2 / 31 + 102 / 31 =

= 100 / 19 + 100 / 19 + 100 / 31 + 100 / 31 =

= 5,263 + 5,263 + 3,226 + 3,226 =

= 16,978

Obliczamy stopnie swobody [df = (1 - 1) * (1 - 1) = 1] a następnie sprawdzamy w tablicach i wiemy, że dla jednego stopnia swobody taka wartość testu chi-kwadrat jest istotna na poziomie p < 0,001. Mamy wynik!

Wynik testu chi-kwadrat zapisujemy w następujący sposób: χ2(df) = ….; p…; w omówionych wyżej przypadkach będzie to χ2(1) = 5,76; p<0,05 i χ2(1) = 16,978; p<0,001

W tym miejscu kończymy informacje, które musicie posiąść. Osoby, które chcą być nieco bardziej profesjonalnymi statystykami powinny wiedzieć, że test chi-kwadrat wymaga dużych liczebności. Dla małych liczebności używamy testu, który nazywa się Ilorazem wiarygodności (likelihood ratio), SPSS liczy go za każdym razem obliczając chi-kwadrat dla tabel krzyżowych. Ponadto, w żadnej komórce nie powinno być mniej niż 5 obserwacji. Jeśli zdarzy się, że mamy 5 obserwacji lub mniej używamy poprawki Yates'a (czyli poprawki na ciągłość). Jeśli zdarzy się, że w naszej tabeli są liczebności niższe niż 5, SPSS automatycznie liczy poprawkę na ciągłość. Poprawka ta jest także zalecana dla tabel 2x2, czyli takich tabel krzyżowych, gdzie mamy dwie zmienne, każda dwukategorialna. Niestety w tym wypadku musimy sami sobie obliczyć poprawkę na ciągłość wg. poniższego wzoru:

0x01 graphic

Wyniki tych „udziwnionych” testów zapisujemy tak samo, zaznaczając w tekście, że użyto poprawki na ciągłość lub ilorazu wiarygodności.



Wyszukiwarka