Test zgodności Chi-kwadrat
Test zgodności chi-kwadrat (inaczej zwany testem Pearsona) służy do porównania ze sobą zaobserwowanego
rozkładu naszej zmiennej z jakimś teoretycznym rozkładem. Jednakże przy testowaniu zgodności rozkładu
naszej zmiennej z dobrze znanymi rozkładami teoretycznymi w statystyce : np. normalnym, Poissona zazwyczaj
stosuje się inne testy np. test K-S, test Shapiro-Wilka.
Test zgodności chi-kwadrat w praktyce można wykorzystad przynajmniej na dwa sposoby
1) sprawdzenie równoliczności grup
2) porównanie występowania obserwacji z ich teoretycznym występowaniem
1) Równolicznośd grup
Przykład:
Badacz chciał sprawdzid, czy w swoim badaniu była równa liczba kobiet i mężczyzn (statystycznie równa,
nieistotne statystycznie różnice). W badaniu przebadał 480 mężczyzn oraz 520 kobiet. Wynik okazał się
nieistotny statystycznie (dla p > 0,05). Oznacza to, że badacz może przyjąd, że przebadał podobną liczbę kobiet i
mężczyzn (mówiąc językiem statystyki).
Test ten stosuje się również w przypadku sprawdzania, czy któraś z udzielanych odpowiedzi była najczęściej
udzielana
Przykład:
Badacz zadał pytanie respondentom czy bardziej im smakuje napój A czy napój B. 36 osób badanych udzieliło
odpowiedzi A, a 64 osoby udzieliło odpowiedzi B.
Badacz założył, że gdyby napoje nie różniły się preferencją to powinien uzyskad podobne wyniki w obu grupach,
po 50 osób. Przeprowadził test zgodności chi-kwadrat i (dla poziomu p < 0,05) ocenił, że rozkład udzielanych
odpowiedzi nie jest równy, przeważa preferencja napoju B.
2) Występowanie obserwacji a ich teoretyczne występowanie
Przykład:
Załóżmy, że żyjemy w kraju, w którym 70% społeczeostwa stanowią kobiety. Badacz w swoim badaniu
przebadał 60 mężczyzn i 40 kobiet. Następnie chciał sprawdzid, czy rozkład płci w jego badaniu pokrywa się z
rozkładem w populacji danego kraju.
Teoretycznie, badając 100 osób, powinien zbadad 70 kobiet i 30 mężczyzn, aby odzwierciedlid proporcję w
populacji. Przy użyciu testu zgodności chi-kwadrat stwierdził, że różnica w proporcji kobiet i mężczyzn jest na
tyle duża, aby móc powiedzied, że jego rozkład płci w jego badaniu nie odzwierciedla rozkładu w populacji.
Założenia testu zgodności Chi-kwadrat
Są dwa najważniejsze założenia testu zgodności chi-kwadrat:
Minimalna liczebnośd próby = 5:
oznacza to, że w badanych grupach (czyli np. u mężczyzn, którzy wolą piwo, patrz: przykład test niezależności
chi-kwadrat) minimalnie powinno byd przynajmniej 5 zbadanych obserwacji.
Niezależnośd grup:
Drugą bardzo ważna zasadą jest niezależnośd zdarzeo, tzn., że nie wynik jednej osoby powinien odzwierciedlad
jedną sytuację, a nie kilka. To znaczy, że jeżeli osoba znalazła się w grupie mężczyzn, którzy wolą piwo, to nie
może znaleźd się w grupie mężczyzn, którzy wolą wino. Chod to wydaje się dośd absurdalne, to sytuacja taka
może zdarzyd się, gdy badacze zadają pytania z możliwością wielokrotnych odpowiedzi.
Wzór testu zgodności Chi-kwadrat
Gdzie:
f - oznacza liczbę zaobserwowanych wartości z danego przedziału,
np. - oznacza liczbę jednostek, które powinny znaleźd sie w danym przedziale (wartośd oczekiwana), przy
uwzględnieniu danego rozkładu teoretycznego.
Tablice chi-kwadrat - idea
Aby sprawdzid, czy wartośd statystyki chi-kwadrat wskazuje na istotną statystycznie zależnośd, musimy
sprawdzid, posługując się tablicą rozkładu chi-kwadrat, czy dana wartośd wskazuje na istotne statystycznie
różnice.
Aby tego dokonad, musimy znad:
wartośd statystyki chi-kwadrat (wynik testu chi-kwadrat)
liczbę przebadanych osób
poziom istotności (poziom prawdopodobieostwa), dla którego dany wynik będzie wskazywał na istotną
zależnośd
Dla przykładu, jeżeli przyjmiemy, że interesuje nas czy dany wynik jest istotny statystycznie, przy założeniu 5%
szans popełnienia błędu przy wnioskowaniu (p = 0,05) i do tego wiemy, że zbadaliśmy 100 osób - to na
skrzyżowaniu tych dwóch wartości odczytujemy wartośd statystyki chi-kwadrat i porównujemy ją z uzyskaną w
naszych obliczeniach statystyką.
Jeżeli wartośd naszego testu będzie większa niż wartośd z tablicy uznamy, że wynik jest istotny statystycznie
(przy założeniu p = 0,05)
Jeżeli natomiast wartośd naszego testu będzie mniejsza niż wartośd z tablicy uznamy wtedy, że wynik nie jest
istotny statystycznie.
W praktyce wygląda to natomiast tak, że programy statystyczne robią to już za nas i są one o wiele bardziej
dokładne niż takie podstawowe tablice. Dostarczają informacji, przy jakim p (jaka wartośd p) wynik jest istotny
statystycznie. Jeżeli program podaje p = 0,03 to wiemy, że godząc się na p = 0,05 uzyskaliśmy istotny
statystycznie wynik - ponieważ p = 0,03 jest mniejsze niż zakładany przez nas maksymalny próg p = 0,05.