ANALIZA STATYSTYCZNA DANYCH
sobą dwa rozkłady wyników; otrzymany (52 R i 48 O) oraz teoretyczny wynik, cy z naszych założeń co do uczciwości monety: (50 R i 50 O).
Łatw'o wyobrazić sobie podobny przykład w psychologicznej prakt^ eksperymentalnej. Załóżmy, że przebadaliśmy testem inteligencji emocjom)^ 40-osobową grupę studentów. W grupie tej było 25 kobiet i 15 mężczyzn. Cą proporcje płci w przebadanej przez nas grupie są takie same jak w populacji?}, znów powinniśmy porównać rozkład otrzymany (25 Ki 15 M) z rozkładem teoretycznym - 21 Ki 19 M. Rozkład teoretyczny tym razem nie zakłada rówmtf, kategorii, ponieważ wiadomo, że w populacji jest nieco więcej kobiet niż mężczyzn. Pozostaje jednak pytanie - czy otrzymany w badaniu, empiryczny rozkład pld, sposób istotny różni się od rozkładu teoretycznego - wynikającego z naszej wieda
0 strukturze płci w populacji?
Odpowiedzi na powyższe pytania możemy uzyskać stosując właśnie test chi-kwadrat. Test ten, jak już wspomnieliśmy, służy do porównywania dwód, rozkładów. Jego wynik pozwala na określenie prawdopodobieństwa, że otrzymam w badaniu rozkład zmiennej (empiryczny) różni się od rozkładu teoretycznej (ustalonego na podstawie obliczeń lub wiedzy na temat obserwowanej zjawiska). Test chi-kwadrat pozwala również porównywać ze sobą dwa rozkłady empiryczne - uzyskane w wyniku badania. Wtedy na podstawie otrzymanej wyniku możemy stwierdzić, czy analizowane zmienne pozostają ze sobą * zależności, czy też są od siebie niezależne.
Zanim przejdziemy do wykonywania procedury obliczania testu chi-kwadrat konieczne jest sprawdzenie kilku założeń, które muszą być spełnione, aby wyniki mogły być wiarygodne. Założenia są następujące:
• Wszystkie pomiary w zbiorze danych są od siebie niezależne. Konieczna jer taka organizacja danych, aby jedna obserwacja przynależała wyłącznie do jednej kategorii (tylko do jednej komórki tabeli);
• Próbka danych powinna być duża, ponieważ dokonujemy estymacji parametrów' populacji na podstawie mniejszego zbioru danych. Zwiększaj* próbę - zmniejszamy błąd i zwiększamy trafność otrzymanych wyników.
W jaki sposób działa test chi-kwadrat? W teście tym porównujemy ze sobą wyniki wartości otrzymanych (uzyskanych w badaniu) z wartościami oczekiwanymi - narzuconymi na podstawie wcześniejszej wiedzy o zjawisku lub wyliczonych ru podstawie rachunku prawdopodobieństwa. Od każdej otrzymanej wartośd odejmujemy jej wartość oczekiwaną i po podniesieniu do kwadratu dzielimy także przez wartość oczekiwaną - uzyskane wyniki sumujemy (więcej na temat sposobu obliczania testu chi-kwadrat np. w: Górniak i Wachnicki, 2000). Wróćmy do przykładu z orłem i reszką. Porównujemy rozkład otrzymany’ (52 R i 480) z rozkładem teoretycznym, wyliczonym na podstawie prawdopodobieństwa (50R
1 50 O). Aby policzyć wartość statystyki, posługujemy' się następującym wzorem (por. wzór 7.1) (i znów - uff - pod ręką jest na szczęście SPSS, który wykonuje za nas tę niezbyt wdzięczną pracę).
Wzór na test chi-kwadrat:
(7.1)
Gdzie:
0 - to wartości otrzymane w badaniu (observed)
£ - to wartości oczekiwane (expected) lub teoretyczne
Po podstawieniu do wzoru odpowiednich wartości otrzymujemy:
(5^2 + (48 - 50)*
* 50 50
W ten sposób obliczyliśmy wartość statystyki chi-kwadrat w przykładzie z monetą. Aby sprawdzić prawdopodobieństwo odrzucenia prawdziwej hipotezy zerowej (czyli poziom istotności) dla otrzymanej wartości testu, potrzebujemy także wartości stopni swobody dla analizowanej zmiennej. Stopnie swobody w tym ptzy-padku to liczba kategorii zmiennej minus jeden. Ponieważ przy rzude monetą są tylko dwie kategorie - orze! i reszka - jest jeden stopień swobody (df = 1 - iąrtts of frudom). Co jest zrozumiale - jeśli wiemy, że wypadł orzeł - wiemy też od razu, że nie wypadła reszka. Teraz, znając wartość testu chi-kwadrat oraz liczbę stopni swobody, możemy przystąpić do weryfikacji hipotezy zerowej, która w teście chi-kwadrat mówi o braku różnic między liczebnośdami obserwowanymi a oczekiwanymi: „Nie ma istotnej różnicy między uzyskanym na drodze losowania rozkładem empirycznym a wynikającym z rachunku prawdopodobieństwa rozkładem teoretycznym”. W skrócie można ją zapisać jako:
H(f E=0
Za pomocą tablic lub pakietu statystycznego odczytujemy poziom istotnośd dla y2 = 0,16; przy df= 1. Jest to p < 0,689. Zgodnie ze standardem Amerykańskiego Towarzystwa Psychologicznego (APA), wynik ten powinniśmy zapisać następująco:
£2(l, N = 100) = 0,16; ni. Wynik testu jest nieistotny statystycznie, nie mamy więc podstaw do odrzucenia hipotezy zerowej.
Przypomnijmy, że poziom istotności jest dla nas odpowiedzią na pytanie, na ile prawdopodobne jest, że postawiona przez nas hipoteza zerowa jest prawdziwa? Lub też jak duże jest prawdopodobieństwo (ryzyko) popełnienia błędu pierwszego rodzaju. Zgodnie z przyjętymi założeniami - dopiero wtedy, gdy prawdopodobieństwo prawdziwości hipotezy zerowej wynosi mniej niż 5% - czyli p < 0,05 - mamy prawo ją odrzucić. Tylko w takim przypadku moglibyśmy uznać, że analizowane przez nas rozkłady istotnie różnią się od siebie. W opisywanym tu przypadku nie możemy takiego wniosku wyciągnąć.