Materiały do zajęć: “Podstawy statystyki w praktyce - SPSS for Windows”
Testy istotności różnic dla dwóch prób
Testy istotności różnic, mówiąc najogólniej, pozwalają na stwierdzenie, czy różnice występujące pomiędzy dwiema, lub więcej, porównywanymi grupami są statystycznie istotne. Istnieje wiele testów służących do oceny istotności różnicy.
Aby wybrać odpowiedni należy rozpatrzyć szereg kryteriów:
a) liczba porównywanych grup
b) skala pomiarowa zmiennej zależnej
c) kształt rozkładu zmiennej
d) homogeniczność wariancji rozkładów zmiennej zależnej
e) charakter grup pównawczych - zależne vs. niezależne
Omówione zostaną wyłącznie testy pozwalające na porównywanie dwóch grup danych.
Poniższy Algorytm wyboru testu istotności różnicy dla dwóch prób może okazać się przydatny przy wyborze odpowiedniego narzędzia statystycznego.
Rodzaj skali pomiarowej zmiennej zależnej
przedziałowa
porządkowa
nominalna
i ilorazowa
ocena
normalności
rozkładu
TAK
NIE
charakter grup
charakter grup
charakter grup
porównawczych
porównawczych
porównawczych
niezależne
zależne
niezależne
zależne
niezależne
zależne
liczebność prób
> 30
< 30
test
test t
test
test chi2
test
test t
test
dla prób
Kołmogorowa U Manna-
dla prób
Wilcoxona
McNemara
niezależnych
zależnych
-Smirnowa
Whitneya
ocena homoge-
niczności wariancji
założono
nie
równość założono
wariancji równości
wariancji
Materiały do zajęć: “Podstawy statystyki w praktyce - SPSS for Windows”
Porównywanie dwóch prób niezależnych
Testowanie istotności różnic międzygrupowych na dwóch próbach niezależnych zakłada, że w badaniu występują dwie zmienne. Jedna z nich dzieli osoby badane na dwie grupy, które są porównywane. Może to być zatem zmienna nominalna. Jest to zmienna niezależna. Bez względu na to na jakiej skali jest ona mierzona traktujemy ją jak zmienną nominalną - wyznacza różnice między grupami. Druga ze zmiennych - zależna - również może być mierzona na różnych skalach, jednak w zależności od skali pomiaru tej zmiennej użyjemy różnych metod statystycznych.
Omawianie testów istotności różnicy rozpocznijmy od testu
.
t-Studenta
Służy on do oceny różnicy średnich dwóch
grup gdy zmienna zależna jest mierzona na skali parametrycznej.
W celu przeprowadzenia testu t-Studenta należy z menu “Analiza” wybrać “Porównywanie średnich” a następnie “Test t dla prób niezależnych”
Rysunek 6.1.
Na ekranie pojawi się wówczas następujące okno:
Lista zmiennych
Okno na zmienne
zależne
Okno na zmieną
niezależną
Rysunek 6.2.
W oknie zatytułowanym “Zmienne testowane” należy umieścić zmienną zależną (mierzoną na skali przedziałowej) a w oknie “Zmienna grupująca” - zminną niezależną.
Następnie należy wcisnąć guzik “Definiuj grupy”.
Pojawi się
wówczas okno pozwalające na określenie, jakie kategorie zmiennej będą porównywane. Definiowanie grup pozwala na umieszczanie w oknie “Zmienne grupująca” zmiennych o większej ilości kategorii niż dwie. W takiej sytuacji podajemy tylko numery dwóch kategorii, które mają być porównywane testem t.
Pozostałe kategorie zmiennej
niezależnej program traktuje jak braki danych.
Okno, które otwiera się po naciśnięciu klawisza “Definiuj grupy” przedstawione jest na następnej stronie.
Materiały do zajęć: “Podstawy statystyki w praktyce - SPSS for Windows”
Okna na wartości
kategorii
Okno na wartość
punku podziału
Rysunek 6.3.
Porównywane grupy można zdefiniować w dwojaki sposób.
Jeżeli zmienna niezależna jest zmienną nominalną
kategorie zmiennej które mają tworzyć porównywane grupy wpisujemy do okien zatytułowanych “Grupa 1” i “Grupa 2”.
Jeśli jest to zmienna dychotomiczna (np. płeć) wpisujemy obie kategorie, jeśli jest to zmienna o większej ilości kategorii (np. stan cywilny) a zamierzamy brać pod uwagę tylko dwie z nich (np. wdowcy i rozwiedzeni) to do okien wpisujemy tylko wartości odpowiednie dla tych kategorii zmiennych. Drugiego sposobu używamy gdy zmienna niezależna jest mierzona na skali przedziałowej lub porządkowej i ma wiele kategorii, które chcemy po prostu podzielić na pół, na wysokie i niskie. Wtedy wybieramy opcję “Punkt podziału” i w oknie wpisujemy wartość, która ma być miejscem podziału (zazwyczaj średnią lub medianę).
Warto pamiętać, że wpisana wartość zostanie zaliczona do grupy
wyższych wyników. Po zakończeniu definiowania grup należy wcisnąć klawisz “Dalej” a następnie “OK” lub “Wklej”.
Przyjrzyjmy się wydrukowi testu t-Studenta dla zmiennych płeć i lata nauki szkolnej.
W poniższym przykładzie
sprawdzamy, czy osoby różnej płci, które wzięły udział w badaniu różnią się istotnie pod względem wykształcenia.
W oknie “Zmienne testowane” została więc umieszczona zmienna “educ” a w “Zmienna grupująca” zmienna “sex”.
Wydruk przedstawia się następująco:
Rysunek 6.4.
Jak widać, w nagłówku wydruku pojawia się nazwa przeprowadzonego testu. Poniżej w tabeli znajdują się statystyki opisowe porównywanych grup - mężczyzn i kobiet. Są to: liczba przypadków, średnia, odchylenie standardowe i błąd standardowy średniej.
Informacje zawarte w większej tabeli poniżej rozpoczyna wartość i istotność testu Lavene’a.
Test ten sprawdza homogeniczność wariancji w obu porównywanych próbach. Testowana hipoteza zerowa mówi o równości wariancji, stąd istotny wynik testu Levene’a wskazuje na małe prawdopodobieństwo, że wariancje są homogeniczne. Wynik w prezentowanym przykładzie to F=11,226 jest istotny na poziomie 0,01. Nie można więc uznać, że wariancje w obu grupach są homogeniczne.
Rozeznanie co do homogeniczności/niehomogeniczności wariancji jest istotne ze względu na wybór wyniku właściwego wyniku testu t, który jest obliczany równolegle dla równych i nierównych wariancji. W kolejnych kolumnach tabeli znajdują się wyniki testu dla wariancji homogenicznych - w linijce zatytułowanej “założono równość wariancji” - i dla wariancji niehomogenicznych - w linijce zatytułowanej “Nie założono równości wariancji”. Na podstawie wyniku testu Lavene’a decydujemy więc, którą linię wydruku będziemy czytać.
Materiały do zajęć: “Podstawy statystyki w praktyce - SPSS for Windows”
W tabeli znajdziemy, kolejno: wartość testu t, liczbę stopni swobody, istotność przy testowaniu dwustronnym, różnicę średnich, błąd standardowy różnicy średnich, przedział ufności różnicy średnich. Powracając do naszego przykładu, możemy stwierdzić, że kobiety w badanej populacji różnią się istotnie poziomem edukacji od mężczyzn.
Jeśli
początkowo stawialiśmy hipotezę kierunkową (przewidywaliśmy, że kobiety będą mniej wykształcone), to możemy stwierdzić, że kobiety w badanej populacji są istotnie mniej wykształcone od mężczyzn, chcąc powołać się na wynik testu podamy: t(1276)=3,824; p<0,001. Wyniki czytamy z lini zatytułowanej “Nie założono istotności wariancji” w związku z istotną wartością testu Lavene’a.
Nieparametrycznym odpowiednikiem testu t-Studenta jest test
.
U-Manna-Whitneya Testu tego używamy wtedy, gdy
zmienna zależna jest mierzona na skali porządkowej lub gdy rozkład zmiennej zależnej w porównywanych grupach odbiega od normalnego. Test ten liczony jest na danych porangowanych. Aby go rozpocząć należy z menu “Analiza”
wybrać “Testy nieparametryczne” a następnie “Dwie próby niezależne”
Rysunek 6.5.
Pojawi się wówczas następujące okno:
Okno na zmienne
Lista zmiennych
zależne
Okno na zmienną
niezależną
Rysunek 6.6.
Materiały do zajęć: “Podstawy statystyki w praktyce - SPSS for Windows”
Zmienne należy wprowadzić identycznie jak w przypadku testu t-Studenta - w górnym oknie zmienna (zminne) zależna, w dolnym zmienna grupująca (niezależna) wraz z podaniem dwóch kategorii, które mają być porównywane.
Wydruk testu U-Manna-Whitneya wygląda następująco:
Rysunek 6.7.
Jak widać powyżej, w nagłówku wydruku pojawia się nazwa przeprowadzonego testu. Następnie w tabeli znajdujemy liczebności porównywanych grup oraz średnie rangi zmiennej zależnej oraz sumy rang. Najważniejszą część wydruku stanowi dolna tabela zawierająca wartość statystyk U oraz Z oraz istotność wyniku.
W powyższym przykładzie policzono U-Manna-Whitneya dla ogólnego zadowolenia respondenta jako zmiennej zależnej i płci. Testowano więc hipotezę zerową o braku różnic w zadowoleniu między kobietami i mężczyznami. Jak widać otrzymany wynik nie pozwala na odrzucenie hipotezy zerowej na poziomie istotności 0,05.
Test U występuje w trzech różnych wersjach w zależności od liczebności porównywanych prób. Wersje dla prób poniżej 20 osób badanych w grupie bardziej licznej opierają się bezpośrednio na statysyce U, zaś wersja dla prób o liczebności powyżej 20 (w liczniejszej grupie) opiera się na wyliczonej na podstawie U statystyce Z (stąd Z na wydruku).
Innym testem, służącym do sprawdzania hipotezy zerowej, że dwie próby o różnych liczebnościach pochodzą z tej samej populacji, jest test
.
Z-Kołnogorowa-Smirnowa W SPSSie test ten “wywołuje się” tak samo jak omówiony powyżej test U-Manna-Whitneya z menu “Analiza”, Testy nieparametryczne”, “Dwie próby niezależne”. Należy tylko
”uaktywnić” test Z, a nie U (patrz Rys. 6.6). W odróżnieniu od wcześniej omówionego testu U, test Z-Kołmogorowa-Smirnowa nie posługuje się jedynie średnimi rangami w obu porównywanych grupach, ale całymi rozkładami danych.
Wydruk dla tego testu zaprezentowany jest na następnej stronie.
Materiały do zajęć: “Podstawy statystyki w praktyce - SPSS for Windows”
Rysunek 6.8.
Jak widać, w nagłówku wydruku pojawia się nazwa przeprowadzonego testu.
W pierwszej tabeli znajdują się
liczebności w porównywanych grupach. Druga tabela zawiera wartości największych różnic w rozkładach: różnicy “na plus”, “na minus” oraz największej bezwzględnej różnicy. Na końcu pojawia się wartość statystyki Z-Kołmogorowa-Smirnowa oraz poziom jej istotności statystycznej.
W zaprezentowanym przykładzie wartość statystyki Z jest równa =0,859 i wynik ten nie jest istotny statystycznie na poziomie 0,05, nie można więc odrzucić hipotezy zerową, że obie porównywane grupy pochodzą z tej samej populacji.
W przypadku gdy obie zmienne (ta która dzieli na grupy i ta, która jest grupach porównywana) mierzone są na skali nominalnej, odpowiednim narzędziem do oceny istotności różnicy rozkładów jest test chi .
2 Test ten pozwala ocenić, czy
kategorie jednej zmiennej rozkładają się równomiernie w kategoriach innej zmiennej. Najwygodniej jest analizować test chi2 w połączeniu z tabelą krzyżową zawierającą liczebności obu analizowanych zmiennych. By wyliczyć wartość tego testu należy więc wywołać polecenie “tabele krzyżowe” z menu “Analiza”, “Opis statystyczny” (patrz Rys. 4.5.).
Następnie należy umieścić analizowane zmienne w oknach zatytułowanych “Zmienne w wierszach” (jedna zmienne) i
“Zmienne w kolumnach” (druga zmienna), analogicznie jak w przypadku obliczania częstości. Kolejnym krokiem powinno być wciśnięcie klawisza “Statystyki”. Pojawi się wówczas następujące okno:
test c 2
Rysunek 6.9.
Materiały do zajęć: “Podstawy statystyki w praktyce - SPSS for Windows”
W oknie “Statystyki” należy zaznaczyć opcję “Chi-kwadrat” a następnie wcisnąć “Dalej”. Warto także pod przyciskiem
“Format” wybrać w ramce “Liczebności” opcję “Oczekiwane” oprócz domyślnych “Obserwowane” (Rys. 4.7.) Po naciśnięciu przycisku “OK” pojawi się
wydruk zawierający tabelę krzyżową z częstościami obserwowanym i
oczekiwanymi a pod tabelą wartość testu chi2 oraz jego istotność. Przyjrzyjmy się przykładowemu wydrukowi dla zmiennych płeć (”kobieta” i “mężczyzna”) i ocena wysokości podatków (”za wysokie” i ”w sam raz”).
Rysunek 6.9.
Wydruk składa się z trzech tabel. Dwie pierwsze są analogiczne, jak w przypadku obliczania częstości w tabelach krzyżowych - zawierają informacje o ilości przypadków ważnych i wykluczonych (pierwsza tabela) oraz liczebności obserwowane i oczekiwane dla czterech grup badanych - mężczyzn ocieniających podatki jako za wysokie, mężczyzn oceniających podatki jako w sam raz, kobiet ocieniających podatki jako za wysokie, kobiet oceniających podatki jako w sam raz (druga tabela). Analizując drugą tabelę możemy stwierdzić, że mężczyzn oceniających podatki jako “za wysokie” jest mniej niż powinno ich być, gdyby taka ocena podatków występował równie często u mężczyzn i kobiet (jest ich 233 a powinno być 240,8). W związku z tym mniej jest kobiet oceniających podatki jako “w sam raz” (powinno być 210,8 a jest 203). Test chi2 służy ocenie, czy takie przesunięcie wyników jest istotne statystycznie, czy też mogło pojawić się przypadkowo. Testowana jest hipoteza zerowa mówiąca, że obie zmienne są niezależne (kategorie jednej zmiennej rozkładają się równomiernie po kategoriach drugiej zmiennej). Wyniki tego testu oraz jego istotność znajdziemy w pierwszej linijce trzeciej tabeli (”Chi-kwardat Pearsona”). Powyższy wynik nie pozwala odrzucić hipotezy zerowej głoszącej, że odczucie, że podatki są za wysokie jest równie częste wśród kobiet, co wśród mężczyzn. Chcąc zacytować ten wynik należałoby podać: chi2 (1)=1,114; p=0,291.
Interpretacja istotnego wyniku testu chi2 jest możliwa wyłącznie w oparciu o tabelę częstości zawierającą liczebności obserwowane i oczekiwane.