Zajęcia II - 2 marca
Testy statystyczne można podzielić na dwie grupy:
testy parametryczne - przyjmują założenie o normalności rozkładu badanej zmiennej w populacji; zatem aby można było je stosować zmienna musi być mierzona na skali przynajmniej przedziałowej i rozkład tej zmiennej musi być normalny
testy nieparametryczne - stosowane gdy dane nie spełniają założeń testów parametrycznych: dla zmiennych mierzonych na skalach nominalnych i porządkowych lub dla zmiennych ilościowych, których rozkład nie jest normalny
Testy nieparametryczne przy tej samej liczbie osób badanych dają badaniom zazwyczaj niższą moc statystyczną (prawdopodobieństwo odrzucenia fałszywej hipotezy zerowej, czyli 1-β) - zatem przy ich stosowaniu rośnie prawdopodobieństwo popełnienia błędu II rodzaju. Dlatego należy planować badania tak, aby możliwe było spełnienie założeń testów parametrycznych i jeśli dane faktycznie spełniają te założenia stosować właśnie takie testy.
Test Kołmogorowa-Smirnowa
służy do porównywania rozkładu zmiennej ilościowej z rozkładem teoretycznym - najczęściej z rozkładem normalnym, aby sprawdzić spełnienie założenia parametrycznych testów istotności. Niska istotność testu (poniżej 0,05) wskazuje na niezgodność rozkładu zmiennej z zaznaczonym rozkładem teoretycznym.
Test znajduje się w: Analiza > Testy nieparametryczne > K-S dla jednej próby
Test chi-kwadrat (χ2) dla jednej zmiennej
służy do porównania rozkładu zmiennej nominalnej z założoną proporcją. Niska istotność testu (poniżej 0,05) wskazuje na niezgodność rozkładu zmiennej z zaznaczoną proporcją. Test znajduje się w: Analiza > Testy nieparametryczne > Chi-kwadrat; po zaznaczeniu zmiennej określić także rozkład testowany: wybie-rając opcję "wszystkie kategorie równe" albo określając proporcje przypisane kolejnym wartościom zmiennej.
Test chi-kwadrat (χ2) dla dwóch zmiennych
służy do sprawdzenia, czy liczebności w tabeli krzyżowej są zgodne z rozkładem, który powstałby, gdyby badane zmienne były od siebie niezależne - zatem używany jest jako test niezależności zmiennych. Niska istotność testu (poniżej 0,05) wskazuje na istnienie ogólnej zależności między zmiennymi.
Test znajduje się w: Analiza > Statystyki opisowe > Tabele krzyżowe; po zaznaczeniu zmiennej wybrać "chi-kwadrat" w Statystykach; warto także dla porównania poszczególnych celek i zdiagnozowania faktycznych różnic zaznaczyć w Komórkach liczebności i reszty.
Test U Manna i Whitneya - dla grup niezależnych
na podstawie zmiennej zależnej określa rangę każdej obserwacji, a potem zlicza rangi w porównywanych grupach; jeśli wartości sumy rang w obu grupach są podobne, oznacza to, że nie ma różnic między grupami; H0 zakłada, że sumy rang są równe; Analiza > Testy nieparametryczne > Dwie grupy niezależne
Test znaków rangowych Wilcoxona - dla grup zależnych
oblicza różnicę między pierwszym a drugim pomiarem, na podstawie bezwzględnych wartości różnic określa rangę każdej obserwacji, a potem zlicza sumę rang różnic dodatnich i ujemnych; jeśli wartości sumy rang dodatnich i ujemnych są podobne, oznacza to, że nie ma różnic między pomiarami; H0 zakłada, że sumy rang są równe; Analiza > Testy nieparametryczne > Dwie grupy zależne
Zajęcia III - 9 marca
W praktyce badawczej szczególne miejsce zajmują badania eksperymentalne, tzn. takie, w których badacz manipuluje zmienną niezależną, a osoby badane przypisane są do różnych poziomów tej zmiennej na podstawie decyzji badacza. W efekcie możliwe jest wówczas zaobserwowanie wyizolowanego wpływu zmiennej niezależnej na zmienną zależną. Zmienną zależną w eksperymencie nazywa się inaczej czynnikiem. Eksperyment jednoczynnikowy bada wpływ jednej zmiennej niezależnej na zmienną zależną. Eksperyment wieloczynnikowy bada wpływ więcej niż jednej zmiennej na zmienną zależną.
Do analizy danych eksperymentalnych szczególnie przydatna jest analiza wariancji (ANOVA). Analiza wariancji służy do porównania średnich uzyskanych w podgrupach osób badanych wyróżnionych na podstawie poziomów czynnika (czyli różnych wartości zmiennej niezależnej). Porównanie to jest wykonywane pośrednio, poprzez porównanie wariancji (zróżnicowania) wewnątrz wyróżnionych grup z wariancją (zróżnicowaniem) pomiędzy wyróżnionymi grupami.
Założenia analizy wariancji to: 1. zmienna zależna ma normalny rozkład w obrębie każdej podgrupy; 2. zmienna zależna ma jednakowa wariancję we wszystkich podgrupach; 3. pomiary są statystycznie niezależne. ANOVA jest dość odporna na złamanie założeń 1. i 2., szczególnie jeśli grupy są małe i o jednakowej liczebności, jednak jeśli te założenia są silnie naruszone należy zastosować dodatkowe procedury przekształcenia danych. Złamanie założenia 3. ma poważne, ale trudne do jednoznacznego przewidzenia konsekwencje - najlepiej zapobiegać mu przez losowe pobieranie prób i losowy przydział osób badanych do warunków eksperymentalnych.
Dla jednoczynnikowej analizy wariancji wzór obliczeniowy to:
s2b wariancja międzygrupowa
F = , czyli
s2w wariancja wewnątrzgrupowa
Uzyskany wynik jest porównywany z rozkładem F-Snedecora, z liczbą stopni swobody (k-1) i (N-k), gdzie N to liczebność całej próby, a k to liczba poziomów czynnika. Wynik zapisujemy: F (df b, df w) = wynik testu, poziom istotności.
Hipoteza zerowa analizy wariancji mówi, że średnie we wszystkich grupach wyróżnionych na podstawie poziomów czynnika są równe. Zatem hipoteza alternatywna mówi, że przynajmniej jedna średnia różni się od pozostałych. Jeżeli wynik testu F ma niską istotność (test/różnice są istotne statystycznie), dowiadujemy się jedynie, że nie wszystkie średnie są takie same.
Aby zbadać, które średnie grupowe faktycznie różnią się, przeprowadza się dodatkowe testy post-hoc. Testy te dokonują wielokrotnych porównań między badanymi podgrupami, przy czym wyniki są korygowane tak, aby mimo wielokrotnych analiz na tych samych danych nie wzrastał poziom α. Najczęściej stosowane są testy Scheffe, Tukeya, Duncana. Różnią się one właśnie tym, na ile prawdopodobne jest przy ich stosowaniu popełnienie błędu pierwszego rodzaju (prawdopodobieństwo to wzrasta zgodnie z podaną kolejnością testów). O wyborze testu decyduje zatem znaczenie błędów I i II rodzaju w prowadzonych badaniach: przy podejściu bardziej liberalnym zaleca się stosowanie testów Scheffe lub Tukeya z α = 0,10.
Analizę wariancji dla zmiennej zależnej i jednego czynnika wykonujemy w SPSS przez Analiza > Porównywanie średnich > Anova (na wydruku analiza nazywa się ONEWAY). W odpowiednich okienkach umieszczamy zmienną zależną i czynnik; za pomocą dodatkowych przycisków wybieramy Testy post-hoc, kontrasty, dodatkowe opcje (wykres, test jednorodności wariancji, statystyki opisowe zmiennej zależnej w podgrupach)
Zajęcia IV - 16 marca
Przy wieloczynnikowej analizie wariancji w SPSS korzystamy z procedury Analiza > Ogólny model liniowy > OML jednej zmiennej (na wydruku analiza nazywa się UNIANOVA). Model ten pozwala na opisanie złożonych planów badawczych, jednak dla przeprowadzenia w nim analizy wariancji wystarczy w okienkach umieścić zmienną zależną i czynniki; za pomocą dodatkowych przycisków wybieramy testy post-hoc, kontrasty, dodatkowe opcje (test jednorodności wariancji, statystyki opisowe zmiennej zależnej w podgrupach, oszacowanie średnich w podgrupach), wykresy - każdy wykres trzeba zdefiniować w górnej części okna i dodać do dolnej części okna; za pomocą przycisku model możemy skonstruować własny model analizy danych; SPSS domyślnie wykonuje model z wyrazem wolnym - wówczas na wydruku analizę wariancji opisuje „model skorygowany”; jeśli wykonujemy prostą analizę wariancji, bez współzmiennych, usunięcie wyboru opcji "uwzględniaj wyraz wolny w modelu", uprości wydruk, a nie ma wpływu na wartości interesujących nas współczynników wariancji.
W dwu- (i wielo-)czynnikowej analizie wariancji zróżnicowanie wyników zostaje przetestowane pod kątem istnienia efektów (wpływu) o różnych źródłach. Dla każdego czynnika sprawdzony zostaje jego własny wpływ na dane (efekt główny czynnika) oraz sprawdzony zostaje wpływ interakcji czynników na dane (efekt interakcyjny) - wpływ, którego nie można przypisać żadnemu z czynników osobno, ponieważ wpływ jednego czynnika zależy tutaj od poziomu drugiego czynnika.
Hipotezy zerowe dwuczynnikowej analizy wariancji mówią:
średnie we wszystkich wyróżnionych grupach są równe;
(dla każdego z czynników osobno) średnie w grupach wyróżnionych na podstawie poziomów czynnika są równe;
średnie we wszystkich wyróżnionych grupach, po skorygowaniu ich o wpływ efektów wszystkich czynników, są równe;
Wariancja międzygrupowa zostaje podzielona na wariancję wynikającą z czynnika A, wynikającą z czynnika B i interakcyjną, czyli pozostałą międzygrupową. Dla każdej z hipotez zerowych, odpowiadająca jej wariancja zostaje podzielona przez wariancję międzygrupową. Uzyskany wynik jest porównywany z rozkładem F-Snedecora.
Wynik zapisujemy: F (df efektu, df w) = wynik testu, poziom istotności. Liczba stopni swobody dla poszczególnych składowych wariancji wynosi: dla całej wariancji [N-1], dla wariancji wewnątrzgrupowej [N-pq] dla wariancji międzygrupowej [pq-1], w tym: dla wariancji, której źródłem jest czynnik A [p-1], dla wariancji, której źródłem jest czynnik B [q-1], a dla wariancji, której źródłem jest interakcja [p-1]x[q-1]; gdzie: p - liczba poziomów czynnika A, q - liczba poziomów czynnika B, N - liczebność całej próby
Po tej części zajęć:
wiesz na jakiej podstawie dokonuje się wyboru testu statystycznego; znasz założenia, sposób analizowania danych i interpretowania wyników w analizie wariancji; potrafisz wykonać w SPSS niektóre testy nieparametryczne, w tym dwie wersje testu chi-kwadrat, analizę wariancji jedno i dwuczynnikową z testami post-hoc, testami kontrastu, wykresami
Zastosowanie komputerów - kurs zaawansowany/ mgr Ewa Lipiec / 2004/2005 semestr letni - część I