Zajęcia VIII
Zazwyczaj w zastosowaniu statystyki interesuje nas nie tyle sam "wygląd" (rozkład) zmiennej, ale raczej możliwość porównania różnych rozkładów oraz porównywania wyników różnych osób badanych w tej samej zmiennej.
Podstawową służącą do tego procedurą jest standaryzacja.
Wykorzystuje ona dwie podstawowe statystyki - średnią i odchylenie standardowe - i polega na policzeniu
o jaką część odchylenia standardowego dany wynik jest odległy od średniej,
co wyraża wzór:
ZXi (wynik standaryzowany) = s |
W trakcie pracy z SPSS mamy możliwość zapisania wyników standaryzowanych zmiennej dla wszystkich osób: w procedurze Analiza > Statystyki opisowe zaznaczamy opcję zapisz standaryzowane wartości jako zmienne
Standaryzacja wykorzystuje dwie cechy rozkładu wyników surowych (niestandaryzowanych):
dodanie stałej wartości do wszystkich wyników zmiennej: przesuwa jej średnią, ale nie zmienia wariancji i odchylenia standardowego
pomnożenie przez stałą wartość wszystkich wyników zmiennej: zmienia średnią i odchylenie standardowe - też są pomnożone przez tę wartość.
Standaryzacja jest szczególnie przydatna tam, gdzie porównujemy wartości zmiennych o różnych rozkładach. Warunkiem jej przeprowadzenia jest możliwość policzenia średniej i odchylenia standardowego - czyli przynajmniej przedziałowy poziom pomiaru zmiennej. Standaryzacja nie zmienia kształtu rozkładu zmiennej, przekształca go jedynie na rozkład o średniej równej 0 i odchyleniu standardowym równym 1.
Większość zmiennych w przyrodzie przyjmuje rozkład przybliżony do normalnego. Możemy zatem określając ich rozkład posłużyć się matematycznie jednoznacznie opisanym wystandaryzowanym rozkładem normalnym.
Rozkład ten ma średnią 0 i odchylenie standardowe 1 (jak każdy rozkład wystandaryzowany), kształt krzywej normalnej, a powierzchnia pod krzywą rozkładu jest równa 1 (lub 100 %). Można szczegółowo wyliczyć powierzchnię obszaru między dwoma dowolnymi wynikami - i podać jej wartość w ułamku (lub w procentach).
Tablice rozkładu normalnego można znaleźć praktycznie w każdym podręczniku statystyki. W tablicach podane są wartości zazwyczaj tylko dla dodatniej połowy rozkładu, a przy obliczeniach wykorzystuje się dodatkowo fakt, że rozkład normalny jest symetryczny: 50 % przypadków znajduje się poniżej średniej, a drugie 50 % powyżej średniej. W tablicach może być podany (a) obszar między średnią a badaną wartością z albo (b) obszar od najmniejszych wartości do badanej wartości z.
Zajęcia IX
W naukach społecznych zawsze chcemy wnioskować o populacji na podstawie reprezentatywnej próby - nazywamy to wnioskowaniem indukcyjnym.
Tak tworzone wnioski nigdy nie są pewne, zawsze tylko prawdopodobne. Prawdopodobieństwo to oczekiwany stosunek sukcesów (zdarzeń z pożądanym wynikiem) do wszystkich zdarzeń. Przyjmuje wartości od 0 (co odpowiada zdarzeniu niemożliwemu) do 1 (co odpowiada zdarzeniu pewnemu). Można też wyrazić je w procentach.
Dla zmiennych o rozkładzie normalnym, prawdopodobieństwo odpowiada powierzchni obszaru pod krzywą - np. prawdopodobieństwo, że z populacji wylosuję osobę, której wynik w Ilorazie Inteligencji mieści się po wystandaryzowaniu pomiędzy z=-1,96 a z=+1,96, wynosi 95 %.
Przy wnioskowaniu postępujemy następująco:
Tworzymy hipotezę zerową, opisującą sytuację "normalną", przed wprowadzeniem oddziaływania (np. manipulacji eksperymentalnej) oraz uzupełniającą ją hipotezę alternatywną, która przewiduje, że oddziaływanie doprowadzi do zmiany wyników.
Określamy rozkład badanej zmiennej w sytuacji "normalnej" - tzn. gdy prawdziwa jest hipoteza zerowa; rozkład ten nazywa się porównawczym.
Określamy na tym rozkładzie zakres wyników najbardziej prawdopodobnych, czyli budzących nasze zaufanie do hipotezy zerowej (przedział ufności). Zazwyczaj określamy go tak, aby objąć 95 lub 99 % wyników. Pozostałe 5 lub 1 % wyników to wyniki możliwe w sytuacji "normalnej", ale bardzo mało prawdopodobne (alfa).
Wynik uzyskany w naszym badaniu (po wprowadzeniu oddziaływania) przykładamy do rozkładu porównawczego i podejmujemy decyzję co do hipotez:
jeżeli wynik znajdzie się wśród wyników najbardziej prawdopodobnych (w przedziale ufności) - nie możemy odrzucić hipotezę zerową, choć jej nie potwierdzamy, zatem nasze badanie jest niekonkluzywne.
jeżeli wynik znajdzie się wśród wyników bardzo mało prawdopodobnych - odrzucamy hipotezę zerową i przyjmujemy hipotezę alternatywną.
alfa obejmuje wyniki, które są możliwe nawet wtedy, gdy hipoteza zerowa jest prawdziwa. Dlatego wartość ta określa także, jakie jest prawdopodobieństwo popełnienia błędu polegającego na odrzuceniu prawdziwej hipotezy zerowej (błędu pierwszego rodzaju). Wielkość alfa zależy od decyzji badacza.
beta to błąd przeciwny - polegający na nieodrzuceniu fałszywej hipotezy zerowej (błąd drugiego rodzaju) - może wynikać z wielu czynników związanych ze sposobem przeprowadzenia badania oraz doborem testu statystycznego. Wielkość beta jest zawsze nieznana, ale możemy ją minimalizować dbając o prawidłową konstrukcję, przeprowadzenie i analizę badania.
Zajęcia X i XI
Testy t służą do porównywania dwóch średnich.
Można je stosować pod warunkiem, że spełnione są dwa założenia:
1. rozkład badanej zmiennej w obu populacjach jest normalny
2. wariancje w porównywanych populacjach są jednorodne (podobne do siebie)
Wszystkie warianty testu t, dostępne w SPSS, znajdziemy w jednym miejscu: Analiza > Porównywanie średnich
Test t dla jednej próby służy do porównywania średniej uzyskanej w próbie z kryterium - np. wynikiem z wcześniejszych badań lub uzasadnionym teoretycznie. Hipoteza zerowa tego testu mówi, ze nie ma różnicy między średnią a kryterium.
Test t dla prób niezależnych służy do porównywania średnich uzyskanych w dwóch próbach, przy czym do każdej z nich należą inne osoby badane. Hipoteza zerowa tego testu mówi, że nie ma różnic między średnimi uzyskanymi w dwóch grupach.
Test t dla prób zależnych służy do porównywania średnich uzyskanych w jednej próbie ale dla dwóch zmiennych, reprezentujących kolejne pomiary jednej cechy.
Test t oparty jest na teoretycznym rozkładzie prawdopodobieństwa t-Studenta. Rozkład ten reprezentuje prawdopodobieństwo uzyskania różnych średnich przy pobieraniu z populacji wielu prób o wielkości takiej, jak próba badana. Jest to zatem rozkład średniej z próby (rozkład wielu średnich z wielu prób), a nie rozkład wyników indywidualnych osób badanych. Jego szczególną statystyką jest błąd standardowy średniej - odpowiednik odchylenia standardowego, który mówi o ile (przeciętnie) średnia uzyskana w próbie różni się od średniej w populacji.
Wynik testu t dla jednej próby zapisujemy następująco:
t(df, czyli liczba stopni swobody)=[wartość podana w raporcie], p [n.i. lub <0,05 lub <0,01 lub <0,001] np. t(29) = 0,768, n.i. Liczba stopni swobody dla tego testu wynosi N-1 (czyli liczebność próby -1)
Wynik testu t dla prób niezależnych odczytujemy po wcześniejszej analizie wyniku testu Levena (testu jednorodności wariancji) - jeśli istotność jest wysoka, czytamy z wiersza górnego, a jeśli niska, z dolnego. Zapisujemy następująco:
t(df, czyli liczba stopni swobody)=[wartość podana w raporcie], p [n.i. lub <0,05 lub <0,01 lub <0,001] np. t(28) = -0,277, n.i. Liczba stopni swobody dla tego testu wynosi N-2 (czyli liczebność próby -2), chyba że istotność w teście Levena jest niska - wówczas podajemy liczbę stopni swobody z raportu.
Wynik testu dla prób zależnych zapisujemy następująco:
t(df, czyli liczba stopni swobody)=[wartość podana w raporcie], p [n.i. lub <0,05 lub <0,01 lub <0,001] np. t(29) = 0,768, n.i.
Liczba stopni swobody dla tego testu wynosi [liczba par pomiarów -1] i równa się także N-1 (czyli liczebność próby -1)
Przy teście t dla prób zależnych SPSS automatycznie podaje także wynik korelacji między pierwszym a drugim pomiarem.
Korelacja odzwierciedla współzmienność dwóch zmiennych - czyli to, czy kiedy wartości jednej zmiennej zwiększają się, to wartości drugiej zmiennej także.
Korelacja przyjmuje wartości od -1 (wartości małe jednej zmiennej współwystępują z dużymi wartościami drugiej zmiennej i odwrotnie) do +1 (wartości duże jednej zmiennej współwystępują z dużymi wartościami drugiej zmiennej i małe z małymi). Korelacja nie informuje o kierunku zależności między zmiennymi, a jedynie o tym, że jakaś zależność istnieje.
Test istotności korelacji odpowiada na pytanie, czy w populacji, z której pochodzi próba korelacja jest istotnie różna od 0.
Ponieważ test t porównuje średnie, a korelacja sprawdza współzmienność, możliwe są wszystkie kombinacje istotnej-nieistotnej korelacji z istotnym-nieistotnym wynikiem testu t. Do odpowiedzi na pytanie o różnicę między średnimi wynikami uzyskanymi w pierwszym i w drugim pomiarze zmiennej niezbędny jest tylko wynik testu t, za to korelacja pokazuje nam szerszy obraz badanego zjawiska (np. jeśli różnice są istotne - to czy osoby o relatywnie wysokich wynikach za pierwszym razem mają także relatywnie wysokie wyniki za drugim razem?)
Korelację możemy policzyć nie tylko dla dwóch pomiarów tej samej zmiennej, ale także dla dwóch zmiennych, mierzonych u tych samych osób badanych - np. po to, aby odpowiedzieć na pytanie czy istnieje korelacja między wzrostem a wagą?
Wówczas uruchamiamy analizę przez: Analiza > Korelacje > Parami i wpisujemy do okienek parę zmiennych.
Dla zmiennych, których korelację badamy, możemy także wykonać wykres rozrzutu (Wykresy >Rozrzutu > Prosty) i zaznaczyć na nim linię, odzwierciedlającą związek między zmiennymi (w oknie edycji wykresu: Ustawienia > Opcje).
Zastosowanie komputerów
mgr Ewa Lipiec
2004/2005 semestr zimowy