Jednoczynnikowa analiza wariancji:
Analiza wariancji jest metodą statystyczną, która pozwala na testowanie hipotez o równości średnich w co najmniej trzech porównywanych grupach. Można ją uznać za uogólnienie testu t dla prób niezależnych na sytuację z większą ilością porównywanych grup. Zanim przystąpimy do formalnego omówienia statystyki służącej do weryfikowania takich hipotez, prześledźmy założenia, jakie muszą być spełnione, aby użycie tej analizy było uzasadnine:
Założenia analizy wariancji:
Podobnie, jak w przypadku testu t, musi być spełniony warunek przedziałowości skali pomiaru zmiennej zależnej (tej, z której wyliczane są średnie). Zmienna niezależna, inaczej nazywana grupującą może być mierzona na dowolnej skali.
Wymagana jest równoliczność porównywanych grup (w praktyce analiza wariancji prowadzi do sensownych wyników, jeśli najmniejsza z porównywanych grup nie jest ponad 5-ciokrotnie mniejsza od najliczniejszej grupy).
Pomiary zmiennej zależnej powinny mieć rozkład normalny w porównywanych grupach. W praktyce okazuje się, że test F jest dość odporny na niespełnienie założenia o normalności rozkładu zmiennej zależnej, ale jest wrażliwy na odchylenia od symetryczności tego rozkładu.
Wariancja pomiarów powinna być taka sama we wszystkich grupach - niespełnienie tego założenia może prowadzić do zawyżania wartości testu F i do zbyt wielu odrzuceń hipotezy zerowej, H0.
Pomiary w obrębie grupy powinny być statystycznie niezależne.
Często można się spotkać ze skróconą wersją nazwy tej metody - ANOVA, jest to zlepek pierwszych liter angielskiej nazwy Analysis Of Variance.
Testowi w przypadku analizy wariancji podlega hipoteza zerowa o równości wszystkich średnich grupowych. Formalnie można ją ująć następująco:
Hipoteza zerowa:
H0: μ1 = μ2 = μ3 = ... = μ,
gdzie μi oznacza średnią ze zmiennej zależnej w i-tej grupie, a μ średnią ogólną.
Wobec tego hipoteza alternatywna mówi, że istnieją co najmniej dwie takie populacje, w których porównywane średnie są różne.
W większości sytuacji analiza wariancji jest wykorzystywana, kiedy chcemy sprawdzić, czy zmiana poziomu czynnika (wartości zmiennej grupującej) idzie w parze ze zmianą wysokości uzyskiwanych przez osoby badane wyników, a zatem i średniej z tych wyników. Na przykład można wyobrazić sobie sytuację, w której osoby badane poddawane są manipulacji poziomem stresu, jaki odczuwają przed podjęciem próby rozwiązywania testu. Po poddaniu badanych tej manipulacji, wszystkie osoby badane przystępują do rozwiązywania zadań. To, do której z grup ze względu na poziom odczuwanego stresu należą badani można zapisać jako wartości zmiennej niezależnej (np. podwyższony poziom stresu, obniżony poziom stresu oraz grupa kontrolna, nie poddawana żadnej manipulacji), natomiast ich wyniki w teście, jako wartości zmiennej zależnej.
Statystyka, na podstawie której podejmuje się decyzję o przyjęciu bądź odrzuceniu hipotezy zerowej, nazywa się statystyką F i jest wyznaczana następująco:
.
Co oznaczają te terminy? Wariancja międzygrupowa jest miarą rozproszenia średnich uzyskanych w porównywanych grupach w stosunku do średniej ogólnej. Formalnie wariancja międzygrupowa dana jest wzorem:
gdzie μi oznacza średnią ze zmiennej zależnej w i-tej grupie (w oparciu o wyniki osób z tej grupy), a μ średnią ogólną (wyliczoną w oparciu o wszytkie wyniki osób badanych), k jest parametrem opisującym ilość porównywanych grup. Licznik tej statystyki nazywa się międzygrupową sumą kwadratów, a mianownik międzygrupowymi stopniami swobody.
Jeśli prawdziwa jest hipoteza zerowa, a zatem wszystkie średnie grupowe, a także średnia ogólna są sobie równe, to wariancja międzygrupowa wynosi 0 - nie ma żadnej zmienności w porównywanych średnich grupowych. Im większe jest zróżnicowanie między porównywanymi grupami, tym większa jest również wariancja międzygrupowa, a wobec tego również wartość statystyki F. Jak widać duże wartości statystyki F przemawiają „przeciwko” hipotezie zerowej.
Wariancja wewnątrzgrupowa jest natomiast miarą rozproszenia wyników w obrębie grupy, do której należy dany wynik. Wariancja wewnątrzgrupowa dana jest wzorem:
gdzie xi oznacza i-ty wynik w danej grupie,
jest średnią z wyników w i-tej grupie,
jest ilością osób w i-tej grupie, xij jest wartością zmiennej zależnej dla j-tej osoby z i-tej grupy, a n oznacza ilość wszystkich osób badanych, zaś k ilość porównywanych grup. Licznik tej statystyki nazywa się wewnątrzgrupową sumą kwadratów, zaś mianownik wewnątrzgrupowymi stopniami swobody.
Jeśli wysokość uzyskiwanych wyników byłaby uzależniona wyłącznie od poziomu czynnika (we wcześniejszym przykładzie od poziomu stresu), to w obrębie każdej z grup wariancja wynosiłaby 0, a zatem cała wariancja wewnątrzgupowa również 0. W praktyce nigdy nie zdarza się taka sytuacja, ponieważ na wysokość uzyskiwanych przez osoby badane wyników mają wpływ również inne, nie kontrolowane przez badacza czynniki (na przykład poziom inteligencji, stopień zmęczenia oraz doświadczenie osób badanych w rozwiązywaniu podobnych zadań). Ale jeśli czynnik kontrolowany ma duże znaczenie w porównaniu z pozostałymi, to wariancja wewnątrzgrupowa powinna być niewielka (a zatem mianownik statystyki F mały, a to oznacza, że wartość statystyki F duża). Natomiast jeśli pozostałe czynniki miały większy wpływ na wartości zmiennej zależnej niż czynnik kontrolowany, to zmienność wyników w porównywanych grupach będzie większa, więc i wariancja wewnątrzgrupowa też, a zatem wartości statystyki F będą mniejsze.
Uwaga: Gdybyśmy chcieli policzyć wariancję wyników zmiennej zależnej dla wszystkich osób razem wziętych, to należało by skorzystać ze wzoru:
Okazuje się, że w przypadku pojawiającej się w liczniku sumy kwadratów odchyleń wyników od średniej możliwe jest rozbicie jej na dwa fragmenty - wariancji wewnątrzgrupowej oraz wariancji międzygrupowej (opisanych powyżej). Tę własność wariancji nazywa się addytywnością. Zatem możemy powiedzieć, że istnieją dwa źródła powstawania odchyleń od średniej ogólnej - związane z wariancją międzygrupową różnice wynikające z przynależności do różnych grup, oraz tak zwany błąd związany z wariancją wewnątrzgrupową.
Podobne zależności obserwuje się dla stopni swobody, czyli mianowników wyrażeń opisujących wariancję - całkowite stopnie swobody są sumą stopni swobody między- i wewnątrzgrupowych. Zatem stopnie swobody również są addytywne.
.
Zarówno przy omawianiu wariancji międzygrupowaj, jak i wewnątrzgrupowej, doszliśmy do takich samych wniosków - większe wartości statystyki F przemawiają przeciwko hipotezie zerowej (o równości średnich ze zmiennej zależnej w porównywanych grupach).
Test analizy wariancji został skonstruowany w oparciu o założenie, że we wszystkich porównywanych grupach zmienna zależna ma rozkład normalny. Przyjmijmy, że to, a także założenie o równoliczności porównywanych grup są spełnione.W takiej sytuacji możliwe jest wyznaczenie rozkładu wartości statystyki F przy prawdziwości hipotezy zerowej. Na podstawie wcześniejszych rozważań wiadomo już, że najbardziej prawdopodobne powinny być niewielkie wartości statystyki F, natomiast większe (te, które są najbardziej niezgodne z hipotezą zerową) mniej prawdopodobne.
Przykłady rozkładów gęstości tej statystyki dla różnych par stopni swobody (czyli różnej ilości porównywanych grup oraz ilości osób badanych) wyglądają następująco:
Fkrytyczne=2,400410
Fkrytyczne=2,305318
Fkrytyczne = 2,790009
Fkrytyczne=2,695536
Podobnie, jak w innych testach statystycznych z ustalonym poziomem istotności α, obszar krytyczny (czyli taki przedział wartości statystyki F, że uzyskanie wyniku wpadającego do tego przedziału powoduje odrzucenie hipotezy zerowej) znajduje się w obszarze wyników najmniej zgodnych z hipotezą zerową i ma stanowić α wszystkich możliwych wyników. W przypadku analizy wariancji do testowania hipotezy o równości średnich będzie to α największych wyników. Na powyższych wykresach pionowe linie oddzielają 5% wszystkich największych wyników, zatem obszary krytyczne składają się z takich wartości statystyki F, które leżą na prawo od tych linii. Otrzymanie wyniku, który wpadnie do obszaru krytycznego jest równoznaczne z odrzuceniem hipotezy zerowej na poziomie istostności α (w naszym przykładzie α = 0,05). Jak widać na wykresach, wartość krytyczna testu F jest uzależniona od pary stopni swobody i zmienia się w zależności od tych parametrów.
Wykonywanie analizy wariancji w pakiecie SPSS
Wykonamy teraz przykładową analizę wariancji - przypuśćmy, że chcemy sprawdzić, czy prawdziwa jest hipoteza o równości średnich dochodów w każdej z grup wyróżnionych na podstawie regionu zamieszkania. W naszym przypadku zmienną zależną jest zmienna dochód (RINCOME), zaś grupującą (czynnikiem, zmienną niezależną) zmienna region zamieszkania (REGION8). Aby wykonać taką analizę, należy wejść do menu Analiza, następnie wybrać Porównywanie średnich, a potem Jednoczynnikowa ANOVA.
Po wybraniu tej opcji, pojawi się okienko dialogowe analizy wariancji. Do okienka z napisem Zmienne zależne należy przerzucić zmienną RINCOME, zaś do paska Czynnik zmienną grupującą, którą w naszym wypadku jest zmienna REGION8. Jednoczesne wrzucenie do okienka zmiennych zależnych kilku zmiennych spowoduje, że zostanie przeprowadzonych kilka analiz wariancji przy tej samym czynniku i kolejno zmieniających się zmiennych zależnych. Za każdym razem uzyskamy jednak jedynie odpowiedź na pytanie, czy średnie z jednej zmiennej zależnej można uznać za równe (w populacji). Po uzupełnieniu okienek można kliknąć OK, po czym w oknie raportu pojawi się tabela wyniku testu:
W tabelce znajdują się informacje na temat oszacowania wariancji wewnątrz- i międzygrupowej (nazywane tutaj średnimi kwadratami - między grupami oraz wewnątrz grup), a także służące do ich obliczenia sumy kwadratów (odchyleń od odpowiednich średnich), czyli liczników ze wzoru na wariancje oraz stopnie swobody (df). Po ilości stopni swobody możemy na przykład wywnioskować, ile osób zostało uwzględnionych w naszej analizie, a także, do ilu grup osoby te zostały przydzielone. Ponieważ ilość stopni swobody dla wariancji międzygrupowej wynosi 7 (=k-1, gdzie k jest ilością porównywanych grup), to wiadomo, że porównywano 8 grup. Ilość osób, jakie wzięły udział w badaniu możemy wyznaczyć albo na podstawie całkowitych stopni swobody (46 = n-1), co daje rezultat 47 osób, albo na podstawie wewnątrzgrupowych stopni swobody (39 = n - k = n - 8). Oczywiście wynik końcowy jest taki sam - mamy zatem 47 osób w 8 grupach.
Odczytywanie wyniku analizy wariancji odbywa się na analogicznych zasadach, co w przypadku innych testów opartych na istotności - w naszym przypadku istotność testu wynosi p = 0,591, jest większa od założonego poziomu istotności α = 0,05, zatem nie mamy podstaw do odrzucenia hipotezy zerowej (we wszystkich regionach średni dochód jest taki sam). Gdyby istotność była mniejsza od poziomu istotności, należało by odrzucić hipotezę zerową, a zatem przyjąć, że istnieją co najmniej dwie grupy, dla których średnie różnią się.
Prawidłowy zapis wyniku analizy wariancji jest następujący F(7, 39) = 0,802, p = 0,591. Przy podawaniu wartości statystyki F konieczne jest podanie pary stopni swobody - najpierw dla wariancji międzygrupowej, następnie dla wariancji wewnątrzgrupowej.
Testy porównań wielokrotnych
Po wykonaniu analizy wariancji jeteśmy w stanie stwierdzić bądź, że wszystkie średnie grupowe mogą zostać uznane za równe, bądź, że co najmniej dwie z nich różnią się. Przypuśćmy, że uzyskaliśmy istotną analizę - wiemy zatem, że jakieś grupy różnią się. Niestety, na podstawie samej tabelki analizy wariancji nie możemy powiedzieć, między którymi średnimi istnieją różnice. Aby poznać odpowiedź na to pytanie, należy przeprowadzić dodatkowe analizy - testy porównań wielokrotnych, zwane również testami post hoc. Te testy testują kolejno równość średnich dla każdej pary grup, wracamy więc do takiej samej sytuacji, z jaką mieliśmy do czynienia w przypadku testów t dla prób niezależnych. Testy porównań wielokrotnych różnią się jednak od zwykłych testów t, co ma na celu zmniejszenie szansy popełnienia błędu przy ocenie istotności różnic między porównywanymi grupami.
Zastanówmy się przez chwilę, co by się stało, gdybyśmy do testów porównań wielokrotnych użyli testów t. W przypadku pojedynczego testu, wybrany przez badacza poziom istotności informuje o tym, jak duże jest ryzyko popełnienia błędu polegającego na odrzuceniu prawdziwej hipotezy zerowej (a zatem na wykryciu faktycznie nieistniejących różnic). Jeśli przeprowadzamy taki test jednorazowo, to prawdopodobieństwo popełnienia błędu wynosi α, zaś prawdopodobieństwo uzyskania wyniku zgodnego z faktami (1-α). Jeśli będziemy wykonywać testy na tym samym zbiorze średnich wielokrotnie, to po wykonaniu k testów prawdopodobieństwo, że każdy z nich dał dobry wynik wynosi (1 - α)k, zaś ryzyko popełnienia błędu 1 - (1 - α)k. Na przykład, jeśli chcielibyśmy stosować testy t do weryfikacji równości średnich w 5-ciu grupach, to ilość możliwych porównań par wynosi 10 i ryzyko popełnienia błędu polegającego na wykazaniu różnic pomimo ich braku wynosi ponad 0,40 zamiast pierwotnego poziomu istotności α = 0,05. Jak widać, wraz z rosnącą liczbą porównań, rośnie również prawdopodobieństwo odrzucenia prawdziwej hipotezy zerowej. W związku z tym wprowadza się poprawki, które korygują ten błąd. Testy post-hoc są właśnie takimi „udoskonalonymi” narzędziami do wykonywania wielokrotnych porównań. SPSS oferuje różne typy testów - ich zastosowanie uzależnione jest od typu danych, z jakimi mamy do czynienia oraz celu, do którego zmierzamy. Poniżej znajdują się krótkie opisy podstawowych typów testów post-hoc:
Scheffe - najbardziej konserwatywny test. Wartość krytyczna dobrana jest tak, aby ustalone dla wszystkich porównań łącznie prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest prawdziwa, nie przekraczało wybranej wartości (np. α = 0.05). Daje to w efekcie najbardziej konserwatywny test spośród wszystkich procedur post hoc. Jeżeli ogólne F nie jest istotne, żadne z badanych testem Scheffego porównań na pewno nie będzie istotne. Zaletą tej metody jest to, że można ją wykorzystywać dla dowolnych porównań, nie tylko prostych par średnich, jeśli tylko daje się je wyrazić w postaci kontrastu (patrz niżej).
Tukey - ma większą moc niż test Scheffego (tzn. jest mniej konserwatywny i pozwala łatwiej wychwycić różnice między grupami), ale oczywiście mniejszą niż dowolne porównania a priori. Wykorzystuje statystykę Q, a nie F. Jeśli porównania post hoc ograniczamy do porównań par średnich (tzn. nie konstruujemy specjalnych kontrastów), nie ma potrzeby stosowac testu Scheffego - test Tukeya uwzględnia największą poprawkę na poziom prawdopodobieństwa, wynikającą z liczby możliwych porównań par średnich.
Duncan - korzysta także ze statystyki Q, na której opiera się test Tukey'a, jednak przyjmuje różne wartości krytyczne, w zależności od tego, ile średnich mieści się pomiędzy dwiema porównywanymi średnimi. A zatem wielkość różnicy wymaganej dla uzyskania istotnego wyniku zależy od tego, jak daleko znajdują się od siebie porównywane średnie (ważny jest porządek, czyli rangi, a nie konkretne wartości średnich). Im bardziej średnie są od siebie oddalone, tym słabsze jest kryterium istotności i łatwiej uzyskać istotne wyniki. Test Duncana jest bardziej czuły od Tukeya (tzn. mniej konserwatywny).
Bonferroni - wykonuje testy t-Studenta, ale bierze poprawkę na ich ilość czyli na liczbę wykonywanych porównań; "umiarkowany" w poprawkach na prawdopodobieństwo.
Najmniejszych Istotnych Różnic (NIR) - równoważny z wykonywaniem testów t-Studenta dla każdej pary grup, nie wprowadza żadnej poprawki na prawdopodobieństwo; nie polecany, bo przekłamuje prawdopodobieństwa.
Wykonywanie testów porównań wielokrotnych w SPSS-ie
Zanim przystąpimy do wykonania testów porównań wielokrotnych, należy przede wszystkim wykonać analizę wariancji - jedynie, jeśli analiza okaże się istotna, jest sens przeprowadzania analizy post-hoc. Przeprowadźmy analizę wariancji ze zmienną zależną HRS (średnia liczba godzin przepracowywanych tygodniowo przez osobę badaną) oraz czynnikiem opisującym poziom wykształcenia osób badanych. Aby zapewnić względną równoliczność porównywanych grup, dla potrzeb analizy wariancji została stworzona nowa zmienna NEDUC z wartościami:
1 - wykształcenie co najwyżej podstawowe (do 8 lat edukacji)
2 - wykształcenie niepełne średnie lub zawodowe (10 lat)
3 - wykształcenie średnie (12)
4 - wykształcenie wyższe niż średnie (ponad 12 lat edukacji).
Weryfikujemy zatem hipotezę o równości średniej ilości godzin spędzanych w pracy w każdej z 4 wyróżnionych na podstawie wykształcenia grup. Analiza wariancji dała w tym wypadku wynik istotny stastystycznie F(3,44) = 4,453, p < 0,05:
Mamy zatem podstawy do przeprowadzenia testów porównań wielokrotnych, aby móc ustalić, między którymi grupami występują istotne statystycznie różnice. W tym celu ponownie wchodzimy do okna dialogowego analizy wariancji (Analiza → Porównywanie średnich → Jednoczynnikowa ANOVA), a następnie klikamy na przycisk Post hoc. W okienku porównań wielokrotnych stawiamy parafkę przy wybranym rodzaju testu - tym razem niech będzie to test Bonferroniego - a następnie Dalej i OK.
W oknie raportu pojawia się wówczas kolejna analiza wariancji wraz z testem porównań wielokrotnych Bonferroniego. Poniżej znajduje się taka tabelka wyników. Zasady odczytywania wyników są zbliżone do odczytywania wyników testów t. Dwie skrajne lewe kolumny tabelki mają nagłówki opisujące i-te i j-te porównywane grupy, w następnej kolumnie znajduje się informacja o tym, ile wynosi różnica między średnimi w tych grupach (od średniej w i-tej grupie odjęta jest średnia wyliczona dla j-tej grupy). Zobaczmy to na przykładzie drugiego wiersza wyników - pierwszą z porównywanych grup jest grupa „1” (czyli osób z wykształceniem nie wyższym niż podstawowe ), drugą grupa „3” (wykształcenie średnie), różnica w średniej ilości godzin spędzanych w pracy przez osoby badane z tych dwóch grup wynosi 25,79. Na tej podstawie możemy ocenić, że osoby z grupy „1” średnio spędzają więcej czasu w pracy niż osoby z grupy „3” (różnica jest dodatnia, więc większa musiała być wartość uwzględniona jako pierwsza), wiadomo również, że spędzają go średnio o ponad 25 godzin więcej. W kolejnej kolumnie wyliczona jest wartość błędu standardowego tego oszacowania, a następnie - najważniejsza informacja - istotność takiej różnicy. Jak zwykle, jeśli istotność spada poniżej założonego poziomu istotności, możemy odrzucić hipotezę o równości porównywanych średnich, a zatem mamy podstawy do stwierdzenia, że średnia długość pracy jest inna w grupie „1” niż w grupie „3”. Do takiego samego wniosku moglibyśmy dojść analizując 95%-owy przedział ufności dla różnicy średnich - jeśli między dolną a górną granicą tego przedziału znajduje się 0, to znaczy, że przyjmujemy możliwość, że różnica średnich wynosi 0 - a zatem nie ma różnic między porównywanymi grupami. Jeśli natomiast obie granice są tego samego znaku, to wiadomo, że różnica jest istotna statystycznie.
Aby łatwiej było zauważyć, które grupy różnią się od siebie, przy istotnych różnicach średnich pojawiają się znaki *. Automatycznie poziom istotności, na jakim weryfikowana jest ta hipoteza, jest ustalony na α = 0,05. Jeśli przeprowadzamy badanie z innym poziomem istotności, można albo partrzeć wyłącznie na kolumnę istotności, albo zmienić zasady oznaczania istotnych różnic - w tym drugim przypadku w oknie dialogowym porównań wielokrotnych, na dole, należy wpisać inny poziom istotności.
Porównania a priori i a posteriori
Porównania a priori (zwane też porównaniami planowanymi), planuje się przed przeprowadzeniem eksperymentu. Są związane bezpośrednio z teorią, na której opiera się eksperyment. Porównania a posteriori należą do tych, których się nie planuje, są dokonywane po wykonaniu eksperymentu, czyli post hoc (stąd ich nazwa w SPSS). O przeprowadzaniu tych porównań badacz decyduje po wstępnej analizie danych, która może mu wskazać celowość takich porównań.
Porównania a priori przeprowadza się zazwyczaj alternatywnie wobec testu F. Natomiast porównania a posteriori przeprowadza się tylko po uprzednim otrzymaniu istotnego wyniku w ogólnym teście F.
Omówione wcześniej testy porównań wielokrotnych należą do porównań a posteriori. Zajmijmy się więc porównaniami a priori czyli kontrastami.
Kontrasty w analizie wariancji
Kontrasty wykorzystują statystykę t do testowania różnic pomiędzy średnimi lub kombinacjami średnich. Badacz planujący eksperyment czy analizujący wyniki ankiety może być zainteresowany wykonaniem porównań z wykorzystaniem kilku średnich jednocześnie. Na przykład może chcieć porównać poglądy na tradycyjny model rodziny ludzi ze wsi z poglądami ludzi z: małego, średniego, dużego i wielkiego miasta razem wziętymi. Może również chcieć porównać poglądy ludzi z małego miasta z tymi ze średniego, ignorujący wszystkie pozostałe grupy.
Jeśli przyjmiemy, że mamy w badaniu 5 grup (opis jak wyżej, dotyczy wielkości miejscowości zamieszkania), to porównanie grupy drugiej z czwartą można by było zapisać symbolicznie w postaci weryfikowania hipotezy o równości średnich w drugiej i czwartej grupie:
.
równoważnie moglibyśmy zapisać to samo w postaci:
Aby umożliwić przeprowadzenie analizy kontrastów w SPSS-ie należy przeformułować naszą hipotezę do takiej postaci, aby uzyskać współczynniki stojące przy wszystkich uwzględnionych w analizie wariancji średnich (czyli w naszym przypadku przy pięciu średnich grupowych). Chcemy również, aby wszystkie średnie stały po tej samej stronie równości, a po drugiej było jedynie 0. Zatem w powyższym przykładzie musimy się zastanowić, przez jakie współczynniki należy przemnożyć kolejne średnie grupowe. Uzyskane równanie możemy przepisać jeszcze raz wypisując w jawny sposób współczynniki stojące przy kolejnych średnich:
Wobec tego kontrast, czyli współczynniki stojące przy kolejnych średnich grupowych, w tym wypadku ma postać (1, 0, 0, -1, 0).
Możemy się teraz zastanowić, jak wyglądałby kontrast porównujący osoby ze wsi bądź małych miasteczek z osobami mieszkającymi w największych miastach. Pierwszą z porównywanych wielkości jest średni wynik dla osób z dwóch grup: ze wsi i małych miasteczek - do tej pory posługiwaliśmy się średnimi uzyskanymi w tych grupach osób badanych oddzielnie - dla mieszkańców wsi była to średnia
, a dla mieszkańców małych miasteczek
. Aby uzyskać wynik reprezentujący te dwie grupy razem wzięte, możemy posłużyć się na przykład średnią z obu wyników (albo, jeśli grupy nie są idealnie równoliczne, na przykład średnią ważoną):
. Średnia dla mieszkańców największych miast wynosi
, zatem nasze porównanie ma postać:
albo równoważnie:
Rozpisując to równanie w postaci gotowej do wypisania kontrastu otrzymujemy:
Wobec tego, ostateczna postać kontrastu to:
. Jeśli ktoś nie lubi ułamków, to wypisaną powyżej równość możemy zapisać w równoważnej postaci mnożąc obie strony równości przez 2. Wówczas otrzymamy równoważny kontrast postaci (1, 1, 0, 0, -2). Korzystając z kontrastów możemy również weryfikować hipotezy kierunkowe. Aby przekonać się, czy prawdziwe jest stwierdzenie, że średnia ze zmiennej zależnej na wsiach i małych miasteczkach jest większa niż w największych miastach, wystarczy zamiast równości rozpatrywać nierówność
a następnie przeformułować ją na przykład do takiej równoważnej postaci:
Otrzymany kontrast będzie wyglądał identycznie jak w przypadku weryfikowania hipotezy o równości porównywanych średnich, różnice sprowadzą się jedynie do sposobu odczytywania wyników testu - jeśli wynik kontrastu będzie dodatni (tak, jak to przewiduje powyższa nierówność), to nie będziemy mieli podstaw do odzrzucenia hipotezy postawionej wyżej. Jeśli jednak znak testu będzie ujemny, to konieczne będzie oszacowanie wartości jednostronnej istotności testu kontrastu (identycznie, jak w przypadku testu t). O ile taka jednostronna istotność okaże się niższa niż założony poziom istotności testu, to mamy podstawy do odrzucenia hipotezy. W przeciwnym przypadku - brak podstaw do odrzucenia hipotezy.
Wszystkie omówione powyżej typy kontrastów porównywały dwie średnie i sprawdzaliśmy jedynie, czy zachodzą między nimi równości bądź konkretna nierówność. W takich sytuacjach typowe jest to, że zawsze suma współczynników kontrastu wynosi 0. Przy wpisywaniu współczynników kontrastu SPSS automatycznie sumuje współczynniki - jednym z rodzajów sprawdzenia, czy przy ich wpisywaniu nie pomyliliśmy się, jest sprawdzenie, czy taka suma faktycznie wynosi 0.
Jest jednak jeszcze inny typ porównań, które można przeprowadzić przy użyciu kontrastów. Przypuśćmy, że prowadzimy badanie polegające na sprawdzeniu, jak wysocy są ludzie różnych ras - porównujemy rasy Białą, Żółtą i Czarną (załóżmy, że rasy są kodowanej kolejnymi numerami od 1 dla Białej do 3 dla Czarnej). Chcielibyśmy sprawdzić, czy przedstawiciele rasy Czarnej są o 10% wyżsi niż Białej i Żółtej razem wzięci. Średni wzrost dla osób rasy Czarnej to
, średni wzrost osób Białych i Żółtych to
. Chcemy zweryfikować prawdziwość równości:
.
Zapisując kontrast w najwygodniejszej do odczytania współczynników postaci, otrzymujemy:
Tym razem suma współczynników kontrastu (1,10 ; 1,10 ; -2) nie wynosi 0. Bierze się to stąd, że jedna z porównywanych średnich została przemnożona przez stałą.
Oczywiście w ostatnim z omówionych przykładów możliwe jest również weryfikowanie hipotez kierunkowych - zasady dotyczące tego rodzaju hipotez są identyczne, jak w przypadkach, gdy suma współczynników kontrastu wynosi 0.
Należy jeszcze podkreślić, że analiza kontrastów pozwala przemnażać średnie przez pewne współczynniki, ale nie ma możliwości dodawania niczego do średnich. Oznacza to, że możemy na przykład sprawdzać, czy dochód mężczyzn jest 2 razy większy niż dochód kobiet, ale nie ma jak sprawdzić (przy użyciu kontrastów), czy mężczyźni zarabiają o 500 złotych więcej niż kobiety.
W przypadku kontrastów często pojawia się pytanie, czy kolejne wykonywane porównania są od siebie wzajemnie niezależne - jeśli tak nie jest, to, podobnie jak w przypadku testów porównań wielokrotnych, pojawia się niebezpieczeństwo, że przyjęty przez badacza poziom istotności jest faktycznie wyższy i rośnie szansa odrzucania prawdziwych hipotez. Zatem należy dbać o to, aby wykonywane analizy były faktycznie niezależne albo mówiąc inaczej, ortogonalne (prostopadłe wektory kontrastów).
Istnieje prosty sposób sprawdzenia, czy dwa porównania są ortogonalne (niezależne). Jak zawsze w przypadku sprawdzania prostopadłości wektorów należy wyznaczyć ich iloczyn skalarny, czyli znaleźć sumę iloczynów odpowiadających sobie współrzędnych. Jeśli iloczyn skalarny wynosi 0, to znaczy, że wektory są prostopadłe (ortogonalne, niezależne). W każdym innym przypadku porównania nie są niezależne. Dla przykładu sprawdzimy, czy porównania omówione na początku tego działu były niezależne - pierwsze z nich porównywało osoby z pierwszej grupy z osobami z czwartej grupy - odpowiadający temu kontrast to (1, 0, 0, -1, 0); drugi kontrast porównywał osoby z pierwszej i drugiej grupy razem wzięte z osobami z piątej kontrast (1, 1, 0, 0, -2). Najpierw policzymy iloczyn skalarny tych dwóch wektorów:
Ponieważ iloczyn skalarny tych wektorów jest różny od 0, powyższe porównania nie są niezależne.
Oprócz tego typu porównań można skorzystać z kontrastów badających, czy istnieje związek wielomianowy między zmienną niezależną oraz zależną. Ten typ hipotez można weryfikować jedynie jeśli zarówno zmienna zależna jak i niezależna są mierzone na skali przedziałowej. W takiej sytuacji weryfikuje się kolejno szereg hipotez - w pierwszym rzędzie hipotezę, że zależność między zmienną niezależną a zależną ma charakter liniowy, następnie, że zależność ma charakter kwadratowy, następnie, że jest to zależność sześcienna itd. Testy kończą się na wybranym przez użytkownika stopniu zależności albo na maksymalnym sensownym (nie ma sensu dopasowywać zależności stopnia wyższego niż ilość porównywanych grup) albo po osiągnięciu wielomianu stopnia 5 (wewnętrzne ograniczenie SPSS-a).
Wykonywanie analizy kontrastów w SPSS-ie
Dla przykładu przeprowadzimy teraz analizę kontrastów, aby zweryfikować następującą hipotezę:
Średni poziom wykształcenia osób mieszkających w regionach Centralnym, Pomorskim oraz Wielkopolskim jest taki sam jak średni poziom wykształcenia osób mieszkających w regionach Wschodnim lub Północno-Wschodnim.
W tym przypadku zmienną zależną jest poziom wykształcenia (zmienna EDUC), czynnikiem zmienna REGION8, interesujące nas grupy to zakodowane jako wartości 1, 5 oraz 2 w jednej z porównywanych grup oraz 7 i 6 w drugiej grupie. Weryfikujemy zatem hipotezę:
Aby ułatwić wpisywanie współczynników kontrastu, możemy powyższą równość przemnożyć stronami przez 6, otrzymamy wówczas:
Po doprowadzeniu tej równości do postaci gotowej do wpisywania współczynników kontrastu mamy:
Zatem współczynniki kontrastu wynoszą w tym wypadku:
. Teraz jesteśmy gotowi do przeprowadzenia tej analizy w SPSS-ie.
Aby wykonać analizę kontrastów w SPSS-ie, należy wejść do Jednoczynnikowej ANOVA-y, podać zmienną zależną (EDUC) oraz niezależną (REGION8), a następnie kliknąć na znajdującym się na dole okienka przycisku kontrasty. Po wejściu do okienka dialogowego analizy kontrastów opuszczamy na razie górną linijkę (do badania zależności wielomianowych) i przechodzimy do okienka obok napisu Współczynniki. W tym okienku należy kolejno wpisywać wszystkie współczynniki kontrastu - zaczynamy od 2, następnie klikamy Dodaj (na liście powinna pojawić się pierwsza wpisana wartość, czyli 2, pod okienkiem suma współczynników powinna wynosić 2), potem wpisujemy współczynnik dla grupy drugiej - też 2, klikamy Dodaj (na liście pojawia się kolejny współczynnik 2, suma wynosi 4), następnie wpisujemy współczynniki dla grup 3, 4, 5, 6, 7 i 8. Koniecznie musimy pamiętać o wpisywaniu dobrych znaków współczynników oraz kontrolować, czy ilość wpisanych współczynników jest zgodna z ilością porównywanych grup. Jeśli w naszym przypadku wpiszemy na przykład tylko 7 współczynników, to analiza kontrastów nie zostanie wykonana - pojawi się jedynie komunikat o tym, że ilość wpisanych współczynników nie odpowiada ilości porównywanych grup.
Jeśli chcemy przeprowadzić kilka analiz tego typu, można wszystkie kontrasty wpisać jednocześnie - po wpisaniu wszystkich współczynników dla pierwszego kontrastu należy nacisnąć przycisk Następny. W konsekwencji z dolnego okienka znikną współczynniki poprzedniego kontrastu, a nad tabelką ze współczynnikami pojawi się informacja, który kontrast jest teraz wpisywany oraz ile jest ich wszystkich razem (np. Kontrast 3 z 5).
Po zakończeniu wpisywania współczynników kontrastu (lub kontrastów), klikamy Dalej i OK. W raporcie pojawia się oprócz tabelki analizy wariancji tabelka ze współczynnikami wpisanych kontrastów oraz wynik analizy kontrastów.
Tabelka współczynników kontrastu daje możliwość sprawdzenia, czy współczynniki zostały wpisane poprawnie, a w sytuacji, kiedy jednorazowo wpisujemy wiele kontrastów, ułatwiają interpretację, który kontrast odpowiada któremu planowanemu porównaniu.
Kolejną tabelką jest tabela testów kontrastu. Wyniki tej analizy odczytujemy albo z pierwszej linijki tabeli, jeśli wariancje w porównywanych grupach (w tym wypadku wyróżnionych na podstawie czynnika REGION8) są równe, albo z drugiej, jeśli nie możemy założyć równości wariancji. Sytuacja jest podobna do odczytywania testów t, jednak zasadnicza różnica polega na tym, że w testach kontrastów nie ma odpowiednika testu Levena, który pozwala wybrać odpowiednią linijkę do odczytywania wyników. W większości wypadków bezpieczniejsze jest odczytywanie wyników z linijki „Brak założenia o równości wariancji”.
Interpretacja wyników jest analogiczna, jak w przypadku testu t. Wynik kontrastu to wynik testu t wraz z odpowiednimi stopniami swobody oraz istotności dwustronnej. Jak widać, wynik kontrastu jest nieistotny stastytycznie (p > 0,05), zatem nie ma podstaw do odrzucenia hipotezy o równości porównywanych średnich.
W przypadku hipotez kierunkowych w pierwszym rzędzie należy porównać przewidywany na podstawie hipotezy znak kontrastu oraz znak wyniku testu. Jeśli znaki są zgodne, to jak w przypadku testów t, nie ma podstaw do odrzucenia hipotezy. Natomiast jeśli znak kontrastu jest przeciwny do znaku przewidywanego na podstawie hipotezy, musimy wyznaczyć istotność jednostronną (podzielić istotność dwustronną przez 2), a następnie porównać otrzymaną wielkość z poziomem istotności. Jeśli istotność jednostronna jest większa od poziomu istotności, nie ma podstaw do odrzucenia weryfikowanej hipotezy; jeśli istotność jednostronna jest mniejsza od poziomu istotności, istnieją podstawy do odrzucenia hipotezy.
Kontrasty wielomianowe
Rozpatrzmy teraz sytuację, w której zarówno zmienna zależna jak i niezależna są przedziałowe. Przyjrzyjmy się przykładowi ze zmienną zależną ilość lat edukacji, zaś niezależną ilość dzieci (aby zapewnić względną równoliczność grup przed wykonaniem analizy zostały wybrane tylko osoby, które mają co najwyżej troje dzieci). Wykonana analiza wariancji okazała się istnotna statystycznie.
Aby prześledzić rodzaj zależności między ilością posiadanych dzieci, a długością edukacji, możemy wykonać wykres średnich ze zmiennej zależnej w kolejnych grupach wyróżnionych na podstawie wartości czynnika. Taki wykres można wykonać wchodząc do Opcji w oknie dialogowym analizy wariancji i stawiając parafkę przy opcji Wykres średnich. Po zaznaczeniu tej opcji, należy zaakceptować wprowadzone ustawienia klikając Dalej i OK. Otrzymany wykres pozwala przypuszczać, że zależność między ilością posiadanych dzieci, a długością lat nauki ma charakter wielomianu stopnia 2 (wykres przypomina fragment hiperboli). Jeżeli chcelibyśmy zweryfikować taką hipotezę, możemy przeprowadzić analizę kontrastów pod kątem dopasowania zależności wielomianowej. W tym celu należy wejść do opcji Kontrasty w analizie wariancji i zaznaczyć w górnej części okienka dopasowanie wielomianu. Po postawieniu parafki przed hasłem Wielomian uaktywnia się pasek z wyborem maksymalnego stopnia dopasowywanego wielomianu (dostępne są wielomiany do stopnia 5-tego włącznie). Jeśli ilość porównywanych grup będzie mała, to SPSS automatycznie koryguje maksymalny stopień dopasowywanego wielomianu. W naszym przypadku, niezależnie od tego, jaki stopień wielomianu wybierzemy, dopasowanie będzie oceniane co najwyżej do trzeciego stopnia włącznie (mamy 4 porównywane grupy, zatem 4 średnie do których należy dopasować kształt wielomianu; idealnie dopasowanych, różnych wielomianów 4-tego stopnia będzie nieskończenie wiele). Akceptujemy wprowadzone ustawienia klikając na Dalej, a następnie OK. W wyniku przeprowadzenia tej analizy w oknie raportu pojawi się obok analizy wariancji wydruk z dopasowania zależności wielomianowej.
Tabela wydruku podzielona jest na kilka części - składnik liniowy (czyli wielomian pierwszego stopnia), składnik kwadratowy (drugiego stopnia), składnik sześcienny (trzeciego stopnia) itp. W obrębie każdego dopasowania pojawiają się trzy linijki: linijka Nieważone oraz Ważone do oceny istnienia trendu danego stopnia. Hipoteza zerowa weryfikowana tymi testami mówi, że wielomian danego (aktualnie analizowanego) stopnia nie opisuje zależności między wynikami lepiej niż wielomiany niższych stopni. Wobec tego, jeśli szukamy najlepszego możliwego dopasowania, to będziemy chcieli, aby wynik dla trendu był istotny. Decyzja na temat tego, czy powinniśmy odczytywać linijkę Nieważone, czy Ważone, zależy od tego, czy porównywane grupy są równoliczne. Jeśli są równoliczne, odczytujemy wyniki z linijki Nieważone, w przeciwnym wypadku z linijki Ważone. W naszej tabelce (odczytajmy wyniki z linijek Ważone) trend liniowy jest nieistotny, trend kwadratowy istotny (potencjalnie dobre dopasowanie), trend sześcienny nieistotny. Kolejnym kryterium dobroci dopasowania jest wielkość obserwowanych odchyleń do trendu. Aby dopasowanie mogło zostać uznane za dobre, odchylenia powinny być nieistotne. W naszym przypadku jedyny wielomian, dla którego trend jest istotny, a odchylenia są nieistotne, to wielomian kwadratowy. Gdyby kilka wielomianów spełniało oba warunki (istotny trend, nieistotne odchylenia), to ze względu na kryterium prostoty wybiera się wielomian naniższego stopnia.
6