7. W jakich przypadkach stosuje się dwuczynnikową analizę wariancji? Co rozumie się przez pojęcie interakcji? Podaj przykład zastosowania dwuczynnikowej analizy wariancji.
Dwuczynnikowa analiza wariancji bada istotność wpływu 2 kontrolowanych czynników na przebieg eksperymentu chodź tych czynników może być o wiele więcej. Stosując wieloczynnikową analizę wariancji chcemy sprawdzić wpływ kilku czynników (zmiennych niezależnych) na zmienną zależną. Ideą analizy wariancji jest porównywanie rozproszenia (wariancji) zmiennej zależnej w analizowanych grupach wydzielonych ze względu na wartości zmiennych niezależnych. Dwuczynnikowa analiza wariancji, daje nam jednak również możliwość przeanalizowania łącznego wpływu zmiennych niezależnych na zmienną zależną czyli przeanalizowaniu ich interakcji. Interakcja ta to niezależny od innych czynników wpływ danego czynnika na badaną zmienną zależną). Jeżeli pozostaje on taki sam, to nie ma żadnej interakcji. W przeciwnym wypadku między dwoma czynnikami zachodzi interakcja. Możliwość oceny istotności interakcji jest dodatkowo jedną z ważniejszych przyczyn, dla których powinniśmy stosować analizę wariancji, a nie wielokrotnie porównywać wszystkie pary grup za pomocą testu t-Studenta. ANOVA jest więc metodą bardziej uniwersalną, o znacznie większych możliwościach, i może być wykorzystana do rozwiązywania bardziej złożonych problemów badawczych. Pamiętajmy: interakcja polega na tym, że wyniki oddziaływania poziomu jednego czynnika na badaną zmienną zależą od poziomu drugiego czynnika.
Za pomocą dwuczynnikowej analizy wariancji testować będziemy zestaw hipotez:
HA0: Źródło zmienności A nie różnicuje wyników.
HB0: Źródło zmienności B nie różnicuje wyników.
HAB0: Źródło zmienności AB nie różnicuje wyników.
Każde źródło zmienności będziemy testować osobno. W tym celu niezbędne jest wyznaczenie dla każdego źródła liczby stopni swobody (vz) , sumy kwadratów odchyleń (SSz) , średniego kwadratu odchyleń (MSz) oraz wartości statystyki testowej (Fz) , która przy założeniu prawdziwości hipotezy zerowej ma rozkład F Snedecora o liczbie stopni swobody odpowiadających liczbie stopni swobody analizowanego źródła oraz błędu (czynnika losowego).
Oznaczenia:
k - ilość obserwacji dla pojedyńczej kombinacji wyznaczonej przez poziomy czynników klasyfikujących,
y¯ - średnia z wszystkich obserwacji,
yi⋅⋅ - średnia obserwacji na i-tym poziomie cechy A,
y⋅j⋅- średnia obserwacji na j-tym poziomie cechy B,
yij⋅- średnia obserwacji należących do i-tej kategorii cechy A i j-tej kategorii cechy B,
yijl, i=1,...,a, j=1,...,b, l=1,...,k - wartość pojedyńczej obserwacji.
Jeżeli dla ustalonego α wartość krytyczna jest mniejsza od wyliczonej wartości statystyki testowej Fz , odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej głoszącej, że źródło zmienności Z różnicuje wyniki.
Przykład - Wpływ stosowanego leku oraz prowadzonej fizjoterapii na ogólną ocenę aktywności choroby (wg skali VAS) u pacjentów z reumatoidalnym zapaleniem stawów.
Pacjentów z reumatoidalnym zapaleniem stawów poproszono o ogólną ocenę stanu zdrowia w skali od 0 do 100, gdzie 0 oznacza bardzo dobre samopoczucie, a 100 bardzo złe samopoczucie. Do badania włączono 30 pacjentów, którzy aktywność choroby oceniali w granicach 70-80.
W sposób losowy wybrano po 10 pacjentów, którym podano Lek I, Lek II oraz placebo. Z każdej 10 wybrano (na drodze losowania) 5 chorych, u których równocześnie prowadzono fizjoterapię.
Po miesiącu terapii chorych poproszono o ponowne dokonanie oceny samopoczucia. Otrzymano następujące wyniki:
Czy na ocenę samopoczucia pacjentów miały wpływ:
rodzaj przyjmowanego leku,
fizjoterapia,
współdziałanie fizjoterapii i przyjmowanego leku?
Pierwszy z rozważanych czynników (podawany lek) dzieli się na 3 poziomy – Lek I, Lek II oraz placebo, dlatego liczba stopni swobody dla tego źródła zmienności wyniesie 2.
Aby obliczyć sumę kwadratów odchyleń dla rodzaju leku, najpierw musimy wyznaczyć średnie w poszczególnych grupach:
Analogicznie obliczamy dwie pozostałe średnie:
I wspólną średnią
Wykonując analogiczne obliczenia dla wszystkich źródeł zmienności otrzymamy wyniki, jakie przedstawia tabela:
W obliczeniach przyjęliśmy α=0,05
Zebrane w tabeli wyniki jednoznacznie wskazują, że czynnikami różnicującymi ocenę samopoczucia pacjentów są przyjmowany lek oraz prowadzona fizjoterapia. Nie stwierdzono natomiast istotnego wpływu interakcji tych dwóch czynników na ocenę stanu zdrowia pacjenta.
Oceny poszczególnych czynników możemy przedstawić także graficznie. Na wykresie przedstawiono średnie wartości ocen stanu zdrowia pacjentów względem stosowanego leku oraz prowadzonej fizjoterapii. Pozioma linia wyznacza średnią ogólną wszystkich pomiarów.
Zebrane dane wskazują, że swoje samopoczucie najlepiej oceniali stosujący Lek I, a najgorzej dostający placebo.
Pacjenci, u których prowadzono fizjoterapię, niżej oceniali aktywność choroby, niż pacjenci, u których jej nie prowadzono.
Z kolei analizując wykres dla interakcji możemy stwierdzić, czy wpływ poszczególnych źródeł zmienności jest addytywny (niezależny od siebie) czy też istnieje wpływ interakcji (wynikowa wartość badanej cechy mierzalnej nie jest prostym złożeniem efektów jaki wywołuje każdy czynnik z osobna).
W pierwszym przypadku krzywe na wykresie interakcji powinny być równoległe. Natomiast w przypadku występowania interakcji krzywe powinny mieć istotnie różnie nachylenia.
W omawianym przykładzie krzywe nie są równoległe. Największe zróżnicowanie wyników powodowane prowadzeniem jednoczesnej fizjoterapii obserwujemy u pacjentów, którzy stosowali lek II. Jednak różnica ta nie powoduje istotnych różnic w nachyleniu krzywych. W wyniku przeprowadzonej analizy wariancji nie stwierdzono wpływu interakcji tych dwóch czynników.
Obok zastosowań medycznych, analiza wariancji (ANOVA) wykorzystywana jest w badaniach socjologicznych, badaniach jakości, badaniach marketingowych i wielu innych.