Wykład 2 Jednoczynnikowa
analiza wariancji
Metodologia i statystyka –
kurs zaawansowany
dr S. Bedyńska
Metodologia i statystyka -
kurs zaawansowany - wykład
2
2
Co dzisiaj?
• Podstawy logiczne analizy wariancji
• Sposoby obliczeń oraz interpretacja sum kwadratów i
średnich kwadratów dla efektu i błędu
• Statystyczny model eksploracyjny i jego interpretacja –
przeprowadzania analiz w SPSS-ie
• Sposób weryfikacji hipotezy zerowej w jednoczynnikowej
analizie wariancji – podejście eksploracyjne i konfirmacyjne
• Wizualizacja wyników
• Opis wyników
3
Testy statystyczne - konstrukcja
Każdy test statystyczny składa się z następujących
charakterystycznych dla siebie elementów:
• Hipotezy zerowej i alternatywnej
• Statystyki, której rozkład teoretyczny jest dobrze znany
i opisany
• Rozkładu, który łączy wielkości statystyki i
prawdopodobieństwa (można określić jak
prawdopodobne jest uzyskanie takiej wartości statystyki
przy założeniu, że hipoteza zerowa jest prawdziwa)
Stały element – poziom istotności
W psychologii przyjmuje się trzy poziomy graniczne
p<0,05; p<0,01; p<0,001
Podstawy logiczne analizy
wariancji
Metodologia i statystyka -
kurs zaawansowany - wykład
2
5
Jednoczynnikowa analiza wariancji
Rozszerzenie analizy testem t-Studenta:
• Porównujemy więcej niż dwie grupy
niezależne
• Jedna zmienna niezależna – nazywana
tutaj czynnikiem - jakościowa i ma więcej
niż dwie kategorie
• Zmienna zależna, tak jak w teście t-
Studenta, ilościowa
Metodologia i statystyka -
kurs zaawansowany - wykład
2
6
Hipotezy
• Hipoteza zerowa: H
0:
średnie w grupach
są równe
– m
1
= m
2
= m
3
• Hipoteza alternatywna: H
1
– Nie wszystkie średnie grupowe są równe (co
oznacza w praktyce, że co najmniej jedna
średnia różni się od innej średniej)
Metodologia i statystyka -
kurs zaawansowany - wykład
2
7
Twórca analizy
wariancji
Sir R.A. Fisher
Matematyk,
statystyk, badacz
ewolucyjny
Duża czcionka
jest
prawdziwym
lekarstwem na
nudne teksty
Konsultacja ze
statystykiem po
wykonaniu eksperymentu
jest jak sekcja zwłok.
Można tylko powiedzieć
jaka była przyczyna
zejścia ale na reanimację
jest już za późno
Metodologia i statystyka -
kurs zaawansowany - wykład
2
8
Skąd się bierze zmienność (wariancja)
wyników
Zmienność między grupami może wynikać z:
• Oddziaływania zmiennej niezależnej
• Różnic indywidualnych – każda osoba jest inna i
inaczej reaguje w sytuacji zadaniowej –u jednym
pojawia się stres, pozostałe czują się
zmotywowane – nie jest to jeden czynnik
• Błędy pomiaru
Metodologia i statystyka -
kurs zaawansowany - wykład
2
9
Rola badacza – wyjaśnianie
zmienności
Przyglądamy się
wynikom uczniów na
sprawdzianie
3, 2, 5, 5, 3, 2, 5, 3, 2
Wprowadzamy zmienną
liczba uczniów w klasie
mało
średnio dużo
2, 3, 5, 2, 3, 5, 2, 3, 5
Wprowadzamy zmienną
liczba przedmiot
fizyka
biologia polski
2, 2, 2, 3, 3, 3,
5, 5, 5
Metodologia i statystyka -
kurs zaawansowany - wykład
2
10
Analiza wariancji – pomysł prosty, ale
nowy
Wprowadzamy zmienną
liczba uczniów w klasie
mało
średni
o
dużo
2, 3, 5, 2, 3, 5, 2, 3, 5
Wprowadzamy zmienną
przedmiot
fizyka biologia polski
2, 2, 2, 3, 3, 3,
5, 5, 5
Gdy brak różnic między grupami
to:
Brak zmienności
międzygrupowej
Duża zmienność wewnątrzgrup
Gdy są różnice między grupami
to:
…….. zmienność
międzygrupowa
……… zmienność wewnątrzgrup
Metodologia i statystyka -
kurs zaawansowany - wykład
2
11
Jakie rodzaje zmienności możemy
policzyć?
Wprowadzamy zmienną liczba uczniów
w klasie
Mało
Średnia 4
Średnio
Średnia 4
Dużo
Średnia 4
2, 3, 5,
2, 3, 5,
2, 3, 5
Wprowadzamy zmienną przedmiot
Średnia ogólna ocen=3,3
Fizyka
Średnia 2
Biologia
Średnia 3
Polski
Średnia 5
2, 2, 2,
3, 3, 3,
5, 5, 5
Zmienność wewnątrz
grup
Zmienność
międzygrupowa
Metodologia i statystyka -
kurs zaawansowany - wykład
2
12
Co robi analiza wariancji?
Analiza wariancji porównuje:
• oszacowanie wariancji międzygrupowej (czyli tej, która
określa wielkość zróżnicowania średnich)
• oszacowanie wariancji wewnątrzgrupowej (nazywanej
wariancją błędu)
Jaka jest wartość tej statystyki jeśli obie wariancje są
identyczne?
Czy wartość statystyki F może być ujemna?
WG
MG
MS
MS
F
Metodologia i statystyka -
kurs zaawansowany - wykład
2
13
Analogia
• Różnicę między średnimi w grupach możemy
przyrównać do interesującego nas sygnału, zaś
wariancję wewnątrz grup do szumu. Dopóki
sygnał nie będzie silniejszy od szumu, nie
usłyszymy go. Podobnie dopiero gdy wariancja
międzygrupowa będzie odpowiednio duża, będzie
się wyróżniać na tle wariancji wewnątrzgrupowej
i będziemy mogli stwierdzić istnienie istotnego
efektu.
Sposoby obliczeń oraz interpretacja
sum kwadratów i średnich
kwadratów dla efektu i błędu
Metodologia i statystyka -
kurs zaawansowany - wykład
2
15
Wariancja
Wariancja to statystyka, która określa zmienność,
rozproszenie wyników wokół średniej
• Gdy wariancja równa 0 to wtedy wyniki są ……….
rozproszone
• Gdy wariancja duża to wtedy wyniki są
……………….rozproszone
• Gdy wyniki 2, 3, 4, 5, 6, to wtedy wariancja mała? duża
• Gdy wyniki 2, 2, 2, 2, 2, to wtedy wariancja mała?duża
Metodologia i statystyka -
kurs zaawansowany - wykład
2
16
Wariancja – krótkie przypomnienie
• Wariancja to
średni kwadrat (MS)
• Wariancja to suma kwadratów (SS)
dzielona przez ich liczbę
• W rzeczywistych obliczeniach wariancja
to suma kwadratów (odchyleń wyników
od średniej) dzielona przez liczbę stopni
swobody (df)
Metodologia i statystyka -
kurs zaawansowany - wykład
2
17
Problem badawczy
• Nauczyciel języka angielskiego napisał na
tablicy następujące zdanie:
– „
Woman without her man is nothing
".
• Następnie poprosił uczniów, aby uzupełnili
brakujące w zdaniu znaki interpunkcyjne.
• "Woman, without her man, is nothing."
• "Woman! Without her, man is nothing."
Metodologia i statystyka -
kurs zaawansowany - wykład
2
18
Wariancja międzygrupowa
MG
MG
MG
df
SS
MS
grup
liczba
-
1
grup
z
średnie
-
e)
równoliczn
(grupy
grupie
w
osób
liczba
-
)
(
2
ogolna
k
k
df
M
n
n
M
M
SS
MG
k
k
MG
Metodologia i statystyka -
kurs zaawansowany - wykład
2
19
Zmienność międzygrupowa
Grupa 1
Grupa 2
Grupa 3
3
2
6
4
3
7
5
1
5
M
1
=4
M
2
=2
M
3
=6
M
ogól
= 4
(4-4)
2
+
(2-4)
2
+
(6-4)
2
+
Suma kwadratów
(SS)=(0+4+4)x
3
=
24
Metodologia i statystyka -
kurs zaawansowany - wykład
2
20
Wariancja międzygrupowa
12
2
24
MG
MG
MG
df
SS
MS
Metodologia i statystyka -
kurs zaawansowany - wykład
2
21
Stopnie swobody dla wariancji
międzygrupowej
• Suma kwadratów dla zmienności
międzygrupowej zależna jest od liczby
porównywanych grup (im więcej tym większa)
– Stąd lepszym oszacowaniem będzie średni kwadrat MS
(wariancja)
– SS dzielimy przez odpowiednią liczbę stopni swobody
– Liczba grup (k) – 1
Metodologia i statystyka -
kurs zaawansowany - wykład
2
22
Wariancja wewnątrzgrupowa, wariancja
błędu – niewyjaśniona
WG
WG
WG
df
SS
MS
badania
w
uczestnikó
liczba
-
grup
liczba
-
grup
z
średnie
-
grupach
nych
poszczegól
w
wyniki
-
)
(
2
k
N
k
k
N
df
M
X
M
X
SS
WG
k
i
i
WG
Metodologia i statystyka -
kurs zaawansowany - wykład
2
23
Wariancja wewnątrzgrupowa
Grupa
1
Grupa
2
Grupa
3
3
2
6
4
3
7
5
1
5
M
1
=4 M
2
=2 M
3
=6
Liczymy zmienność wyników
dla każdej podgrupy
w oparciu o jej średnią
i sumujemy
Metodologia i statystyka -
kurs zaawansowany - wykład
2
24
Wariancja wewnątrzgrupowa
Grupa
1
Grupa
2
Grupa 3
(3-
4
)
2
(2-
2
)
2
(6-
6
)
2
(4-
4
)
2
(3-
2
)
2
(7-
6
)
2
(5-
4
)
2
(1-
2
)
2
(5-
6
)
2
M
1
=4
M
2
=2
M
3
=6
1+0+1
+
0+1+1
+
0+1+1=
Suma kwadratów
(SS
wewnątrz
) =6
Metodologia i statystyka -
kurs zaawansowany - wykład
2
25
Wariancja wewnątrzgrupowa, wariancja
błędu – niewyjaśniona
1
6
6
3
9
6
WG
WG
WG
df
SS
MS
Metodologia i statystyka -
kurs zaawansowany - wykład
2
26
Stopnie swobody dla wariancji
wewnątrzgrupowej
• Suma kwadratów dla zmienności
wewnątrzgrupowej zależna jest od liczby osób
biorących udział w badaniu
– Stąd lepszym oszacowaniem będzie średni kwadrat MS
(wariancja)
– SS dzielimy przez odpowiednią liczbę stopni swobody
• Liczba wszystkich uczestników badania – liczba grup
– df=9 osób-3 grupy
Metodologia i statystyka -
kurs zaawansowany - wykład
2
27
Graficzna wizualizacja wariancji
wewnątrzgrupowej – wykres
skrzynkowy
Metodologia i statystyka -
kurs zaawansowany - wykład
2
28
Graficzna wizualizacja wariancji
wewnątrzgrupowej – wykres słupki
błędu
Metodologia i statystyka -
kurs zaawansowany - wykład
2
29
Graficzna wizualizacja wariancji
wewnątrzgrupowej – wykres rozrzutu
Metodologia i statystyka -
kurs zaawansowany - wykład
2
30
Porównujemy wariancję międzygrupową
do wariancji wewnątrzgrupowej
12
1
12
WG
MG
MS
MS
F
F>1 szansa na istotny wpływ
naszej zmiennej niezależnej na wyniki badania
Poziom istotności odczytujemy na podstawie
dwóch rodzajów stopni swobody: międzygrupowych
i wewnątrzgrupowych
Metodologia i statystyka -
kurs zaawansowany - wykład
2
31
Anova w SPSS-ie
Metodologia i statystyka -
kurs zaawansowany - wykład
2
32
Anova - wydruk
Jednoczynnikowa ANOVA
wynik
24,000
2
12,000
12,000
,008
6,000
6
1,000
30,000
8
Między grupami
Wewnątrz grup
Ogółem
Suma
kwadratów
df
Średni
kwadrat
F
Istotność
+
=
=
+
//
/
=
=
=
Metodologia i statystyka -
kurs zaawansowany - wykład
2
33
Anova –
stopnie swobody
Jednoczynnikowa ANOVA
wynik
24,000
2
12,000
12,000
,008
6,000
6
1,000
30,000
8
Między grupami
Wewnątrz grup
Ogółem
Suma
kwadratów
df
Średni
kwadrat
F
Istotność
• Stopnie swobody międzygrupowe
• Df między grupami = liczba grup-1
• Stopnie swobody wewnątrzgrupowe
• Df wewnątrz grup = liczba badanych – liczba grup
• Stopnie swobody ogółem df ogółem= liczba badanych -1
Metodologia i statystyka -
kurs zaawansowany - wykład
2
34
Anova –zapis statystyk
Jednoczynnikowa ANOVA
wynik
24,000
2
12,000
12,000
,008
6,000
6
1,000
30,000
8
Między grupami
Wewnątrz grup
Ogółem
Suma
kwadratów
df
Średni
kwadrat
F
Istotność
Zapis statystyk zgodny ze standardem APA
F(2, 6)=12; p<0,01
Co to oznacza? Udało nam się wykazać różnice
między średnimi grupowymi.
Metodologia i statystyka -
kurs zaawansowany - wykład
2
35
Dodatkowe opcje 1
Statystyki opisowe
wynik
3
4,0000
1,00000
,57735
3
2,0000
1,00000
,57735
3
6,0000
1,00000
,57735
9
4,0000
1,93649
,64550
1,00
2,00
3,00
Ogółem
N
Średnia
Odchylenie
standardowe
Błąd
standardowy
Metodologia i statystyka -
kurs zaawansowany - wykład
2
36
Analiza wariancji – założenia
• Zbliżona liczebność w poszczególnych podgrupach
(testy nieparametryczne –Chi)
• Pomiary zmiennej zależnej powinny mieć rozkłady
normalne we wszystkich grupach.
(test Kołmogorowa – Smirnowa lub Shapiro-Wilka)
• Wariancje powinny być jednorodne w obrębie wszystkich
grup
(test Levene’a)
Metodologia i statystyka -
kurs zaawansowany - wykład
2
37
Dodatkowe opcje 2
Mocne testy równości średnich
wynik
10,286
2
4,000
,027
12,000
2
6,000
,008
Welch
Brown-Forsythe
Statystyka
a
df1
df2
Istotność
Asymptotyczny rozkład F
a.
Jeśli założenie jednorodności wariancji nie jest spełnione zamiast
klasycznej statystyki F powinniśmy podawać wartość Welcha (dla
dużych prób) lub Browna Forsythe’a (dla małych prób)
Test jednorodności wariancji
wynik
,000
2
6
1,000
Test Levene'a
df1
df2
Istotność
Metodologia i statystyka -
kurs zaawansowany - wykład
2
38
Gdy wariancje niejednorodne….
Zapisujemy wynik analogicznie jak dla klasycznej analizy
wariancji
Piszemy więc: „Ze względu na niejednorodne wariancję w
grupach F-Levene’a(2, 21)=6,370; p<0,01 posługujemy się
w analizie mocnymi testami równości średnich wybierając
statystykę Browna-Forsythe’a. Na jego podstawie
stwierdzamy Uzyskano istotne statystycznie różnice między
grupami w ilości wymyślonych zdań zgodnych ze
stereotypem F(2, 6)=12,00; p<0,01.
Mocne testy równości średnich
wynik
10,286
2
4,000
,027
12,000
2
6,000
,008
Welch
Brown-Forsythe
Statystyka
a
df1
df2
Istotność
Asymptotyczny rozkład F
a.
Test jednorodności wariancji
IQ1
6,370
2
21
,007
Test Levene'a
df1
df2
Istotność
Metodologia i statystyka -
kurs zaawansowany - wykład
2
39
Analiza wariancji – podsumowanie
• Porównujemy więcej niż dwie grupy
• Zmienna niezależna zwana tutaj czynnikiem jest jakościowa
• Zmienna zależna jest ilościowa
• Pełna nazwa takiej analizy:
Jednoczynnikowa analiza wariancji w schemacie
międzygrupowym (bo porównujemy grupy niezależne)
• Ta analiza jest rozszerzeniem test T-Studenta dla prób
niezależnych
• Hipoteza zerowa mówi – wszystkie średnie grupowe są równe
Sposób weryfikacji hipotezy zerowej
w jednoczynnikowej analizie
wariancji – podejście eksploracyjne i
konfirmacyjne
Metodologia i statystyka -
kurs zaawansowany - wykład
2
41
Analiza wariancji – podejście
eksploracyjne
• Gdy hipoteza badawcza jest niekierunkowa,
wtedy stosujemy podejście eksploracyjne.
• Jego kolejne kroki to:
Wynik analizy wariancji nieistotny
Wniosek: Nie ma różnic
między grupami
istotny
Które dokładnie grupy
różnią się?
Analizy
post-hoc
Wniosek: Różni się
grupa 1 i 2 od 3
Metodologia i statystyka -
kurs zaawansowany - wykład
2
42
Testy post hoc – idea i rodzaje
• Podstawowa tabela analizy wariancji mówi nam
tylko, czy są różnice między średnimi. Nie
informuje nas o tym, które średnie się różnią.
• Jak określić precyzyjnie pary różniących się
średnich?
• Jaki test określa czy dwie średnie różnią się od
siebie?
Metodologia i statystyka -
kurs zaawansowany - wykład
2
43
Testy post
hoc - do
wyboru do
koloru
SPSS oferuje wiele testów post hoc. Jak wybrać?
• Testy liberalne – NIR, SNK
• Pośrednie – Duncan
• Konserwatywne - Scheffe, Tukey
Metodologia i statystyka -
kurs zaawansowany - wykład
2
44
Przy wyborze testu należy rozważyć:
Czy test kontroluje poziom błędu I i II rodzaju
• Konserwatywność – liberalność porównań
• Test konserwatywny ma bardzo małą moc
o Konserwatywne:
Scheffe
, Bonfferoni (mało porównań), Tukey (dużo
porównań)
o Liberalne:
Duncan
, NIR (w ostateczności),
o Złoty środek:
S-N-K (Student-Newman-Keuls)
, REGWQ (równe
grupy),
Czy jest odporny na złamanie założeń?
o Dobra wiadomość: prawie wszystkie testy „tolerują”
odchylenia od rozkładu normalnego
o Zła wiadomość: wiele z nich nie tolerują złamania założenia
o równoliczności grup i homogeniczności wariancji
Metodologia i statystyka -
kurs zaawansowany - wykład
2
45
Gdy złamane założenia…
• Gdy złamane założenie o równoliczności grup
– używamy GT2 Hochberga (gdy równe wariancje)
– testu Gabriela
• Gdy złamane założenie o równości wariancji
– T2 Tamhana (konserwatywny)
– Games-Howell (najwyższa moc, liberalny przy małych
próbach, dobry przy nierównych grupach)
Metodologia i statystyka -
kurs zaawansowany - wykład
2
46
Testy post hoc - indeksy i interpretacja
• średnie, które się nie
różnią mają te same
indeksy
• średnie, które się
różnią mają inne
indeksy
IQ1
Test Duncana
a
8 102,2500
8 102,8750
8
110,0000
,847
1,000
NTILES of GLOWA
3
1
2
Istotność
N
1
2
Podzbiór dla alfa = .05
Wyświetlane są średnie dla grup jednorodnych.
Wykorzystywana jest średnia harmoniczna
wielkości próby = 8,000.
a.
Wielkość
głowy
mała
przeciętna
duża
Średni IQ 102,8 a 110 b
102,2
a
Metodologia i statystyka -
kurs zaawansowany - wykład
2
47
Porównania wielokrotne
Zmienna zależna: IQ1
Test Scheffe
-7,1250
3,18922
,107
,6250
3,18922
,981
7,1250
3,18922
,107
7,7500
3,18922
,074
-,6250
3,18922
,981
-7,7500
3,18922
,074
(J) NTILES of GLOWA
2
3
1
3
1
2
(I) NTILES of GLOWA
1
2
3
Różnica
średnich (I-J)
Błąd
standardowy
Istotność
Wielkość
głowy
mała
przeciętna
duża
Średni IQ 102,8
110
102,2
Metodologia i statystyka -
kurs zaawansowany - wykład
2
48
Porównania wielokrotne
Zmienna zależna: IQ1
Test NIR
-7,1250*
3,18922
,036
,6250
3,18922
,847
7,1250*
3,18922
,036
7,7500*
3,18922
,024
-,6250
3,18922
,847
-7,7500*
3,18922
,024
(J) NTILES of GLOWA
2
3
1
3
1
2
(I) NTILES of GLOWA
1
2
3
Różnica
średnich (I-J)
Błąd
standardowy
Istotność
Różnica średnich jest istotna na poziomie .05.
*.
Wielkość
głowy
mała
przeciętna
duża
Średni IQ 102,8a
110 b
102,2
a
Metodologia i statystyka -
kurs zaawansowany - wykład
2
49
Testy post hoc - do wyboru do koloru?
• Konserwatywne testy post hoc - Scheffe, Tukey – stosujemy
wtedy, gdy ogólna zależność jest silna i porównujemy dużą
liczbę grup a zależy nam na uchwyceniu wyrazistych
różnic
• Testy liberalne – NIR, SNK – stosujemy wtedy, gdy
zależność jest bardzo słaba – na granicy istotności
statystycznej. Jest wtedy szansa, że test post hoc w ogóle
pokaże nam jakieś różnice średnich.
• Pośrednie – Duncan – to jest złoty środek
Metodologia i statystyka -
kurs zaawansowany - wykład
2
50
Podsumowanie
• Analiza wariancji porównuje zróżnicowania średnich grupowych
do zróżnicowania wewnątrz grup.
• Dzięki temu możemy powiedzieć, czy grupy (więcej niż trzy)
różnią się istotnie statystycznie. Aby jednak zinterpretować
wynik musimy dokładnie określić, które pary średnich róznią się
istotnie statystycznie. Służą temu testy post – hoc, odpowiedniki
testów t-Studenta dla prób niezależnych
• Takie podejście jest nazywane eksploracyjnym, gdyż zaczynając
analizy nie mamy hipotezy wskazującej dokładny układ wyników
(pytanie niekierunkowe)
• Jeśli nie jest spełnione założenie o jednorodności wariancji
musimy stosować mocne testy różnic, by ustalić, czy generalnie
średnie się różnią. Jeśli testy te są istotne to stosujemy testy
post-hoc.