Statystyka
zaawansowan
a. Wykład 3
Analiza wariancji.
Porównania planowane
Krótkie powtórzenie
• Przebadano 10 posiadaczy rybek, 5
posiadaczy wężów, 16 właścicieli
kotów oraz 20 właścicieli psów pod
względem przywiązania do
zwierzęcia. Jakiego testu post hoc
użyjemy do testowania różnic między
średnimi?
liberalne
konserwatywne
Polecany przy
równych grupach
Polecane przy
nierównych grupach
Przy nierównych grupach
i zaburzonej wariancji
Czynnik
Zmienna
zależna
Nie chodzi na
randki
Okazjonalnie
chodzi na
randki
Ma stałego
partnera
Oporność
skory
19
b
19,29
b
15,14
a
Chęć
spotkania
19,14
b
14,57
a
18,86
b
Postrzegana
atrakcyjno
ść
13,14
a
17
b
17
b
• Przebadano trzy grupy studentek, które oglądały
różne czasopisma zawierające zdjęcia
atrakcyjnych mężczyzn. Następnie mierzono
poziom pobudzenia psychofizjologicznego
(oporność skóry) jak również chęć spotkania się z
danym mężczyzną oraz jego atrakcyjność w opinii
studentek.
• Które średnie się różnią?
Porównania post hoc a porównania
planowane
• Porównania a posteriori są techniką
eksploracyjną
, gdy okaże się, że są
istotne różnice poszukujemy ich za
pomocą testów post hoc.
– O ich przeprowadzaniu badacz decyduje po
wstępnej analizie danych, która może mu
wskazać celowość takich porównań.
• Porównania a priori (zwane też
porównaniami planowanymi,
kontrastami),
planuje się
przed
przeprowadzeniem eksperymentu.
– Bezpośrednio związane z teorią, na której
opiera się eksperyment.
Kontrasty
• Umożliwiają testowanie hipotez
badawczych
• Za ich pomocą porównujemy ze sobą
średnie lub grupy średnich
• Możemy je wykonywać nawet wtedy
gdy F nieistotne
• Robimy to dzieląc wariancję
wyjaśnioną przez czynnik na
mniejsze porcje
• Prawie w każdym eksperymencie mamy grupę
kontrolną, dlatego
– prawie zawsze wykonywanie kontrastów zaczynamy
od porównania grupy kontrolnej z
eksperymentalnymi (chyba, że mamy inne hipotezy)
• Pozostałe porównania powinny być
ortogonalne (niezależne)
– jeśli tak nie jest, to, podobnie jak w przypadku
testów porównań wielokrotnych, pojawia się
niebezpieczeństwo, że przyjęty poziom istotności
jest faktycznie wyższy i rośnie ryzyko popełnienia
błędu I rodzaju
Jak porównujemy?
Całkowita wariancja naszych danych
Wariancja wyjaśniona
przez eksperyment
Wariancja międzygrupowa
Wariancja kontrolowana
Wariancja niewyjaśniona
przez eksperyment
Wariancja wewnątrzgrupowa
Wariancja błędu
Logika porównań planowanych
Wariancja wyjaśniona przez eksperyment
Trzy grupy: E1, E2 i K1
Wariancja wyjaśniona
przez E1, E2
Wariancja
wyjaśniona
przez K1
E1
E2
Porównani
e 1
Porównani
e 2
Dzielimy wariancję międzygrupową na mniejsze, niezależne
cząstki
Jak porównujemy?
• Sposób wykonywania kontrastów
podyktowany naszymi potrzebami
• Jeżeli dana porcja wariancji
„uczestniczy” w jednym porównaniu nie
może być już w następnym (niezależność
kontrastów)
• To tak jak z tortem – gdy odkroimy
kawałek to już go z powrotem nie
przykleimy
Logika kontrastów - krojenie tortu
• Jeżeli będziemy w ten sposób postępować
(czyli wykonywać porównania niezależne),
to liczba możliwych (niezależnych,
ortogonalnych) kontrastów wyniesie:
k-1
k oznacza liczbę grup
• Każdy kontrast porównuje zawsze dwie
porcje wariancji – w praktyce dwie średnie
(jeśli więcej znowu nie wiemy co się różni od
czego)
Definiowanie kontrastów poprzez
wagi
• Jak przełożyć „porcjowanie”
wariancji na język zrozumiały dla
SPSS (i dla nas )
• Musimy skontrastować te porcje
wariancji, które porównujemy
• Wobec tego nadajemy każdej grupie
odpowiednie wagi
• Suma wag w każdym porównaniu
musi wynosić 0
Wariancja wyjaśniona przez eksperyment
Trzy grupy: E1, E2 i K1
Wariancja wyjaśniona
przez E1, E2
+
Wariancja
wyjaśniona przez K1
-
Wariancja
wyjaśniona
przez E1
Wariancja
wyjaśniona
przez E2
Porównani
e 1
Porównani
e 2
E1: +1 E2:
+1
K1: -2
(+1)+ (+1)+(-2)
= 0
E1: +1
E2: -1
K1: 0
+
-
(+1)+ (-1)+(0) =
0
Definiowanie kontrastów poprzez wagi – cd.
• W przykładowym badaniu mamy 5 grup.
Porównanie grupy drugiej z czwartą można by
było zapisać symbolicznie w postaci
weryfikowania hipotezy o równości średnich w
drugiej i czwartej grupie:
.
• Możemy zapisać to samo jako:
.
0
4
1
4
1
• Formułujemy hipotezę w takiej postaci, aby
uzyskać współczynniki stojące przy wszystkich
uwzględnionych w analizie wariancji średnich
(np. przy pięciu średnich grupowych).
• Wszystkie średnie stoją po jednej stronie
równości, a po drugiej jest 0.
• Musimy się zastanowić, przez jakie
współczynniki należy przemnożyć kolejne
średnie grupowe.
.
0
0
1
0
0
1
5
4
3
2
1
• Wobec tego kontrast, czyli
współczynniki stojące przy kolejnych
średnich grupowych, w tym wypadku
ma postać (1, 0, 0, -1, 0).
• A jak zdefiniować kontrast, gdy chcemy
porównać grupę drugą z trzecią i piątą?
0, 2, -1, 0, -1
0, 4, -2, 0, -2
0, -1, 0,5, 0, 0,5
0, -10, 5, 0, 5
Przykład
• W badaniu nad skutecznością pewnego środka
podnoszącego sprawność umysłową
przeprowadzono badanie, w którym porównywano
osoby przyjmujące niskie i wysokie dawki
specyfiku z grupą kontrolną oraz placebo
• Jakie wagi dla pierwszego kontrastu
porównującego obie grupy eksperymentalne z
dwiema kontrolnymi?
Grupa E1 Grupa E2
Wysokie dawki Niskie dawki
Grupa K1 Grupa K1
Nic Placebo
vs
.
+1 +1 -1 -1
kontrast 1
Jakie dalsze porównania możliwe?
Grupa E1 Grupa E2
Wysokie dawki Niskie dawki
Grupa K1 Grupa K1
Nic Placebo
vs
.
+1 -1 0
0 kontrast 2
Grupa E2
Niskie dawki
Grupa E1
Wysokie dawki
vs
.
Grupa K1
Placebo
Grupa K1
Nic
vs
.
0 0 +1
-1 kontrast 3
• Jak sprawdzić czy kolejne wykonywane
porównania są od siebie wzajemnie
niezależne, czyli ortogonalne
• Przemnażamy przez siebie
współczynniki kontrastu odpowiednio
dla każdej grupy
• Suma iloczynów powinna wynosić zero
– jeśli nie, kontrasty nie są
ortogonalne
Czy poniższe kontrasty są
niezależne?
• Porównujemy średnie pochodzące z
czterech grup
• Ile możliwych porównań niezależnych?
3
• Jeżeli pierwszy kontrast:
1, 1, 1, -3
• To pozostałe:
1, 1, -2, 0
1, -1, 0, 0
• Porównanie1: 1, 1, 1, -1,5, -1,5
• Porównanie2: -1, 1, 0, 0, 0
• Iloczyn: -1 1 0 0 0
• Suma iloczynów: 0
• Porównanie1: 2, 0, -1, -1
• Porównanie2: 1, -1, 0, 0
• Iloczyn: 2 0 0 0
• Suma iloczynów: 2
Niezależne?
Niezależne?
Podsumowanie
• Zawsze wybieramy
sensowne
porównania
• Pamiętamy, że zawsze porównujemy tylko
dwie
„porcje” w jednym kontraście (gdy w „porcji” więcej
niż jedna grupa – porównujemy średnią z tych grup)
• Porównywane grupy mają
przeciwny
znak
współczynnika
• Wartości porównywanych współczynników muszą
być takie same
• Grupy, które są wyłączone z porównań mają zero
• Suma współczynników w danym kontraście zawsze
równa zero
• Jeżeli wykonujemy więcej niż jeden kontrast –
porównania powinny być
niezależne
Mnożenie/ dodawanie
• Analiza kontrastów pozwala
przemnażać średnie przez pewne
współczynniki, ale nie ma możliwości
dodawania niczego do średnich.
• Możemy sprawdzać, czy dochód
mężczyzn jest 2 razy większy niż
dochód kobiet, ale nie sprawdzamy
(przy użyciu kontrastów), czy
mężczyźni zarabiają o 500 złotych
więcej niż kobiety.
Jak definiować w SPSS
• Kontrasty w SPSS wykorzystują
statystykę t do testowania różnic pomiędzy
średnimi lub kombinacjami średnich.
• Gdzie je znaleźć:
Jak definiować w SPSS?
Współczynniki
kontrastu
wprowadzamy
kolejno klikając
DODAJ
Jak definiować w SPSS
• Bardzo ważna jest kolejność
wprowadzania współczynników
W badaniu nad informatykami
chcemy najpierw porównać
grupę kontrolną z
eksperymentalnymi, a potem
porównać średnie grup
eksperymentalnych
Musimy sprawdzić
jak zakodowane są
grupy
Interpretacja: Grupa kontrolna
różni się od średniej grup
eksperymentalnych, oraz grupy
eksperymentalne różnią się
między sobą – w jaki sposób
patrzymy na średnie
Średnia grupy kontrolnej
porównywana ze średnią
utworzoną ze średnich grup
eksperymentalnych
Średnia grupy eksperymentalnej
pierwszej porównywana ze średnią
grupy eksperymentalnej drugiej
Descriptives
ZACHOWAN
15 1,6000
,73679
,19024
1,1920
2,0080
1,00
3,00
15 1,6667
,72375
,18687
1,2659
2,0675
1,00
3,00
11 4,0909
,70065
,21125
3,6202
4,5616
3,00
5,00
41 2,2927
1,30851
,20435
1,8797
2,7057
1,00
5,00
1,00 informatycy
2,00 informatycy
po treningu
3,00 informatycy
po dyżurze
Total
N
Mean Std. Deviation Std. Error Lower Bound Upper Bound
95% Confidence Interval for
Mean
Minimum Maximum
Kontrasty wielomianowe, czyli analiza
trendu
Trendy najbardziej poszukiwaną wartością -
trendsetterzy
Trendy w języku – „jazzy”
Trendy w przemyśle – samochody dla kobiet
mają okrągłe linie nawiązując do cech
„dziecięcości”
Trendy w statystyce
• Analiza trendu jest wykorzystywana
wtedy, gdy poszukujemy
specyficznego układu średnich.
Najczęściej stosujemy ją wtedy, gdy
czynnik jest na skali porządkowej,
lub gdy mamy teoretyczne
przesłanki by określić, że jakieś
średnie będą wyższe a inne niższe.
Analiza kontrastów – badanie trendów
Poznane do tej pory metody –
R-Pearsona czy test T-Studenta pozwalały
nam badać jedynie zależności
prostoliniowe
• Analiza kontrastów pozwala poszukiwać
innych kształtów zależności niż
prostoliniowe.
• Obliczeniowo jest identyczna jak zestaw
ortogonalnych kontrastów. Jeśli szukamy
trendu to ogólna analiza wariancji nie
musi być istotna.
Wielomian czwartego
stopnia
Wielomian trzeciego
stopnia
Wielomian drugiego
stopnia
Wielomian pierwszego
stopnia
Współczynniki kontrastu dla trendu liniowego,
kwadratowego i sześciennego
Porównujemy 2
średnie
• Liniowy –1 1
Porównujemy 3
średnie
• Liniowy –1 0 1
• Kwadratowy 1 -2 1
Porównujemy 4 średnie
• Liniowy –3 –1 1 3
• Kwadratowy 1 –1 –1 1
• Sześcienny –1 3 -3 1
Porównujemy 5 średnich
• Liniowy –1 –1 0 1 2
• Kwadratowy 2 –1 –2 –1
2
• Sześcienny –1 2 0 –2 1
Aby poszukiwać złożonych kształtów zależności
(krzywoliniowych) potrzebujemy
odpowiedniej ilości
porównywanych grup,
np. dla zależności kwadratowej
musimy mieć przynajmniej 3 średnie.
Wielomiany – jak w spss-ie?
Zależność wykształcenia i liczby dzieci przyjmuje
kształt prostoliniowy – osoby z wyższym
wykształceniem maja mniej dzieci niż te z
wykształceniem podstawowym i średnim.
Wydruk
Wniosek – średnie układają się w kształt
funkcji kwadratowej?
Jednoczynnikowa ANOVA
Liczba dzieci
157,450
4
39,362
14,405
,000
92,601
1
92,601
33,887
,000
124,883
1
124,883
45,701
,000
32,566
3
10,855
3,973
,008
18,177
1
18,177
6,652
,010
30,795
1
30,795
11,269
,001
1,772
2
,886
,324
,723
,271
1
,271
,099
,753
,055
1
,055
,020
,887
1,716
1
1,716
,628
,428
1,716
1
1,716
,628
,428
1,716
1
1,716
,628
,428
4063,405
1487
2,733
4220,855
1491
(Połączone)
Nieważone
Ważone
Odchylenie
Składnik liniowy
Nieważone
Ważone
Odchylenie
Składnik
kwadratowy
Nieważone
Ważone
Odchylenie
Składnik
sześcienny
Nieważone
Ważone
Składnik czwartego
stopnia
Między
grupami
Wewnątrz grup
Ogółem
Suma
kwadratów
df
Średni
kwadrat
F
Istotność
Interpretacja
• Wiemy już, że średnie układają się tworząc
wielomian drugiego stopnia, ale, żeby
zinterpretować go musimy obejrzeć wykres.
Wydruk nie pozwala nam bowiem stwierdzić,
który wariant układu mamy.
Poziom wykształcenia respondenta
Graduate
Bachelor
Junior college
High s chool
Mniej niż HS
Ś
re
d
n
ia
-
L
ic
zb
a
d
z
ie
ci
2,6
2,4
2,2
2,0
1,8
1,6
1,4
1,2
Humanistyczny charakter uczelni znajduje odbicie w
sympatii jej studentów do muzyki bluegrass
Zależność ta okazała się prostoliniowa F(1, 1330)=9,334;
p<0,01– patrzymy na wykres, by ją zinterpretować
Jednoczynnikowa ANOVA
Bluegrass
12,645
4
3,161
3,067
,016
9,817
1
9,817
9,526
,002
9,619
1
9,619
9,334
,002
3,026
3
1,009
,979
,402
,017
1
,017
,016
,899
1,050
1
1,050
1,019
,313
1,975
2
,988
,958
,384
,629
1
,629
,610
,435
1,054
1
1,054
1,023
,312
,921
1
,921
,894
,345
,921
1
,921
,894
,345
,921
1
,921
,894
,345
1370,641
1330
1,031
1383,285
1334
(Połączone)
Nieważone
Ważone
Odchylenie
Składnik liniowy
Nieważone
Ważone
Odchylenie
Składnik
kwadratowy
Nieważone
Ważone
Odchylenie
Składnik
sześcienny
Nieważone
Ważone
Składnik czwartego
stopnia
Między
grupami
Wewnątrz grup
Ogółem
Suma
kwadratów
df
Średni
kwadrat
F
Istotność
Wykres pokazuje, że nasza zależność jest prawie
prostoliniowa
szkoła wyższa
SWPS
UMK
UW
SGGW
SGH
Ś
re
d
n
ia
-
B
lu
e
g
ra
ss
2,9
2,8
2,7
2,6
2,5
2,4
Pytania sprawdzające
1. Jak brzmi hipoteza zerowa analizy wariancji
2. Jak brzmią założenia analizy wariancji
3. Dlaczego analiza wariancji jest lepsza niż wielokrotne
porównywanie testem T
4. Jak to jest, że wariancja jest używana do porównywania
średnich?
5. Gdyby policzyć skośność rozkładu t to rozkład ten byłby
dodatnioskośny, czy ujemnieskośny
6. Jaka wartość F na pewno będzie nieistotna??
7. Kiedy stosujemy porównania planowane?
8. Kiedy stosujemy testy post hoc
9. Kiedy stosujemy analizę trendu?
10. Jeśli mamy 6 średnich to ile ortogonalnych kontrastów
możemy policzyć?
Problemy z wnioskowaniem
•
Japończycy jedzą mało tłuszczów i atak serca zdarza
im się rzadziej niż Amerykanom i Brytyjczykom.
•
Z drugiej strony Francuzi jedzą dużo tłuszczów ale
atak serca zdarza im się rzadziej niż Amerykanom i
Brytyjczykom.
•
Japończycy piją mało czerwonego wina i atak serca
zdarza im się rzadziej niż Amerykanom i
Brytyjczykom.
•
Włosi piją ogromne ilości czerwonego wina ale i tak
atak serca zdarza im się rzadziej niż Amerykanom i
Brytyjczykom.
Wniosek: Jedz i pij co
chcesz!
Wniosek 1: To co zabija to mówienie po
angielsku!