1
ANALIZA WARIANCJI
.
2
Definicja
Analiza wariancji jest procedurą - opartą na teście
istotności - służącą do oceny tego, czy więcej
niż dwie średnie z prób różnią się pod względem
wartości średnich populacji, z których pochodzą.
Analiza ta polega na podziale wariancji ogółem na
części składowe.
Często oznaczana jest ona skrótem ANOVA,
pochodzącym od angielskiej nazwy metody –
Analysis of Variance
3
Założenia podziału wariancji
A
x
C
x
B
x
Wariancja
wewnątrz
grup
Wariancja
między
grupami
4
Model matematyczny
jednoczynnikowej analizy wariancji
x
ij
= +
i
+
ij
gdzie:
x
ij
– pojedynczy j-ty pomiar i-tego obiektu
- ogólna średnia z populacji generalnej
i
– wpływ badanego czynnika
ij
– odchylenie losowe pomiaru (błąd) o
średniej równej zero i rozkładzie normalnym
5
Wymagania dotyczące
danych
Aby wyniki uzyskane za pomocą analizy
wariancji były wiarygodne, dane na podstawie
których jest wyliczana ANOVA muszą być:
-
homogeniczne
-
addytywne
-
„normalne”
Homogeniczność (jednorodność) zakłada, że
wariancje dla poszczególnych obiektów będą
zbliżone.
Addytywność różnic
oznacza, że wartość
i
jest stała dla danego poziomu/wariantu
czynnika i nie zależy od wielkości .
6
Wymagania dotyczące
danych c.d.
W przybliżeniu można przyjąć, że warunek stałości
wariancji jest spełniony, gdy stosunek wariancji
maksymalnej do minimalnej nie jest większy jak
3:1
Normalność rozkładu oznacza, że czynnik
losowy
ij
w równaniu ma rozkład normalny,
co w praktyce oznacza (przy stałej wielkości
średniej ogólnej i stałej wartości wpływu badanego
czynnika), że rozkład pomiarów dla danego
obiektu jest zgodny z rozkładem normalnym.
7
Etapy obliczeń w analizie wariancji
1.Sprawdzenie założeń ANOVA.
2.Postawienie hipotezy zerowej.
3.Wyznaczenie sum kwadratów
odchyleń dla źródeł zmienności.
4.Wyznaczenie średnich kwadratów
odchyleń (wariancji).
5.Weryfikacja hipotezy zerowej testem F.
6.Ewentualne badanie istotności różnic
między średnimi obiektowymi.
8
Hipotezy w analizie
wariancji
Hipoteza zerowa – Wszystkie średnie
obiektowe (w grupach) są takie same.
H
o
: μ
1
= μ
2
= ….= μ
i
=....= μ
k
Hipoteza alternatywna –
H
1
: Przynajmniej jedna średnia różni
się
od innych.
9
Tabela analizy wariancji
Rodzaj
zmien-
ności
Liczba
stopni
swob.
l.s.s.
Suma
kwadrató
w różnic
Wa-
rian-
cja
F
emp
F
0,05
F
0,01
Obiekt
y
k-1
s
o
2
s
o
2
/s
E
2
Błąd
k(n-1)
s
E
2
Ogółe
m
kn-1
Liczba stopni swobody (l.s.s.)
stanowi mianownik poszczególnych
wariancji składowych.
W obliczeniach suma liczb stopni
swobody poszczególnych wariancji
składowych musi dać liczbę stopni
swobody ogółem.
Suma kwadratów różnic – jest licznikiem
poszczególnych wariancji składowych. Podobnie jak
liczba stopni swobody suma kwadratów różnic obiektów
i błędów musi dać sumę kwadratów różnic dla ogółem.
Wariancja składowa – jest ilorazem sumy kwadratów różnic i liczb
stopni swobody dla poszczególnych rodzajów zmienności.
W tabeli ANOVA nie wyliczamy wariancji dla ogółem.
F
emp
jest ilorazem S
2
obiektów i S
2
błędu. Jego wartość określa
stosunek zmienności wynikającej z różnic pomiędzy
obiektami do zmienności przypadkowej (błędu).
Wartości krytyczne odczytów z tablic dla określonych poziomów
istotności α. Są one potrzebne do porównania ich z wartością
empiryczną testu w celu wyciągnięcia wniosków.
W poszczególnych wierszach tej kolumny
opisane są wariancje składowe.
Obiekty opisują zmienność między
badanymi
średnimi.
Błąd opisuje zmienność przypadkową
(losową)
wewnątrz obiektów.
Ogółem jest sumą obu wyżej wymienionych
zmienności.
10
Wnioskowanie w analizie
wariancji
Podobnie, jak w innych testach istotności, na podstawie
analizy wariancji można odrzucić H
0
lub stwierdzić brak
podstaw do jej odrzucenia. Oznacza to, że wnioski mogą
w zależności od wartości F
emp
być tylko dwóch rodzajów:
A)
Ponieważ F
emp
> F
0,05
(F
0,01
), dlatego odrzucamy H
0
na
korzyść H
1
i z prawdopodobieństwem popełnienia błędu
mniejszym niż 0,05 (0,01) stwierdzamy, że istnieją
istotne (wysoce istotne) różnice między badanymi
średnimi. Oznacza to, że wśród tych średnich są co
najmniej dwie, które na 95 % (99 %) różnią się.
B)
Ponieważ F
emp
≤ F
0,05
, dlatego brak jest podstaw do
odrzucenia H
0
. Oznacza to, że nie mamy przynajmniej
95 % (99%) pewności, że istnieją co najmniej dwie
średnie, które się różnią.
11
Przykład
W doświadczeniu wazonowym (liczba powtórzeń n = 4)
zbadano wpływ nawożenia gleby różnymi mikroelementami na
plon nasion gorczycy z wazonu. Badano następujące obiekty
(k=6):
A-kontrola (bez nawożenia); B-Mn; C-Mn+B; D- Cu; E-Mo; F-
Cu+Mo.
Plon nasion gorczycy [g/wazon]
Pow
-
tórz
enie
Obiekty
A
B
C
D
E
F
1
44
33
44
68
63
64
316
2
59
19
40
66
49
73
306
3
60
49
45
70
59
77
360
4
41
71
31
64
71
67
345
204
172
160
268
242
281
1327
51,0
43,0
40,0
67,0
60,5
70,2
55,3
x
k
x
x
n
x
n
k
12
76537
4
281
242
268
160
172
204
3
78823
67
59
44
2
73372
4
6
1327
1
2
2
2
2
2
2
2
2
2
2
2
2
2
n
Σx
Σ
Obiekty
...
Σ x
Σ
Ogół
n
k
Σx
Σ
Poprawka
n
k
n
k
n
k
Rodzaj
zmienności
l.s.s
Suma
kwad-
ratów
Średni
kwadrat
F
emp
F
0,05
F
0,01
Obiekty
(Mikroelemen
ty)
k-1=
6-1=5
3-1=
3165
633
4,98
**
2,77 4,25
Błąd
k(n-1)=
6(4-
1)=18
2-3=
2286
127
Ogółem
kn-1=
24
-1=23
2-1=
5451
13
Wniosek
Ponieważ F
emp
> F
0,01
, dlatego odrzucamy H
0
na korzyść H
1
i z
prawdopodobieństwem popełnienia błędu mniejszym niż 0,01
stwierdzamy, że istnieją wysoce istotne różnice między badanymi
obiektami.
Porównania wielokrotne średnich
Procedura Tukeya
x
k
m
s
q
NIR
E
·
;
;
n
s
s
E
x
2
49
,
4
63
,
5
4
127
18
;
6
;
05
,
0
2
q
n
s
s
E
x
g
s
q
NIR
x
k
m
3
,
25
63
,
5
49
,
4
·
;
14
Obiekty
(k)
Średni
plon
(g/wazon
)
Grupy
jednorodn
e
F
70,2
a
ab
abc
abc
bc
c
D
67,2
E
60,5
A
51,0
B
43,0
C
40,0
Średnia
55,3
Wnioski: Obiekt F daje większy plon nasion niż obiekty B,C, a obiekt
D daje większy plon niż obiekt C.
15
NIR
0,05
16
TESTY
NIEPARAMETRYCZNE
17
Właściwości testów i zastosowanie
Poznane
dotychczas
parametryczne
testy
statystyczne odnosiły się do takich zmiennych,
których znajomość kształtu rozkładu była podana
w założeniach. Często jednak zdarza się, że nie
znamy kształtu rozkładu badanej zmiennej albo
rozkład jest inny niż rozkład normalny, ewentualnie
nie są spełnione inne warunki (np. stałość
wariancji) wymagane do użycia określonego testu
parametrycznego. Wtedy możemy zastosować
procedury nieparametryczne. Stosujemy je także
do danych w skali nominalnej i porządkowej oraz
dla grup o małej liczebności.
18
Wady i zalety
procedur
ZALETY
Nie potrzeba robić żadnych założeń dotyczących rozkładu
badanej zmiennej losowej.
Są prostsze w użyciu.
Dobrze nadają się do oceny materiału niejednorodnego,
pochodzącego z eksperymentów wieloletnich i wielokrotnych .
WADY
Są mniej mocne niż testy parametryczne. Jak wcześniej
mówiliśmy, moc testu jest związana z możliwością przyjęcia
hipotezy zerowej, gdy nie została ona odrzucona. Dla testów
nieparametrycznych trudniej jest ustalić moc testu, dlatego dla
wielu testów nie jest ona określona. W wypadku testów, dla
których została określona, należy wykonać znacznie więcej
obserwacji niż dla testów parametrycznych, aby moc testów była
podobna.
19
RODZAJE TESTÓW NIEPARAMETRYCZNYCH
TESTY ZGODNOŚCI
Testami zgodności nazywamy testy służące
do weryfikacji hipotez dotyczących typu
rozkładu badanej cechy. Za pomocą tych
testów weryfikujemy hipotezę, że rozkład
badanej cechy w próbie jest zgodny z
określonym rozkładem teoretycznym
(określonym w hipotezie H
o
).
test
test Kołmogorowa-Smirnowa
test Shapiro-Wilka
20
TESTY NIEZALEŻNOŚCI
Zdarza się często, że badamy populację pod
względem dwóch lub więcej cech, albo analizujemy
dwie populacje względem tej samej cechy i chcemy
się dowiedzieć, czy istnieje zależność między nimi.
W przypadku gdy sądzimy, że zależność jest
liniowa możemy wyliczyć współczynnik korelacji
liniowej Pearsona i sprawdzić jego istotność, pod
warunkiem jednak, że próby pochodzą z populacji
normalnych i że są jednorodne.
Nie zawsze jednak te warunki są spełnione i wtedy
możemy
stosować
nieparametryczne
testy
niezależności:
test
2
test korelacji rang Spearmana
21
TESTY JEDNORODNOŚCI
Do
tej
grupy
testów
nieparametrycznych należą testy
pozwalające określić, czy pobrane
próby
pochodzą
z
tej
samej
populacji, czy są zróżnicowane.
Test Manna – Whitneya
Test kolejności par Wilcoxona
Test Kruskala-Wallisa
22
Test
2
jako test zgodności
Pearson wprowadził kryterium - dzięki któremu możemy
sprawdzić, czy badany rozkład nie odbiega od rozkładu
teoretycznego i czy rozbieżność ta mieści się w
granicach błędu losowego - za pomocą zmiennej losowej
k
i
i
i
i
E
E
O
1
2
2
)
(
gdzie: O
i
- liczebności obserwowane
E
i
- liczebności oczekiwane
(teoretyczne)
o
k-1 liczbie stopni swobody (k- liczba
badanych klas).
23
Przykład
W doświadczeniu z grochem w pokoleniu F
otrzymano 45 roślin o
nasionach okrągłych i 1 roślin o nasionach kanciastych. Czy
można przyjąć, że kształt nasion grochu dziedziczy się zgodnie z
prawem Mendla, zakładającym stosunek rozszczepień 3:1.
Hipotezy
H
0
: rozkład jest zgodny z rozkładem 3:1
H
1
: rozkład odbiega od rozkładu 3:1
Nasiona
okrągłe
Nasiona
kanciast
e
Suma
O
45
12
57
E
42,75
14,25
57
3,841
2
0,05;1
χ
0,473
1
1
2
1
25
,
14
25
,
14
12
75
,
42
75
,
42
45
2
2
2
1
2
k
v
emp
k
i
i
E
i
E
i
O
Ponieważ
2
emp
<
2
0,05
hipotezy zerowej nie możemy odrzucić i
stwierdzamy, że stosunek rozszczepień jest 3:1, czyli kształt
nasion grochu dziedziczy się wg prawa Mendla.
24
Test 2 jako test niezależności
Postawmy hipotezę, że dwie zmienne jakościowe X i Y są wzajemnie
niezależne. Dla sprawdzenia powyższej hipotezy dokonujemy
równoczesnej oceny rozkładu liczebności w kategoriach badanych
cech. Dane zestawione w dwukierunkowej tablicy tworzą tzw.
tablicę wielodzielczą (kontygencji) o k - kolumnach i w - wierszach.
Do weryfikacji H
0
o niezależności zmiennych stosujemy statystykę:
ij
ij
1
1
1
1
E
O
n
1
1
2
2
k
i
w
j
ij
k
i
w
j
ij
ij
ij
O
n
O
O
E
gdzie
k
i
w
j
ij
E
ij
E
ij
O
obserwowane liczebność jednostek eksperymentalnych,
mających jednocześnie właściwości x
i
i y
j
oczekiwane liczebność jednostek eksperymentalnych,
mających jednocześnie właściwości x
i
i y
J
Statystyka ma rozkład
2
z liczbą stopni swobody
k-1)(w-1)
25
Przykład
Zbadano wpływ oprysku środkami grzybobójczymi na zdrowotność
jabłek. Wzięto dwie skrzynki, w każdej po 110 jabłek. Jedną opryskano
środkiem grzybobójczym, a druga była kontrolą. Po pewnym czasie
policzono jabłka zdrowe i porażone w każdej skrzynce, i w ten sposób
uzyskano
liczebności obserwowane
. Czy istnieje zależność między
opryskiem a zdrowotnością jabłek?
Oprysk Kontrol
a
Suma
Zdrowe
100
70
170
(85)
(85)
Porażon
e
10
40
50
(25)
(25)
Suma
110
110
0
H
0
: brak zależności między opryskiem a zdrowotnością
jabłek
H
1
: istnieje zależność między opryskiem a zdrowotnością
jabłek
(W nawiasach podano liczebności oczekiwane)
26
6,635
23,290
2
1
;
01
,
0
2
1
;
05
,
0
2
2
2
2
;
841
,
3
1
)
1
2
)(
1
2
(
)
1
)(
1
(
25
25
40
25
25
10
85
85
70
85
85
100
2
2
w
k
k w
E
E
O
emp
325
,
0
220
29
,
23
2
n
emp
Ponieważ
2
emp
>
2
0,01
, hipotezę zerową na poziomie istotności
0,01 odrzucamy i stwierdzamy, że oprysk ma wpływ na
zdrowotność owoców.
Współczynnik współzależności Yula
27
Test Spearmana jako test niezależności
(korelacji nieparametrycznej)
Test ten służy do badania zależności między dwoma
cechami jakościowymi lub ilościowymi X i Y, gdy istnieje
możliwość uporządkowania obserwacji empirycznych w
określonej
kolejności
(rangowania).
Znajduje
on
zastosowanie, gdy liczba danych jest niewielka.
)
1
(
6
1
r
2
1
2
S
n
n
d
n
i
i
Jeżeli współczynnik r
s
będzie mały, to możemy przypuszczać, że
zmienne losowe X i Y są niezależne, jeżeli natomiast będzie on
bliski +1 lub -1, to można przypuszczać, że istnieje zależność
liniowa. Hipotezę o braku zależności odrzucamy, gdy r
S
> r
S
n
r
s
- współczynnik korelacji rang Spearmana
d
i
- różnice między rangami odpowiadających sobie
wartości cechy x
i
i y
i
n – liczba par obserwacji
28
Przykład
U ośmiu (n=8) lisów (A, B,…, H) badano, czy istnieje zależność
pomiędzy barwą futra a agresywnością lisów.
Klasyfikacje:
a) barwa futra b) agresywność
1-najładniejsze 1-agresywny
8-najbrzydsze 8-spokojny
Lis Barw
a
Agresywnoś
ć
d
i
d
i
2
A
1
2
-1
1
B
2
1
1
1
C
3
3
0
0
D
4
6
-2
4
E
5
4
1
1
F
6
7
-1
1
G
7
8
-1
1
H
8
5
3
9
18
n
i
i
d
1
2
29
643
,
0
786
,
0
214
,
0
1
504
108
1
)
1
8
(
8
18
6
1
)
1
(
6
1
8
;
05
,
0
2
2
1
2
S
n
i
i
S
r
n
n
d
r
Ponieważ r
S
> r
S 0,05
hipotezę zerową odrzucamy i stwierdzamy,
że istnieje
zależność między barwą futra a agresywnością lisów. Związek
ma charakter liniowy dodatni.
H
0
: brak zależności między barwą futra a agresywnością lisów
H
1
: istnieje zależność między barwą futra a agresywnością lisów