Analiza wariancji
Jerzy Greń
Modele i zadania
statystyki
matematycznej
Nowa metodologia badań eksperymentalnych, a dokładniej
planowania eksperymentu opartego na analizie wariancji,
zaproponowana przez Ronalda A. Fishera, wykorzystywana
była początkowo w rolnictwie. Pozwala ona manipulować
więcej niż jedną zmienną niezależną jednocześnie,
umożliwia to znaczne rozszerzenie zasięgu generalizacji
wniosków eksperymentalnych. Najistotniejsze jednak jest
to, że metoda ta pozwala uwzględnić efekt łącznego
oddziaływania dwóch lub więcej zmiennych niezależnych
na zmienną zależną.
Istotą analizy wariancji jest rozbicie na addytywne
składniki (których liczba wynika z potrzeb
eksperymentu) sumy kwadratów całego zbioru wyników.
Porównanie poszczególnej wariancji wynikającej z
działania danego czynnika oraz tak zwanej wariancji
resztowej, czyli wariancji mierzącej błąd losowy (przy
zastosowaniu testu F Snedecora) daje odpowiedź czy
dany czynnik odgrywa istotną rolę w kształtowaniu
wyników eksperymentu.
Test analizy wariancji można stosować wówczas,
gdy
rozkłady populacji są normalne lub zbliżone
do normalnego oraz mają jednakowe wariancje
.
Może bowiem zdarzyć się tak, że wszystkie
populacje mają rozkłady normalne i jednakowe
wariancje, ale różnią się wartościami średnimi
X ma rozkład normalny N(m,σ)
Populację podzielono na k (k>1) zbiorowości
takich, że zmienne losowe należące do i-tej grupy
mają także rozkład normalny o wartości
oczekiwanej m
i
oraz o jednakowej nieznanej
wariancji σ.
Z każdej z grup pobierana jest n
i
-elementowa
próba prosta.
Wszystkich prób jest:
k
i
i
n
n
1
Model analizy wariancji z klasyfikacją
pojedynczą (jednoczynnikowa analiza
wariancji)
i
ij
i
ij
n
j
k
i
Y
m
X
,...
1
;
,...
2
,
1
gdzie Y
ij
są niezależnymi zmiennymi losowymi
o rozkładach normalnych N(0,σ)
k
i
i
k
i
i
i
n
n
m
n
n
m
1
1
gdzie
1
Oznaczenia: X
i,j
j-ta obserwacja w i-
tej grupie.
(i = 1,2,...,k; k=1,2,...n
i
)
to
:
Oznaczymy
m
m
a
i
i
i
ij
i
ij
n
j
k
i
Y
a
m
X
,...
1
;
,...
2
,
1
k
i
k
i
k
i
i
i
i
i
i
k
i
i
i
n
m
m
n
m
m
n
a
n
1
1
1
1
0
2
2
2
2
ij
ij
i
ij
i
ij
i
ij
Y
D
Y
a
m
D
X
D
a
m
Y
a
m
E
X
E
,
0
~N
Y
ij
m
X
E
a
m
k
k
i
i
1
1
Interpretacja: na każdą obserwację X
ij
wywiera wpływ i-ty
wariant czynnika ze względu na który podzielono populację
generalną. Wpływ ten nazywany jest efektem głównym i
wyrażony jest wielkością a
i
.
Parametry te mierzą odchylenie wartości oczekiwanej w
poszczególnych grupach od wartości oczekiwanej m.
Efekt oddziaływania.
Można postawić jedna z pięciu hipotez H
o
i
odpowiednio alternatywnych hipotez H
1
.
Jeżeli weryfikowana hipoteza zerowa jest prawdziwa, to
wszystkie wartości oczekiwane E(X
ij
) będą równe więc każdą z k
podpopulacji można uznać za równoważną pod względem
otrzymanych wartości badanej cechy X.
Odrzucenie hipotezy H
0
oznacza udowodnienie istotnego wpływu
czynnika.
Wprowadźmy oznaczenia:
X
n
1
.
1
.
,...,
2
,
1
dla
1
i
n
1
j
ij
k
1
i
1
1
.
i
i
n
j
i
i
n
j
ij
i
i
X
n
n
X
k
i
X
n
X
.
,...,
2
,
1
dla
X
n
1
.
1
i
n
1
j
ij
k
1
i
1
k
i
X
n
n
X
i
n
j
i
i
z
w
i
i
i
i
i
i
i
i
i
i
Q
Q
X
X
n
X
X
X
X
X
X
n
X
X
X
X
X
Q
k
1
i
2
n
1
j
2
ij
k
1
i
n
1
j
ij
k
1
i
k
1
i
2
n
1
j
2
ij
k
1
i
n
1
j
2
ij
k
1
i
n
1
j
2
ij
k
1
i
.
.
X
.
.
X
2
.
.
X
.
.
X
X
i
i
i
i
i
i
n
1
j
2
ij
k
1
i
.
X
i
w
X
Q
resztkowa suma
kwadratów
.
,...,
2
,
1
dla
1
1
.
k
i
X
n
X
i
n
j
ij
i
i
Jest nieobciążonym estymatorem parametru m+a
i
wyrażenie Q
w
jest miarą rozrzutu obserwacji badanej
zmiennej losowej X wewnątrz każdej podpopulacji.
i
n
1
j
2
ij
k
1
i
.
X
i
w
X
Q
k
1
i
2
. X
X
n
Q
i
i
z
suma kwadratów według
badanego czynnika suma
kwadratów pomiędzy
grupami.
Budowa testu do weryfikacji
hipotezy zerowej
Jeżeli hipoteza H
o
jest prawdziwa, to zachodzi równość:
2
1
k
n
Q
E
k
Q
E
w
z
zmienne
losowe
w
w
z
z
Q
U
Q
U
2
2
2
2
1
oraz
1
mają rozkłady
2
o (k-
1) i (n-k) stopniach
swobody.
w
z
w
z
Q
k
n
Q
k
k
k
n
U
U
F
1
1
1
1
2
2
zmienna losowa o rozkładzie
F-Snedecora (k-1) i (n-k)
stopniach swobody.
Rozkład F Snedecora
Jest związany z rozkładem
2
.
1
2
2
1
k
k
V
U
k
V
k
U
F
U,V są niezależnymi zmiennymi losowymi o
rozkładach
2
odpowiednio z k
1
i k
2
stopniach
swobody.
ROZKŁAD.F(x;stopnie_swobody1;stopnie_swobody)
•Funkcja ROZKŁAD.F jest obliczana jako
ROZKŁAD.F=P( F<x ), gdzie F jest zmienną losową o
rozkładzie F.
ROZKŁAD.F.ODW(prawdopodobieństwo;stopnie_swobody1;stopnie_
swobody2)
Podaje wartość funkcji odwrotnej rozkładu prawdopodobieństwa F.
Jeśli p = ROZKŁAD.F(x ,...), to ROZKŁAD.F.ODW(p,...) = x .
0
2
4
6
8
10
0
0.2
0.4
0.6
0.8
1
1
0
dF x 4
10
(
)
dF x 6
10
(
)
dF x 12
12
(
)
dF x 4
3
(
)
10
0
x
Rozkład F Snedecora
k
i
i
i
k
i
n
j
ij
k
i
n
j
i
ij
w
W
X
n
k
n
X
k
n
X
X
k
n
k
n
Q
S
i
i
1
1
1
2
1
1
2
2
.
1
1
.
1
2
1
2
1
2
2
1
.
1
1
.
1
1
1
X
k
n
X
n
k
X
X
n
k
k
Q
S
k
i
i
i
k
i
i
i
z
Z
2
1
2
1
2
2
1
.
1
1
1
1
1
X
n
n
X
n
X
X
n
n
n
Q
S
k
i
ij
k
i
ij
i
C
Statystyki powyższe są nieobciążonymi estymatorami
wariancji populacji. W przypadku prawdziwości
hipotezy H
O
mamy bowiem:
2
2
2
2
C
Z
W
S
E
S
E
S
E
Jeżeli prawdziwa jest hipoteza H
o
wartości różnią się
nieznacznie między sobą.
Jeżeli nie jest prawdziwa jest hipoteza H
o
to wartości
różnią się istotnie między sobą - wartość estymatora
będzie większa, natomiast nie powinna ulec zmianie.
.
i
X
.
i
X
2
Z
S
2
W
S
Zatem statystyka:
może być użyta do weryfikacji hipotezy zerowej.
2
2
W
Z
S
S
F
Obszar
krytyczny:
F
F
F
R
F
F
P
:
i
k
i
i
n
x
x
2
1
2
1
ˆs
2
2
2
1
ˆ
ˆ
s
s
F
k
i
n
j
i
ij
i
x
x
1
1
2
_
2
2
ˆs
Źródło
zmienności
Suma
kwadratów
Stopnie
swobody
Wariancja
Test F
Między
populacjami
(grupami)
k – 1
Wewnątrz
grup
(składnik
losowy)
n – k
k
i
n
j
ij
i
i
x
n
x
1
1
1
i
n
j
ij
i
i
x
n
x
1
_
1
Analiza wariancji w przypadku
klasyfikacji dwukrotnej
(dwuczynnikowa analiza wariancji)
Chcemy badać wpływ dwóch różnych czynników
działających jednocześnie.
Populacja generalna jest podzielona według dwóch
kryteriów A i B odpowiednio na r oraz s poziomów
oddziaływania czynnika A i B.
Z każdej z pośród tych grup pobiera się próbę prostą
złożoną z t obserwacji.
)
,...,
1
;
,...,
2
,
1
;
,...,
2
,
1
(
k
s
j
r
i
X
ijk
oznacza wartość cechy X zaobserwowane przy pobieraniu k-tej
obserwacji z grupy wyznaczonej przez i-ty poziom czynnika A
oraz j-ty poziom czynnika B.
ijk
ij
j
i
ijk
Y
c
b
a
m
X
Zakładamy, że wielkości a
i
, b
j
c
ij
są nielosowe,
natomiast Y
ijk
są niezależnymi zmiennymi losowymi o
rozkładach normalnych N(0,σ) (błąd losowy).
Parametry a
i
= m
i
– m nazywamy efektami
oddziaływania poziomów pierwszego czynnika
Parametry b
j
= m
j
– m nazywamy efektami
oddziaływania poziomów drugiego czynnika
Parametry c
ij
= a
i
b
j,
= m
ij
– m
i
– m
j
+ m nazywamy
efektami współdziałania pierwszego i drugiego
czynnika
Trzy rodzaje hipotez:
i,j
c
H
i.j,
c
H
j
b
H
s
j
b
H
i
a
H
r
i
a
H
ij
AB
ij
AB
j
B
j
B
i
A
i
A
pary
jednej
najmniej
co
dla
0
:
ich
wszystk
dla
0
:
jednego
najmniej
co
dla
0
:
,...,
2
,
1
dla
0
:
,
jednego
najmniej
co
dla
0
:
,...,
2
,
1
dla
0
:
1
0
1
0
1
0
Oznaczenia:
r
i
s
j
t
k
ijk
t
k
ijk
ij
r
i
t
k
ijk
j
s
j
t
k
ijk
i
X
t
r
s
X
s
j
r
i
X
t
X
s
j
X
t
r
X
r
i
X
t
s
X
1
1
1
1
1
1
1
1
1
,...,
2
,
1
;
,...,
2
,
1
dla
1
,...,
2
,
1
dla
1
.
,
,...,
2
,
1
dla
1
..
ij
ijk
j
i
ij
j
i
ijk
X
X
X
X
X
X
X
X
X
X
X
X
.
.
..
.
.
.
W
AB
B
A
i
j
k
ijk
Q
Q
Q
Q
X
X
Q
2
We wszystkich trzech przypadkach hipotez zerowych obszarem krytycznym jest obszar
prawostronny :
F
F
P
F
R
gdzie
,
Eksperyment jednoczynnikowy - weryfikacja
hipotezy o równości wartości przeciętnych
Przykład
Zmierzono długości świecenia trzech
typów żarówek, otrzymując następujące
czasy w godzinach:
typ 1: 1802, 1992, 1854, 1880, 1761, 1900;
typ 2: 1664, 1755, 1823, 1862;
typ 3: 1877, 1710, 1882, 1720, 1950.
Z poziomem ufności 1- = 95% należy
zweryfikować hipotezę, że wartości
przeciętne czasów świecenia żarówek
wszystkich typów są jednakowe (hipotezą
alternatywną jest, że wartości te nie są
jednakowe).
Wyścigi szczurów
Liczba błędów popełnionych przez szczury w toku przejścia tresowanych
szczurów przez labirynt ma rozkład normalny. Do pewnych dalszych
doświadczeń wylosowano po pięć szczurów do czterech grup, które
powinny być jednorodne pod względem wytresowania. Otrzymano dla
szczurów w poszczególnych grupach następujące liczby popełnianych
przez nie błędów:
Grupa
I
II
III
IV
10
8
7
6
11
7
10
6
14
5
8
13
15
6
3
16
10
8
10
4
Na poziome istotności α=0,10 zweryfikować hipotezę o równości
średniej liczby błędów popełnianych przez tresowane szczury we
wszystkich grupach.
k
i
n
j
ij
i
i
x
n
x
1
1
1
i
n
j
ij
i
i
x
n
x
1
_
1
Były sobie świnki ….
Przeprowadzono eksperyment hodowlany w celu wyboru właściwej
diety żywieniowej dla prosiąt. Wyniki doświadczenia(miesięczny
przyrost wagi prosiąt w kg) były dla użytych różnych diet i prosiąt
trzech ras następujące:
Rasa prosiąt
Dieta 1
Dieta 2
Dieta 3
Dieta 4
Dieta 5
I
II
III
12
10
17
24
16
21
8
10
12
12
14
16
10
12
14
Poziom istotności 0,05. Zbadać wpływ rasy oraz diety na przyrost wagi hodowanych prosiąt.
A \
B
1 , 2 , ……………k
1
2
…
…
r
x11, x12……………
x1k
x22, x22……………
x2k
xr1,xr2……………..xrs
Źródło
zmienności
Suma
kwadratów
Stopnie
swobody
Wariancja
Test F
Między
wierszami
SKa
r-1
Wa=SKa/(r-1)
Wa/Wr
Między
kolumnami
SKb
k-1
Wb=SKb/(k-1)
Wb/Wr
Resztowa
SKr
(r-1)(k-1)
Wr=SKr/(r-1)(k-
1)
Średnia w wierszach, średnia w kolumnach i
średnia ogólna.
k
j
r
i
ij
r
i
ij
j
k
j
ij
i
x
kr
x
x
r
x
x
k
x
1
1
1
.
1
.
1
1
1
2
1 1
1
2
.
1
2
.
)
(
)
(
)
(
x
x
SK
x
x
k
SK
x
x
r
SK
k
j
r
i
ij
C
r
i
i
A
k
j
j
B
B
A
C
R
SK
SK
SK
SK