background image

Analiza wariancji

Jerzy Greń

Modele i zadania 
statystyki 
matematycznej

background image

Nowa metodologia badań eksperymentalnych, a dokładniej 
planowania eksperymentu opartego na analizie wariancji, 
zaproponowana przez Ronalda A. Fishera, wykorzystywana 
była początkowo w rolnictwie. Pozwala ona manipulować 
więcej niż jedną zmienną niezależną jednocześnie, 
umożliwia to znaczne rozszerzenie zasięgu generalizacji 
wniosków eksperymentalnych. Najistotniejsze jednak jest 
to, że metoda ta pozwala uwzględnić efekt łącznego 
oddziaływania dwóch lub więcej zmiennych niezależnych 
na zmienną zależną.

Istotą analizy wariancji jest rozbicie na addytywne 
składniki (których liczba wynika z potrzeb 
eksperymentu) sumy kwadratów całego zbioru wyników. 
Porównanie poszczególnej wariancji wynikającej z 
działania danego czynnika oraz tak zwanej wariancji 
resztowej, czyli wariancji mierzącej błąd losowy (przy 
zastosowaniu testu  F Snedecora) daje odpowiedź czy 
dany czynnik odgrywa istotną rolę w kształtowaniu 
wyników eksperymentu. 

 

background image

Test analizy wariancji można stosować wówczas, 
gdy 

rozkłady populacji są normalne lub zbliżone 

do normalnego oraz mają jednakowe wariancje

Może bowiem zdarzyć się tak, że wszystkie 
populacje mają rozkłady normalne i jednakowe 
wariancje, ale różnią się wartościami średnimi

 

background image

X ma rozkład normalny  N(m,σ
Populację podzielono na k (k>1) zbiorowości 

takich, że zmienne losowe należące do i-tej grupy 
mają także rozkład normalny o wartości 
oczekiwanej m

i

 oraz o jednakowej nieznanej 

wariancji σ

Z każdej z grup pobierana jest  n

i

-elementowa 

próba prosta. 

Wszystkich prób jest:

k

i

i

n

n

1

background image

Model analizy wariancji z klasyfikacją 

pojedynczą (jednoczynnikowa analiza 

wariancji)

 

i

ij

i

ij

n

j

k

i

Y

m

X

,...

1

;

,...

2

,

1

    

gdzie Y

ij

  są niezależnymi zmiennymi losowymi 

o rozkładach normalnych N(0,σ) 

k

i

i

k

i

i

i

n

n

m

n

n

m

1

1

      

gdzie

        

1

Oznaczenia: X

i,j 

  j-ta obserwacja w i-

tej grupie.
 (= 1,2,...,kk=1,2,...n

i

)

background image

    

     to

    

:

Oznaczymy

m

m

a

i

i

i

ij

i

ij

n

j

k

i

Y

a

m

X

,...

1

;

,...

2

,

1

    

k

i

k

i

k

i

i

i

i

i

i

k

i

i

i

n

m

m

n

m

m

n

a

n

1

1

1

1

0

  

 

 

2

2

2

2

ij

ij

i

ij

i

ij

i

ij

Y

D

Y

a

m

D

X

D

a

m

Y

a

m

E

X

E

,

0

~N

Y

ij

 

m

X

E

a

m

k

k

i

i

1

1

Interpretacja:  na każdą obserwację X

ij

 wywiera wpływ i-ty 

wariant czynnika ze względu na który podzielono populację 
generalną. Wpływ ten nazywany jest efektem głównym i 
wyrażony jest wielkością a

i

 .  

Parametry te mierzą odchylenie wartości oczekiwanej w 
poszczególnych grupach od wartości oczekiwanej m

Efekt oddziaływania.

background image

Można postawić jedna z pięciu hipotez H

o

  i 

odpowiednio alternatywnych hipotez H

1

.

Jeżeli weryfikowana hipoteza zerowa jest prawdziwa, to 
wszystkie wartości oczekiwane E(X

ij

) będą równe więc każdą z k 

podpopulacji można uznać za równoważną pod względem 
otrzymanych wartości badanej cechy X.

Odrzucenie hipotezy H

0

 oznacza udowodnienie istotnego wpływu 

 czynnika.

background image

Wprowadźmy oznaczenia:

  

X

n

1

.

1

      

.

,...,

2

,

1

    

dla

    

1

i

n

1

j

ij

k

1

i

1

1

.

i

i

n

j

i

i

n

j

ij

i

i

X

n

n

X

k

i

X

n

X

.

,...,

2

,

1

    

dla

    

X

n

1

.

1

i

n

1

j

ij

k

1

i

1

k

i

X

n

n

X

i

n

j

i

i

z

w

i

i

i

i

i

i

i

i

i

i

Q

Q

X

X

n

X

X

X

X

X

X

n

X

X

X

X

X

Q

k

1

i

2

n

1

j

2

ij

k

1

i

n

1

j

ij

k

1

i

k

1

i

2

n

1

j

2

ij

k

1

i

n

1

j

2

ij

k

1

i

n

1

j

2

ij

k

1

i

.

.

X

.

.

X

2

.

.

X

.

.

X

X

i

i

i

i

i

i

n

1

j

2

ij

k

1

i

.

X

i

w

X

Q

resztkowa suma 
kwadratów

 

background image

.

,...,

2

,

1

    

dla

    

1

1

.

k

i

X

n

X

i

n

j

ij

i

i

  Jest nieobciążonym estymatorem parametru  m+a

i

   

wyrażenie Q

w

   jest miarą rozrzutu obserwacji badanej 

zmiennej losowej X wewnątrz każdej podpopulacji. 

i

n

1

j

2

ij

k

1

i

.

X

i

w

X

Q

k

1

i

2

X

X

n

Q

i

i

z

suma kwadratów według 
badanego czynnika   suma 
kwadratów pomiędzy 
grupami.

background image

Budowa testu do weryfikacji 

hipotezy zerowej 

Jeżeli hipoteza H

o

 jest prawdziwa, to zachodzi równość:

2

1

k

n

Q

E

k

Q

E

w

z

zmienne 
losowe

w

w

z

z

Q

U

Q

U

2

2

2

2

1

     

oraz

     

1

mają rozkłady   

2

    o (k-

1)  i  (n-k) stopniach 
swobody.

w

z

w

z

Q

k

n

Q

k

k

k

n

U

U

F

1

1

1

1

2

2

zmienna losowa o rozkładzie 

F-Snedecora (k-1) i (n-k) 
stopniach swobody.

background image

Rozkład F Snedecora 

Jest związany z rozkładem 
  

  . 

1

2

2

1

k

k

V

U

k

V

k

U

F

U,V są niezależnymi zmiennymi losowymi o 
rozkładach  

  odpowiednio z k

1

  i k

2

  stopniach 

swobody.

ROZKŁAD.F(x;stopnie_swobody1;stopnie_swobody)

•Funkcja ROZKŁAD.F jest obliczana jako 
ROZKŁAD.F=P( F<x ), gdzie F jest zmienną losową o 
rozkładzie F. 

ROZKŁAD.F.ODW(prawdopodobieństwo;stopnie_swobody1;stopnie_
swobody2
)
Podaje wartość funkcji odwrotnej rozkładu prawdopodobieństwa F. 
Jeśli p = ROZKŁAD.F(x ,...), to ROZKŁAD.F.ODW(p,...) = x .

background image
background image

0

2

4

6

8

10

0

0.2

0.4

0.6

0.8

1

1

0

dF x 4

 10

(

)

dF x 6

 10

(

)

dF x 12

12

(

)

dF x 4

 3

(

)

10

0

x

Rozkład F Snedecora

background image





k

i

i

i

k

i

n

j

ij

k

i

n

j

i

ij

w

W

X

n

k

n

X

k

n

X

X

k

n

k

n

Q

S

i

i

1

1

1

2

1

1

2

2

.

1

1

.

1

2

1

2

1

2

2

1

.

1

1

.

1

1

1

X

k

n

X

n

k

X

X

n

k

k

Q

S

k

i

i

i

k

i

i

i

z

Z

2

1

2

1

2

2

1

.

1

1

1

1

1

X

n

n

X

n

X

X

n

n

n

Q

S

k

i

ij

k

i

ij

i

C

Statystyki powyższe są nieobciążonymi estymatorami 
wariancji populacji. W przypadku prawdziwości 
hipotezy H

O

  mamy bowiem: 

     

2

2

2

2

C

Z

W

S

E

S

E

S

E

Jeżeli prawdziwa jest hipoteza H

o

  wartości         różnią się 

nieznacznie między sobą. 

Jeżeli nie jest prawdziwa jest hipoteza H

o

 to  wartości         

   różnią się istotnie między sobą -  wartość estymatora       
  będzie większa, natomiast   nie powinna ulec zmianie. 

.

i

X

.

i

X

2

Z

S

2

W

S

background image

Zatem statystyka:

 

może być użyta do weryfikacji hipotezy zerowej. 

2

2

W

Z

S

S

Obszar 
krytyczny:

 

F

F

F

R

F

F

P

:

i

k

i

i

n

x

x

2

1

 

2

1

ˆs

2

2

2

1

ˆ

ˆ

s

s



k

i

n

j

i

ij

i

x

x

1

1

2

_

2

2

ˆs

Źródło

zmienności

Suma 

kwadratów

Stopnie 

swobody

Wariancja

Test F

Między 

populacjami 

(grupami)

k – 1

Wewnątrz 

grup 

(składnik 

losowy)

     n – k



k

i

n

j

ij

i

i

x

n

x

1

1

1

i

n

j

ij

i

i

x

n

x

1

_

1

background image

Analiza wariancji w przypadku 

klasyfikacji dwukrotnej

 (dwuczynnikowa analiza wariancji)

Chcemy badać wpływ dwóch różnych czynników 
działających jednocześnie.

Populacja generalna jest podzielona według dwóch 
kryteriów A i B odpowiednio na r oraz s poziomów 
oddziaływania czynnika A i B.

Z każdej z pośród tych grup pobiera się próbę prostą 
złożoną z t obserwacji. 

)

,...,

1

;

,...,

2

,

1

;

,...,

2

,

1

(

     

k

s

j

r

i

X

ijk

oznacza wartość cechy X  zaobserwowane przy pobieraniu k-tej 
obserwacji z grupy wyznaczonej przez i-ty poziom czynnika A 
oraz j-ty poziom czynnika B.

background image

   

ijk

ij

j

i

ijk

Y

c

b

a

m

X

 

Zakładamy, że wielkości a

i

, b

j

 c

ij

   są nielosowe, 

natomiast Y

ijk

 są niezależnymi zmiennymi losowymi o 

rozkładach normalnych N(0,σ) (błąd losowy).

 

Parametry  a

i

 = m

– m  nazywamy efektami 

oddziaływania poziomów pierwszego czynnika

 

Parametry  b

j

 = m

– m  nazywamy efektami 

oddziaływania poziomów drugiego  czynnika

 

Parametry  c

ij

 = a

i

b

j, 

= m

ij 

– m

i

 – m

j

  + m  nazywamy 

efektami współdziałania pierwszego i drugiego 
czynnika 

background image

Trzy rodzaje hipotez:

i,j

c

H

i.j,

c

H

j

b

H

s

j

b

H

i

a

H

r

i

a

H

ij

AB

ij

AB

j

B

j

B

i

A

i

A

pary  

 

jednej

 

najmniej

 

co

 

dla

   

0

:

ich 

   wszystk

dla

  

0

:

  

jednego

 

najmniej

 

co

 

dla

   

0

:

,...,

2

,

1

 

dla

  

0

:

,

  

jednego

 

najmniej

 

co

 

dla

   

0

:

,...,

2

,

1

 

dla

   

0

:

1

0

1

0

1

0

background image

Oznaczenia:







r

i

s

j

t

k

ijk

t

k

ijk

ij

r

i

t

k

ijk

j

s

j

t

k

ijk

i

X

t

r

s

X

s

j

r

i

X

t

X

s

j

X

t

r

X

r

i

X

t

s

X

1

1

1

1

1

1

1

1

1

,...,

2

,

1

;

,...,

2

,

1

 

dla

     

1

,...,

2

,

1

 

dla

     

1

.

,

,...,

2

,

1

 

dla

     

1

..

 

 

ij

ijk

j

i

ij

j

i

ijk

X

X

X

X

X

X

X

X

X

X

X

X

.

.

..

.

.

.

W

AB

B

A

i

j

k

ijk

Q

Q

Q

Q

X

X

Q



2

background image

We wszystkich trzech przypadkach hipotez zerowych obszarem krytycznym jest obszar 
prawostronny :   

F

F

P

F

R

      

gdzie

   

,

background image

Eksperyment jednoczynnikowy - weryfikacja 

hipotezy o równości wartości przeciętnych

Przykład

Zmierzono długości świecenia trzech 
typów żarówek, otrzymując następujące 
czasy w godzinach:

typ 1: 1802, 1992, 1854, 1880, 1761, 1900;

typ 2: 1664, 1755, 1823, 1862;

typ 3: 1877, 1710, 1882, 1720, 1950.

Z poziomem ufności 1- = 95% należy 

zweryfikować hipotezę, że wartości 
przeciętne czasów świecenia żarówek 
wszystkich typów są jednakowe (hipotezą 
alternatywną jest, że wartości te nie są 
jednakowe).

background image
background image

Wyścigi szczurów
 
Liczba błędów popełnionych przez szczury w toku przejścia tresowanych 
szczurów przez labirynt ma rozkład normalny. Do pewnych dalszych 
doświadczeń wylosowano po pięć szczurów do czterech grup, które 
powinny być jednorodne pod względem wytresowania. Otrzymano dla 
szczurów w poszczególnych grupach następujące liczby popełnianych 
przez nie błędów:

Grupa

I

II

III

IV

10

8
7
6

11

7

10

6

14

5

8

13
15

6
3

16
10

8

10

4

Na poziome istotności α=0,10  zweryfikować hipotezę o równości 
średniej liczby błędów popełnianych przez tresowane szczury we 
wszystkich grupach.



k

i

n

j

ij

i

i

x

n

x

1

1

1

i

n

j

ij

i

i

x

n

x

1

_

1

background image

Były sobie świnki ….
Przeprowadzono eksperyment hodowlany w celu wyboru właściwej 
diety żywieniowej dla prosiąt. Wyniki doświadczenia(miesięczny 
przyrost wagi prosiąt w kg) były dla użytych różnych diet i prosiąt 
trzech ras następujące:

Rasa prosiąt

Dieta 1

Dieta 2

Dieta 3

Dieta 4

Dieta 5

I

II

III

12
10
17

24
16
21

8

10
12

12
14
16

10
12
14

Poziom istotności   0,05. Zbadać wpływ rasy oraz diety na przyrost wagi hodowanych prosiąt.

background image

A                            \    
B

1   ,    2 ,  ……………k

1
2


r

x11,      x12……………
x1k
x22,        x22……………
x2k

xr1,xr2……………..xrs

Źródło 
zmienności

Suma 
kwadratów

Stopnie 
swobody

Wariancja

Test F

Między 
wierszami

SKa

r-1

Wa=SKa/(r-1)

Wa/Wr 

Między 
kolumnami

SKb

k-1

Wb=SKb/(k-1)

Wb/Wr

Resztowa

SKr

(r-1)(k-1)

Wr=SKr/(r-1)(k-
1)

          Średnia w wierszach,          średnia w kolumnach      i            
średnia ogólna.



k

j

r

i

ij

r

i

ij

j

k

j

ij

i

x

kr

x

x

r

x

x

k

x

1

1

1

.

1

.

1

         

          

1

   

          

1

2

1 1

1

2

.

1

2

.

)

(

     

)

(

         

)

(

x

x

SK

x

x

k

SK

x

x

r

SK

k

j

r

i

ij

C

r

i

i

A

k

j

j

B



 

B

A

C

R

SK

SK

SK

SK


Document Outline