STAT 2012 W9 ANOVA

Analiza wariancji
Metoda analizy wariancji (także zwana ANOVA) służy do weryfikacji hipotezy o
równości wartości średnich wielu prób. Zagadnienie takie występuje przy
wykonywaniu w różnych warunkach kilku serii pomiarów. Istotną tutaj sprawą jest
wykrycie wpływu warunków przeprowadzania eksperymentu na rezultaty
pomiarów, które ujawniają się w sposób systematyczny we własnościach próby.
Najprostszy przypadek ANOVA to test różnic średnich z dwóch prób niezależnych
(test t Studenta) omawiany wcześniej. Jeśli jednak prób jest więcej niż dwie należy
stosować metodę ANOVA.
W ogólnym przypadku na rezultat eksperymentu wpływa wiele czynników
działających równocześnie. Każdy z nich może być charakteryzowany pewną
zmienną statystyczną Xi . Jedna ze zmiennych jest obserwowana, tzn. leży w polu
zainteresowań badacza nazywamy ją zmienną objaśnianą.
Np. poddaje się analizie wydajność procesu eliminacji szkodliwej domieszki stopu.
Często proces taki prowadzi się w stanie ciekłym stopu, wprowadzając do niego
drobiny substancji stałej w strumieniu gazu obojętnego. Substancja reaguje z
usuwaną domieszką dając produkt nierozpuszczalny w stopie. Produkt ten wskutek
grawitacji gromadzi się na powierzchni (lub dnie) naczynia zawierającego
oczyszczany stop i może być łatwo oddzielony. Na wydajność procesu (zmienna
objaśniana) wpływa wiele czynników: temperatura, ilość drobin, rozwinięcie
powierzchni drobin, warunki hydrodynamiczne, skład chemiczny.
Całkiem intuicyjnie można stwierdzić, że jeżeli któryś z czynników wpływa na
wartość zmiennej objaśnianej, to średnie wartości w seriach dokonanych pomiarów
dla różnych wartości czynników powinny różnić się istotnie (w sensie
statystycznym) od siebie.
W podanym przykładzie eliminacji domieszki ze stopu, niech uwzględnionymi
czynnikami będą temperatura i ilość drobin. Reakcja chemiczna wiązania
domieszki stopu jest heterogeniczna, wpływ temperatury będzie zatem mniejszy od
wpływu ilości drobin (o ile nie jest ich za dużo przesycenie). Jeśli w badaniach
ograniczymy się do analizy wpływu czynnika zwanego ilością drobin będziemy
mieć do czynienia z analizą jedno - czynnikową. W przeciwnym wypadku, gdy
-
-
-
włączymy w badaniach równoczesny wpływ temperatury będzie to analiza
2- -
-czynnikowa. Jeśli włączymy więcej czynników analiza wielo -czynnikowa.
- -
- -
W przypadku jedno-czynnikowym (czynnikiem jest ilość drobin) wyróżnijmy trzy
możliwe jego wielkości A, B, C (mierzone masą drobin w stosunku do masy stopu).
Dla każdej z tak określonych nadaw substancji wykonujemy serię pomiarów, na
podstawie których otrzymamy średnie wydajności usunięcia szkodliwej domieszki
oznaczane symbolicznie yA,sr, yB,sr, yC,sr. Serie pomiarów mogą być niezbędne
wskutek ograniczonej kontroli innych czynników (nawet takich, które nie były
wcześniej wymienione) wpływających na przebieg procesu. Powtarzanie procesu
dla ustalonego wyróżnionego czynnika pozwala na uśredninie rezultatu
eksperymentu, i uzyskanie najbardziej wiarygodnego rezultatu, gdy wpływ
niekontrolowanych czynników jest przypadkowy.
Jeśli badany czynnik (ilość drobin) ma istotny wpływ na wydajność procesu, średnie
wartości serii będą się istotnie różnić, co moglibyśmy wykryć konfrontując je przy
pomocy testu różnic średnich t-Studenta (zestawiając je parami).
Analizę wariancji można przeprowadzać na dwa podstawowe sposoby: przez
zastosowanie modelu stałych efektów ( poziomy czynnika klasyfikującego są
określone z góry przed eksperymentem), lub przez zastosowanie modelu losowego
(gdy poziomy czynnika klasyfikującego są losowe).
ANOVA dla klasyfikacji pojedynczej
Założenia:
-Analizowana zmienna (objaśniana) jest mierzalna
-Rozważa się k niezależnych populacji o rozkładzie zmiennej objaśnianej N(mi,�i)
-Rozkłady w populacjach mają jednakową wariancję ( �i2= �j2 dla każdej pary i,j)
-Z każdej populacji wylosowano próbę o liczebności ni (Łni=n)
Weryfikujemy H0 : m1=m2=...=mk wobec H1: co najmniej dwie średnie się różnią.
Matematycznie, wynik każdego eksperymentu, reprezentowanego przez wartość
zmiennej objaśnianej xi,j (i=1,2,...,k oraz j=1,2,...,ni) można wyrazić modelem:
xi,j = m+ąi+�i,j
gdzie: m średnia ogólna w łącznej populacji, ąi wpływ czynnika eksperymental-
nego klasyfikującego, �i,j składnik (błąd) losowy o rozkładzie N(0,�) (równe war.).
Całkowitą sumę kwadratów odchyleń od wartości średniej ( dla wszystkich dokonanych
pomiarów w liczbie n) można podzielić na 2 składniki, wyrażające istnienie różnych
zródeł rozrzutu wartości średniej wewnątrz klas i pomiędzy klasami:
ni ni ni
k k k
2 2
2
xi, j - x = xi, j - xi + xi - x
( )
( ) ( )
"" "" ""
i=1 j=1 i=1 j=1 i=1 j=1
Całkowita suma Suma kwadratów Suma kwadratów
kwadratów (Sum of wewnątrz klas pomiędzy klasami
Squares) SS Total (SS Error) (SS Effect)
ni ni
k
1 1
xi = x =
gdzie średnie
"x ""x
i, j i, j
ni n
j=1 i=1 j=1
Liczby stopni swobody: n-1 = (n-k) + (k-1) ; ( df Total = df Error + df Effect)
yródło Suma kwadratów Stopnie Średni kwadrat
zmienności odchyleń swobody odchyleń
ni
k
Czynnik (różnice 2
SSB =
""(x - x)
i
między klasami) k-1 MSB=SSB/(k-1)
i=1 j=1
ni
k
Błąd losowy
2
SSE = xi, j - xi
( )
""
(różn. wewnętrzne) n-k MSE=SSE/(n-k)
i=1 j=1
ni
k
2
Ogółem SST = xi, j - x n-1
( )
""
i=1 j=1
Jest oczywiste, że im silniej odchylają się średnie w klasach od średniej ogólnej (czego
sygnałem jest duża wartość SSB), tym większe jest znaczenie zmienności cechy, która
była podstawą podziału na klasy. Oznacza to, że tym mniejsze jest uzasadnienie dla
hipotezy zerowej o równości średnich w wyróżnionych klasach. Jeśli SSB jest
odpowiednio duże w stosunku do SSE (zróżnicowania wewnątrz klas), możliwe
będzie stwierdzenie, że wyodrębniony czynnik klasyfikacji wpływa istotnie na
zmienną objaśnianą.
Obiektywna miarą odchyleń jest zatem statystyka:
F=MSB/MSE
która, przy prawdziwości hipotezy H0 (równość średnich w klasach), ma rozkład F
Snedecora z (k-1) oraz (n-k) stopniami swobody. Duża wartość statystyki F wskazuje
na fałszywość hipotezy H0. Obszar odrzucenia hipotezy H0 konstruujemy na podstawie
tablic wartości krytycznych rozkładu F Snedecora dla ustalonej wartości poziomu
istotności ą : P{Fe"Fkryt(ą,k-1,n-k)} = ą.
UWAGI: Jeżeli analiza wariancji ANOVA nie pokaże istotności różnic ( nie możemy
odrzucić H0 ) nie przeprowadza się dalszych testów (można ewentualnie powiększyć
zasób pomiarów poszerzyć np. zmienność cechy która jest podstawą klasyfikacji).
Zaś, gdy H0 została odrzucona, należy poszukiwać takiej/takich populacji (klasy/klas),
które są odpowiedzialne za to. Stosujemy wtedy testy wielokrotnych porównań.
Przykład. Przeprowadzono 3 serie eksperymentów strącania pewnego składnika
roztworu przy użyciu 3 minerałów w formie pyłu (zmielonych). Efekty strącania
składnika wyrażono masą straconego składnika w odniesieniu do jego początkowej
zawartości w roztworze y="m/m0. Wyniki zsumowano w poniższej tabeli:
Nr I II III
1 0.76 0.68 0.78
2 0.73 0.67 0.79
3 0.78 0.72 0.74
4 0.74 0.7 0.79
5 0.78 0.68 0.8
6 0.7 0.74 0.81
7 0.73 0.78
8 0.7 0.79
Wartości w kolumnie I to pierwsza seria eksperymentów dla minerału I, itd. W
kolumnie umieszczono masę wytrąconego składnika odniesiona do jego poczatkowej
masy.
Klasyfikacja podwójna - przykłady
Uwaga wstępna: w klasyfikacji pojedynczej hipoteza zerowa H0: m1= m2=...= mk może
być zastąpiona następującą formą: H0: ą1= ą2=...= ąk , co wyraża również, że poziomy
klasyfikacji nie wpływają na poziom zmiennej kontrolowanej (objaśnianej). Wynika to
z faktu, że wartość oczekiwana zmiennej objaśnianej w klasie E(xi) = mi, zaś również
E(xi) = m+ąi, co w świetle pierwotnej hipotezy H0 oznacza nową formę równoważną.
Z klasyfikacją podwójną mamy do czynienia, gdy występują dwa czynniki
(klasyfikacji) potencjalnie wpływające na wartość zmiennej objaśnianej. Indywidualna
wartość zmiennej objaśnianej xi,j,k należy zarówno do klasy Ai (względem klasyfikatora
A) jak i klasy Bj (względem klasyfikatora B), zaś indeks k wskazuje numer pomiaru
wewnątrz grupy należącej do obu klas Ai i Bj . Aby to objaśnić bliżej, wróćmy do
naszego przykładu wytrącania ze stopu pewnej domieszki. Niech klasyfikatorem A
będzie rodzaj dodawanej substancji do roztworu w celu strącania domieszki, zaś
klasyfikatorem B niech będzie ilość dodawanej substancji. Zmienną objaśnianą jest
efekt strącania domieszki y="m/m0.
Klasyfikacją krzyżową nazywamy taką klasyfikację w której klasyfikacja Bj ma to samo
znaczenie dla wszystkich grup względem klasyfikacji A.
Najprostszym przypadkiem jest klasyfikacja krzyżowa mająca jedną obserwację w
klasie (czyli k=1). Wtedy model takiego eksperymentu ma postać:
xi,j,k=1= xi,j= m + ąi + �j + �i,j gdzie �i,j ma rozkład N(0,�)
Brak odchyleń od globalnej wartości średniej m spowodowanych grupowaniem według
klasyfikacji A i B będziemy traktować jako hipotezę zerową, co zapisujemy w formie
dwóch hipotez:
H0A: ą1= ą2=...= ąI (I jest liczbą grup klasyfikacji A)
H0B: �1= � =...= �J (J jest liczbą grup klasyfikacji B)
2
Globalną sumę kwadratów odchyleń od wartości średniej można wtedy wyrazić:
I J
2
Q = xi, j - x = QA + QB + QW
( )
""
gdzie:
I
i=1 j=1
2
QA = J xi. - x
( )
"
J I I J
i=1 1 1 1
J
xi. = x = x =
2
"x "x ""x
i, j . j i, j i, j
QB = I x - x J I I �" J
( )
j=1 i=1 i=1 j=1
"
. j
j=1
I J I I
2 2
2 2
QW = xi, j - J xi. - I x + I �" J �" x
( ) ( )
( ) ( )
"" " "
. j
i=1 j=1 i=1 i=1
Tabela analizy wariancji (dla klasyfikacji 2-krotnej krzyżowej z jedną obserwacją)
yródło Suma kw. Stopnie Średni kw. F
zmienności odchyleń swobody odchyleń
Czynnik A QA I-1 s2 =QA/(I-1) FA= s2 / s2
A A W
Czynnik B QB J-1 s2 =QB/(J-1) FB= s2 / s2
B B W
Wewnątrz grup QW (I-1)(J-1) s2 =QW/[(I-1)(J-1)]
W
Ogółem Q IJ-1 s2=Q/(IJ-1)
Zadanie. Rozpatrzmy ponownie proces wytrącania ze stopu pewnej domieszki. Niech
klasyfikatorem A będzie rodzaj dodawanej substancji do roztworu w celu strącania
domieszki (3 różne substancje I, II, III), zaś klasyfikatorem B niech będzie ilość
dodawanej substancji ( 4 poziomy masy). Zmienną objaśnianą jest efekt strącania
domieszki y="m/m0. W tabeli poniżej podano wyniki eksperymentów krzyżowych z
pojedynczym rezultatem w klasie.
MASA subst. Subst. I Subst. II Subst. III
0.50 0.76 0.68 0.78
0.75 0.79 0.71 0.82
1.00 0.81 0.70 0.90
1.25 0.83 0.72 0.91
W kolumnie MASA subst umieszczono masę dodawanej substancji, w kolumnach
Subst. I, Subst II, Subst III umieszczono rezultat eksperymentu y="m/m0 dla parami
dobranych wartości z nagłówków kolumn i wiersza (masy dodatku).
Wykonać analizę wariancji wyników eksperymentu, w celu okreslenia wpływu obu
czynników (A i B).

Wyszukiwarka

Podobne podstrony:
STAT 12 W8 Test Niezal
12 ZAGAD STAT NIEW
W9 14 12
248 12
Biuletyn 01 12 2014
12 control statements
Analiza stat ścianki szczelnej
Rzym 5 w 12,14 CZY WIERZYSZ EWOLUCJI
12 2krl

więcej podobnych podstron