Test analizy wariancji (klasyfikacja pojedyncza) dla wielu średnich | ||||||||
Testy analizy wariancji są podstawowym narzędziem statystyki eksperymentalnej, tj. szeroko | ||||||||
rozbudowanej dla potrzeb doświadczalnictwa statystycznej metody planowania i oceny wyników | ||||||||
eksperymentów naukowych. Testy te pozwalają na sprawdzenie, czy pewne czynniki, które | ||||||||
można dowolnie regulować w toku eksperymentu, wywierają wpływ, a jeśli tak, to jaki, na | ||||||||
kształtowanie się średnich wartości badanych cech mierzalnych. Istotą analizy wariancji | ||||||||
(ANOVA) jest rozbicie na addytywne składniki (których liczba wynika z potrzeb eksperymentu) | ||||||||
sumy kwadratów wariancji całego zbioru wyników. Porównanie poszczególnej wariancji | ||||||||
wynikającej z działania danego czynnika oraz tzw. wariancji resztkowej, czyli wariancji mierzącej | ||||||||
losowy błąd (które to porównanie odbywa się przez zastosowanie testu F Snedecora) daje | ||||||||
odpowiedź, czy dany czynnik odgrywa istotną rolę w kształtowaniu się wyników eksperymentu. | ||||||||
Dla potrzeb praktyki, statystyka eksperymentalna wypracowała już bardzo wiele metod planowania | ||||||||
doświadczeń, jak np. bloki losowe, kwadraty łacińskie, analiza czynnikowa itd., które podane są | ||||||||
w specjalistycznych podręcznikach. | ||||||||
Obecnie zajmiemy się jedynie przypadkiem mającym zastosowanie w ogólnej statystyce, nie | ||||||||
tylko doświadczalnej, a mianowicie prostym przypadkiem analizy wariancji w tzw. klasyfikacji | ||||||||
pojedynczej. Suma kwadratów wariancji ogólnej rozbija się tu jedynie na dwa składniki mierzące | ||||||||
zmienność między grupami (populacjami) i wewnątrz grup. Porównując testem F wariancje | ||||||||
między grupami z wariancją wewnętrzną grup, rozstrzygamy czy średnie grupowe różnią się | ||||||||
istotnie od siebie czy nie. Jeżeli podział na grupy np. przebiegał ze względu na różne poziomy | ||||||||
badanego czynnika, to można w ten sposób wykryć wpływ poziomu na efekt wartości badanej | ||||||||
cechy. | ||||||||
Test analizy wariancji zwykle przeprowadza się według określonego schematu, ujętego w postaci | ||||||||
tzw. tablicy analizy wariancji, mającej różną liczbę wierszy w zależności od konkretnego schematu, | ||||||||
ale kolumny zawsze następujące: | ||||||||
Źródło zmienności |
Suma kwadratów |
Stopnie swobody |
Wariancja | Test F | ||||
Do tabelki tej wpisuje się odpowiednie dane liczbowe obliczone z wyników próby. Dzieląc | ||||||||
odpowiednią sumę kwadratów przez stopnie swobody otrzymujemy pewne oceny wariancji, które | ||||||||
porównujemy testem F z wariancją resztkową na przyjętym poziomie istotności. Jeżeli F >= Fa, to | ||||||||
efekt danego czynnika jest istotny. | ||||||||
Należy wspomnieć, że testy analizy wariancji mają bardzo liczne zastosowania min. W analizie | ||||||||
regresji. | ||||||||
Model | ||||||||
Danych jest k populacji o rozkładzie normalnym N(mi, si) (i = 1, 2, …, k) lub o rozkładzie | ||||||||
zbliżonym do normalnego. Zakłada się przy tym, że wariancje wszystkich k populacji są równe, | ||||||||
tzn. s12 = s22 = … = sk2 = s2 (lecz nie muszą być znane). Z każdej z tych populacji wylosowano | ||||||||
niezależnie próby o liczebności ni elementów. Wyniki prób oznaczone są przez xij (i = 1, 2, …, k, | ||||||||
j = 1, 2, …, ni), przy czym xij = mi + eij, gdzie eij jest wartością zmiennej losowej nazywanej | ||||||||
składnikiem losowym, mającej rozkład N(0, s). Na podstawie wyników xij należy zweryfikować | ||||||||
hipotezę H0: m1 = m2 = … = mk wobec hipotezy alternatywnej H1: nie wszystkie średnie badanych | ||||||||
populacji są równe. | ||||||||
Test istotności (analizy wariancji) dla tej hipotezy jest następujący. Obliczamy z wyników | ||||||||
poszczególnych prób średnie grupowe mi i średnią ogólną m. | ||||||||
![]() |
||||||||
![]() |
||||||||
Z kolei obliczamy odpowiednie sumy kwadratów i wypełniamy wartościami liczbowymi następującą | ||||||||
tablicę analizy wariancji; występująca w niej statystyka F ma przy założeniu prawdziwości hipotezy | ||||||||
H0 rozkład F Snedecora o k-1 i n-1 stopniach swobody: | ||||||||
Źródło zmienności |
Suma kwadratów |
Stopnie swobody |
Wariancja | Test F | ||||
między populacjami (grupami) |
![]() |
k - 1 | ![]() |
![]() |
||||
wewnątrz grup (składnik losowy) |
![]() |
n - k | ![]() |
|||||
Obliczoną w tablicy analizy wariancji wartość F porównujemy w końcu z wartością krytyczną Fa odczytaną | ||||||||
z tablicy rozkładu F Snedecora (lub wykorzystując funkcję arkusza Excel =ROZKŁAD.F.ODW) dla ustalonego | ||||||||
z góry poziomu istotności a i dla odpowiedniej liczby k-1 i n-k stopni swobody. Spełniona ma być przy tym | ||||||||
równość P{F>=Fa} = a. Jeżeli w wyniku porównania otrzymamy nierówność F >= Fa, to hipotezę H0 o | ||||||||
równości średnich w badanych populacjach należy odrzucić. Natomiast gdy F < Fa, to nie ma podstaw do | ||||||||
odrzucenia hipotezy H0. Gdy F < 1, to bez porównywania z Fa nie ma podstaw do odrzucania hipotezy H0. | ||||||||
Odrzucenie hipotezy H0 oznacza udowodnienie istotnego wpływu podziału na te populacje. W przeciwnym | ||||||||
przypadku, wszystkie grupy (populacje) można uznać za równoważne z punktu widzenia otrzymywanych | ||||||||
wartości badanej cechy. | ||||||||
Przykład | ||||||||
Koszty materiałowe pewnego wyrobu, który można produkować trzema różnymi metodami, mają | ||||||||
rozkład normalny o jednakowej wariancji dla każdej z tych metod. Wylosowane sztuki tego wyrobu | ||||||||
dały następujące koszty materiałowe dla poszczególnych metod produkcji (w zł): | ||||||||
Metoda | ||||||||
A | B | C | ||||||
25 | 40 | 5 | ||||||
15 | 20 | 15 | ||||||
20 | 25 | 20 | ||||||
30 | 50 | 20 | ||||||
10 | 10 | 40 | ||||||
35 | 10 | |||||||
30 | ||||||||
Na poziomie istotności a = 0,05 należy zweryfikować hipotezę, że średnie koszty materiałowe są | ||||||||
jednakowe dla wszystkich trzech metod produkcji tego wyrobu. | ||||||||
Rozwiązanie | ||||||||
Formalnie biorąc stawiamy hipotezę H0: m1 = m2 = m3, gdzie m1, m2 i m3 oznaczają średnie | ||||||||
koszty materiałowe odpowiednie dla każdej z metod produkcji. Hipotezę tę można zweryfikować | ||||||||
za pomocą testu analizy wariancji dla przypadku pojedynczej klasyfikacji. W celu wypełnienia | ||||||||
danymi liczbowymi odpowiedniej dla tego testu tablicy analizy wariancji, przeprowadzamy niezbędne | ||||||||
obliczenia średnich i sum kwadratów. Z obliczeń tych otrzymujemy | ||||||||
n1 = | 5 | m1 = | 20 | |||||
n = n1 + n2 + n3 = 5 + 6 + 7 = 18 | n2 = | 6 | m2 = | 30 | ||||
n3 = | 7 | m3 = | 20 | |||||
Metoda | n = | 18 | m = | 23,3 | ||||
A | B | C | (x1j-m1)2 | (x2j-m2)2 | (x3j-m3)2 | |||
25 | 40 | 5 | 25 | 100 | 225 | |||
15 | 20 | 15 | 25 | 100 | 25 | |||
20 | 25 | 20 | 0 | 25 | 0 | |||
30 | 50 | 20 | 100 | 400 | 0 | |||
10 | 10 | 40 | 100 | 400 | 400 | |||
35 | 10 | 25 | 100 | |||||
30 | 100 | |||||||
250 | 1050 | 850 | 2150 | suma kwadratów wewnątrz grup | ||||
(m1-m)2*n1 = | 55,6 | k = | 3 | |||||
(m2-m)2*n2 = | 266,7 | |||||||
(m3-m)2*n3 = | 77,8 | |||||||
S(mi-m)2*ni = | 400,0 | suma kwadratów między grupami | ||||||
Otrzymujemy zatem następującą tablicę analizy wariancji: | ||||||||
Źródło zmienności |
Suma kwadratów |
Stopnie swobody |
Wariancja | Test F | ||||
między grupami |
400,0 | 2 | 200,0 | 1,395 | ||||
wewnątrz grup |
2150,0 | 15 | 143,3 | |||||
Dla poziomu istotności a = | 0,05 | i dla liczby stopni swobody: | 2 | 15 | ||||
wartość krytyczna Fa = | 3,682 | |||||||
Ponieważ nie otrzymaliśmy wartości F z obszaru krytycznego, bo F = 1,395 < 3,682 = Fa, więc | ||||||||
nie ma podstaw do odrzucenia sprawdzanej hipotezy H0 o równości średnich kosztów materiałowych | ||||||||
przy produkcji tego wyrobu trzema różnymi metodami. Oznacza to, że nie udowodniliśmy, że metody | ||||||||
te dają różne średnie koszty materiałowe tego wyrobu. | ||||||||
p = | 0,278 | > | 0,05 | = a |
Zadanie | |||
Na poziomie istotności a = 0,05 zweryfikować hipotezę, że wydajność produkcji w pewnym zakładzie pracy | |||
jest jednakowa na wszystkich zmianach. Wydajność losowo wybranych pracowników poszczególnych zmian | |||
zamieszczono w tabeli: | |||
Wydajność w szt. wyrobu | |||
Zmiana I | Zmiana II | Zmiana III | |
97 | 93 | 83 | |
87 | 78 | 93 | |
102 | 99 | 72 | |
113 | 108 | 85 | |
112 | 70 | 77 | |
117 | 97 | 81 | |
78 | 104 | 80 | |
98 | 95 | 75 | |
111 | 98 | ||
89 | 102 | ||
93 | |||
83 |
Zadanie 1 | |||
Trzech asystentów miało ocenić w skali punktowej 1 - 20 wyniki egzaminu ze Statystyki Inżynierskiej | |||
wylosowanych dziesięciu studentów pewnej uczelni. Wyniki (oceny) były następujące: | |||
Asystent | |||
A | B | C | |
16 | 17 | 13 | |
13 | 15 | 17 | |
13 | 16 | 15 | |
14 | 15 | 15 | |
18 | 14 | 15 | |
16 | 18 | 12 | |
20 | 15 | 12 | |
16 | 13 | 14 | |
12 | 15 | 14 | |
14 | 14 | 12 | |
Na poziomie istotności a = 0,10 zweryfikować hipotezę, że wszyscy trzej asystenci są tak samo surowi | |||
(wystawiają średnie oceny takie same). |
Zadanie 2 | |||||
Ceny choinek na targowiskach kilku polskich miast mają rozkład normalny o jednakowej wariancji. | |||||
Na poziomie istotności a = 0,05 zweryfikować hipotezę, że targowiska we wszystkich badanych miastach | |||||
nie różnią się średnimi cenami choinek. | |||||
Miasto | |||||
Wrocław | Kraków | Warszawa | Łódź | Katowice | |
70 | 50 | 70 | 30 | 70 | |
75 | 40 | 70 | 80 | 60 | |
60 | 35 | 90 | 70 | 50 | |
100 | 60 | 60 | 50 | 100 | |
40 | 70 | 85 | 70 | 80 | |
30 | 60 | 50 | 70 | 50 | |
35 | 60 | 60 | 60 | 90 | |
60 | 35 | 95 | 40 | 50 | |
60 | 80 | 70 | 70 | 60 | |
80 | 60 | 100 | 70 | 60 | |
60 | 50 | 60 | 60 | 70 | |
80 | 50 | 55 | 50 | 50 | |
50 | 70 | 60 | 80 | 80 | |
50 | 60 | 60 | 80 | 30 | |
70 | 70 | 60 | 90 | 90 |
Zadanie 3 | |||
Dokonano po 4 niezależne pomiary dla trzech różnych rodzajów betonu budowlanego, mierząc | |||
wytrzymałość na ściskanie. Otrzymano następujące wyniki (MPa): | |||
Beton | |||
I | II | III | |
20,4 | 19,7 | 19,0 | |
20,0 | 20,5 | 20,8 | |
19,8 | 21,3 | 20,2 | |
20,4 | 20,9 | 21,0 | |
Na poziomie istotności a = 0,025 zweryfikować hipotezę, że średnia wytrzymałość na ściskanie | |||
wszystkich trzech betonów jest taka sama. |
Zadanie 4 | ||||||||
Wykonano serię pomiarów głośności przy użyciu sonometru w maszynowniach czterech barek | ||||||||
motorowych w odległości 1,5 m od silników wysokoprężnych. | ||||||||
Na poziomie istotności a = 0,05 zweryfikować hipotezę, że głośność tych silników [dB] jest | ||||||||
taka sama dla wszystkich typów silników. | ||||||||
Barka | Silnik | LA [dB] | ||||||
BM 5186 | SKL-150 | 103,3 | 92,1 | 102,0 | 97,8 | 104,3 | 100,0 | 114,5 |
BM 5026 | PUCK-120 | 100,6 | 106,7 | 98,9 | 99,8 | 97,2 | 109,4 | 102,3 |
BIZON 0-71 | Wola-Henschel-200 | 103,1 | 109,2 | 97,4 | 101,1 | 92,5 | 96,3 | 109,3 |
TUR 71 | Delfin-160 | 112,2 | 114,2 | 106,7 | 100,2 | 107,4 | 112,3 | 97,3 |
Test jednorodności wielu wariancji | ||||||||||||||||||||||||||||||||||
Niekiedy badamy ze względu na pewną cechę mierzalną więcej niż dwie populacje generalne. | ||||||||||||||||||||||||||||||||||
Jeżeli wszystkie populacje mają rozkład normalny, to stosuje się test na jednorodność wariancji | ||||||||||||||||||||||||||||||||||
zwany od nazwiska autora testem Bartletta. | ||||||||||||||||||||||||||||||||||
Test Bartletta oparty jest na pewnej statystyce, która ma rozkład asymptotyczny c2. Zbieżność | ||||||||||||||||||||||||||||||||||
do rozkładu c2 jest przy tym bardzo szybka, tak że można stosować rozkład c2 nawet dla bardzo | ||||||||||||||||||||||||||||||||||
małych prób. | ||||||||||||||||||||||||||||||||||
Model | ||||||||||||||||||||||||||||||||||
Danych jest k populacji normalnych N(mi, si) (i = 1, 2, …, k). Z każdej z tych populacji wylosowano | ||||||||||||||||||||||||||||||||||
niezależnie do próby ni elementów. Mamy więc k losowych prób o liczebnościach ni. Wyniki każdej | ||||||||||||||||||||||||||||||||||
próby oznaczamy symbolem xij (i = 1, 2, …, k, j = 1, 2, …, ni), a ich średnie symbolem mi. Na | ||||||||||||||||||||||||||||||||||
podstawie tych wyników prób chcemy sprawdzić hipotezę o jednakowych wariancjach we wszystkich | ||||||||||||||||||||||||||||||||||
populacjach, tj. hipotezę H0: s12 = s22 = … = sk2, wobec hipotezy alternatywnej H1: nie wszystkie | ||||||||||||||||||||||||||||||||||
te wariancje są równe. | ||||||||||||||||||||||||||||||||||
Test istotności dla tej hipotezy jest następujący. Z wyników k prób o liczebnościach ni obliczamy | ||||||||||||||||||||||||||||||||||
według następujących wzorów kolejno Si2, S2, C: | ||||||||||||||||||||||||||||||||||
![]() |
||||||||||||||||||||||||||||||||||
![]() |
||||||||||||||||||||||||||||||||||
![]() |
||||||||||||||||||||||||||||||||||
gdzie n = Sni. | ||||||||||||||||||||||||||||||||||
Następnie obliczamy wartość statystyki c2 według wzoru | ||||||||||||||||||||||||||||||||||
![]() |
||||||||||||||||||||||||||||||||||
Statystyka ta ma przy założeniu prawdziwości sprawdzanej hipotezy H0 rozkład asymptotyczny c2 | ||||||||||||||||||||||||||||||||||
z k-1 stopniami swobody. Z tablicy rozkładu c2 (lub korzystając z funkcji =ROZKŁAD.CHI.ODW), | ||||||||||||||||||||||||||||||||||
dla ustalonego z góry poziomu istotności a i dla k-1 stopni swobody, odczytujemy krytyczną wartość | ||||||||||||||||||||||||||||||||||
c2a w taki sposób, by zachodziło P{c2 >= c2a} = a. Nierówność c2 >= c2a określa obszar krytyczny | ||||||||||||||||||||||||||||||||||
(prawostronny) dla tego testu. Oznacza to, że ilekroć z porównania obliczonej wartości c2 z wartością | ||||||||||||||||||||||||||||||||||
krytyczną c2a otrzymamy nierówność c2 >= c2a, podejmujemy decyzję odrzucenia sprawdzanej | ||||||||||||||||||||||||||||||||||
hipotezy H0. Gdy natomiast z porównania tych wartości otrzymamy c2 < c2a, nie ma podstaw do | ||||||||||||||||||||||||||||||||||
odrzucenia hipotezy H0 o jednorodności wariancji w badanych populacjach. | ||||||||||||||||||||||||||||||||||
Przykład | ||||||||||||||||||||||||||||||||||
Należy sprawdzić, czy trzy różne metody produkcji pewnego wyrobu charakteryzują się taką samą | ||||||||||||||||||||||||||||||||||
wariancją wydajności pracy robotników stosujących je. Losowo zmierzone wydajności pracy przy | ||||||||||||||||||||||||||||||||||
produkcji tego wyrobu w liczbach sztuk na godzinę są następujące: | ||||||||||||||||||||||||||||||||||
metoda I: | 2 | 5 | 3 | 6 | 4 | |||||||||||||||||||||||||||||
metoda II: | 10 | 12 | 12 | 14 | ||||||||||||||||||||||||||||||
metoda III: | 20 | 23 | 26 | 24 | 22 | |||||||||||||||||||||||||||||
Na poziomie istotności a = 0,05 należy zweryfikować hipotezę o jednorodności wariancji pracy | ||||||||||||||||||||||||||||||||||
robotników pracujących tymi trzema metodami. | ||||||||||||||||||||||||||||||||||
Rozwiązanie | ||||||||||||||||||||||||||||||||||
Zakładając zbliżony do normalnego rozkład wydajności pracy dla tych metod, stawiamy formalnie | ||||||||||||||||||||||||||||||||||
rzecz biorąc hipotezę H0: s12 = s22 = s32, wobec hipotezy alternatywnej H1: nie wszystkie trzy | ||||||||||||||||||||||||||||||||||
wariancje są sobie równe. | ||||||||||||||||||||||||||||||||||
Podstawowe obliczenia do testu Bartletta, którym można sprawdzić powyższą hipotezę, wygodnie | ||||||||||||||||||||||||||||||||||
jest przeprowadzić tabelarycznie: | ||||||||||||||||||||||||||||||||||
x1j | x2j | x3j | (x1j-m1)2 | (x2j-m2)2 | (x3j-m3)2 | |||||||||||||||||||||||||||||
2 | 10 | 20 | 4,0 | 4,0 | 9,0 | |||||||||||||||||||||||||||||
5 | 12 | 23 | 1,0 | 0,0 | 0,0 | |||||||||||||||||||||||||||||
3 | 12 | 26 | 1,0 | 0,0 | 9,0 | |||||||||||||||||||||||||||||
6 | 14 | 24 | 4,0 | 4,0 | 1,0 | |||||||||||||||||||||||||||||
4 | 22 | 0,0 | 1,0 | SS(xij-mi)2 | ||||||||||||||||||||||||||||||
20 | 48 | 115 | 10,0 | 8,0 | 20,0 | 38,0 | ||||||||||||||||||||||||||||
ni = | 5 | 4 | 5 | n = | 14 | |||||||||||||||||||||||||||||
mi = | 4,0 | 12,0 | 23,0 | k = | 3 | |||||||||||||||||||||||||||||
Si2 = | 2,50 | 2,67 | 5,00 | |||||||||||||||||||||||||||||||
S2 = | 3,45 | = 1/(n-k)*SS(xij-mi)2 | ||||||||||||||||||||||||||||||||
Dalej | ||||||||||||||||||||||||||||||||||
Si2 | lnSi2 | ni - 1 | (ni-1)lnSi2 | |||||||||||||||||||||||||||||||
2,50 | 0,916 | 4 | 3,67 | |||||||||||||||||||||||||||||||
2,67 | 0,981 | 3 | 2,94 | |||||||||||||||||||||||||||||||
5,00 | 1,609 | 4 | 6,44 | |||||||||||||||||||||||||||||||
13,05 | lnS2 = | 1,24 | ||||||||||||||||||||||||||||||||
(n-k)*lnS2 = | 13,64 | |||||||||||||||||||||||||||||||||
C = | 1,124 | |||||||||||||||||||||||||||||||||
![]() |
c2 = | 0,526 | ||||||||||||||||||||||||||||||||
a = | 0,050 | |||||||||||||||||||||||||||||||||
c2a = | 5,991 | |||||||||||||||||||||||||||||||||
Ponieważ otrzymaliśmy c2 = 0,564 < 5,991 = c2a, czyli nie znaleźliśmy się w obszarze krytycznym, | ||||||||||||||||||||||||||||||||||
więc hipotezy H0 nie można odrzucić. Oznacza to, że nie udowodniono różnego stopnia rozproszenia | ||||||||||||||||||||||||||||||||||
wydajności pracy przy badanych trzech sposobach produkcji danego wyrobu. | ||||||||||||||||||||||||||||||||||
Zadanie 4 | ||||
Z kadry pilotów odrzutowców wylosowano do próby 10 pilotów w czterech grupach. Podział pilotów | ||||
na grupy przebiegał według ich psychologicznych cech charakteru. Badano ilość dni w roku, w których | ||||
dany pilot nie był ze względu na stan zdrowia fizycznego i psychicznego dopuszczono do lotów. W tabeli | ||||
zebrano wyniki. | ||||
Grupa 1 | Grupa 2 | Grupa 3 | Grupa 4 | |
29 | 19 | 18 | 40 | |
25 | 25 | 22 | 9 | |
31 | 37 | 26 | 29 | |
35 | 14 | 41 | 29 | |
34 | 21 | 28 | 8 | |
36 | 31 | 30 | 55 | |
22 | 40 | 37 | 48 | |
29 | 36 | 40 | 38 | |
34 | 48 | 28 | 27 | |
26 | 28 | 32 | 17 |