Algorytm doboru testu istotności
różnic.
- zmienne niezależne
- zmienne zależne
zmienne niezależne
jakościowe
porządkowe
mierzalne
Testy
nieparametryczne:
- test chi-kwadrat
Czy rozkład
jest
normalny?
Testy nieparametryczne:
- Walda-Wolfowitza
- U Manna-Withneya
- Kołmogorowa-Smirnowa
- ANOVA Kruskala-Wallisa
Testy:
- t Studenta (dla
prób zależnych i
niezależnych)
- Cochrana-Coxa
- ANOVA jedno-
i
wieloczynnikowa
NIE
TAK
wariancje jednorodne
Testy
parametryczne:
- Test t Studenta
- ANOVA jedno-
i
wieloczynnikowa
Test
nieparametrycz
ny Cochrana-
Coxa
NIE
TAK
zmienne zależne
jakościowe
porządkowe
mierzalne
- test McNemary
Czy rozkład
jest
normalny?
Test kolejności par
Wilcoxona
Test różnic
NIE
TAK
Analiza wariancji (ANOVA)
Początki tej metody wiążą się praktycznymi potrzebami
występującymi w obszarze doświadczeń rolniczych, które miały na
celu rozstrzyganie problemów związanych z doborem najbardziej
korzystnych odmian lub sposobów uprawy.
Obecnie różne techniki analizy wariancji są z powodzeniem
stosowane w takich dziedzinach jak pedagogika,
psychologia, socjologia, medycyna i farmacja czy różne
obszary nauk technicznych.
Testy analizy wariancji są do dziś podstawowym narzędziem tzw.
statystyki eksperymentalnej. Są to rozwinięte metody oceny
wpływów pewnych kontrolowanych czynników na wynik
eksperymentu.
Procedury obliczeniowe analizy wariancji opierają
się na pomiarze różnych rodzajów zmienności
wyników badań oraz określeniu jej źródeł.
Podstawowa zaleta tej metody polega na
możliwości uwzględniania więcej niż jednego
kontrolowanego źródła zmienności oraz
możliwość oszacowania ich wpływu. Pozwala to
na efektywną analizę danych pochodzących z
bardzo wielu doświadczeń wieloczynnikowych.
Analiza wariancji:
• dla klasyfikacji pojedynczej -
jednoczynnikowa
wieloczynnikowa
Założenia:
• Analizowana zmienna jest mierzalna
• Normalność rozkładu
• Rozkłady mają jednakową wariancję
Analiza wariancji - klasyfikacja
pojedyncza.
Skategor. wykres ramka-wąsy: fat % BIA - p<
0,015054
Średnia
±Błąd std
±Odch.std
podstawowe
zawodowe
średnie
wyższe
wykształcenie ojca
14
16
18
20
22
24
26
28
30
32
fa
t
%
B
IA
ZADANIE 1
• W gospodarstwie doświadczalnym badano wysokość
plonów pomidora uprawianego na 5 różnych
glebach. Na każdej glebie zmierzono wysokość
plonów z 4 krzaczków.
• Należy zbadać czy wszystkie gleby są jednakowo korzystne dla
uprawy tej rośliny, czy też może któraś z gleb jest wyraźne
mniej (lub bardziej) korzystna od reszty?
Etap 1.
Plony z krzaczków pomidora na 5
glebach.
Rodzaj gleby
A
B
C
D
E
10
15
11
5
8
12
12
15
10
10
8
15
20
15
8
10
10
14
6
6
Suma kolumny
40
52
60
36
32
Średnia
kolumny
10
13
15
9
8
Suma ogólna: 220
Średnia ogólna: 11
Etap 2.
Tworzenie 3 sum kwadratów odchyłek.
• Suma kwadratów odchyłek między
grupami, kolumnami,
• Suma kwadratów odchyłek wewnątrz
grup, kolumn,
• Suma kwadratów odchyłek ogólna.
Suma kwadratów odchyłek między
grupami (kolumnami).
• obliczona jest przez
odjęcie od średnich
kolumn wartości
średniej ogólnej,
podniesienie wyniku
do kwadratu,
pomnożenie przez
liczebność danej
kolumny
Rodzaj gleby
A
B
C
D
E
10 15 11
5
8
12 12 15 10 10
8
15 20 15
8
10 10 14
6
6
Średnia
kolumn
y
10 13 15 9
8
(10-11)²*4+(13-11)²*4+(15-11)²*4+(9-11)²*4+(8-
11)²*4 =34*4=136
Średnia ogólna: 11
Suma kwadratów odchyłek wewnątrz
grup (kolumn).
• uzyskiwana jest przez odjęcie od
każdego pomiaru średniej danej
grupy, podniesienie do kwadratu i
dodanie w obrębie każdej grupy,
a potem dla wszystkich grup
łącznie.
Rodzaj gleby
A
B
C
D
E
10 15 11
5
8
12 12 15 10 10
8
15 20 15
8
10 10 14
6
6
Średnia
kolumny
1
0
13
1
5
9
8
Gleba B
Gleba C
Gleba D
Gleba E
(15-13)²=4 (11-15)²=16 (5-9)²=16
(8-8)²=0
(12-13)²=1 (15-15)²=0 (10-9)²=1
(10-8)²=4
(15-13)²=4 (20-15)²=25 (15-9)²=36 (8-8)²=0
(10-13)²=9 (14-15)²=1 (6-9)²=9
(6-8)²=4
∑
18
42 62
8
∑
ogólna
=8+18+42+62+8=138
Gleba A
(10-10)²=0
(12-10)²=4
(8-10)²=4
(10-10)²=0
∑
8
Suma kwadratów odchyłek ogólna.
• powstaje z odejmowania średniej ogólnej od
każdego pomiaru, podniesienia różnicy do
kwadratu oraz dodania w obrębie każdej
kolumny, a potem dla wszystkich kolumn.
Rodzaj gleby
A
B
C
D
E
10 15 11
5
8
12 12 15 10 10
8
15 20 15
8
10 10 14
6
6
Gleba B
Gleba C
Gleba D
Gleba E
(15-11)²=16
(11-11)²=0
(5-11)²=36
(8-11)²=9
(12-11)²=1
(15-11)²=16
(10-11)²=1
(10-11)²=1
(15-11)²=16
(20-11)²=81
(15-11)²=16
(8-11)²=9
(10-11)²=1
(14-11)²=9
(6-11)²=25
(6-11)²=25
34
106
78
44
Średnia ogólna: 11
∑
ogólna
=12+34+106+78+44=274
Gleba A
(10-11)²=1
(12-11)²=1
(8-11)²=9
(10-11)²=1
∑
12
Sprawdzenie sumy:
Suma kwadratów odchyłek między grupami
(kolumnami) + Suma kwadratów odchyłek
wewnątrz grup (kolumn)
= Suma kwadratów odchyłek ogólna
136+138=274
Etap 3.
Analiza wariancji:
Suma
kwadrató
w
odchyłek:
Wartość
sumy
(suma
kwadratów
)
Liczba
stopni
swobody
n
Wariancj
a
Test F
o
między
kolumna
mi
SK pomiędzy
grupami
n licznika -l
c-1
ŚK między
grupami
ŚK między
grupami/S
K reszta
wewnątrz
kolumn
SK reszta
n mianownika
-m
N-c
ŚK reszta
-
ogólna
SK ogólna
N-1
-
-
c (k) – liczba kolumn, N – liczebność ogólna
Suma
kwadratów
odchyłek:
Wartość
sumy
Liczba
stopni
swobody
n
Wariancja
Test F
o
F
t
między
kolumnami
136
n licznika -l
c-1
5-1=4
136/4=34
34/9,2=
3,
7
3,1
wewnątrz
kolumn
138
n mianownika
-m
N-c
20-5=15
138/15=9,
2
-
-
ogólna
274
N-1
20-1=19
-
-
-
c (k) – liczba kolumn (rodzajów gleb) - 5
N – liczba krzaczków pomidorów - 20
Jeśli uzyskana wartość parametru
Snedecora
F
o
>F
t
– świadczy to o niejednorodności
badanego zbioru przy poziomie
istotności 5%.
Rodzaj gleby
A
B
C
D
E
10
15
11
5
8
12
12
15
10
10
8
15
20
15
8
10
10
14
6
6
Suma kolumny
40
52
60
36
32
Średnia
kolumny
10
13
15
9
8
Etap 1.
Plony z krzaczków pomidora na 4
glebach.
Suma kolumny
40
52
36
32
Średnia kolumny
10
13
9
8
Rodzaj gleby
A
B
D
E
10
15
5
8
12
12
10
10
8
15
15
8
10
10
6
6
Suma ogólna: 160
Średnia ogólna: 10
Suma kwadratów odchyłek między
grupami (kolumnami).
Rodzaj gleby
A
B
D
E
10
15
5
8
12
12
10
10
8
15
15
8
10
10
6
6
Średnia
kolumny
10
13
9
8
(10-10)²*4+(13-10)²*4+(9-10)²*4+(8-10)²*4
=14*4=56
Średnia ogólna: 10
Suma kwadratów odchyłek
wewnątrz grup (kolumn).
Rodzaj gleby
A
B
D
E
10
15
5
8
12
12
10
10
8
15
15
8
10
10
6
6
Średnia
kolumny
10
13
9
8
Gleba A
Gleba B
Gleba D
Gleba E
(10-10)²=0
(15-13)²=4
(5-9)²=16
(8-8)²=0
(12-10)²=4
(12-13)²=1
(10-9)²=1
(10-8)²=4
(8-10)²=4
(15-13)²=4
(15-9)²=36
(8-8)²=0
(10-10)²=0
(10-13)²=9
(6-9)²=9
(6-8)²=4
∑
8
18
62
8
∑
8+18+62+8=96
Suma ogólna
kwadratów
odchyłek.
Rodzaj gleby
A
B
D
E
10
15
5
8
12
12
10
10
8
15
15
8
10
10
6
6
Gleba A
Gleba B
Gleba D
Gleba E
(10-10)²=0
(15-10)²=25
(5-10)²=25
(8-10)²=4
(12-10)²=4
(12-10)²=4
(10-10)²=0
(10-10)²=0
(8-10)²=4
(15-10)²=25
(15-10)²=25
(8-10)²=4
(10-10)²=0
(10-10)²=0
(6-10)²=16
(6-10)²=16
∑
8
54
66
24
∑
8+54+66+24=152
Średnia ogólna: 10
Etap 3.
Analiza wariancji:
Suma
kwadratów
odchyłek:
Wartość
sumy
Liczba
stopni
swobody n
Wariancj
a
Test F
o
F
t
między
kolumnami
56
n licznika -l
c-1
4-1=3
56/3=18,
6
18,6/8=
2,
3
ok.
3,5
wewnątrz
kolumn
96
n mianownika
-m
N-c
16-4=12
96/12=8
-
-
ogólna
152
N-1
16-1=15
-
-
-
c – liczba kolumn (rodzajów gleb) - 4
N – liczba krzaczków pomidorów - 16
uzyskana wartość parametru Snedecora
F
o
<F
t
– świadczy to o jednorodności badanego
zbioru.
Istnieje zatem prawdopodobieństwo 95%,
że plony z krzaczków pomidora
uprawiane na glebach A, B, D i E są
podobne.
Które z porównywanych grup różnią
się między sobą, a które są równe?
• NIR – test najmniejszej istotnej różnicy.
Suma
kwadratów
odchyłek:
Wartość
sumy
Liczba
stopni
swobody
n
Wariancja
Test F
o
F
t
między
kolumnami
136
n licznika -l
c-1
5-1=4
136/4=34
34/9,2=
3,
7
3,1
wewnątrz
kolumn
138
n mianownika
-m
N-c
20-5=15
138/15=9,
2
-
-
ogólna
274
N-1
20-1=19
-
-
-
c (k) – liczba kolumn (rodzajów gleb) - 5
N – liczba krzaczków pomidorów - 20
Tabela porównań
średnich.
Gleba A
n
1
=4
Gleba B
n
2
=4
Gleba C
n
3
=4
Gleba D
n
4
=4
Gleba E
n
5
=4
Gleba A
n
1
=4
13-10=3
3<4,568
-
15-10=5
5>4,568
+
10-9=1
1<4,568
-
10-8=2
2<4,568
+
Gleba B
n
2
=4
13-10=3
3<4,568 -
15-13=2
2<4,568
-
13-9=4
4<4,568
-
13-8=5
5>4,568
-
Gleba C
n
3
=4
15-10=5
5>4,568
+
15-13=2
2<4,568
-
15-9=6
6>4,568
+
15-8=7
7>4,568
+
Gleba D
n
4
=4
10-9=1
1<4,568
-
13-9=4
4<4,568
-
15-9=6
6>4,568
+
9-8=1
1<4,568
-
Gleba E
n
5
=4
10-8=2
2<4,568
-
13-8=5
5>4,568
+
15-8=7
7>4,568
+
9-8=1
1<4,568
-
Rodzaj gleby
NIR
A
B
C
D
E
10
13
15
9
8
4,56
8
Analiza wariancji - klasyfikacja
pojedyncza.
ZADANIE 2
W gospodarstwie doświadczalnym
badano wysokość plonów pomidora
uprawianego na 5 różnych glebach w
ciągu 4 kolejnych lat.
Czy można uważać, że zarówno gleby,
jak i lata były jednakowo korzystne?
rok
Rodzaj gleby
Suma
wiersza
Średnia
wiersza
A
B
C
D
E
1970
10
15
11
5
8
49
9,8
1971
12
12
15
10
10
59
11,8
1972
8
15
20
15
8
66
13,2
1973
10
10
14
6
6
46
9,2
Suma
kolumn
y
40
52
60
36
32
220
-
Średni
a
kolumn
y
10
13
15
9
8
x=11
Tworzenie 3 sum kwadratów odchyłek.
• Suma kwadratów odchyłek między
kolumnami,
• Suma kwadratów odchyłek między wierszami,
• Suma kwadratów odchyłek na współdziałanie
wierszy i kolumn,
• Suma kwadratów odchyłek ogólna.
Suma kwadratów odchyłek między
kolumnami.
(10-11)²*4+(13-11)²*4+(15-11)²*4+(9-
11)²*4+ (8-11)²*4 =34*4=136
Suma kwadratów odchyłek między
wierszami.
- powstaje z odejmowania średniej ogólnej
od średnich wierszy, podnoszenie do kwadratu,
pomnożenie przez liczebność wiersza i dodanie.
(9,8-11)²*5+(11,8-11)²*5+(13,2-11)²*5+(9,2-11)²*5
=10,16*5=50,8
Suma kwadratów odchyłek na
współdziałanie wierszy i kolumn.
obliczana jest z odejmowania średnich
wierszy i kolumn, dodanie
średniej ogólnej, podniesienie do kwadratu
i dodanie dla całego zbioru.
Średni
a
wiersz
a
9,8
11,8
13,2
9,2
Rodzaj gleby
A
B
C
D
E
10
15
11
5
8
12
12
15
10
10
8
15
20
15
8
10
10
14
6
6
Średnia
kolumn
y
10 13 15
9
8
Rok 1971
(12-10-11,8+11)²=1,44
(12-13-11,8+11)²=3,24
(15-15-11,8+11)²=0,64
(10-9-11,8+11)²=0,04
(10-8-11,8+11)²=1,44
6,8
Rok 1970
Rok 1971
Rok 1972
Rok 1973
∑
ogólna
=28,8 + 6,8 + 44,8 + 6,8 = 87,2
Rok 1970
(10-10-9,8+11)²=1,44
(15-13-9,8+11)²=10,24
(11-15-9,8+11)²=7,84
(5-9-9,8+11)²=7,84
(8-8-9,8+11)²=1,44
∑
28,8
Rodzaj gleby
A
B
C
D
E
10 15 11
5
8
12 12 15 10 10
8
15 20 15
8
10 10 14
6
6
Gleba A
Gleba B
Gleba C
Gleba D
Gleba E
(10-11)²=1
(15-11)²=16
(11-11)²=0
(5-11)²=36
(8-
11)²=9
(12-11)²=1
(12-11)²=1
(15-11)²=16
(10-11)²=1
(10-
11)²=1
(8-11)²=9
(15-11)²=16
(20-11)²=81
(15-11)²=16
(8-
11)²=9
(10-11)²=1
(10-11)²=1
(14-11)²=9
(6-11)²=25
(6-
11)²=25
∑
12
34
106
78
44
∑
12+34+106+78+44=274
Średnia ogólna: 11
Suma kwadratów odchyłek ogólna.
Suma kwadratów odchyłek ogólna.
Suma kwadratów odchyłek między kolumnami
+ Suma kwadratów odchyłek między wierszami
+ Suma kwadratów odchyłek na współdziałanie
wierszy i kolumn
= Suma kwadratów odchyłek ogólna
136+50,8+87,2=274
Etap 3.
Analiza wariancji:
Suma
kwadrató
w
odchyłek:
Wartoś
ć sumy
Liczba
stopni
swobody n
Wariancja
Test F
o
F
t
między
kolumnami
136
n1 licznika -l
c-1
5-1=4
136/4=34
34/7,27
=
4,67
ok.
3,3
nl-4;
nm-12
między
wierszami
50,8
n2 licznika -l
r-1
4-1=3
50,8/3=16,
93
16,93/7,2
7
=
2,32
ok.
3,5
nl-3;
nm-12
na
współdziałan
ie
87,2
n mianownika
-m
(r-1)*(c-1)
4*3=12
87,2/12=7,
27
-
-
c – liczba kolumn (rodzajów gleb) – 5
r – liczba wierszy (ilość lat) - 4
N – liczba krzaczków pomidorów - 20
uzyskana wartość parametru Snedecora
F
o
<F
t
– dla wierszy i
F
o
>F
t
– dla kolumn
– z prawdopodobieństwem 95% - plony z 4
kolejnych lat były podobne, ale gleby nie
były jednakowo korzystne.
Które z porównywanych grup różnią się
między sobą, a które są równe?
• NIR – test najmniejszej istotnej różnicy.
ZADANIE
Badano czterema różnymi metodami czas krzepnięcia krwi u
losowo wybranych pacjentów. Czy wszystkie metody dają te
same rezultaty?
Badano wpływ substancji słodzących na częstość występowania próchnicy
zębów u szczurów. W tym celu poddano badaniu 48 samic w wieku 6-ciu
miesięcy, które podzielono na 4 grupy. Każdej grupie podawano
codziennie do paszy wodne roztwory: sacharozy, glukozy, ksylitolu i
sorbitolu. Po 3 miesiącach w wypreparowanych szczękach i żuchwach
oceniono odsetek zębów objętych próchnicą.
Sprawdzamy normalność
rozkładu
np. histogramy skategoryzowane
Testy pozwalające na ocenę istnienia
różnic w obrębie wszystkich dostępnych
par – w tym celu stosuje się testy
porównań wielokrotnych nazywane
testami post-hoc.
Test NIR (najmniejszej istotnej różnicy) lub
Scheffe.