Testy zgodności
Testami zgodności
nazywamy testy
służące do weryfikacji hipotez o typie
rozkładu badanej cechy (np. do
weryfikacji hipotezy, że rozkład badanej
cechy jest normalny). W hipotezach
sprawdzanych tego typu testami nie
precyzuje się żadnych przypuszczeń
dotyczących wartości parametrów
rozkładu, a jedynie postaci (kształtu)
rozkładu. Dlatego tego rodzaju testy
zalicza się do grupy
testów
nieparametrycznych
.
Testy zgodności
Test zgodności χ
2
Test χ
2
służy do weryfikacji hipotezy zerowej H
0
następującej postaci:
H
0
: rozkład zmiennej losowej (cechy) X w
badanej
populacji jest rozkładem określonego
typu
przy hipotezie alternatywnej, będącej
zaprzeczeniem hipotezy zerowej tzn.
H
A
: ~(rozkład X jest rozkładem.........)
Test ten opiera się na porównaniu rozkładu cechy
w próbie (czyli rozkładu empirycznego) z
założonym rozkładem cechy w populacji (czyli z
rozkładem teoretycznym).
Testy zgodności
Oznaczenia:
k – liczba przedziałów klasowych ( lub klas)
n
i
– liczba obserwacji w i–tym przedziale
klasowym
(w i–tej klasie)
p
i
– prawdopodobieństwo teoretyczne uzyskania
wyniku w i-tym przedziale klasowym (klasie)
– liczebność próby
Statystyka o wartościach
ma rozkład χ
2
z (k-1)
stopniami swobody
n
i
– liczebność empiryczna
np
i
– liczebność hipotetyczna, oczekiwana
k
1
i
i
n
n
k
1
i
i
2
i
i
2
0
p
n
)
p
n
n
(
χ
Testy zgodności
Aby zweryfikować hipotezę H
0
obliczamy wartość
statystyki χ
2
oraz ustalamy poziom istotności :
jeżeli
χ
0
2
> χ
2
to
odrzucamy H
0
i
przyjmujemy H
A
jeżeli
χ
0
2
< χ
2
to
nie ma podstaw do
odrzucenia H
0
Jeżeli cecha X przyjmuje k-wartości x
1
, x
2
, ... x
k
(k-klas) to
gdzie
n
i
– liczba obserwacji w próbie o
wartości x
i
(liczebność obserwowana)
N
i
– oczekiwana liczba obserwacji w próbie
o
wartości x
i
k
1
i
i
2
i
i
2
0
N
)
N
n
(
χ
Testy zgodności
Przykład: W stadzie urodziło się
238 cieląt czarnych i 262 cielęta
czerwone. Czy można przyjąć, że
stosunek umaszczenia czarnego :
czerwonego jest jak 1:1?
Zweryfikować hipotezę na poziomie
istotności = 0,05.
H
0
: N
czarne
: N
czerwone
= 1 : 1
H
A
: N
czarne
: N
czerwone
1 : 1
N
czarne
- liczba cieląt czarnych
N
czerwone
- liczba cieląt czerwonych
Testy zgodności
Liczebności obserwowane: n
1
= 238 n
2
=
262
Liczebności oczekiwane: N
1
= 250
N
2
=250
=3,841 dla 1-go stopnia swobody
zatem nie ma podstaw do odrzucania H
0
czyli
przyjmujemy,
że
stosunek
umaszczenia
czarnego do czerwonego jest jak 1 : 1
152
1
250
250
262
250
250
238
N
N
n
2
2
2
1
i
i
2
i
i
2
0
,
)
(
)
(
)
(
2
05
0,
2
05
,
0
2
0
χ
841
,
3
152
,
1
χ
χ
2
– test niezależności
Populacja jest równocześnie badana ze względu
na dwie cechy X i Y (niekoniecznie mierzalne)
Cecha X o r wartościach (tzw.
kategoriach
)
Cecha Y o s wartościach (tzw.
kategoriach
)
Z populacji losujemy próbę o liczebności n.
Wyniki przedstawiamy w tabeli zwanej
tablicą
kontyngencji r
s
, w której n
ij
oznacza
liczebność podklasy (i,j) tzn. liczba elementów
próby w klasie ( i ) dla cechy X oraz w klasie ( j
) dla cechy Y
χ
2
– test niezależności
1 (y
1
) 2 (y
2
)
.....
.....
s (y
s
) suma
1 (x
1
)
n
11
n
12
.....
.....
n
1s
n
1
.
2 (x
2
)
n
21
n
22
.....
.....
n
2s
n
2
.
...
.....
.....
.....
.....
.....
...
.....
.....
.....
.....
.....
r (x
r
)
n
r1
n
r2
…..
…..
n
rs
n
r
.
suma
n.
1
n.
2
.....
.....
n.
s
n..
s
1
j
j
r
1
i
i
r
1
i
ij
j
s
1
j
ij
i
.
n
.
n
..
n
n
.
n
n
.
n
X Y
Tablica kontyngencji rs
χ
2
– test niezależności
Testujemy hipotezę:
H
0
: cechy X i Y są niezależne
H
A
: cechy X i Y są cechami
zależnymi
x
i
– wartość (kategoria) dla cechy X
y
j
– wartość (kategoria) dla cechy Y
χ
2
– test niezależności
1.
obliczamy liczebności oczekiwane
:
na podstawie tablicy kontyngencji
2. obliczamy wartość:
która jest wartością statystyki χ
2
z (r-
1)(s-1) stop-
niami swobody
..
n
n
n
N
j
i
ij
r
1
i
s
1
j
ij
2
ij
ij
2
0
N
N
n
)
(
χ
2
– test niezależności
3. testujemy H
0
jeśli
>
H
0
odrzucamy
przyjmujemy H
A
czyli
cechy X i Y są zależne
jeśli
<
brak podstaw do
odrzucenia H
0
czyli można uznać, że
cechy X i Y są
niezależne
2
0
2
2
0
2
χ
2
– test niezależności
Przykład
Tabela przedstawia liczby prosiąt chorych na
pewną chorobę w zależności od tego czy matka
prosięcia była zdrowa czy chora na tę chorobę,
Czy istnieje związek między zdrowotnością matek
i potomstwa?
Matka
Potomek zdrowa chora
suma
Zdrowy
274=n
11
47=n
12
321=n
1·
Chory
44= n
21
17=n
22
61=n
2·
Suma 318=n
·1
64=n
·2
382=n
··
H
0
: zdrowotność potomstwa (X) nie zależy od
zdrowotności matek (Y) (czyli X i Y są
niezależne)
χ
2
– test
niezależności
wyznaczamy liczebności oczekiwane
10
382
64
61
n
n
n
N
51
382
318
61
n
n
n
N
54
382
64
321
n
n
n
N
267
382
318
321
n
n
n
N
2
2
22
1
2
21
2
1
12
1
1
11
N
11
+N
12
=321
N
21
+N
22
=61
274= n
11
47=n
12
321=n
1·
44= n
21
17=n
22
61=n
2·
318= n
·1
64=n
·2
382=n
··
Obliczamy wartość χ
2
95
,
6
90
,
4
96
,
0
91
,
0
18
,
0
10
7
51
)
7
(
54
)
7
(
267
7
10
)
10
17
(
51
)
51
44
(
54
)
54
47
(
267
)
267
274
(
N
)
N
n
(
χ
2
2
2
2
2
2
2
2
2
1
i
2
1
j
ij
2
ij
ij
2
0
267=N
11
54=N
12
51= N
21
10=N
22
274= n
11
47=n
12
44= n
21
17=n
22
χ
2
– test niezależności
χ
2
0,05
= 3,841 dla (2-1)(2-1)=1
stopnia swobody
χ
2
0
= 6,95
3,841 = χ
2
0,05
a
zatem
H
0
–
odrzucamy
czyli
twierdzimy,
że
zdrowotność
potomstwa ( X ) i zdrowotność matek
( Y )
są cechami zależnymi