dr A. Czech
1
WERYFIKACJA HIPOTEZ STATYSTYCZNYCH
Hipotezy statystyczne – sformułowane przypuszczenia dotyczące rozkładu populacji
generalnej
Rodzaje hipotez statystycznych:
•
parametryczne (najczęściej stosowane) – precyzują wartości parametrów w rozkładzie
populacji
•
nieparametryczne – weryfikowana hipoteza dotycząca rozkładu badanej cechy w
populacji generalnej nie precyzuje wartości parametrów tego rozkładu.
Weryfikacja hipotezy statystycznej – odbywa się poprzez zastosowanie specjalnego narzędzia
zwanego testem statystycznym
Test statystyczny – reguła postępowania, która każdej możliwej próbie losowej (tj. każdemu
punktowi przestrzeni próby) przyporządkowuje decyzję przyjęcia lub odrzucenia sprawdzanej
hipotezy.
0
H
- hipoteza zerowa tzn. bezpośrednio sprawdzana
1
H
- hipoteza alternatywna tzn. konkurencyjna w stosunku do hipotezy zerowej
dr A. Czech
2
UWAGA :
a)
istota rzeczy przy budowie każdego testu polega na uchronieniu się o od popełniania
błędów,
b)
przyjęcie i odrzucenie hipotezy w teście statystycznym nie jest równoznaczne z
logicznym udowodnieniem jej prawdziwości lub fałszywości.
Testy istotności – taki rodzaj testów, w których na podstawie wyników próby losowej
podejmuje się decyzję odrzucenia hipotezy sprawdzanej
0
H
lub stwierdza się, że jej brak jest
podstawą do jej odrzucenia.
HIPOTEZA
Prawdziwa
Fałszywa
Przyjęta
DECYZJA POPRAWNA
BŁĄD II RODZAJU
Odrzucona
BIĄD I RODZAJU
DECYZJA POPRAWNA
dr A. Czech
3
1.
Weryfikacja hipotez o średniej
A. Test dla wartości średniej populacji
Model I – populacja ma rozkład normalny
)
,
(
σ
m
N
o znanym odchyleniu standardowym
0
0
:
m
m
H
=
- hipoteza zerowa
0
1
:
m
m
H
≠
- hipoteza alternatywna
gdzie:
0
m - konkretna wartość hipotetyczna średniej.
Oblicza się wartość statystyki u:
n
m
x
u
σ
0
−
=
∑
=
i
x
n
x
1
- średnia arytmetyczna obliczona z wyników próby,
0
m - konkretna wartość hipotetyczna średniej,
σ
- odchylenie standardowe w populacji,
n – liczebność próby.
Z tablicy rozkładu normalnego standaryzowanego
)
1
,
0
(
N
wyznacza się wartość krytyczną
kr
u
α
dla założonego z góry małego prawdopodobieństwa na poziomie istotności
α
.
dr A. Czech
4
)
(u
ϕ
α
−
1
2
α
2
α
kr
u
α
u
kr
u
u
α
≥
- hipotezę
0
H
odrzucamy,
kr
u
u
α
<
- nie ma podstaw do odrzucenia hipotezy
0
H
.
PRZYKŁAD
DANE: n=100,
30
=
σ
,
93
=
x
,
05
,
0
=
α
102
:
0
0
=
m
H
102
:
0
1
≠
m
H
33
,
2
100
30
102
93
0
=
−
=
−
=
n
m
x
u
σ
96
,
1
05
,
0
=
=
kr
kr
u
u
α
kr
u
u
α
>
- hipotezę
0
H
odrzucamy tzn.
102
0
≠
m
dr A. Czech
5
Model II - populacja ma rozkład normalny
)
,
(
σ
m
N
o nieznanym odchyleniu standardowym
0
0
:
m
m
H
=
- hipoteza zerowa
0
1
:
m
m
H
≠
- hipoteza alternatywna
gdzie:
0
m - konkretna wartość hipotetyczna średniej.
Oblicza się wartość statystyki t:
n
S
m
x
n
S
m
x
t
ˆ
1
0
0
−
=
−
−
=
gdzie:
(
)
∑
−
=
2
1
x
x
n
s
i
v
- obciążone odchylenie standardowe z próby,
(
)
∑
−
−
=
2
1
1
ˆ
x
x
n
s
i
v
- nieobciążone odchylenie standardowe z próby,
0
m - konkretna wartość hipotetyczna średniej,
n – liczebność próby,
Z tablicy rozkładu t-Studenta wyznacza się wartość krytyczną
kr
t
α
dla założonego z góry
małego prawdopodobieństwa na poziomie istotności
α
przy
1
−
=
n
r
stopniach swobody.
dr A. Czech
6
)
(t
f
α
−
1
2
α
2
α
t
α
,
1
−
n
t
- wartość krytyczna
kr
n
t
t
α
,
1
−
≥
- hipotezę
0
H
odrzucamy,
kr
n
t
t
α
,
1
−
<
- nie ma podstaw do odrzucenia hipotezy
0
H
.
PRZYKŁAD
DANE: n=26, S=30,
85
=
x
,
05
,
0
=
α
100
:
0
0
=
m
H
100
:
0
1
≠
m
H
5
,
2
1
26
30
100
85
1
0
=
−
−
=
−
−
=
n
S
m
x
t
0595
,
2
05
,
0
;
25
,
1
=
=
−
kr
kr
n
t
t
α
kr
n
t
t
α
,
1
−
≥
- hipotezę
0
H
odrzucamy tzn.
100
0
≠
m
dr A. Czech
7
Model III – populacja ma rozkład normalny
)
,
(
σ
m
N
lub dowolny inny rozkład średniej
wartości m i o skończonej, ale nieznanej wartości wariancji
2
σ
0
0
:
m
m
H
=
- hipoteza zerowa
0
0
:
m
m
H
≠
- hipoteza alternatywna
Test istotności dla tej hipotezy jest analogiczny jaj w Modelu I tzn. test U !!!
Zamiast wartości odchylenia standardowego z populacji generalnej
σ
przyjmuje się
wyznaczoną z dużej próby wartość odchylenia standardowego obciążonego S.
B.
Test dla dwóch wartości przeciętnych dwóch populacji
Model I – badamy dwie populacje generalne mające rozkłady normalne
)
,
(
1
1
σ
m
N
i
)
,
(
2
2
σ
m
N
,
gdzie odchylenia standardowe tych populacji
1
σ
,
2
σ
są znane.
Opierając się na wynikach dwóch niezależnych prób o liczebnościach
1
n
i
2
n
należy
sprawdzić hipotezę:
2
1
0
:
m
m
H
=
- hipoteza zerowa
2
1
1
:
m
m
H
≠
- hipoteza alternatywna
dr A. Czech
8
Oblicza się wartość statystyki u:
2
2
2
1
2
1
2
1
n
n
x
x
u
σ
σ
+
−
=
Statystyka ta ma rozkład normalny standaryzowany
)
1
,
0
(
N
.
)
(u
ϕ
α
−
1
2
α
2
α
kr
u
α
u
kr
u
u
α
≥
- hipotezę
0
H
odrzucamy,
kr
u
u
α
<
- nie ma podstaw do odrzucenia hipotezy
0
H
.
dr A. Czech
9
Model II – badamy dwie populacje generalne mające rozkłady normalne
)
,
(
1
1
σ
m
N
i
)
,
(
2
2
σ
m
N
, gdzie odchylenia standardowe tych populacji
1
σ
,
2
σ
są nieznane, ale jednakowe
tzn.
2
1
σ
σ
=
.
Na podstawie wyników małych prób odpowiednio o liczbnościach
1
n
i
2
n
należy
zweryfikować hipotezę:
2
1
0
:
m
m
H
=
- hipoteza zerowa,
2
1
1
:
m
m
H
≠
- hipoteza alternatywna.
Oblicza się wartość statystyki
+
−
+
+
−
=
2
1
2
1
2
2
2
2
1
1
2
1
1
1
2
n
n
n
n
S
n
S
n
x
x
t
dr A. Czech
10
)
(t
f
α
−
1
2
α
2
α
t
α
;
2
2
1
−
+
n
n
t
- wartość krytyczna
kr
n
n
t
t
α
;
2
2
1
−
+
≥
- hipotezę
0
H
odrzucamy,
kr
n
n
t
t
α
;
2
2
1
−
+
<
- nie ma podstaw do odrzucenia hipotezy
0
H
.
PRZYKŁAD
DANE:
16
1
=
x
,
14
2
=
x
,
8
1
=
n
,
7
2
=
n
,
05
,
0
=
α
,
8
88
2
1
=
S
,
7
39
2
2
=
S
2
1
0
:
m
m
H
=
2
1
1
:
m
m
H
≠
dr A. Czech
11
23
,
1
7
1
8
1
2
7
8
39
88
14
16
1
1
2
2
1
2
1
2
2
2
2
1
1
2
1
=
+
−
+
+
−
=
+
−
+
+
−
=
n
n
n
n
S
n
S
n
x
x
t
137
,
2
05
,
0
;
2
7
8
;
2
2
1
=
=
−
+
−
+
kr
kr
n
n
t
t
α
Ponieważ
kr
n
n
t
t
α
;
2
2
1
−
+
<
- nie ma podstaw do odrzucenia hipotezy
0
H
.
Model III – badamy dwie populacje generalne mające rozkłady normalne lub inne o
skończonych ale nie znanych wariancjach
2
1
σ
i
2
2
σ
.
Na podstawie wyników dwóch dużych prób
1
n
i
2
n
należy sprawdzić hipotezę:
2
1
0
:
m
m
H
=
2
1
1
:
m
m
H
≠
Test istotności dla tej hipotezy jest analogiczny jak w Modelu I tzn. u !!!
Przy obliczaniu wartości u zamiast nieznanych wariancji
2
1
σ
i
2
2
σ
przyjmujemy wartości
2
1
S
i
2
2
S
uzyskane z dużych prób.
dr A. Czech
12
2.
Weryfikacja hipotezy dla wskaźników struktury
A. Test dla wskaźnika struktury populacji generalnej (procentu)
Model – populacja generalna ma rozkład dwupunktowy z parametrem p, tzn. frakcja
wyróżnionych elementów w populacji wynosi p. Z populacji wylosowano niezależnie do
próby dużą liczbę n elementów populacji (n>100)
Na podstawie wyników próby należy zweryfikować hipotezę:
0
0
:
p
p
H
=
- hipoteza zerowa,
0
1
:
p
p
H
≠
- hipoteza alternatywna.
0
p
- hipotetyczna wartość parametru p.
Oblicza się wartość statystyki u:
n
q
p
p
n
m
u
0
0
0
−
=
gdzie:
0
0
1 p
q
−
=
,
dr A. Czech
13
n
m
- wskaźnik struktury z próby,
m – liczba wyróżnionych elementów w próbie,
0
p
- hipotetyczna wartość parametru p.
Statystyka ta ma rozkład normalny standaryzowany
)
1
,
0
(
N
.
)
(u
ϕ
α
−
1
2
α
2
α
kr
u
α
u
kr
u
u
α
≥
- hipotezę
0
H
odrzucamy,
kr
u
u
α
<
- nie ma podstaw do odrzucenia hipotezy
0
H
.
dr A. Czech
14
B. Test dla dwóch wskaźników struktury (procentów)
Model – są dwie populacje generalne o rozkładach dwupunktowych z parametrami
odpowiednio
1
p
i
2
p
(frakcje elementów wyróżnionych w tych populacjach).
Na podstawie dwóch dużych prób o liczebnościach
1
n
i
2
n
należy sprawdzić hipotezę:
2
1
0
:
p
p
H
=
- hipoteza zerowa,
2
1
1
:
p
p
H
≠
- hipoteza alternatywna.
Oblicza się wartość statystyki u:
n
q
p
n
m
n
m
u
2
2
1
1
−
=
gdzie:
p
q
−
=
1
1
1
n
m
,
2
2
n
m
- wskaźniki struktury uzyskane z obu prób,
dr A. Czech
15
2
1
2
1
n
n
m
m
p
+
+
=
- wartość średniego wskaźnika struktury z obu prób,
2
1
2
1
n
n
n
n
n
+
=
- wartość pseudookoloczności z próby n.
1
n
- liczba elementów w próbie I,
2
n
- liczba elementów w próbie II,
Statystyka ta ma rozkład normalny standaryzowany
)
1
,
0
(
N
.
)
(u
ϕ
α
−
1
2
α
2
α
kr
u
α
u
kr
u
u
α
≥
- hipotezę
0
H
odrzucamy,
kr
u
u
α
<
- nie ma podstaw do odrzucenia hipotezy
0
H
.
dr A. Czech
16
3.
Weryfikacja hipotez o wariancji
A.
Test dla wariancji populacji generalnej
Model – populacja generalna ma rozkład normalny
)
,
(
σ
m
N
o nieznanych parametrach
σ
,
m
.
Z populacji tej wylosowano niezależnie n elementów do próby.
Na podstawie wyników próby należy zweryfikować hipotezę:
2
0
2
0
:
σ
σ
=
H
- hipoteza zerowa,
2
0
2
1
:
σ
σ
≠
H
- hipoteza alternatywna.
Oblicza się wartość statystyki
2
χ
:
2
2
,
1
2
0
2
2
α
χ
σ
χ
−
<
=
n
nS
lub
2
2
1
,
1
2
0
2
2
α
χ
σ
χ
−
−
>
=
n
nS
hipotezę
0
H
odrzucamy
dr A. Czech
17
)
(
2
χ
f
2
α
2
α
χ
2
2
1
,
α
χ
−
kr
2
2
,
α
χ
kr
- wartość krytyczna
PRZYKŁAD
DANE: n=25,
5
2
=
S
,
05
,
0
=
α
3
:
2
0
0
=
σ
H
- hipoteza zerowa,
3
:
2
0
0
≠
σ
H
- hipoteza alternatywna
401
,
12
2
025
,
0
;
24
2
2
,
1
=
=
−
χ
χ
α
n
364
,
39
2
975
,
0
;
24
2
2
1
,
1
=
=
−
−
χ
χ
α
n
366
,
39
3
5
25
2
2
>
⋅
=
χ
- hipotezę
0
H
odrzucamy
dr A. Czech
18
B.
Test dla dwóch wariancji
Model – dane są dwie populacje generalne mające odpowiednio rozkłady normalne
)
,
(
1
1
σ
m
N
i
)
,
(
2
2
σ
m
N
o nieznanych parametrach. Z populacji tych wylosowano niezależnie dwie próby
o liczebnościach odpowiednio
1
n
i
2
n
.
Na podstawie wyników próby należy zweryfikować hipotezę:
2
0
2
0
:
σ
σ
=
H
- hipoteza zerowa,
2
0
2
1
:
σ
σ
>
H
- hipoteza alternatywna.
Oblicza się wartość statystyki
2
2
2
1
ˆ
ˆ
S
S
F
=
gdzie:
2
2
2
1
ˆ
ˆ
S
S
>
;
1
;
1
2
1
−
−
n
n
F
α
kr
n
n
F
α
;
1
;
1
2
1
−
−
F
Jeżeli
α
;
1
;
1
2
1
−
−
>
n
n
F
F
to hipotezę
0
H
odrzucamy.