Autor: Janusz Górczyński
1
Hipotezy statystyczne
Definicja, sformułowanie i
weryfikacja
Autor: Janusz Górczyński
2
Definicja
Hipotezą statystyczną jest dowolne zdanie orzekające o
parametrach populacji lub jej rozkładzie. Prawdziwość
hipotezy jest oceniana na podstawie wyników próby
losowej.
Hipoteza statystyczna może orzekać o parametrach
populacji i takie hipotezy nazywamy hipotezami
parametrycznymi.
Pozostałe hipotezy statystyczne (te, które nie dotyczą
parametrów), nazywamy hipotezami
nieparametrycznymi.
Autor: Janusz Górczyński
3
Hipotezy parametryczne
Przykład 1.
Interesuje nas wydajność pracy pracowników
pewnego zakładu produkcyjnego. Zakładamy, że
modelem tej cechy może być zmienna losowa
normalna o nieznanych parametrach m i .
Przypuszczamy,
że
średnia
wydajność
(w populacji) jest równa znanej wartości m
0
.
Tym
samym
sformułowaliśmy
hipotezę
statystyczną dotyczącą parametru m:
H m m
0
0
:
Autor: Janusz Górczyński
4
Hipotezy nieparametryczne
Przykład 2.
W poprzednim przykładzie założyliśmy, że
interesująca nas cecha (wydajność pracy
pracowników) może być modelowana zmienną
losową normalną. Możemy więc sformułować
hipotezę dotyczącą rozkładu tej cechy:
H X
N m
0
: ~ ( ; )
Autor: Janusz Górczyński
5
Weryfikacja hipotezy
Hipoteza statystyczna musi być na podstawie
wyników próby zweryfikowana.
Testem
statystycznym
nazywamy
regułę
postępowania, która każdej możliwej próbie
przyporządkowuje decyzję odrzucenia hipotezy lub
nie daje podstaw do podjęcia takiej decyzji.
Proces weryfikacji hipotezy statystycznej obejmuje
z jednej strony jej sformułowanie (jako tzw.
hipotezy zerowej), z drugiej strony musimy
sformułować hipotezę alternatywną oznaczaną z
reguły symbolem H
1
.
Autor: Janusz Górczyński
6
Weryfikacja hipotez
statystycznych
H m m H m m
0
0
1
0
:
:
Rozpatrzmy hipotezę parametryczną z
przykładu 1, gdzie wypowiadaliśmy się o
możliwej wartości średniej generalnej.
Odpowiednią hipotezę zerową i alternatywną
możemy zapisać jako:
Na podstawie wyników próby losowej chcemy
teraz skonstruować taki test statystyczny, który
da możliwość podjęcia decyzji co do
prawdziwości hipotezy zerowej.
Autor: Janusz Górczyński
7
Weryfikacja hipotez
statystycznych (c.d.)
x
s
m
x
t
0
x m
0
0
x m
Przy konstrukcji testu skorzystamy z faktu, że
statystyka:
ma, przy prawdziwości H
0
:m=m
0
, rozkład t-
Studenta z liczbą stopni swobody v = n - 1.
Załóżmy, że H
0
:m=m
0
jest prawdziwa.
Jeżeli tak, to m
m
0
= 0 oraz
(ponieważ ). Tym samym wartość
statystyki t powinna niewiele odbiegać od zera
(jeżeli H
0
jest prawdziwa).
Autor: Janusz Górczyński
8
Weryfikacja hipotez
statystycznych (c.d.)
m m
0
x
s
m
x
t
0
P t t
v
(
)
,
t
v
,
W sytuacji, gdy wartości statystyki t będą
odbiegać od zera dość znacznie, to powinniśmy
zacząć wątpić w prawdziwość naszego założenia
(o tym, że ).
Pozostaje do rozstrzygnięcia kwestia, kiedy
można uznać, że wyniki naszej próby świadczą
przeciwko prawdziwości hipo-tezy zerowej.
Wykorzystamy do tego celu fakt, że dla każdego
znajdziemy taką wartość , dla której
spełniona jest równość
Autor: Janusz Górczyński
9
Weryfikacja hipotez
statystycznych (c.d.)
t
v
,
(
;
) (
;
)
,
,
t
t
v
v
(
;
)
,
,
t
t
v
v
Tym samym wartość wyznacza nam
obszar krytyczny dla naszej hipotezy H
0
:
Jeżeli wartość empiryczna statystyki t znajdzie
się w tym obszarze, to H
0
musimy odrzucić
jako zbyt mało prawdopodobną.
Obszar jest obszarem
dopuszczalnym dla H
0 ,
mówimy, że wyniki naszej
próby nie przeczą hipotezie zerowej. Proszę
zauważyć, że nie jest to równoważne zdaniu, że
hipoteza zerowa jest prawdziwa! (my jej tylko nie
możemy odrzucić).
Autor: Janusz Górczyński
10
Błędy weryfikacji
Wyniki próby mogą być takie, że uznamy za fałszywą i
odrzucimy hipotezę H
0
, która w rzeczywistości jest
prawdziwa. Jest to tzw. błąd I rodzaju, a prawdopodo-
bieństwo jego popełnienia jest równe .
Możliwa jest także sytuacja odwrotna: wyniki próby
nie pozwoliły na odrzucenie H
0
, która w rzeczywistości
była fałszywa. Popełniamy wtedy tzw. błąd II rodzaju,
a jego prawdopodobieństwo jest równe .
Zwiększenie liczebności próby powoduje zmniejszenie
prawdopodobieństwa .
Autor: Janusz Górczyński
11
Błędy weryfikacji
cd.
Brak podstaw
do odrzucenia
H
0
Odrzucenie
H
0
H
0
prawdziwa
P-stwo
P-stwo
Błąd I rodzaju
H
0
fałszywa
P-stwo
Błąd II rodzaju
P-stwo
Moc testu
1
1
Autor: Janusz Górczyński
12
Hipoteza o średniej
generalnej m
H m m
0
0
:
H m m
1
0
:
t
v n
, 1
Niech zmienna losowa X ma rozkład normalny o
nieznanych parametrach
m
i
.
Na podstawie n-
elementowej próby losowej chcemy zweryfikować
hipotezę zerową
wobec alternatywy
Procedura testowa:
1. Ustalamy poziom istotności
2. Obliczamy wartość empiryczną statystyki t-
Studenta
3. Odczytujemy z tablic statystycznych wartość
krytyczną statystyki
x
emp
S
m
x
t
0
.
Autor: Janusz Górczyński
13
Hipoteza o średniej
generalnej m (c.d)
Wnioskowanie:
Jeżeli , to H
0
odrzucamy na
korzyść H
1
.
Jeżeli , to nie mamy podstaw do
odrzucenia H
0
.
t
t
emp
v
.
,
t
t
emp
v
.
,
Autor: Janusz Górczyński
14
Hipoteza o średniej
generalnej m (c.d.)
H m m
0
0
:
H m m
0
0
:
H m m
1
0
:
H m m
1
0
:
H m m
1
0
:
H m m
1
0
:
(
,
)
,
t
v
2
(
,
)
,
t
v
2
t
t
emp
v
2
,
t
t
emp
v
2
,
Hipoteza może być także
weryfikowana przy inaczej skonstruowanej
hipotezie alternatywnej ( lub
). Procedura weryfikacyjna przebiega
podobnie, zmienia się tylko obszar krytyczny:
Hipoteza
zerowa
Alternatywa
(jednostronna)
Obszar krytyczny
H
0
odrzucamy,
jeżeli:
Autor: Janusz Górczyński
15
Hipoteza o równości dwóch
średnich generalnych
Procedura testowa:
1. Ustalamy poziom istotności
2. Obliczamy wartość empiryczną statystyki t-
Studenta
3. Odczytujemy z tablic statystycznych wartość
krytyczną statystyki
X
N m
1
1
~ ( ; )
X
N m
2
2
~ ( ; )
H m m
0
1
2
:
H m m
1
1
2
:
t
x x
s
emp
r
.
1
2
t
v n n
,
1
2
2
Niech oraz . Na
podstawie odpowiednich prób losowych chcemy
zweryfikować hipotezę:
wobec
Autor: Janusz Górczyński
16
Hipoteza o równości dwóch
średnich generalnych (c.d.)
Wnioskowanie o prawdziwości
wobec
Jeżeli , to H
0
odrzucamy jako zbyt mało
prawdopodobną.
Jeżeli , to nie mamy podstaw do
odrzucenia H
0
.
H m m
0
1
2
:
H m m
1
1
2
:
t
t
emp
v
.
,
t
t
emp
v
.
,
Autor: Janusz Górczyński
17
Hipoteza o różnicy średnich
generalnych (c.d.)
Niech oraz . Na
podstawie odpowiednich prób losowych chcemy
zweryfikować hipotezę:
Hipoteza alternatywna może być jednostronna (
lub )
Procedura
testowa
przebiega
podobnie
jak
poprzednio,
zmieniają
się
jedynie
obszary
krytyczne.
Hipoteza zerowa Hipotezy alternatywne
Obszar krytyczny
X
N m
1
1
~ ( ; )
X
N m
2
2
~ ( ; )
H m m
0
1
2
:
H m m
1
1
2
:
H m m
1
1
2
:
H m m
0
1
2
:
H m m
1
1
2
:
H m m
1
1
2
:
(
,
)
,
t
v
2
(
,
)
,
t
v
2
Autor: Janusz Górczyński
18
Inny sposób weryfikacji hipotezy
o równości średnich. NIR
Hipoteza
przy
jest odrzucana wtedy, gdy
:
Iloczyn nazywamy najmniejszą
istotną różnicą (least significant difference) i
oznaczamy skrótem NIR (LSD).
H m m
0
1
2
:
H m m
1
1
2
:
t
t
emp
v
.
,
x x
s
t
x x
s
t
x x
t s
r
v
r
v
v r
1
2
1
2
1
2
,
,
,
t s
v r
,
Autor: Janusz Górczyński
19
Najmniejsza istotna różnica
Hipotezę
przy alternatywie
będziemy odrzucać wtedy, gdy:
NIR (LSD) jest taką różnicą wartości danej cechy
w dwóch populacjach, którą jeszcze można uznać
za losową (przypadkową).
Różnice większe od NIR są już spowodowane
własnościami danych populacji (nie są
przypadkowe).
H m m
0
1
2
:
H m m
1
1
2
:
x
x
NIR
1
2
Autor: Janusz Górczyński
20
Test istotności dla frakcji
Niech zmienna X ma w populacji rozkład zero-
jedynkowy z prawdopodobieństwem sukcesu p.
Parametr ten można interpretować jako wskaźnik
struktury w populacji.
Interesuje nas weryfikacja hipotezy
zerowej:
wobec
Procedura weryfikacyjna wykorzystuje rozkład N(0, 1):
1. Obliczamy gdzie
2. H
0
odrzucamy, jeżeli
H p p
0
0
:
H p p
1
0
:
z
p p
p
p
n
emp.
(
)
0
1
p
k
n
z
z
emp.
Autor: Janusz Górczyński
21
Test istotności dla różnicy
frakcji
Rozważmy dwie zmienne zero-jedynkowe z
parametrami odpowiednio p
1
i p
2
. Interesuje nas
weryfikacja przy alternatywie
.
Niech oraz oznaczają odpowiednio
frakcje elementów wyróżnionych w obu próbach.
Wiadomo, że
Jeżeli jest prawdziwa, to
gdzie p oznacza wspólną wartość dla obu zmiennych.
H p
p
0
1
2
:
H p
p
1
1
2
:
p
k
n
1
1
1
p
k
n
2
2
2
~
;
(
)
(
)
p
p
N p
p
p
p
n
p
p
n
1
2
1
2
1
1
1
2
2
2
1
1
H p
p
p
0
1
2
:
~
; (
)
p
p
N
p
p
n
n
1
2
1
2
0
1
1
1
Autor: Janusz Górczyński
22
Test istotności dla różnicy frakcji
(c.d.)
Jako ocenę wspólnego prawdopodobieństwa sukcesu
dla obu zmiennych przyjmuje się wyrażenie:
Ostatecznie statystyka
ma rozkład N(0, 1).
Hipotezę przy
odrzucamy,
jeżeli
p
k k
n n
1
2
1
2
z
p
p
p
p
n
n
emp
(
)
1
2
1
2
1
1
1
H p
p
0
1
2
:
H p
p
1
1
2
:
z
z
emp.
Autor: Janusz Górczyński
23
Test istotności dla wariancji
Niech , interesuje nas weryfikacja
hipotezy
przy alternatywie .
W praktyce nie formułuje się H
1
jako dwustronnej czy
lewostronnej, co wynika z faktu, że duża wariancja jest
niekorzystna.
Weryfikację hipotezy zerowej przeprowadzamy w
oparciu o n-elementową próbę wykorzystując fakt, że
statystyka
ma rozkład z liczbą stopni swobody v
= n – 1.
X
N m
~ ( ;
)
2
H
0
2
0
2
:
H
1
2
0
2
:
(
)
n
s
1
2
2
2
Autor: Janusz Górczyński
24
Test istotności dla wariancji
(c.d.)
Jeżeli prawdziwa jest H
0
, to statystyka
ma rozkład z liczbą stopni swobody v = n - 1.
Wnioskowanie:
Jeżeli , to H
0
odrzucamy na
korzyść H
1
.
Jeżeli , to nie mamy podstaw
do odrzucenia H
0 .
emp
n
s
2
2
0
2
1
(
)
2
emp
v n
2
1
2
,
emp
v n
2
1
2
,
Autor: Janusz Górczyński
25
Test istotności dla dwóch
wariancji
Niech oraz .
Na podstawie odpowiednich prób losowych chcemy
zweryfikować przy alternatywie
Statystyka
ma rozkład Fishera-Snedecora z liczbami stopni
swobody
oraz
.
.
X
N m
1
1
1
~ ( ;
)
X
N m
2
2
2
~ ( ;
)
H
0
1
2
2
2
:
H
1
1
2
2
2
:
F
s
s
1
2
1
2
2
2
2
2
u n
1
1
v n
2
1
Autor: Janusz Górczyński
26
Test istotności dla dwóch
wariancji (c.d.)
Jeżeli jest prawdziwa, to również
statystyka
ma rozkład Fishera-Snedecora z
liczbami stopni
swobody
oraz .
Z uwagi na konstrukcję tablic statystycznych, które
zawierają wartości tylko dla prawostronnego obszaru
krytycznego, wartość empiryczną statystyki F
budujemy tak, aby była większa od 1 (w liczniku
umieszczamy większą wariancję z próby).
H
0
1
2
2
2
:
F
s
s
1
2
2
2
u n
1
1
v n
2
1
Autor: Janusz Górczyński
27
Test istotności dla dwóch
wariancji (c.d.)
Wnioskowanie:
1. Obliczamy wartość empiryczną statystyki
2. Dla ustalonego odczytujemy z tablic wartość
krytyczną
gdzie u i v są odpowiednio liczbami stopni
swobody dla średnich kwadratów w liczniku i
mianowniku
.
3. Jeżeli , to odrzucamy na
korzyść
F
s
s
emp
1
2
2
2
F
u v
, ,
F
F
emp
u v
, ,
H
0
1
2
2
2
:
H
1
1
2
2
2
:
Autor: Janusz Górczyński
28
Hipotezy nieparametryczne
Hipotezy tego typu dotyczą z reguły zgodności
rozkładu empirycznego z rozkładem określonym
przez hipotezę lub zgodności rozkładów pewnej
cechy w kilku populacjach bez określania, o jaki
rozkład chodzi. Z tego też powodu testy służące do
weryfikacji takich hipotez nazywamy testami
zgodności.
Do najczęściej stosowanych testów zgodności
należą:
2
(chi-kwadrat) Pearsona
(lambda) Kołmogorowa-Smirnowa
w Shapiro-Wilka
Autor: Janusz Górczyński
29
Test zgodności
Niech hipotezą zerową będzie przypuszczenie,
że cecha X ma w populacji rozkład określony
dystrybuantą F
0
(x):
wobec
Statystyka
przy prawdziwości H
0
ma asymptotyczny rozkład
z liczbą stopni swobody v = k -u - 1.
2
H F x
F x
0
0
: ( )
( )
H F x
F x
1
0
: ( )
( )
2
2
(
)
n n
n
j
j
t
j
t
j
2
Autor: Janusz Górczyński
30
Test zgodności (c.d.)
Wielkość jest teoretyczną liczebnością w
j-tym przedziale, k jest liczbą przedziałów
klasowych, a u liczbą parametrów szacowanych z
próby.
Wartość empiryczną statystyki
porównujemy z wartością krytyczną
wnioskując analogicznie jak w pozostałych
hipotezach.
n
np
j
t
j
2
emp
j
j
t
j
t
j
n n
n
2
2
(
)
,v k u
1
2
Autor: Janusz Górczyński
31
Test zgodności Chi-kwadrat
Elementem kluczowym przy wykorzystaniu
statystyki Chi-kwadrat jest wielkość
))
;
(
(
2
1
j
j
t
j
x
x
x
P
p
Która jest teoretycznym
prawdopodobieństwem wystąpienia
obserwacji w j-tym przedziale przy założeniu
prawdziwości H0.
Autor: Janusz Górczyński
32
Test
2
zgodności kilku
rozkładów
Obserwujemy tę samą cechę w kilku populacjach.
Interesuje nas odpowiedź na pytanie, czy rozkłady te
są takie same (co pociąga za sobą równość
parametrów!).
Jeżeli dystrybuantę danej cechy w i-tej populacji
oznaczymy jako F
i
, to hipoteza zerowa ma postać:
Zastosowanie testu
2
wymaga zestawienia próby w
postaci tabeli dwukierunkowej. W jednym kierunku
umieszczamy poziomy danej cechy, w drugim
populacje.
H F
F
F
k
0
1
2
:
...
Autor: Janusz Górczyński
33
Test
2
zgodności kilku
rozkładów (c.d.)
Klasy
Numer populacji
cechy X
1
2
....
k
1
n
11
n
21
....
n
k1
2
n
12
n
22
....
n
k2
:
n
ij
r
n
1r
n
2r
....
n
kr
Autor: Janusz Górczyński
34
Test
2
zgodności kilku
rozkładów (c.d.)
Statystyka testowa ma postać:
gdzie
Przy prawdziwości H
0
statystyka ta ma rozkład
2
Pearsona z liczbą stopni swobody v=(k-1)(r-1).
Wnioskowanie przebiega analogicznie jak przy
innych hipotezach.
2
2
1
1
n
n
n
ij
ij
t
ij
t
j
r
i
k
n
n n
n
ij
t
i
j
Autor: Janusz Górczyński
35
Podejmowanie decyzji
weryfikacyjnych na podstawie
krytycznego poziomu istotności
Dotychczas
podejmowaliśmy
decyzje
weryfikacyjne poprzez zbadanie, czy wartość
empiryczna statystyki testowej znajduje się w
obszarze krytycznym danej hipotezy (przy z góry
ustalonym poziomie istotności ).
W pakietach statystycznych stosuje się inne
podejście polegające na obliczeniu dla
konkretnej
statystyki
z
próby
prawdopodobieństwa odrzucenia hipotezy
zerowej.
Prześledźmy
to
na
przykładzie
weryfikacji hipotezy
H m m wobec H m m
0
0
1
0
:
:
Autor: Janusz Górczyński
36
Krytyczny poziom istotności
(c.d.)
Dla wartości empirycznej statystyki t
emp
wyznaczonej
na podstawie n-elemnetowej próby obliczane jest
prawdo-podobieństwo otrzymania wartości statystyki
testującej co najmniej tak dużej, jak ta uzyskana z
próby, czyli
Kryterium odrzucenia hipotezy zerowej jest
relacja wyznaczonego prawdopodobieństwa do
przyjętego poziomu istotności .
Jeżeli , to
H
0
odrzucamy
.
Jeżeli , to nie mamy podstaw do odrzucenia
H
0
.
p P t t
emp
(
)
p
p