Tikhonenko O Wykłady ze statystyki matematycznej Wykład 7


7. WERYFIKACJA HIPOTEZ
7.1. Wiadomości wstępne
Niech dana będzie próbka x1, ..., xn z rozkładu absolutnie ciągłego P o gęstości
nieznanej f (y). Wektor losowy x = (x1, ..., xn ) będziemy nazywali wektorem obser-
wacji, a zbiór jego wszystkich możliwych wartości X  przestrzenią próbek. Naszym
celem jest sprawdzanie (weryfikacja) hipotezy głównej (zerowej) H0 , polegającej na
tym, że f (y) = f0 ( y) , gdzie f0 (y) jest daną z góry gęstością (tj. f0 ( y) ł 0 ,
Ą
f0( y)dy =1). Hipoteza zerowa może być określona także w inny sposób. Ponieważ


ZL xi są niezależne, to gęstość wektora losowego x jest równa f (x) =
= f (x1) f (x2 )... f (xn ) . A więc hipoteza zerowa polega na tym, że w przestrzeni pró-
bek X wektor x spełnia rozkład o gęstości f (x) = f (x1, ..., xn ) = f0 (x) , gdzie
f0 (x) = f0 (x1) f0 (x2 )... f0 (xn ) . Symbolicznie hipotezę zerową będziemy, więc, zapi-
sywali w postaci
H0 : f (y) = f0 ( y) , albo w postaci H0 : f (x) = f0 (x) .
Rozpatrywana hipoteza zerowa jest prosta, ponieważ rozkład o gęstości f0 (y)
jest określony jednoznacznie. W tym przypadku, gdy hipoteza H0 wyraża ten fakt,
że rozkład o gęstości nieznanej f (y) należy do pewnej klasy zawierającej więcej niż
jeden rozkład, nazywamy ją hipotezą złożoną. Np. hipoteza polegająca na tym, że
próbka x1, ..., xn należy do rozkładu normalnego, jest złożona, ponieważ klasa roz-
kładów normalnych jest zbiorem wszystkich rozkładów o gęstości
( y -a)2
-
1
2s2
fa, s2 ( y) = e , gdzie aR , s > 0.
2ps
Załóżmy, że chcemy zweryfikować hipotezę prostą H0 przeciw hipotezy alter-
natywnej H1. Zakładamy również, że prawdziwa jest jedna i tylko jedna z hipotez
H0 i H1. Najpierw zbadamy przypadek prostych hipotez H0 : f (x) = f0 (x)
( f (y) = f0 ( y) ) i H1 : f (x) = f1(x) ( f (y) = f1(y)). Tu f1(y) jest pewną gęstością
różną od f0 (y) , f1(x) = f1(x1) f1(x2 )... f1(xn ) .
Budowa kryterium dla weryfikacji hipotezy zerowej polega na wyborze w prze-
strzeni próbek obszaru krytycznego K, takiego, że jeżeli wektor obserwacji x K , to
hipotezę H0 odrzucamy (czyli przyjmujemy hipotezę alternatywną H1). Natomiast,
jeżeli x K = X \ K , to przyjmujemy hipotezę H0 (odrzucamy H1). W tym przy-
73
padku, gdy obszar krytyczny K ma postać K ={x X :j(x) ł C}, gdzie j : Rn R
jest pewną funkcją borelowską, a C jest pewną stałą, to j(x) nazywa się statystyką
kryterium.
Przyjmując albo odrzucając hipotezę zerową możemy popełnić błędy dwóch ro-
dzajów.
1. Błąd pierwszego rodzaju popełniamy w przypadku, gdy odrzucamy prawdziwą
hipotezę zerową H0 . Prawdopodobieństwo błędu pierwszego rodzaju wynosi
a = P{x K H0 jest prawdziwa} = f0(x)dx .

K
Błąd pierwszego rodzaju nazywa się również poziomem istotności kryterium.
2. Błąd drugiego rodzaju popełniamy w przypadku, gdy przyjmujemy hipotezę
zerową H0 , chociaż nie jest ona prawdziwa. Prawdopodobieństwo błędu drugiego
rodzaju wynosi
b = P{x K H1 jest prawdziwa} = f1(x)dx .

K
Rozpatrywane całki tu rozumiemy jako n-krotne, tj. dx = dx1...dxn .
Kryterium dla weryfikacji hipotezy byłoby idealne, gdyby prawdopodobieństwa
błędów obu rodzajów były równe 0. Niestety nie jest to możliwe wobec niepewności
spowodowanej przypadkowością wyników prowadzonych doświadczeń. Zmniejsza-
jąc prawdopodobieństwo błędu 1-go rodzaju przy ustalonej liczności próbki, my jed-
nocześnie zwiększamy prawdopodobieństwo błędu 2-go rodzaju, odwrotnie, zmniej-
szając prawdopodobieństwo błędu 2-go rodzaju, jednocześnie zwiększamy prawdo-
podobieństwo błędu 1-go rodzaju. Istotnie, zmniejszenie np. prawdopodobieństwa
błędu 1-go rodzaju jest równoważne zmniejszeniu obszaru K, co prowadzi do zmniej-
szenia pierwszej z wypisanych całek. W takich warunkach jednak zwiększa się ob-
szar K = X \ K , co z kolei prowadzi do zwiększenia drugiej całki. Otrzymana
sprzeczność wymaga oczywiście rozstrzygnięcia kompromisowego, tj. takiego, przy
którym oba prawdopodobieństwa byłyby niezbyt duże. Podejście klasyczne polega na
wyborze obszaru krytycznego K w taki sposób, aby prawdopodobieństwo błędu 2-go
rodzaju było minimalne pod warunkiem, że prawdopodobieństwo błędu 1-go rodzaju
(poziom istotności) nie przekracza pewnego poziomu krytycznego a0 . Symbolicznie
podane zagadnienie optymalizacyjne zapisujemy w postaci następującej:
Znalezć K : b min przy warunku a Ł a0 .
Ponieważ b zwiększa się wraz ze zmniejszeniem a , to sformułowane zagadnienie
optymalizacyjne jest równoważne zagadnieniu
Znalezć K : b min przy warunku a = a0 .
Definicja 1. Liczba
1 - b =1- P{x K H1 jest prawdziwa} = P{x K H1 jest prawdziwa} = f1(x)dx

K
74
nazywa się mocą kryterium. Kryterium, którego moc jest maksymalna, nazywa się
kryterium o największej mocy.
Minimalizacja prawdopodobieństwa błędu 2-go rodzaju jest oczywiście równo-
ważna do maksymalizacji mocy kryterium. Stąd wynika, że sformułowane wyżej za-
gadnienie możemy zapisać w postaci:
Znalezć K : 1- b max przy warunku a = a0 .
7.2. Lemat Neumana Pearsona
Jest jasne, że mogą istnieć różne podzbiory K* X, dla których spełniony jest
warunek f0(x)dx = a0 , tj. różne obszary krytyczne. Następujące stwierdzenie

K*
rozwiązuje zagadnienie sformułowane w p. 7.1, którego sens polega właśnie na wy-
borze takiego z wymienionych podzbiorów, dla którego moc kryterium jest najwięk-
sza.
Lemat Neumana Pearsona. Ze wszystkich podzbiorów K* X , w których
prawdopodobieństwo błędu 1-go rodzaju f0(x)dx = a0 jest ustalone, obszar kry-

K*
tyczny postaci K = {x : f1(x) ł zf0(x)} daje kryterium o największej mocy (czyli daje
najmniejsze prawdopodobieństwo błędu 2-go rodzaju). Wartość z wyznacza się rów-
naniem f0(x)dx = a0 .

K
Dowód. Z treści twierdzenia wynika, że
f0(x)dx = f0(x)dx = a0 .

K K*
Niech b* będzie prawdopodobieństwem błędu 2-go rodzaju w przypadku obszaru
krytycznego K *. Wówczas mamy
(1 - b) - (1 - b*) = f1(x)dx - f1(x)dx = f1(x)dx - f1(x)dx ł

K K * K \(K IK*) K *\(K IK*)
ł z f0(x)dx - z f0 (x)dx =

K \(K I K*) K *\(K I K*)
ć
= z f0(x)dx - f0(x)dx = z(a0 - a0) = 0 ,


Ł K K* ł
skąd wynika, że 1 - b ł1 - b *, czyli nie istnieje takiego podzbioru (obszaru krytycz-
nego) K* ą K , dla którego moc kryterium byłaby większa niż moc kryterium w
przypadku obszaru krytycznego K = {x : f1(x) ł zf0(x)}.
75
Załóżmy teraz, że wektor obserwacji x ma gęstość f (x) , należącą do rodziny
rozkładów Pq , które zależą od parametru qQ w sposób ciągły. Należy zweryfiko-
wać hipotezę prostą H0 : q = q0 przeciw hipotezy alternatywnej złożonej
H1 : q Q \ {q0}. W terminach funkcji wiarygodności hipotezy zerową i alternatywną
możemy zapisać w postaci
H0 : rozkład x w przestrzeni próbek ma gęstość f (x, q0 ) ,
H1: rozkład x w przestrzeni próbek ma gęstość f (x, q) ,
gdzie q Q \ {q0}, Q R .
Funkcję parametru q określoną równością p(q) = P{x K prawdziwa wartość
parametru jest równa q} będziemy nazywali funkcją mocy.
Przy ustalonym q = q1 ą q0 z lematu Neumana Pearsona wynika, że optymalny
obszar krytyczny dla weryfikacji hipotezy prostej H0 : q = q0 przeciw prostej alterna-
tywy H1 : q = q1 ma postać Kq1 ={x : f (x, q1) ł z1 f (x, q0)}. Jeżeli ustalimy inną
wartość q2 parametru, to wartość z2 nie musi być równa z1 . Postać optymalnego
obszaru krytycznego Kq = {x : f (x, q) ł z(q) f (x, q0 )} ogólnie zależy, więc, od pa-
rametru q .
Kryterium weryfikacji hipotezy prostej H0 : q = q0 przeciw alternatywy złożonej
H1 : q Q \ {q0} nazywamy kryterium o jednostajnie największej mocy, jeżeli postać
odpowiedniego obszaru krytycznego nie zależy od parametru q .
Zauważmy, że kryterium o jednostajnie największej mocy istnieje nie zawsze.
Przykład 1. Niech x1, ..., xn będzie próbką o liczności n z rozkładu normalnego
Na, 1. Funkcja wiarygodności w tym przypadku ma postać
n
1
- -a)
(x 2
i
1
2
i=1
f (x, a) = e .
( 2p)n
Należy zweryfikować hipotezę prostą H0 : a = 0 przeciw alternatywy złożonej
H1 : a > 0 . Postać optymalnego obszaru krytycznego znajdujemy z nierówności
n n
1 1
- xi - a)2 + xi 2
(
2 2
i=1 i=1
f (x, a) ł z(a) f (x, 0) , tj. e ł z(a) , co jest równoważne nierówno-
n
ści a ł + ln z(a) . Obszar krytyczny ma, więc, postać K ={x : x ł C}, która
x na2
i
2
i =1
nie zależy od parametru a, ponieważ stała C wyznacza się jednoznacznie niezależnie
od a, jeżeli a0 jest określone. Oznacza to, że istnieje kryterium o jednostajnie naj-
większej mocy. Istotnie, w danym przypadku stałą C wyznaczmy z warunku, że
prawdopodobieństwo błędu 1-go rodzaju ma być równe danemu poziomu istotności
a0 :
76
P{x K H0} = P{x ł C a = 0} = a0 .
Ponieważ przy a = 0 ZL x ma rozkład N0, 1 n , tj. ZL n x ma rozkład N0, 1, to
a0 = P{ n x ł C n a = 0} =1- F0, 1(C n) .
Stałą C znajdujemy, więc, z równania
F0,1(C n) =1 - a0 .
Kryterium dla weryfikacji H0 przeciw H1 wygląda, więc, następująco:
przyjmujemy, że a > 0, gdy x ł C ,
przyjmujemy, że a = 0, gdy x < C .
Zauważmy, że gdyby H1 miała postać a ą 0 , to w zależności od znaku a postać
obszaru krytycznego byłaby wyznaczona przez nierówności przeciwnego znaku, tj.
zależałaby od a. W tym przypadku nie istnieje, więc, kryterium o jednostajnie naj-
większej mocy.
7.3. Testy istotności. Kryterium 2 Pearsona
Jeżeli mamy tylko hipotezę zerową i nie ma żadnej alternatywy albo alternatywa
jest bardzo złożona, to można zapomnieć o prawdopodobieństwie błędu 2-go rodzaju
i budować kryterium, biorąc pod uwagę wyłącznie prawdopodobieństwo błędu 1-go
rodzaju. Ponieważ, jak wiemy, prawdopodobieństwo błędu 1-go rodzaju nazywa się
poziomem istotności, w rozpatrywanym przypadku hipoteza do sprawdzania nazywa
się hipotezą istotności, a odpowiednie kryteria dla jej weryfikacji  testami istotności.
Takie kryteria są oczywiście niezawodne w mniejszym stopniu niż kryteria o naj-
większej mocy. Wybierając poziom istotności a (najczęściej a = 0,05 lub a = 0,01),
znajdujemy obszar krytyczny K korzystając z warunku
P{x K H0} = a ,
gdzie H0 jest hipotezą do sprawdzania. Jeżeli obecne dane statystyczne (wartości
próbki x) są takie, że x K , to przy założeniu, że hipoteza H0 jest prawdziwa, uwa-
żamy, że otrzymane dane próbki stanowią zdarzenie o bardzo małym prawdopodo-
bieństwie a . Stąd wynika, że nie możemy uwierzyć w prawdziwość hipotezy H0 , tj.
hipotezę H0 należy odrzucić. Jeżeli natomiast okaże się, że x K , to przy założeniu
prawdziwości H0 otrzymano, iż dane próbki x stanowią zdarzenie mające duże
prawdopodobieństwo 1- a . Wówczas dochodzimy do wniosku, że otrzymane dane
statystyczne nie są sprzeczne z hipotezą H0 (raczej odpowiadają tej hipotezie). Nie
oznacza to, że wskazaną hipotezę należy przyjąć. Aby mieć pewność co do jej praw-
dziwości, należy sprawdzić ją na dostatecznie wielkiej ilości próbek. Jeżeli wszystkie
otrzymane wyniki nie stanowią sprzeczności z H0 , to hipotezę tę można przyjąć. Na
tym polega główna wada rozpatrywanego podejścia, związana z ignorowaniem
prawdopodobieństwa błędu 2-go rodzaju.
77
Kryteria porównania parametrów dwóch próbek. Niech x1, ..., xn1 oraz
y1, ..., yn2 będą dwoma próbkami niezależnymi z rozkładów N i N
od-
a1, s12 a2 , s22
powiednio (próbki te są niezależne na mocy niezależności ZL x1, ..., xn1 , y1, ..., yn2 ).
1) Niech s12 i s22 są znane. Należy zweryfikować hipotezę H0 : a1 = a2 .
Ponieważ ZL x i y są niezależne i mają rozkłady N
i N od-
a1, s12 n1 a2 , s2 2 n2
powiednio, to ZL y - x ma rozkład normalny z parametrami E(y - x) = a2 - a1 ,
s12 s22
D( y - x) = Dy + Dx = + , tj. y - x ma rozkład N . Wów-
a2 -a1, s12 n1 +s2 2 n2
n1 n2
y - x - (a2 - a1)
czas ZL z = ma rozkład N0, 1. Przy założeniu prawdziwości H0
s12 s22
+
n1 n2
y - x
otrzymujemy, więc, że ZL z0 = z =
ma rozkład N0, 1. Jest jasne, że
H
0
s12 s22
+
n1 n2
im bliżej siebie są wartości a1 i a2 , tym mniejsza jest wartość bezwzględna statystyki
z . Jako obszar krytyczny należy, więc, wybrać zbiór K ={x :| z |ł C}. Jeżeli a jest
poziomem istotności kryterium, to stałą C wybieramy z warunku
P{x K H0} = P{| z |ł C H0} = P{| z0 |ł C} =1 - P{| z0 |< C} = 2(1 - F0, 1(C)) = a ,
a
skąd korzystając z tablic znajdujemy C jako pierwiastek równania F0, 1(C) =1 - .
2
Kryterium weryfikacji H0 ma, więc, postać następującą:
jeżeli | z0 |ł C , to hipotezę H0 odrzucamy,
jeżeli | z0 |< C , to hipoteza H0 nie jest sprzeczna względem wyników doświad-
czeń (danych próbki).
2) Niech s12 = s22 = s2 oraz wielkość s2 jest nieznana. Należy zweryfikować
tę samą hipotezę H0 : a1 = a2 . Będziemy tu korzystać z tego, że, jak wiemy (wynika
to ze wniosku z lematu Fishera),
2
2
n2s2 n1sx + n2s2
n1sx
y y
= c2 ; = c2 ; = c2 , (7.1)
n1 -1 n2 -1 n1 + n2 -2
s2 s2 s2
n1 n2
1 1
2
gdzie sx = i s2 = . Mamy stąd
(x - x)2 y (y - y)2
n1 i =1 i n2 i =1 i
78
2
n1sx + n2s2
c2
y
n1 + n2 -2
= .
n1 + n2 - 2
s n1 + n2 - 2
y - x - (a2 - a1)
Wyżej pokazaliśmy, że ZL z = ma rozkład N0, 1. Wobec tego, że
1 1
s +
n1 n2
ZL (7.1) i z są niezależne, otrzymujemy, że ZL
y - x - (a2 - a1)
1 1
s +
n1 n2
y - x - (a2 - a1) n1n2(n1 + n2 - 2)
h = =
2 2
n1 + n2
n1sx + n2s2 n1sx + n2s2
y y
s n1 + n2 - 2
ma rozkład Studenta o n1 + n2 - 2 stopniach swobody (patrz określenie tego rozkładu
w p. 6.3).
y - x n1n2 (n1 + n2 - 2)
Przy założeniu prawdziwości H0 ZL h0 =
ma
2
n1 + n2
n1sx + n2s2
y
także rozkład Studenta o n1 + n2 - 2 stopniach swobody. Jest jasne, że im bliżej sie-
bie są wartości a1 i a2 , tym mniejsza jest wartość bezwzględna statystyki h. Dlatego
jako obszar krytyczny możemy wziąć K ={x :| h|ł C}. Znając poziom istotności a ,
wybierzmy stałą C z warunku
P{x K H0} = P{| h|ł C H0} = P{| h0 |ł C} = 2P{h0 ł C} = a ,
skąd wynika, że C = tn1 +n2 -2, 1-a 2 . Stałą C znajdujemy, więc, korzystając z tablic
rozkładu Studenta.
Kryterium weryfikacji hipotezy H0 : a1 = a2 ma więc postać następującą:
jeżeli | h0 |ł C , to hipotezę H0 odrzucamy,
jeżeli | h0 |< C , to hipoteza H0 nie jest sprzeczna względem wyników doświad-
czeń (danych próbki).
3) Niech a1 i a2 są nieznane. Należy zweryfikować hipotezę H0 : s12 = s22. Dla
estymatorów wariancji nieobciążonych
n1 n2
1 1
2 2
s0x = i s0 y =
(x - x)2 (y - y)2
n1 - 1i=1 i n2 - 1i=1 i
na mocy wniosku z lematu Fishera mamy
2
2
s0 c2
s0x c2
n1 -1 y n2 -1
= , = .
s12 n1 -1 s22 n2 -1
79
Przedstawione tu ZL są niezależne, ponieważ odnoszą się do niezależnych próbek.
Wówczas przy założeniu prawdziwości hipotezy H0 stosunek
c2
n1 -1
2
s0x n1 -1
=
2
s0 y c2
n2 -1
n2 -1
ma rozkład Fishera o n1 -1, n2 - 1 stopniach swobody (patrz p. 6.4), a stosunek
c2
n2 -1
2
s0 y n2 -1
=
2
s0x c2
n1 -1
n1 -1
ma rozkład Fishera o n2 -1, n1 -1 stopniach swobody. Przyjęto jako statystykę kry-
terium korzystać ze stosunku, w którym licznik jest większy niż mianownik. Niech
2
s01
2 2 2 2 2 2
s01 = max(s0x , s0 y ) , s02 = min(s0x , s0 y ). Wprowadzmy ZL z = . Przy założeniu
2
s02
prawdziwości hipotezy H0 ZL z0 = z ma rozkład Fk1, k2 , gdzie k1 = n1 - 1, k2
H0
2 2 2 2
= n2 - 1 gdy s0x > s0 y , oraz k1 = n2 - 1, k2 = n1 - 1 gdy s0 y > s0x . Wybierzmy liczby
F1 i F2 (korzystając z tablicy rozkładu Fishera) tak, aby spełniony był warunek
a
P{z0 Ł F1} = P{z0 ł F2} = ,
2
gdzie a jest poziomem istotności kryterium. Jest oczywiste, że ZL 1 z0 ma rozkład
Fk2 , k1 , skąd wynika, że

1 1 a
P{z0 Ł F1} = P ł = .
ż
F1 2
z0
Korzystając z tablicy rozkładu Fishera, znajdujemy F2 i 1 F1 jako odpowiednie
a 1 a

kwantyle: F2 = Fć k1, k2, , = Fćk2, k1, .

2 F1 2
Ł ł Ł ł
Wybierzmy obszar krytyczny:
K = KF1 , F2 = {x :z Ł F1 albo z ł F2}.
Mamy wówczas
P{x K H0} = P{z Ł F1 albo z ł F2 H0} = P{z0 Ł F1 albo z0 ł F2} =
a a
= P{z0 Ł F1} + P{z0 ł F2} = + = a .
2 2
Kryterium weryfikacji hipotezy H0 : s12 = s22 ma, więc, postać:
80
jeżeli z0 Ł F1 albo z0 ł F2 , to hipotezę H0 odrzucamy;
jeżeli F1 < z0 < F2 , to hipoteza H0 nie jest sprzeczna względem danych próbki.
Kryterium 2 Pearsona w schemacie wielomianowym. Rozważmy n identycz-
nych doświadczeń niezależnych, w każdym z których zachodzi jedno i tylko jedno z
k zdarzeń rozłącznych A1, ..., Ak . Prawdopodobieństwa zajścia zdarzeń w poszcze-
gólnych doświadczeniach są równe
k
p(A1) = P{A1} = p1, ..., p(Ak ) = P{Ak } = pk ( pi =1).

i =1
Oznaczmy przez mi liczbę zajścia zdarzenia Ai w n doświadczeniach (i =1, k,
k k
i
= .
m = n ). Utwórzmy statystykę c2 (m - npi )2
i
npi
i =1 i =1
K. Pearson udowodnił twierdzenie, z którego wynika, że
lim P{c2 < t} = P{c2 < t},
k -1

gdzie c2 jest ZL, mająca rozkład c2 o k -1 stopniach swobody.
k -1
Możemy, więc, uważać, że przy dużej liczności próbki n ZL c2 zachowuje się w
przybliżeniu tak samo, jak ZL c2 .
k -1
Załóżmy, że na podstawie wyników n niezależnych doświadczeń należy zwery-
fikować hipotezę
0 0
H0 : p1 = p1 , ..., pk = pk ,
0 0 0 0
gdzie p1 , ..., pk są dane liczby nieujemne takie, że p1 + ... + pk =1. Ponieważ dla
mi
dużych n na podstawie prawa wielkich liczb mamy pi , tj. mi - npi 0 , to przy
n
założeniu prawdziwości H0 wartości statystyki c2 nie mogą być zbyt duże. Obszar
krytyczny K należy, więc, wybrać w taki sposób, aby hipoteza H0 została odrzu-
p
cona, gdy wartość statystyki c2 przekroczy pewną wielkość graniczną. Dlatego
wiezmy K = {x : c2 ł c2 }. Wybierzmy poziom istotności a . Niech c2 = c2 =
p kr. 0 H0
k
(mi - npi0 )2
= . Wybierzmy c2 w taki sposób, aby
kr.
npi0
i=1
2
P{x K H0} = P{c2 ł c2 H0} = P{c0 ł c2 } = a .
p kr. kr.
Jak wynika z rezultatu K. Pearsona, ostatnią równość możemy zastąpić równością
przybliżoną P{c2 ł c2 } a . Wówczas korzystając z tablic rozkładu c2 możemy
k -1 kr.
znalezć wartość przybliżoną c2 = c2 (k -1, a) .
kr.
Kryterium weryfikacji hipotezy H0 ma, więc, postać następującą:
81
2
jeżeli c0 ł c2 (k -1, a), to hipotezę H0 odrzucamy;
2
jeżeli c0 < c2 (k -1, a), to hipoteza H0 nie jest sprzeczna wynikom doświad-
czeń.
Warto jeszcze raz podkreślić, że kryterium tę należy stosować tylko dla próbek o
dużej liczności.
7.4. Kryteria zgodności
Niech x1, ..., xn będzie próbką z rozkładu P o dystrybuancie nieznanej F(x) . Na-
0 0
leży zweryfikować hipotezę H0 : F(x) = F (x) , gdzie F (x) jest daną z góry dys-
0 0
trybuantą (tj. F (x) jest niemalejąca, lewostronnie ciągła oraz F (-Ą) = 0 ,
0
F (+Ą) =1). Hipoteza o takiej postaci nazywa się hipotezą zgodności, a kryteria jej
weryfikacji  kryteriami zgodności.
Najczęściej kryteria zgodności są budowane w sposób następujący. Jak wiemy,
*
dystrybuanta teoretyczna F i dystrybuanta empiryczna Fn są bliskie siebie przy du-
*
żych n. Wybierzmy pewną miarę odchylenia n = n (Fn , F) = n (x1, ..., xn ) funkcji
*
Fn od funkcji F. Wybór taki nie jest jednoznaczny, w zależności od sposobu wyboru
uzyskujemy różne kryteria zgodności. Załóżmy, że udało się znalezć rozkład gra-
niczny ZL n gdy n Ą . ZL o takim rozkładzie oznaczmy przez . Obszar kry-
tyczny KF wybieramy w sposób następujący: KF = {x : ł kr.}. Znając poziom
istotności a znajdziemy następnie kr. z równania
P{x KF H0} = P{ ł kr. H0} = P{0 ł kr.},
gdzie 0 = jest wartością miary granicznej przy warunku prawdziwości hipote-
H
0
zy H0 . Kryterium dla weryfikacji hipotezy H0 budujemy, więc, w sposób standar-
dowy:
jeżeli 0 ł kr., to hipotezę H0 odrzucamy;
jeżeli 0 < kr., to uważamy, że hipoteza H0 odpowiada danym próbki.
Warto zauważyć, że kryteria zgodności stanowią przypadek szczególny testów
istotności, ponieważ nie uwzględniają prawdopodobieństwa błędu 2-go rodzaju.
Kryterium 2 Pearsona jako kryterium zgodności. Niech x1, ..., xn będzie
próbką z rozkładu P o dystrybuancie nieznanej F(x) . Należy zweryfikować hipotezę
0 0
H0 : F(x) = F (x) , gdzie F (x) jest daną z góry dystrybuantą. Dzielmy prostą rze-
czywistą R na k rozłącznych przedziałów D1 = (z0 = -Ą; z1) , D2 = [z1; z2 ),
D3 = [z2; z3) , ..., Dk = [zk -1; zk = +Ą) . Oznaczmy przez Ai zdarzenie polegające na
tym, że wartość ZL teoretycznej x trafi do przedziału Di , wówczas mamy pi =
82
= p(Ai ) = P{xDi} = F(zi ) - F (zi -1), i =1, k . Oznaczmy przez mi liczbę wartości
próbki co trafili do przedziału Di , tj. liczbę zajścia zdarzenia Ai w n doświadcze-
niach.
0
Załóżmy, że hipoteza H0 jest prawdziwa, tj. F = F . Tym bardziej, więc, praw-
0 0 0 0 0 0
ó
dziwa jest hipoteza H0 : p1 = p1 , ..., pk = pk , gdzie p1 = F (z1) - F (z0 ) = F (z1) ,
0 0 0 0 0 0 0
p2 = F (z2) - F (z1), ..., pk = F (zk ) - F (zk -1) =1 - F (zk -1) .
Wówczas zagadnienie weryfikacji hipotezy H0 sprowadza się do weryfikacji hi-
potezy sprawdzania odpowiednich prawdopodobieństw w schemacie wielomiano-
k
i
wym. Utwórzmy statystykę c2 = , której rozkład graniczny przy
(m - npi )2
npi
i =1
n Ą na mocy twierdzenia Pearsona zgadza się z rozkładem c2 o k -1 stopniach
0 0
swobody. Obliczamy, więc, pi0 = F (zi ) - F (zi -1) , i =1, k , następnie obliczamy
wartość statystyki c2 przy założeniu prawdziwości hipotezy H0 :
k
(mi - npi0 )2
c2 = c2 = .
0 H
0
npi0
i =1
Znając poziom istotności a , znajdujemy korzystając z tablic rozkładu c2 odpowied-
ni kwantyl c2 (k - 1, a) . Kryterium weryfikacji hipotezy H0 wygląda, więc, następu-
jącą:
2
jeżeli c0 ł c2 (k -1, a), to hipotezę H0 odrzucamy;
2
jeżeli c0 < c2 (k -1, a), to uważamy, że hipoteza H0 odpowiada danym próbki.
*
Uwaga 1. W danym przypadku miarą odchylenia Fn od F służy
k
*
i
c2 = (Fn , F) = .
(m - npi )2
npi
i=1
Uwaga 2. Na ile części i w jaki sposób należy dzielić prostą rzeczywistą? Istnieje
wiele rekomendacji co do tego pytania. M. Kendall i J. Stewart proponują skompli-
kowaną procedurą, w której przedziały wybierają w taki sposób, aby prawdopodo-
1
0 0
bieństwa teoretyczne pi0 były równe siebie p1 = ... = pk = . Zwykle postępują w
k
sposób prostszy, dzieląc przedział [ x(1); x(n) ) na dostatecznie wielką liczbę przedzia-
łów o tej samej długości, następnie zakładają, że D2, ..., Dk -1 są częściami we-
wnętrznymi takiego podziału, jako D1 wybierają sumę przedziału (-Ą; x(1)) i pierw-
szego przedziału otrzymanego przy podziale [ x(1); x(n) ), jako Dn wybierają sumę
ostatniego otrzymanego przy podziale [ x(1); x(n) ) przedziału i przedziału [xn; + Ą) .
83
Polecono, aby dla każdego Di była spełniona nierówność npi0 ł 5 . Należy, więc,
opracować algorytm zmiany podziału na Di w tym przypadku, gdy podana nierów-
ność nie jest spełniona dla wszystkich przedziałów. Podział prostej rzeczywistej i
wspomniany algorytm należy opracować przed tym, jak będą znane dane próbki. Sto-
sowanie podziału i algorytmy do konkretnej próbki prowadzi do tego, że końce zi
otrzymanych przedziałów będą funkcjami od x1, ..., xn , tj. zmiennymi losowymi, na-
tomiast twierdzenie Pearsona jest prawdziwe tylko w przypadku podziału prostej z
ustalonymi końcami przedziałów (nie zależnie od danych próbki). Załóżmy, że po-
przednie prosta rzeczywista została podzielona w podany wyżej sposób. Przykładem
algorytmu prawidłowego podziału spełniającego warunek npi0 ł 5 jest następujący:
jeżeli wskazany warunek jest spełniony w przedziale D1 , ten przedział nie ulega
zmianie, w przypadku przeciwnym łączymy ten przedział z D2. Jeżeli w nowym
otrzymanym przedziale dany warunek wciąż nie będzie spełniony, łączymy razem
D1 , D2 i D3 itd. dopóki nierówność nie będzie spełniona. Otrzymujemy w końcu
danej procedury nowy przedział D1 . Dalej bierzemy następny przedział (po nowym
D1 ) i postępujemy w podobny sposób, łącząc go w razie potrzeby z następnymi prze-
działami, itd. Przy takim postępowaniu liczba przedziałów otrzymanych przy począt-
kowym podziale prostej albo zmniejsza się, albo zostanie bez zmian.
Zauważmy, że z kryterium c2 należy korzystać w przypadku próbek o dużej
liczności. Autorzy rozważne polecają korzystać z tego kryterium, gdy n ł150 . Bar-
dziej odważne autorzy korzystają z niego, gdy n ł 30 .
Uwaga 3. Podejrzewamy, że ZL teoretyczna x spełnia rozkład normalny, które-
go parametry są nieznane. Wtedy słuszna jest weryfikacja hipotezy
H0 : ZL x ma rozkład N .
2
x, s0
Czy możemy dla jej weryfikacji korzystać z kryterium c2 ? Można dowieść, że w
tym przypadku całą procedura pozostaje w mocy z wyjątkiem tego, że wielkość
c2 (k - 1, a) należy zastąpić przez c2 (k - 3, a) . W przypadku ogólnym, jeżeli prób-
kę tworzymy przy założeniu, że ZL teoretyczna ma rozkład o dystrybuancie
0
F (x q1, ..., qm) , co zależy od m parametrów nieznanych, to najpierw należy wyzna-
~ ~
czyć ich estymatory q1, ..., qm (np. za pomocą metody największej wiarygodności).
~ ~
0
Następnie należy zweryfikować hipotezę H0 : F(x) = F (x q1, ..., qm ) . Wówczas
rezultat Pearsona pozostaje w mocy z wyjątkiem tego, że rozkładem granicznym sta-
tystyki
k
i
c2 =
(m - npi )2
npi
i =1
84
będzie rozkład c2 o k - m -1 stopniach swobody. Kryterium Pearsona w danym
przypadku można, więc, stosować, tylko że liczba stopni swobody przy obliczaniu
odpowiedniego kwantyla zmniejsza się o m. Oczywiście, w przypadku tym liczba
części rozbicia prostej rzeczywistej k musi być większa niż m.
Kryterium zgodności 2. Stosowanie kryterium c2 polega na podziale prostej
rzeczywistej na części w pewnym stopniu w sposób dowolny, co prowadzi do utraty
części informacji a więc do tego, że wynik stosowania danego kryterium może zale-
żeć od sposobu podziału. Rozważmy teraz kryterium swobodny od wskazanej wady.
Przez H. Cramera, R. Mizesa i N. V. Smirnova wprowadzono następującą miarę
odchylenia dystrybuanty empirycznej od dystrybuanty teoretycznej:

*
(Fn , F) = Fn (x) - F(x) |dK(x) ,
| *

gdzie K(x) jest w pewnym sensie dowolną funkcją niemalejącą. N. V. Smirnov w
jakości K(x) zaproponował wziąć funkcję F(x) , co prowadzi do miary

w2 = Fn (x) - F(x) |dF(x).
| *

Jeżeli w ostatni wzór podstawić postać dystrybuanty empirycznej
0, gdy x Ł x(1),


1
, gdy x(1) < x Ł x(2),

n
2

*
Fn (x) = , gdy x(2) < x Ł x(3),

n
...............................

1, gdy x > x(n) ,



to po obliczeniach (oblicz samodzielnie) otrzymujemy
2
n
1 1
w2 = + .
F(x ) - 2k -1ł
(k )
ę ś
n 2n
12n2
k =1
N. V. Smirnov udowodnił, że w przypadku ciągłej funkcji F(x) dla Wn = nw2
istnieje granica
lim P{Wn < x} = P{W < x},

której wartość nie zależy od F.
Istnieją tablicy rozkładu ZL granicznej W, z których możemy znając poziom
istotności a wyznaczyć punkt krytyczny Wa spełniający warunek P{W ł Wa} = a .
Niech poziom istotności a jest znany. Znajdziemy Wa . Następnie obliczamy
85
2
n
1 1
2
Wn0 = nw0 = nw2 = n +
F 0(x(k ) - 2k -1ł
ż.
H )
0 2 ę ś
2n

12n n k =1

Kryterium weryfikacji hipotezy H0 wygląda następującą:
0
jeżeli Wn0 ł Wa , to hipotezę F(x) = F (x) odrzucamy,
0
jeżeli Wn0 < Wa , to hipoteza F(x) = F (x) nie jest sprzeczna z danymi próbki.
Kryterium zgodności Kołmogorowa. A. N. Kołmogorow zaproponował wpro-
wadzić następującą miarę odchylenia dystrybuanty empirycznej od dystrybuanty teo-
retycznej:
*
Dn = sup | Fn (x) - F(x) |.
xR
On udowodnił (patrz p. 1.6), że jeżeli funkcja F(x) jest ciągła, to dla ZL Kn = nDn
istnieje granica
Ą
2
lim P{Kn < x} = P{K < x} =1 - 2 e-2r .
(-1)r -1 x2

r =1
Istnieją tablicy rozkładu ZL granicznej K, z których możemy znając poziom
istotności a wyznaczyć punkt krytyczny Ka spełniający warunek P{K ł Ka} = a .
Niech poziom istotności a jest znany. Znajdziemy Ka . Następnie obliczamy
* 0
Kn0 = nDn0 = nDn H 0 = n sup | Fn (x) - F (x) |.
Kryterium weryfikacji hipotezy H0 wygląda następującą:
0
jeżeli Kn0 ł Ka , to hipotezę F(x) = F (x) odrzucamy,
0
jeżeli Kn0 < Ka , to hipoteza F(x) = F (x) nie jest sprzeczna z danymi próbki.
86


Wyszukiwarka

Podobne podstrony:
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 6
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 2
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 3
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 5
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 1
Boratyńska A Wykłady ze statystyki matematycznej
Wislicki W Zadania ze statystyki matematycznej
wykład statystyka matematyczna cz 4
wykład S1 Statystyka matematyczna
Mikołaj Rybaczuk Materiały do ćwiczeń i wykładów ze statystyki Politechnika BIałostocka
Wykład ze statystyki dobry
Wyklady ze statystyki
Wzory statystyka Matematyczna
STATYSTYKA MATEMATYCZNA w1

więcej podobnych podstron