Weryfikacja hipotez statystycznych

6. Weryfikacja hipotez

–     hipoteza statystyczna, budowa testów istotności,

–     hipoteza parametryczna i nieparametryczna, h. zerowa i alternatywna; błędy I i II rodzaju, poziom istotności, sprawdzian testu, obszar odrzucenia, wartość krytyczna testu, moc testu,

–     testy parametryczne dotyczące: wartości oczekiwanej, równości dwóch wartości oczekiwanych, wariancji, równości dwóch wariancji, wskaźnika struktury,

–     testy nieparametryczne dotyczące: losowości, zgodności z rozkładem teoretycznym, zgodności dwóch rozkładów empirycznych, niezależności,

 

Wnioskowanie statystyczne:

-         estymacja parametrów zbiorowości generalnej,

-         weryfikacja hipotez statystycznych.

 

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych: sprawdzenie sformułowanych hipotez statystycznych, podjęcie decyzji statystycznych

Hipoteza statystyczna: sąd (przypuszczenie) odnoszący się do nieznanych właściwości rozkładu cechy (zmiennej losowej) w zbiorowości generalnej.

hipotezy parametryczne: sądy dotyczące parametrów rozkładu cechy w populacji generalnej,

hipotezy nieparametryczne: sądy dotyczące innych niż parametry własności rozkładu cechy (lub cech) w populacji generalnej (np. kształtu rozkładu, związku pomiędzy wartościami dwóch cech, losowości próby).

Przykład 1

Norma dziennego zużycia wody w fabryce wynosi 1000 m3, lecz zużycie w poszczególnych dniach podlega wahaniom losowym. Na podstawie obserwacji n=315 dni roku stwierdzono, że średnie żużycie wody wynosiło 1029 m3, a wariancja 191. Czy można przypuszczać, że zużycie to jest zgodne z normą?

Przykład 2

Przeciętna płaca w gospodarce narodowej w roku 1985 wyniosła 20 000 zł. W wylosowanej próbie 200 pracowników ochrony zdrowia średnia płaca wynosiła 15 500 zł, przy odchyleniu standardowym 2500 zł. Czy średnia płaca w podanej grupie różni się istotnie od średniej w całej gospodarce narodowej?

Przykład 3

Studenci I roku pewnego kierunku zdają egzamin z matematyki u jednego z pięciu egzaminatorów, do których trafiają losowo. Liczby ocen niedostatecznych uzyskanych na egzaminie przez jednakowo liczne grupy pewnego roku były następujące:

nr egzaminatora 1 2 3 4 5
liczba ocen niedost. 7 9 14 6 2

Czy można twierdzić, że rozkład ocen niedostatecznych wśród różnych egzaminatorów jest równomierny?

 

Procedura weryfikacji hipotez statystycznych (testy istotności):

1.     Sformułowanie hipotezy zerowej i hipotezy alternatywnej,

2.     Wybór testu statystycznego i wyznaczenie wartości sprawdzianu testu (wyniku testu),

3.     Określenie obszaru odrzucenia W dla testu przy przyjętym poziomie istotności α,

4.     Określenie, czy wynik testu należy do obszaru odrzucenia,

5.     Sformułowanie wniosku.

 

Hipoteza zerowa (H0): podstawowe przypuszczenie, które jest przedmiotem weryfikacji,

Hipoteza alternatywna (H1): hipoteza konkurencyjna w stosunku do hipotezy zerowej:

H0: w populacji generalnej występuje pewna własność

H1: w populacji generalnej nie występuje pewna własność

 

W procesie weryfikacji

–     odrzuca się H0 i wówczas przyjmuje się H1 albo

–     stwierdza się, że nie ma podstaw, aby odrzucić H0.

 

Testy statystyczne:

–     testy parametryczne: służą do weryfikacji hipotez parametrycznych

–     testy nieparametryczne - służą do weryfikacji hipotez nieparametrycznych

 

Rodzaje błędów weryfikacji:

−         błąd I rodzaju, polegający na odrzuceniu hipotezy zerowej wtedy, gdy jest ona w rzeczywistości prawdziwa, jego prawdopodobieństwo będziemy oznaczać przez α i nazywać poziomem istotności,

−         błąd II rodzaju, polega na przyjęciu hipotezy zerowej wtedy gdy jest ona w rzeczywistości fałszywa, czyli jeśli jest prawdziwa hipoteza alternatywna, jego prawdopodobieństwo będziemy oznaczać przez β.

Ad. Przykład 1:

Hipoteza zerowa H0:  = 1000 m3,

hipoteza alternatywna H1: ≠ 1000 m3 lub > 1000 m3

przyjąć poziom istotności α=0,01

 

Obszar odrzucenia:

−         dwustronny ,

−         jednostronny: lewostronny lub prawostronny.


Testy parametryczne

Testy weryfikujące hipotezę o wartości oczekiwanej w populacji

H0: µ=µ0

wobec jednej z możliwych H1: µµ0, H1: µ>µ0, H1:µ<µ0

I. Populacja o rozkładzie normalnym, znana jest wariancja

sprawdzian testu

µ0  - przypuszczalna (teoretyczna) wartość oczekiwana w populacji generalnej,

σ  - znana wartość odchylenia standardowego w populacji generalnej,

 - średnia arytmetyczna obliczona dla próby,

n - liczebność próby.

Obszar odrzucenia:

1.     H1: µµ0

,

- wartość zmiennej losowej u odczytana z tablic dystrybuanty rozkładu normalnego standaryzowanego tak, aby .

 

2.     H1: µ>µ0

, gdzie

3.     H1: µ<µ0

, gdzie , czyli
II. Rozkład cechy w populacji normalny, nieznana jest wariancja (mała próba)

sprawdzian testu

S  - odchylenie standardowe obliczone dla próby.

 

Obszar odrzucenia:

1.               H1: µµ0

, k=n-1

 

2.              H1: µ>µ0

3.              H1: µ<µ0

III. Nieznany (dowolny) rozkład, duża próba

sprawdzian testu

Obszar odrzucenia jak w p. I.

Testy weryfikujące hipotezę o równości dwóch wartości oczekiwanych

H0: µ12

wobec jednej z możliwych H1: µ1µ2 , H1: µ12, H1: µ12

I. Populacje o rozkładzie normalnym, znane są wariancje w populacjach gen.

sprawdzian testu

II. Populacje o rozkładzie normalnym, nieznane są wariancje w populacjach

sprawdzian testu

III. Nieznany (dowolny) rozkład, duża próba

sprawdzian testu

Test weryfikujący hipotezę o wariancji w populacji generalnej

Rozkład cechy w populacji normalny

sprawdzian testu

jeżeli , to ,

jeżeli , to ,

jeżeli , to

 

Test weryfikujący hipotezę o dwóch wariancjach w dwóch populacjach generalnych

,

sprawdzian testu , , r1=(n1-1) i r2= (n2-1)

Test weryfikujący hipotezę o wskaźniku struktury w populacji generalnej

H0: p=p0,

sprawdzian testu

Test weryfikujący hipotezę o równości dwóch wskaźników struktury

H0: p1=p2

,

,

,

Testy nieparametryczne

dotyczące: zgodności z rozkładem teoretycznym, niezależności, zgodności dwóch rozkładów empirycznych, losowości

 

Test zgodności z rozkładem teoretycznym

H0 : F(x)=F0(x), tzn. rozkład F(x), z którego pochodzi próba pokrywa się z pewnym rozkładem teoretycznym F0(x),

H1 : F(x)F0(x), tzn. rozkład F(x), z którego pochodzi próba jest różny od rozkładu teoretycznego F0(x),

gdzie:

F(x)-dystrybuanta rozkładu empirycznego badanej cechy,

F0(x)-określona postać teoretyczna dystrybuanty.

Sprawdzian testu: ,

gdzie:

ni  – liczebność i-tej klasy, (i=1,2,3,..,r), ,

pi  – prawdopodobieństwo, że wartość cechy o rozkładzie F0(x) będzie należała do i-tej klasy,

npi – liczebność teoretyczna i-tej klasy, tzn. liczebność i-tej klasy przy założeniu prawdziwości hipotezy H0.

Jeżeli weryfikowana hipoteza jest prawdziwa, to sprawdzian testu ma przy
n rozkład o (r-s-l) stopniach swobody, gdzie s jest liczbą szacowanych parametrów rozkładu z próby.

Obszar odrzucenia .

Średnia wartość ni nie powinna być mniejsza od 10 i liczba klas r nie mniejsza od 5.

Przykład

Studenci I roku pewnego kierunku zdają egzamin z matematyki u jednego z pięciu egzaminatorów, do których trafiają losowo. Liczby ocen niedostatecznych uzyskanych na egzaminie przez jednakowo liczne grupy pewnego roku były następujące:

nr egzaminatora 1 2 3 4 5
liczba ocen niedost. 7 9 14 6 14

Czy można twierdzić, że rozkład ocen niedostatecznych wśród różnych egzaminatorów jest równomierny? Przyjąć poziom istotności 0,1.

 

H0: rozkład ocen niedostatecznych jest równomierny,

H1: rozkład ocen niedostatecznych jest różny od równomiernego.

nr egzaminatora

liczba ocen niedost.

ni

Prawdopodobieństwo teoret. pi npi
1 7 10 9 0,9
2 9 10 1 0,1
3 14 10 16 1,6
4 6 10 16 1,6
5 14 10 16 1,6
Suma 50       5,8

 

= 5,8

Liczba stopni swobody 5-0-1=4, , ,

, co oznacza, że nie ma podstaw, żeby uważać, że egzaminatorzy stawiają oceny niedostateczne w sposób nierównomierny.


Przykład

Sprawdzić, czy można na poziomie istotności 0,05 uważać, że rozkład odchyleń losowych pewnego zjawiska od normy jest rozkładem normalnym.

Xid - Xig ni
-10 - -8 2
-8 - -6 0
-6 - -4 11
-4 - -2 18
-2 - 0 34
0 - 2 29
2 - 4 19
4 - 6 11
6 - 8 1
8 - 10 1
      126

Aby porównać rozkład z próby z rozkładem normalnym trzeba określić parametry tego ostatniego. W tym przypadku oszacujemy wartość oczekiwaną przez średnią z próby, odchylenie standardowe przez odchylenie standardowe z próby:

Xid Xig ni
-10 -8 -9 2 -18 160,86
-8 -6 -7 0 0 0
-6 -4 -5 11 -55 271,52
-4 -2 -3 18 -54 158,59
-2 0 -1 34 -34 31,88
0 2 1 29 29 30,87
2 4 3 19 57 174,64
4 6 5 11 55 278,50
6 8 7 1 7 49,45
8 10 9 1 9 81,57
      n=126 -4 1237,87

, ,

zatem stawiamy hipotezy:

H0: rozkład odchyleń jest zgodny z rozkładem N(-0,032;3,13),

H1: rozkład odchyleń nie jest zgodny z rozkładem N(-0,032;3,13).

 

Kolejnym krokiem jest wyznaczenie prawdopodobieństw pi, z którymi zmienna o rozkładzie założonym w hipotezie zerowej należy do poszczególnych przedziałów klasowych:

Do zamieszczenia pozostałych obliczeń wykorzystamy tabelę pomocniczą:

 

Xid

 

Xig

-10 -8   -2,5422 0 0,0055 0,0055
-8 -6 -2,5422 -1,9041 0,0055 0,0284 0,0229
-6 -4 -1,9041 -1,2660 0,0284 0,1027 0,0743
-4 -2 -1,2660 -0,6280 0,1027 0,2650 0,1623
-2 0 -0,6280 0,0101 0,2650 0,5040 0,2390
0 2 0,0101 0,6482 0,5040 0,7416 0,2375
2 4 0,6482 1,2863 0,7416 0,9008 0,1593
4 6 1,2863 1,9244 0,9008 0,9728 0,0720
6 8 1,9244 2,5625 0,9728 0,9948 0,0220
8 10 2,5625   0,9948 1 0,0052

Teraz już można przejść do wyznaczenia wartości sprawdzianu testu:

Xid - Xig ni
-10 - -8 2 0,0055 1,306015 2,457799
-8 - -6 0 0,0229 -2,89036 2,890356
-6 - -4 11 0,0743 1,637862 0,286536
-4 - -2 18 0,1623 -2,44563 0,292537
-2 - 0 34 0,2390 3,882997 0,500636
0 - 2 29 0,2375 -0,92946 0,028864
2 - 4 19 0,1593 -1,06598 0,056629
4 - 6 11 0,0720 1,925902 0,408756
6 - 8 1 0,0220 -1,76657 1,128025
8 - 10 1 0,0052 0,345216 0,182006
            8,232146

Sprawdzian testu

, liczba stopni swobody 10-2-1=7, wartość krytyczna

Obszar odrzucenia , . Zatem na poziomie istotności 0,05 nie ma podstaw, by twierdzić, że rozkład wyników z próby nie pochodzi z populacji o rozkładzie normalnym (rozkład nie różni się istotnie od normalnego)
Test niezależności

Dwie cechy XY (niekoniecznie mierzalne).

H0: obie cechy są niezależne, tzn.: H0,

H1: obie cechy są zależne, tzn. H1,

Sprawdzian testu ,

gdzie

nij - liczebność elementów z i -tej grupy według cechy X (i =1,2,...,r) i  j-tej grupy według cechy Y (j=1,2,...,s),

- teoretyczna liczebność klasy przy założeniu niezależności cech,

 

  yj        
xi y1 y2 ... ys
x1 n11 n12 ... n1s n1.
x2 n21 n22 ... n2s n2.
... ... ... ... ... ...
xr nr1 nr2 ... nrs nr.
n.1 n.2 ... n.s n

Obszar odrzucenia ,

gdzie jest wartością odczytaną dla α i (r-1)(s-1) stopni swobody.


Przykład

Opierając się na przedstawionych poniżej wynikach ankiety przeprowadzonej wśród losowo wybranej 1000-osobowej grupie uczniów szkół licealnych w Łodzi należy sprawdzić, czy fakt sprawiania trudności wychowawczych w szkole przez młodzież jest związany z częstością spożywania alkoholu w domu. Przyjmując poziom istotności 0,05.

 

Jak często spożywa się alkohol w domu ucznia?

[nij]

Razem
Czy uczeń sprawia trudności wychowawcze? w ogóle nie bardzo rzadko
Tak 110 500
Nie 40 100
Razem n•j 150 600

H0: fakt sprawiania trudności wychowawczych przez młodzież nie zależy od częstości spożywania alkoholu w domu;

H1: fakt sprawiania trudności wychowawczych przez młodzież zależy od częstości spożywania alkoholu w domu.

Czy uczeń sprawia trudności wychowawcze?

Jak często spożywa się alkohol w domu ucznia?

Razem

 

  w ogóle nie bardzo rzadko
Tak 120 480
Nie 30 120
Razem n•j 150 600
Warianty cechy X i Y Razem
  w ogóle nie bardzo rzadko
Tak -10 20
Nie 10 -20
Razem n•j 0 0

 

Warianty cechy X i Y

 

Razem

  w ogóle nie bardzo rzadko
Tak 0,83 0,83
Nie 3,33 3,33
Razem n•j 4,17 4,17

Z tablic rozkładu χ2 odczytujemy wartość krytyczną

dla poziomu istotności i (2-1)(4-1)=3 stopni swobody: . Mamy zatem: , czyli hipotezę H0 odrzucamy na rzecz hipotezy alternatywnej H1.

Można sądzić przy prawdopodobieństwie błędu 5%, że fakt sprawiania trudności wychowawczych w szkole przez młodzież jest związany z częstością spożywania alkoholu w domu.


Test zgodności dwóch rozkładów empirycznych (t. serii)

Dane są dwie próby o liczebnościach odpowiednio równych n1 i n2, pochodzące z populacji generalnych, co do których nie ma pewności, czy rozkład cechy X jest w nich identyczny.

H0: dwie próby pochodzą z populacji o jednakowym rozkładzie, tzn. F1(x)=F2(x),

H1: dwie próby różnią się istotnie rozkładem, a więc F1(x)≠F2(x).

Obliczanie sprawdzianu testu k:

wyniki obu prób porządkujemy w jeden ciąg według rosnących wartości,

przyporządkowujemy elementom tego ciągu symbol a, jeśli pochodzą z pierwszej próby lub b, jeśli z drugiej i łączymy kolejne jednakowe znaki w serie, które liczymy i uzyskujemy w ten sposób liczbę serii k – sprawdzian testu.

Obszar odrzucenia jest , gdzie k – wartość krytyczna z tablic rozkładu serii dla ustalonego poziomu istotności oraz dla odpowiednich n1n2 (liczebności prób) taka by zachodziła równość .

Jeżeli ta sama wartość cechy X występuje w obu próbach należy przyjąć takie uporządkowanie symboli a i b, przy którym liczba serii jest mniejsza.

Przykład

Korzystając z Biuletynu Statystycznego z IV`97 otrzymano następujące dane dotyczące spożycia ryb (w kg/osobę) w wylosowanych rodzinach zamieszkujących:

miasta: 4,5; 8,2; 3,2; 6,6; 5,8; 9,4; 9,8; 5,6; 7,2; 7,8; 6,4; 8,4 oraz

tereny wiejskie: 2,2; 0,8; 2,6; 1,4; 1,5; 3,9; 4,6; 3,0.

Sprawdzić na poziomie istotności 0,025, czy spożycie ryb wśród rodzin zamieszkujących miasta i wsie istotnie różni się.

 

H0: spożycie ryb wśród rodzin zamieszkujących miasta i wsie nie różni się istotnie,

H1: spożycie ryb wśród rodzin zamieszkujących miasta i wsie istotnie różni się.

Podane wartości porządkujemy w szereg niemalejący i pod każdą daną oznaczamy, z której próby pochodzi (a -miasto, b- wieś):

k=6

Na poziomie istotności =0,025 i dla liczebności prób n1=12 i n2=8 wartość odczytana z tablic rozkładu serii wynosi , .

, należy zatem odrzucić hipotezę H0 na rzecz hipotezy alternatywnej H1. Spożycie ryb wśród rodzin zamieszkujących miasta i wsie różni się istotnie.

 


Test weryfikujący hipotezę o losowości próby (medianowy)

Próba: n obserwacji pobrana w pewien sposób z populacji o dowolnym rozkładzie

H0: próba ma charakter losowy,

H1: próba nie ma charakteru losowego.

Obliczanie sprawdzianu testu k:

wyznaczenie mediany z próby Me,

przyporządkowanie każdemu elementowi próby xi, według kolejności pobierania elementów do badania, symbolu a - jeśli xi<Me, bądź symbolu b, jeśli xi>Me, (wyniki xi=Me można pominąć),

z ciągu symboli a i b wyznaczamy ogólną liczbę serii k.

Obszar odrzucenia: , gdzie .

dla n1n2 (liczebności odpowiednio symboli a i b)

Przykład

Przeprowadzając badanie pracowników pewnego zakładu produkcyjnego z punktu widzenia stażu pracy, otrzymano następujące wartości tej cechy (w latach) dla kolejno wybranych pracowników: 5, 7, 4, 9, 11, 1, 18, 18, 3, 10, 6, 22, 13, 23, 3, 2, 2, 9, 11, 4, 20, 8, 30. Sprawdzić, czy otrzymana próba jest próbą losową na poziomie istotności 0,05.

H0: pobrana próba ma charakter losowy,

H1: pobrana próba nie jest próbą losową.

Wyznaczamy medianę z próby: w tym celu porządkujemy ciąg niemalejąco, czyli

1, 2, 2, 3, 3, 4, 4, 5, 6, 7, 8, 9, 9, 10, 11, 11, 13, 18, 18, 20, 22, 23, 30.

n=23, .

Wartość cechy xi=9 pomijamy, zatem mamy próbę n=21-elementową. Każdej wartości próby xi według kolejności pobierania elementów do badania przyporządkowujemy symbol a - jeśli xi<Me, bądź symbol b jeśli xi>Me. Otrzymujemy następujący ciąg:

Liczebność symboli a wynosi n1=11, natomiast symboli b - n2=10.

k=14

Odczytane wartości z tablic wynoszą odpowiednio k1=6, a k2=16.

, a więc nie ma podstaw do odrzucenia hipotezy H0.

 


Test mediany dla dwóch populacji

Dwie próby o liczebnościach n1 i n2 z dwóch populacji generalnych o dowolnych dystrybuantach rozkładów F1(x)F2(x).

Hipoteza o zgodności rozkładów:

H0: F1(x)=F2(x),

H1: F1(x)≠F2(x).

1.     z wyników obu prób należy wyznaczyć łączną medianę (Me),

2.     wszystkie obserwacje należy zgrupować w tablicę czteropolową:

Obserwacje Próba I  Próba II Razem
>Me n11 n12 n1•
<=Me n21 n22 n2•
Razem n•1 n•2 n

3.   tablicę tę należy potraktować jak tablicę niezależności i wyznaczyć wartość statystyki, tak jak miało to miejsce w teście niezależności ; statystyka ta ma przy założeniu prawdziwości hipotezy H0 asymptotyczny rozkład o jednym stopniu swobody,

4.     z tablic rozkładu dla ustalonego poziomu istotności i jednego stopnia swobody odczytujemy wartość krytyczną taką, że ,

5.     .

Test znaków

Dwie populacje generalne o ciągłych rozkładach i dystrybuantach F1(x) i F2(x), z których wylosowano n parami odpowiadających sobie elementów.

H0: dwie próby pochodzą z populacji o jednakowym rozkładzie, tzn. F1(x)=F2(x),

H1: dwie próby różnią się istotnie.

Weryfikacja hipotezy H0 testem znaków przebiega następująco:

1.     badamy znak różnicy par wyników w obu próbach i znajdujemy liczbę tych znaków, których jest mniej (jeśli są w próbie pary o identycznych wartościach, to nie rozważamy ich w teście), tzn. r = min(r-,r+), gdzie r- i r+ oznaczają odpowiednio liczbę znaków ujemnych i dodatnich różnic rozważanych par wyników,

2.     z tablic rozkładu liczby znaków odczytujemy dla liczby par wyników n oraz przyjętego poziomu istotności taką wartość krytyczną r, że ,

3.     obszar odrzucenia ma postać ,

4.     jeżeli , to odrzucamy hipotezę H0 na rzecz hipotezy alternatywnej, w przeciwnym przypadku tzn. gdy brak podstaw do odrzucenia hipotezy, że obie próby pochodzą z jednej populacji.

 


Wyszukiwarka

Podobne podstrony:
Weryfikacja hipotez statystycznych
w7i8, Weryfikacja hipotez statystycznych
Testowanie, WERYFIKACJA HIPOTEZ STATYSTYCZNYCH
5 Weryfikacja hipotez statystycznych z wykorzystaniem testˇw parametrycznych
Ćwiczenia 7 weryfikacja hipotez statystycznych
3 zadania, zadania weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych 2, SQL, Statystyka matematyczna
w5 weryfikacja hipotez statystycznych
weryfikacja hipotez statystycznych - wzory (1 str), Weryfikacja hipotez statystycznych
WERYFIKACJA HIPOTEZ STATYSTYCZNYCH
WERYFIKACJA HIPOTEZ STATYSTYCZNYCH
Weryfikacja hipotez statystycznych
Weryfikacja hipotez 3 (2 średnie), Semestr II, Statystyka matematyczna
Weryfikacja hipotez- Średnia Duża próba, Semestr II, Statystyka matematyczna
04 Statystyka Matematyczna Weryfikacja hipotez parametrycznychid 5193
Weryfikacja hipotez 4 (2 średnie), Semestr II, Statystyka matematyczna

więcej podobnych podstron