background image

Testowanie hipotez 

statystycznych

Hipotezy statystyczne;

Testowanie hipotez statystycznych;

Testy parametryczne;

Testy nieparametryczne.

background image

Hipotezy statystyczne, będące sformułowanymi 
przypuszczeniami dotyczącymi rozkładu 
populacji, mogą mieć różną postać, w zależności 
od hipotez badawczych. Weryfikacja hipotezy 
statystycznej odbywa się przez zastosowanie 
specjalnego narzędzia zwanego testem 
statystycznym.

W zależności od postaci postawionej hipotezy zerowej (czyli 
bezpośrednio sprawdzanej) oraz postaci hipotezy 
alternatywnej (tzn. konkurencyjnej w stosunku do hipotezy 
zerowej) sposób budowy testu jest różny.
Testy istotności to taki rodzaj testów w którym na podstawie 
wyników próby losowej podejmuje się jedynie decyzję 
odrzucenia sprawdzanej hipotezy, lub stwierdza się, że brak 
jest podstaw do jej odrzucenia, nie podejmuje się natomiast 
decyzji o przyjęciu tej hipotezy.

background image

Hipoteza statystyczna jest hipotezą dotyczącą parametrów 
(jest to tzw. hipoteza parametryczna) lub postaci rozkładu 
określonego zbioru (hipoteza nieparametryczna). W 
statystyce przeważnie nie mamy absolutnej pewności co do 
słuszności pewnej hipotezy, a osiągnięcie całkowitej 
pewności często jest nieopłacalne lub nawet z różnych 
względów niemożliwe. Proces sprawdzania hipotezy ma 
zwykle następujący przebieg: stawiamy pewną hipotezę 
odnośnie całej populacji, pobieramy próbę, badamy ją i na tej 
podstawie akceptujemy lub odrzucamy postawioną hipotezę.

 

Weryfikacja hipotezy statystycznej odbywa się przez 
zastosowanie specjalnego narzędzia, zwanego 

testem 

statystycznym

. Jest to reguła postępowania, która każdej 

możliwej próbie losowej przyporządkowuje decyzję przyjęcia 
lub odrzucenia sprawdzanej hipotezy. Należy jednak 
podkreślić, że przyjęcie lub odrzucenie hipotezy w teście 
statystycznym nie jest równoznaczne z logicznym 
udowodnieniem jej prawdziwości lub fałszywości. Należy 
bowiem pamiętać, że odrzucając sprawdzaną hipotezę w 
teście statystycznym, kierujemy się jedynie tym, że dane 
liczbowe wynikające z pomiarów dają nam małą szansę 
prawdziwości tej hipotezy.

background image

Testy parametryczne

Testy parametryczne pozwalają formułować szereg 
wniosków dotyczących różnych parametrów 
statystycznych. Badanie zjawisk w drodze obliczania 
wybranych parametrów jest bardzo efektywnym 
sposobem poznania, wynika to ze zwięzłej i precyzyjnej 
formy opisu. Jednak testy parametryczne, mimo swej 
różnorodności, nie dają odpowiedzi na wszystkie istotne 
pytania, głównie dlatego, że testy te mogą być stosowane 
w przypadku, gdy badana wielkość (populacja) ma 
rozkład normalny lub bardzo zbliżony do niego. Ponadto 
testy parametryczne, jak sama nazwa wskazuje, opisują 
pewną właściwość badanego zjawiska (wyników 
pomiarów), nie dając dostatecznych podstaw do 
formułowania wniosków ogólnych.

 

background image

1. Sformułowanie H

0

 i H

(H

0

m=4,0  H

1

m4,0; lub m>4,0; lub  m 

< 4,0)

2. Przyjęcie poziomu błędu I rodzaju  ( = 0,05)
3. Dobranie testu weryfikującego (statystyki, sprawdzianu hipotezy 
Z

n

)

    w zależności od rodzaju hipotezy

4. Ustalenie obszaru krytycznego testu (odczytanie wartości 
krytycznej statystyki weryfikującej z tablic dla : z

tabl

, z

kr

, z

)

5. Obliczenie wartości statystyki na podstawie próbki (z

obl

, z

emp

)

6. Porównanie dwu statystyk i podjęcie decyzji o przyjęciu lub 
odrzuceniu hipotezy H

0

7. Interpretacja podjętej decyzji

Kolejność czynności przy weryfikacji hipotez

background image

DECYZJ A STATYSTYKA 

HIPOTEZA 

ZEROWA J EST 

przyjąć H

odrzucić H

PRAWDZIWA 

Nie ma błędu 

1 

 

Błąd I rodzaju 

 

FAŁSZYWA 

Błąd II rodzaju 

 

Nie ma błędu 

1 

 

 

 = P(H

0

 odrzucona/H

0

 jest prawdziwa)    = P(H

0

 

nieodrzucona/H

0

 jest fałszywa)

 = poziom błędu I rodzaju,    = poziom błędu II rodzaju,  1 = moc 

testu

Prawidłowość podejmowanych 

decyzji

background image

Testy istotności dla średnich

I.    Testy istotności dla średniej m populacji o 
rozkładzie normalnym. Znana σ. Próbka  n 
elementowa.

n

m

x

u

0

Hipoteza  H

0

 :  m = m

o

   hipoteza 

alternatywna  H

1

 :      

m

 -  pewna wartość konkretna.

0

m

m

X ~ N(m,σ)

   

u

U

U

Q

u

U

P

:

Wyznaczamy obszar 
krytyczny Q

Hipoteza 
alternatywn
a postaci 

u

U

U

Q

u

U

P

m

m

H

:

:

0

1

u

U

U

Q

u

U

P

m

m

H

:

:

0

1

n

m

N

X

,

   

~

 

background image

Testy istotności dla średnich

II.    Testy istotności dla średniej m populacji o 
rozkładzie normalnym. Nieznana σ. Próbka  n 
elementowa.

Hipoteza  H

0

 :  

m=m

o

  

 hipoteza 

alternatywna  H

1

 :      

m

 -  pewna wartość konkretna.

0

m

m

X ~ N(m,σ

)

   

u

t

t

Q

t

t

P

:

Wyznaczamy obszar 
krytyczny Q

Hipoteza 
alternatywn
a postaci 

t

t

t

Q

t

t

P

m

m

H

:

:

0

1

t

t

t

Q

t

t

P

m

m

H

:

:

0

1

n

S

m

X

n

S

m

X

t

ˆ

1

0

0

background image

Przykład 1. W celu sprawdzenia, czy nowy lek jest lepszy 
od dotych-czasowego, zbadano jego skuteczność na 6 
chorych mierząc współczynnik odbudowy czerwonych 
ciałek krwi: 6,3; 7,8; 8,1; 8,3; 8,7 i 9,4.
Lek używany dotychczas daje 8,3.  Sprawdź hipotezę przy 
poziomie istotności 0,01.

Zakładamy rozkład normalny współczynnika i 
wybieramy test t.

Parametry próbki:   

6; 

x = 8,1; s = 1,04

Hipotezy:   

H

0

:

 

m = 8,3; 

  H

1

: m > 8,3

Statystyka t:  

t

0,01(5)

=  3,365                                

t

obl

=0.92144

Porównanie: 

t

obl 

< t

tabl

Wniosek: 

Nie ma powodów aby sądzić, że nowy lek 

jest lepszy od dotychczasowego.

background image

Porównywanie średnich

W praktyce często porównujemy dwie 
średnie m

1

  i m

2

. Zwykle weryfikuje się 

hipotezę: 

2

1

1

2

1

0

:

       

          

     

:

m

m

H

m

m

H

Rozkład normalny gdy znane są odchylenia standardowe 
σ

1

 σ

2

     

2

2

2

1

2

1

2

1

n

n

X

X

U

u

U

U

Q

 :

u

U

P

Obszar 
krytyczny

background image

Rozkład t-Studenta gdy znane nie są 
odchylenia standardowe σ

1

 σ

2





2

1

2

1

2

2

2

2

1

1

2

1

1

1

2

n

n

n

n

S

n

S

n

X

X

t

t

t

P

t

t

t

Q

 :

Obszar 
krytyczny

background image

Niekiedy zachodzi konieczność porównania 
średniego poziomu pewnej cechy przed oraz po 
dodatkowym działaniu na elementach badanej 
populacji. Załóżmy, że dysponujemy parami 
wyników x

i

 oraz  y

i

 dla tego samego elementu 

i-tej próbie. Nie można traktować takich par 
jako dwu różnych prób prostych ponieważ 
mogą być one skorelowane. Wprowadza się 
wówczas nową zmienną   Z mierzącą przyrost 
wartości badanej cechy: z

i

 = x

i

 – y

i

  . Weryfikuję 

się hipotezę:

0

:

      

0

     

:

1

0

Z

z

m

H

m

H

Z ~ N(m

Z

,σ)             jakie jest 

tutaj 

  

Testowanie cd.

background image

HIPOTEZY O WARIANCJI POPULACJI

Testy istotności dla hipotez o wariancji w populacji o rozkładzie 
normalnym N(m,σ) buduje się w oparciu o rozkłady statystyk 

2

*

2

2

,

ˆ

,

S

S

S

n

i

i

X

X

n

S

1

2

2

1

2

1

2

2

1

1

1

ˆ

S

n

n

X

X

n

S

n

i

i

n

i

i

m

X

n

S

1

2

2

*

1

2

1

2

2

2

2

ˆ

)

1

(

n

S

n

nS

2

2

2

*

n

nS

Gęstość rozkładu 

2

 dla 4, 8  i  12  

stopnia swobody

background image

Bardzo często korzysta się z szybkiej zbieżności 
do rozkładu normalnego

1

2

2

2

k

U

2

2

1

,

1

2 

k

N

Dla k>30  zmienna 
losowa

ma rozkład normalny 
N(0,1)

Graniczne rozkłady samych statystyk  S

2 

 i  S, tzn. wariancji i 

odchylenia standardowego z próby pochodzących z populacji 
normalnych są też normalne 

n



n

N

S

n

N

S

2

,

          

2

,

   

  

4

2

2

Gdy

background image

Testy dla wariancji

1. Zakładamy, że znana jest wartość średniej  m w 

populacji. Na podstawie  n-elementowej próby 
prostej weryfikujemy statystyczną hipotezę 
parametryczną

Przy założeniu prawdziwości hipotezy H

0 

2

0

2

1

2

0

2

0

:

      

c

      wobe

:

H

H

2

0

2

*

2

nS

n

 

2

2

1

2

2

:

c

c

Q

 

2

1

2

2

1

2

c

P

c

P

dla ustalonego poziomu 
istotności α 

w tablicy rozkładu dla n-stopnia 
swobody

Obszar krytyczny:

background image

2. Zakładamy, że nie jest znana wartość średniej  m w 
populacji generalnej o rozkładzie normalnym. Na 
podstawie  n-elementowej próby prostej weryfikujemy 
statystyczną hipotezę parametryczną 

2

0

2

1

2

0

2

0

:

      

c

      wobe

:

H

H

c

P

2

dla ustalonego poziomu istotności α  w tablicy rozkładu 

2

 dla 

(n-1) -stopnia swobody znajdujemy liczbę c:

I wyznaczamy obszar krytyczny

c

Q

2

2

:

Obliczamy 

2

2

2

2

2

1

ˆ

)

1

(

S

n

nS

n

Sprawdzamy uzyskaną w próbie wartość 

2

 i 

podejmujemy decyzję o przyjęciu lub odrzuceniu 
hipotezy H

o

background image

Wiemy, że średni czas 
świecenia żarówki wynosi 
m

 = 1059 godzin. Po 

wprowadzeniu zmian w 
technologii postanowiono 
sprawdzić, czy zmiany te 
nie skróciły czasu 
świecenia. Hipoteza 
zerowa ma zatem postać 
H

 : m

 = m

,   H

 : m

 > m

,

czyli: średni czas 
świecenia żarówki nie 
uległ zmianie wobec 
hipotezy, że jakość 
żarówek jest lepsza. Do 
badania pobrano losowo 
próbę 10 żarówek, wyniki 
tych badań przedstawia 
tabela. 

Przykład

background image

h

x

1048

10

10480

8

.

109

9

108522

1

1

1

2

n

i

i

x

x

n

s

317

,

0

10

8

.

109

1059

1048

t

Odczytana z tablic dla poziomu ufności 0,95 
wartość krytyczna t

 = 1,833, zatem nie ma 

podstaw, aby postawioną hipotezę zerową 
odrzucić.

Przyjmujemy poziom istotności 1- 
 = 0.95

H0 : m1 = m0,   H1 : m1 
> m0
,

background image

Testy istotności w analizie 

korelacji

 

background image

Współczynnik korelacji Pearsona 
 <-1,1>.

 

n

i

i

n

i

i

n

i

i

i

n

i

n

i

i

i

n

i

i

i

y

y

n

x

x

n

y

x

y

x

n

y

y

x

x

y

y

x

x

r

1

2

2

1

2

2

1

1

1

2

2

1

1

1

1

r = 0 – współzależność nie występuje, brak korelacji

0  r  0,3 – słaby stopień współzależności
0,3  r  0,5 – średni stopień współzależności, 0,2 – 0,4 wyraźna , ale niska 

korelacja

0,5  r  0,7 – znaczny stopień współzależności . 0,4 – 0,7 umiarkowana 

korelacja

0,7  r  0,9 – wysoki stopień współzależności, 0,7 – 0,9 znacząca korelacja 
r  0,9 – bardzo wysoki stopień współzależności, >0,9 bardzo silna korelacja

r = 1 – współzależność całkowita (ścisłość) tzn. zależność funkcyjna między 
rozważanymi cechami.

 

background image

Korelacyjne wykresy 

rozrzutu 

korelacja liniowa dodatnia r 
> 

x

y

x

y

korelacja liniowa ujemna r 
< 

x

y

x

y

brak korelacji r = 

korelacja krzywoliniowa r 
= 

background image

excell

background image

KOWARIANCJA





dxdy

y

x

f

m

y

m

x

p

m

y

m

x

Y

X

i

j

ij

)

,

(

)

)(

(

)

)(

(

)

,

cov(

01

10

01

10

Współczynnik korelacji

Y

X

Y

X

Y

D

X

D

Y

X

)

,

cov(

)

(

)

(

)

,

cov(

2

2

02

20

11

1

1

background image

Rozkład współczynnika 

korelacji 

 

n

i

i

n

i

i

n

i

i

i

n

i

n

i

i

i

n

i

i

i

y

y

n

x

x

n

y

x

y

x

n

y

y

x

x

y

y

x

x

r

1

2

2

1

2

2

1

1

1

2

2

1

1

1

1

2

1

1

ln

2

1

r

Z





3

1

,

)

1

(

2

1

1

ln

2

1

n

n

N

Statysty
ka

ma rozkład

3

)

1

(

2

1

1

ln

2

1

1

1

ln

2

1

0

0

0





n

n

r

r

U

ma rozkład   
N(0,1)

0

1

0

0

:

      

:

H

H

Testowanie hipotezy:

background image

Bardzo często testuje się hipotezę o 

niezależności stochastycznej zmiennych 

losowych, tzn.

0

:

      

0

:

1

0

H

H

t

t

t

Q

t

t

P

n

r

r

t

:

2

1

2

ma rozkład  t-Studenta o 
n-2 stopniach swobody 

background image

Przykład 
1.
Pewnej populacji mającej dwuwymiarowy rozkład normalny 
wylosowano 12 elementową próbę prostą. Oblicz 
prawdopodobieństwo zdarzenia:

a)    gdy  

 = 0; 

b)   gdy  

 = 0.4.

******************************************************** 
 a)

2

1

2

n

r

r

t

205915

.

0

99

.

0

32

.

0

01

.

0

1

10

3

.

0

1

2

01

.

0

1

10

1

.

0

3

.

0

1

.

0

10

2

t

P

r

n

r

P

r

P

 „=1-ROZKŁAD.T(0.32,10,1)”   = 0.622223

„=1-ROZKŁAD.T(0.99,10,1)”   = 0.823278

background image

********************************************************  
b)

r

r

Z

1

1

ln

2

1





3

1

,

)

1

(

2

1

1

ln

2

1

n

n

N

3

)

1

(

2

1

1

ln

2

1

1

1

ln

2

1

0

0

0





n

n

r

r

U

194404

.

0

39

.

0

02

.

1

11

2

4

.

0

6

.

0

4

.

1

ln

2

1

7

.

0

3

.

1

ln

2

1

3

)

1

(

2

1

1

ln

2

1

1

1

ln

2

1

9

11

2

4

.

0

6

.

0

4

.

1

ln

2

1

9

.

0

1

.

1

ln

2

1

3

.

0

1

3

.

0

1

ln

2

1

1

1

ln

2

1

1

.

0

1

1

.

0

1

ln

2

1

3

.

0

1

.

0





U

P

n

n

r

r

P

r

r

P

r

P

„=ROZKŁAD.NORMALNY.S(-
0.39)”=0.348268
„=ROZKŁAD.NORMALNY.S(-
1.02)”=0.153864

background image

Testy nieparametryczne

Testy nieparametryczne są 
uniezależnione od rozkładu badanej 
cechy, mogą być więc stosowane także w 
przypadku dowolnych rozkładów, 
niekoniecznie zbliżonych do normalnego. 

background image

Testy nieparametryczne 
możemy podzielić na dwie 
grupy: 

• testy zgodności, 
pozwalające na sprawdzenie 
hipotezy, że populacja ma 
określony typ rozkładu, 

• testy dla hipotezy, że dwie 
próby pochodzą z jednej 
populacji (czyli, że dwie 
populacje mają ten sam 
rozkład). 

background image

Test zgodności chi-

kwadrat

Jest to jeden z najstarszych testów 
statystycznych, pozwalający na sprawdzenie 
hipotezy, że populacja ma określony typ 
rozkładu (opisany pewną dystrybuantą w 
postaci funkcji), przy czym może to być 
zarówno rozkład ciągły lub skokowy. 
Jedynym ograniczeniem jest to, że próba 
musi być duża, zawierająca co najmniej 
kilkadziesiąt próbek, bowiem wyniki jej 
musimy podzielić na pewne klasy wartości. 
Klasy te nie powinny być zbyt mało liczne, 
do każdej z nich powinno wpadać 
przynajmniej po 8 wyników.

background image

Sposób postępowania jest 
następujący: 

 1.

Wyniki dzielimy na r 

rozłącznych klas o liczebnościach 
n

i

, przy czym liczebność próby  

otrzymując w ten sposób rozkład 
empiryczny.

2.

Formułujemy hipotezę 

zerową, że badana populacja ma 
rozkład o dystrybuancie należącej 
do pewnego zbioru rozkładów o 
określonym typie postaci 
funkcyjnej dystrybuanty;

 

2

2

r

i

i

n

n

background image

3.

Z hipotetycznego 

rozkładu obliczamy dla 
każdej z r klas wartości 
badanej zmiennej losowej 
X prawdopodobieństwa 
p

i

 , że zmienna losowa 

przyjmie wartości 
należące do klasy o 
numerze i (i = 1,2,...,r); 

 4.

Obliczamy 

liczebności teoretyczne 
np

i

 , które powinny 

wystąpić w klasie i, gdyby 
populacja miała założony 
rozkład;

background image

5.

Ze wszystkich 

liczebności empirycznych 
n

i

 oraz hipotetycznych np

i

 

wyznaczmy wartość 
statystyki: 

która, przy założeniu 
prawdziwości hipotezy 
zerowej, ma rozkład chi-
kwadrat o r - 1 stopniach 
swobody lub o r - k - 1 
stopniach swobody, gdy z 
próby oszacowano k 
parametrów rozkładu;

r

i

i

i

i

np

np

n

2

2

background image

6. Z tablicy rozkładu chi-kwadrat dla ustalonego 
poziomu ufności odczytuje się taką wartość 
krytyczną aby zachodziło P( ) = 1 - .
7. Porównujemy obie wartości i jeśli zachodzi 
nierówność 

to hipotezę należy odrzucić. W przeciwnym 
przypadku, gdy

 nie ma podstaw do odrzucenia hipotezy zerowej, 
nie oznacza to jednak, że możemy ją przyjąć.

2

2

2

2

background image

Test zgodności chi-

kwadrat

Przykład

W pewnym doświadczeniu fizycznym mierzy 
się  czas  rozbłysku.  Przeprowadzono  n  = 
  niezależnych  doświadczeń  nad  tym 
efektem  i  zbiór  pogrupowanych  wyników 
jest taki jak w tabeli.

background image

Na  poziomie  ufności  99%  należy  zweryfikować 
hipotezę,  że  czas  występowania  badanego  w  tych 
doświadczeniach  efektu  świetlnego  ma  rozkład 
normalny. 

Z  treści  zadania  nie  wynikają  parametry  rozkładu 
hipotetycznego. Nasza hipoteza zerowa zatem będzie 
brzmiała:  F(x) 

 

  gdzie 

  jest  klasą  wszystkich 

dystrybuant normalnych.

background image

x

i

 

n

i

 

(

x

i

 

-x

)

/

s

 

F

(

u

i

)

 

p

i

 

n

p

i

 

2

 

0

.

2

 

0

.

4

 

0

.

6

 

0

.

8

 

1

.

0

 

1

.

2

 

1

.

4

 

 

5

0

 

1

2

8

 

2

4

5

 

2

8

6

 

1

3

4

 

 

9

0

 

 

6

7

 

-1

.

5

6

7

 

-0

.

9

0

0

 

-0

.

2

3

3

 

0

.4

3

3

 

1

.1

0

0

 

1

.6

7

6

 

2

.4

3

3

 

0

.

0

5

8

 

0

.

1

8

4

 

0

.

4

1

0

 

0

.

6

6

6

 

0

.

8

6

4

 

0

.

9

6

2

 

0

.

9

9

2

 

0

.

0

5

8

 

0

.

1

2

6

 

0

.

2

2

9

 

0

.

2

5

3

 

0

.

1

9

8

 

0

.

0

9

8

 

0

.

0

3

0

 

 

5

8

 

1

2

6

 

2

2

9

 

2

5

3

 

1

9

8

 

 

9

8

 

 

3

0

 

 

1

.

1

0

 

 

0

.

0

3

 

 

1

.

1

2

 

 

4

.

3

0

 

2

0

.

6

2

 

 

0

.

6

5

 

4

5

.

6

3

 

 

1

0

0

0

 

 

 

0

.

9

9

2

 

9

9

2

 

7

3

.

5

2

 

 

Dwa parametry rozkładu, średnią wartość 
odchylenie standardowe 

, szacujemy z próby 

za pomocą estymatorów  m = 0.67 i s = 0.30. 
Dalsze wyniki zestawiamy w tabeli, gdzie F(u

i

jest wartością dystrybuanty rozkładu 
normalnego N(0,1) w punkcie u

i

 = (x

i

 -m) / s

który jest standaryzowaną wartością prawego 
końca przedziału klasowego.

r

i

i

i

i

np

np

n

2

2

m

X

U

background image

Liczba stopni swobody k = 7 - 2 - 1 = 4, gdyż na 
podstawie próby losowej zostały policzone dwa 
parametry: wartość średnia i odchylenie 
standardowe. Z tablic rozkładu 

2

, dla poziomu 

istotności 0,01, znajdujemy wartość krytyczną  
= 13,277. Wartość krytyczna jest mniejsza od 
obliczonej statystyki  równej 73,52, zatem 
hipotezę o normalności rozkładu należy 
odrzucić.


Document Outline