Statystyka1st-Wyklad5

Statystyka matematyczna

dla leśników

Wydział Leśny

Kierunek „leśnictwo”

Studia Stacjonarne I Stopnia

Rok akademicki 2011/2012

Wykład 5

Testy statystyczne

• Ogólne zasady testowania hipotez

statystycznych, rodzaje hipotez, rodzaje

testów

• Parametryczne testy istotności

• Testy zgodności

Testowanie hipotez statystycznych

• Teoria weryfikacji hipotez statystycznych

jest ważnym działem wnioskowania

statystycznego

• Podejmujemy tu określone decyzje

statystyczne z określonym

prawdopodobieństwem, to znaczy

(podobnie, jak w estymacji statystycznej) -

w warunkach niepewności

Próbkowanie

POPULACJA

PRÓBA

Testowanie

Parametr

Statystyka

Hipotezy statystyczne

• Badając różne populacje i zjawiska

stawiamy najczęściej tzw. hipotezy, czyli

formułujemy przypuszczenia

(założenia) dotyczące parametrów

populacji lub rozkładów cechy

Hipotezy statystyczne

• hipotezy parametryczne (Hp), które

dotyczą nieznanego poziomu parametrów

populacji

• hipotezy nieparametryczne (Hnp),

dotyczące nieznanej postaci funkcji

rozkładu zmiennych w populacji

Hipotezy parametryczne

• Z reguły zapisane są w postaci krótkiego

równania, np.

µ = 44

µ = µ

σ = σ

Hipotezy nieparametryczne

• Zwykle zapisane w postaci zdania, np.

– „rozkład zmiennej x w populacji jest zgodny z

rozkładem normalnym”

– „próby zostały pobrane z populacji o takich

samych rozkładach”

– ...

Hipotezy statystyczne

• Hipoteza zerowa – hipoteza podlegająca

testowaniu

• Hipoteza alternatywna – hipoteza

„rezerwowa” na wypadek, gdyby hipoteza

zerowa okazała się fałszywa

– Powyższe hipotezy mogą być zarówno

parametryczne, jak i nieparametryczne

Hipotezy statystyczne

• hipotezy zerowe (H0), podlegające

weryfikacji

– ich treścią jest założenie o braku różnic

między parametrami (zerowe różnice) lub

braku różnic między ogólnymi postaciami

funkcji rozkładów.

• hipotezy alternatywne (H1), konkurencyjne

do zerowych

– przyjmowane w wypadku negatywnej

weryfikacji H0

Hipotezy statystyczne

H : µ = 44

H : µ = µ

H : rozkład zmiennej x w populacji jest zgodny z

rozkładem normalnym

Hipotezy statystyczne

H : µ ≠ 44

H : µ ≠ µ

H : rozkład zmiennej x w populacji nie jest zgodny

z rozkładem normalnym

W przypadku Hnp, H może mieć tylko jedną postać

(porównywane funkcje rozkładu są różne).

W przypadku Hp, H może być:

- dwustronna (porównywane parametry są różne)

- prawostronna (badany parametr jest większy od porównawczego)

- lewostronna (badany parametr jest mniejszy od porównawczego)

Hnp

dwu-

prawo-

lewo-

Testy statystyczne

• Do weryfikacji hipotez służą specjalne

narzędzia badawcze zwane testami

statystycznymi

• Są to statystyki o określonym rozkładzie

teoretycznym z próby ( przypomnij sobie

wykład o estymacji)

Próbkowanie

POPULACJA

PRÓBA

Testowanie

Parametr

Statystyka

Test statystyczny

Błędy w testach

• Hipoteza może być prawdziwa lub

fałszywa

• Wynik testu może kazać hipotezę

zaakceptować lub odrzucić

• W związku z tym…

Błędy w testach

Jak uniknąć błędów?

• Konstrukcja testu: stosować testy, które

podejmują tylko decyzję o odrzuceniu

hipotezy lub stwierdzają brak podstaw do

jej odrzucenia; w teście takim nie

przyjmujemy hipotez

• Mały poziom istotności

• (Test istotności)

Stosując testy istotności unikamy błędu II rodzaju. Możemy popełnić błąd I rodzaju, ale prawdopodobieństwo popełnienia tego błędu będzie bardzo małe równe założonemu poziomowi istotności (zwykle 0,05 lub 0,01).

Hipotezy parametryczne najczęściej dotyczą średnich, dlatego rozważania teoretyczne przeprowadzimy na przykładzie testu „z”

(statystyki o rozkładzie normalnym).

Na podstawie wyników próby obliczamy statystykę „ z” i w rozkładzie tej statystyki (normalnym) wyznaczamy taki obszar wartości Q aby prawdopodobieństwo znalezienia się w tym obszarze było bardzo małe równe założonemu poziomowi istotności.

P( z ⊂ Q) = α

W zależności od postaci hipotezy alternatywnej obszar krytyczny testu przy założonym poziomie istotności może być: dwu-stronny, prawo-stronny lub lewo-stronny.

1 - α

α/2

-z

zα

α/2

zα

Jeżeli obliczona dla danego

doświadczenia wartość testu znajdzie

się w obszarze krytycznym Q to

1 - α

podejmujemy decyzję o odrzuceniu

H i przyjęciu H . Jeżeli nie to

stwierdzamy, że brak podstaw do

-zα

odrzucenia H0.

Dlaczego tak?

Obszar krytyczny testu wyznaczyliśmy dla bardzo małego prawdopodobieństwa (poziomu istotności α).

Jeżeli założymy, że H jest prawdziwa, to

prawdopodobieństwo otrzymania z n-elementowej próby wartości z

w zakresie obszaru krytycznego Q będzie równe α, czyli bardzo małe. Zdarzenie takie nie powinno wystąpić w jednym

eksperymencie. Jeżeli zatem takie zdarzenie wystąpi, to będzie oznaczało, że miało ono większe prawdopodobieństwo, niż to, które przyjęliśmy zakładając prawdziwość H . Logiczne jest zatem

potraktowanie H jako fałszywej, jej odrzucenie i przyjęcie H .

Prawdopodobieństwo pomyłki, czyli odrzucenia prawdziwej H (błąd

pierwszego rodzaju) jest równe α (praktycznie bliskie zeru).

Gdy empiryczna wartość z wystąpi poza obszarem krytycznym Q, to prawdopodobieństwo takiego zdarzenia, przy założeniu prawdziwości H , będzie równe 1-

α (praktycznie bliskie 1). Nie mamy podstaw do odrzucenia H .

Parametryczne testy istotności:

- dla średniej - stosowane w eksperymentach, w których hipoteza zerowa określa hipotetyczną wartość średniej µ , z którą

porównujemy średnią z n-elementowej próby ( x ) .

H : µ = µ

H : µ ≠ µ lub µ > µ lub µ < µ

Jeżeli rozkład zmiennej w populacji jest normalny znamy wariancję (σ2), H testujemy za pomocą testu z, obszar krytyczny wyznaczamy z

rozkładu normalnego dla założonego poziomu istotności α, a wartość empiryczną testu obliczamy ze wzoru:

x − µ

emp

Jeżeli

≥ z

lub z

to H odrzucamy

emp

α / 2

W przypadku stosowania dużych prób rozkład zmiennej w populacji nie musi być normalny i nie musimy znać wariancji dla populacji, przyjmujemy, ze s = σ.

Jeżeli nie znamy wariancji dla populacji i dysponujemy wynikami małej próby, to tylko w przypadku, kiedy rozkład w populacji jest normalny, możemy do weryfikacji H zastosować test

t, a obszar krytyczny wyznaczyć z rozkładu Studenta dla założonego poziomu istotności α i liczby stopni swobody k = n - 1.

Wartość empiryczną testu obliczamy:

x − µ

emp

Jeżeli

≥ t

lub t

przy k = n −1 to H odrzucamy emp

α / 2

- dla różnicy między dwiema średnimi - stosowany w doświadczeniach, w których porównujemy średnie dwóch populacji na podstawie n-elementowych prób pobranych z tych populacji.

H : µ = µ

H : µ ≠ µ lub µ > µ lub µ < µ

W przypadku dużych prób - test z :

x − x

emp

W przypadku małych prób - test t ale tylko jeżeli spełnione są dwa warunki: 1) próby pochodzą z populacji o rozkładzie normalnym, 2) wariancje w tych populacjach nie różnią się istotnie.

x − x

emp

 1

 s n − + s n −

1 ( 1

)

2 ( 2

)





przy:

 n

n 

n + n − 2

k = n + n - 2

Jeżeli n = n = n to wzór na błąd standardowy różnicy znacznie

się upraszcza

x − x

emp

s 2 + s 2

- dla wariancji:

f(F)

H :σ = σ

H :σ ≠ σ

> 1

emp

s 1

dla F

F przy k = n − ,

1 k = n −1

emp

s 2

dla F

F przy k = n − ,

1 k = n −1

emp

s 1

Jeżeli

> F

to H

odrzucamy

emp

Test zgodności χ2

W przypadku testów nieparametrycznych weryfikuje się hipotezę dotyczącą rozkładu badanej cechy w populacji nie precyzując parametrów tego rozkładu. Statystyka stosowana tu ma rozkład asymptotyczny χ2.

Test ten pozwala na weryfikację hipotezy, że populacja ma określoną postać funkcji dystrybuanty. Wymaga dużej próby.

H : E

−

( Gx Fx) 0

( rozklady zgodne)

H : E

−

≠

( Gx Fx) 0

( rozklady rozniace sie istotnie)

Na podstawie wyników próby tworzymy szereg rozdzielczy (rozkład empiryczny) i po wyznaczeniu parametrów, odpowiedni rozkład teoretyczny (jeżeli normalny, to zgodnymi parametrami będą - średnia arytmetyczna i odchylenie standardowe). Musi być też spełniony warunek aby częstość porównywanych klas nie była mniejsza od 10. Zwykle łączymy skrajne klasy. Empiryczną wartość testu obliczamy wg. wzoru:

( n n'

i )

χ emp

∑ −

χ2

wyznaczamy z tablic rozkładu χ2 na podstawie założonego

poziomu istotności α i liczby stopni swobody k = u - f - 1

gdzie: u - liczba składników sumy,

f - liczba zgodnych parametrów obydwu rozkładów.

Jeżeli: χ2

to H odrzucamy, przyjmujemy H

emp

χ2α

fχ2

χ2

Przykładowe pytania egzaminacyjne z tej części materiału 1. Rodzaje hipotez statystycznych.

2. Co to jest hipoteza zerowa a co hipoteza alternatywna?

3. Rodzaje błędów popełnianych podczas testowania hipotez.

4. Co to są testy istotności?

5. Jakiego błędu unikamy stosując testy istotności?

6. Jakie jest prawdopodobieństwo popełnienia błędu pierwszego rodzaju przy stosowaniu testów istotności?

7. Jakie testy mogą być stosowane przy porównywaniu dwóch średnich?

8. Do czego służy test zgodności χ2?

9. …

Dziękuję za uwagę!