WERYFIKACJA HIPOTEZ STATYSTYCZNYCH
Def. Przez hipotezę statystyczną rozumiemy dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość przypuszczenia oceniana jest na podstawie wyników próby losowej.
Def. Zbiór hipotez dopuszczalnych jest zbiorem rozkładów, o których wiemy, że mogą charakteryzować populację generalną.
Typy hipotez:
hipotezy proste
hipotezy złożone
hipotezy parametryczne
hipotezy nieparametryczne
Def. Testem statystycznym nazywamy regułę postępowania, która każdej możliwej próbie losowej pobranej z populacji generalnej przyporządkowuje decyzję przyjęcia lub odrzucenia stawianej hipotezy.
ZASADY KONSTRUKCJI TESTÓW STATYSTYCZNYCH
formułujemy hipotezę, która podlega weryfikacji (tzw. hipotezę zerową) i zapisujemy ją jako:
formułujemy hipotezę będącą zaprzeczeniem hipotezy zerowej (tzw. hipotezę alternatywną), którą przyjmuje się za prawdziwą w przypadku odrzucenia tej pierwszej i zapisujemy ją jako:
oznaczamy przez W zbiór wszystkich możliwych wyników n-elementowej próby (tzw. przestrzeń próby) oraz przez
pewną próbę (tzw. punkt przestrzeni próby).
określamy taki obszar przestrzeni próby w, że:
- jeśli
(tzn. wynik próby znajdzie się w tym obszarze) to sprawdzaną hipotezę zerową odrzucamy,
- jeśli
(tzn. wynik próby nie znajdzie się w tym obszarze) to hipotezę zerową przyjmujemy.
Def. Obszar w nazywamy obszarem odrzucenia hipotezy lub obszarem krytycznym testu.
Def. Obszar W-w nazywamy obszarem przyjęcia hipotezy zerowej.
BŁĘDY W TESTOWANIU HIPOTEZ STATYSTYCZNYCH
Def. Błędem I rodzaju nazywamy błąd polegający na odrzuceniu hipotezy zerowej pomimo, że jest ona prawdziwa. Prawdopodobieństwo popełnienia błędu I rodzaju definiujemy jako:
Def. Błędem II rodzaju nazywamy błąd polegający na przyjęciu hipotezy zerowej pomimo, że jest ona fałszywa. Prawdopodobieństwo popełnienia błędu II rodzaju definiujemy jako:
Testy najmocniejsze - testy minimalizujące prawdopodobieństwo popełnienia błędu II rodzaju
przy ustalonym z góry poziomie prawdopodobieństwa popełnienia błędu I rodzaju
.
Moc testu M (w) - prawdopodobieństwo odrzucenia fałszywej hipotezy H0 i przyjęcia w to miejsce prawdziwej hipotezy alternatywnej:
Związek między mocą testu i prawdopodobieństwem błędu II rodzaju:
ZASADY BUDOWY TESTÓW ISTOTNOŚCI
formułujemy hipotezę zerową
oraz hipotezę alternatywną
,
na podstawie próby losowej
wyznaczamy pewną statystykę
(sprawdzian hipotezy
), której rozkład określa się przy założeniu, że hipoteza
jest prawdziwa,
wyznaczamy taki obszar wartości statystyki
oznaczany jako (tzw. obszar krytyczny testu), aby dla z góry określonego małego prawdopodobieństwa (tzw. poziom istotności) był spełniony warunek:
jeżeli otrzymana w wyniku konkretnej próby wartość
statystyki
:
- przyjmie wartość z obszaru , sprawdzaną hipotezę
odrzucamy na korzyść hipotezy
,
- znajdzie się poza obszarem , stwierdzamy jedynie, że nie ma podstaw do odrzucenia sprawdzanej hipotezy
.
TESTY ISTOTNOŚCI DLA WARTOŚCI ŚREDNIEJ W POPULACJI
A
Założenia
- populacja generalna ma rozkład normalny o nieznanej wartości średniej m oraz znanym odchyleniu standardowym
- hipotezę weryfikujemy za pomocą n-elementowej próby
Etapy weryfikacji:
stawiamy hipotezę zerową, że średnia m ma wartość
, tzn:
wobec hipotezy alternatywnej:
10
za sprawdzian hipotezy przyjmujemy średnią arytmetyczną
jeżeli
jest prawdziwa to statystyka o postaci:
ma rozkład
,
ustalamy wartość
(tzw. wartość krytyczna), której nie powinien przekraczać moduł statystyki U, określając ją w taki sposób w rozkładzie
, aby dla ustalonego poziomu zachodziła relacja:
wartości zmiennej u spełniające nierówność
są obszarem krytycznym testu, tzn.:
Obszar krytyczny (dwustronny)
ϕ(u)
0
u
ustalamy wartość
, której nie powinna przekraczać statystyka U, określając ją w taki sposób w rozkładzie
, aby dla ustalonego poziomu zachodziła relacja:
wartości zmiennej U spełniające nierówność
stanowią obszar krytyczny testu, tzn.:
Obszar krytyczny (prawostronny)
ϕ(u)
0 uα u
ustalamy wartość
, od której powinna być większa statystyka U, określając ją w taki sposób w rozkładzie
, aby dla ustalonego poziomu zachodziła relacja:
wartości zmiennej U spełniające nierówność
stanowią obszar krytyczny testu, tzn.:
Obszar krytyczny (lewostronny)
ϕ(u)
-uα 0 u
Jeżeli z próby uzyskamy taką wartość statystyki u, że
-
to hipotezę zerową odrzucamy na rzecz hipotezy alternatywnej,
-
to stwierdzamy, że nie ma podstaw do odrzucenia hipotezy zerowej.
B
Założenia
- populacja generalna ma rozkład normalny o nieznanej wartości średniej m oraz nieznanym odchyleniu standardowym ,
- hipotezę weryfikujemy za pomocą małej, n-elementowej próby (n<120).
Etapy weryfikacji
stawiamy hipotezę zerową, że średnia m ma wartość
, tzn.:
wobec hipotezy alternatywnej
,
do weryfikacji hipotezy wykorzystujemy zmienną o postaci
, która ma rozkład t-Studenta o n-1 stopniach swobody,
ustalamy wartość krytyczną
, której nie powinien przekraczać moduł statystyki t, określając ją w taki sposób w rozkładzie t-Studenta, aby dla ustalonego poziomu zachodziła relacja:
wartości zmiennej t spełniające nierówność
są obszarem krytycznym testu, tzn.:
Jeżeli z próby uzyskamy taką wartość statystyki t, że:
-
to hipotezę zerową odrzucamy na rzecz hipotezy alternatywnej,
-
to stwierdzamy, że nie ma podstaw do odrzucenia
C
Założenia
- populacja generalna ma dowolny rozkład z nieznanymi parametrami,
- hipotezę weryfikujemy za pomocą dużej, n-elementowej próby (n>120).
Etapy weryfikacji:
Stawiamy hipotezę zerową, że średnia m ma wartość
, tzn.:
wobec hipotezy alternatywnej:
za sprawdzian hipotezy przyjmujemy średnią arytmetyczną
mającą asymptotyczny rozkład
,
jeżeli
jest prawdziawa to statystyka o postaci
ma asymptotyczny rozkład
TEST ISTOTNOŚCI DLA DWÓCH WARIANCJI
Założenia
badane są dwie populacje o rozkładach odpowiednio
oraz
,
żaden z parametrów tych rozkładów nie jest znany,
hipotezę weryfikujemy na podstawie dwóch niezależnych prób o liczebnościach odpowiednio n1 i n2.
Etapy weryfikacji
stawiamy hipotezę zerową, że wariancje w obu populacjach są identyczne, tzn.:
wobec hipotezy alternatywnej:
do weryfikacji hipotezy wykorzystujemy wariancje
i
obliczane z dwóch niezleżnych prób gdzie:
jeżeli H0 jest prawdziwa to statystyka o postaci:
ma rozkład F-Snedecora o
oraz
stopniach swobody
ustalamy wartość krytyczną
, której nie powinna przekraczać statystyka F, określając ją w taki sposób w rozkładzie F-Snedecora, aby dla ustalonego poziomu α zachodziła relacja:
wartości zmiennej F spełniające nierówność
są prawostronną częścią obszaru krytycznego testu, tzn.:
jeżeli uzyskamy taką wartość statystyki F, że:
to hipotezę zerową odrzucamy na rzecz hipotezy alternatywnej,
to stwierdzamy, że nie ma podstaw do odrzucenia hipotezy zerowej
TEST ZGODNOŚCI
stawiamy hipotezę zerową, że populacja generalna ma rozkład określony pewną dystrybuantą
,
wobec hipotezy alternatywnej:
losujemy z populacji dużą próbę, z której wyniki porządkujemy w rozkład empiryczny, przez utworzenie r rozłącznych klas wartości badanej zmiennej w próbie,
przyjmując, że
jest prawdziwa, tzn., że rozkład populacji generalnej opisany jest dystrybuantą
, liczymy prawdopodobieństwo
tego, że zmienna losowa przyjmuje wartości z i-tej klasy,
oceniamy zgodność rozkładu empirycznego z rozkładem hipotetycznym poprzez obserwację różnic pomiędzy liczebnościami empirycznymi
a liczebnościami teoretycznymi (hipotetycznymi)
w oparciu o statystykę o postaci:
która przy założeniu prawdziwości hipotezy zerowej ma asymptotyczny rozkład
o
stopniach swobody, gdzie k oznacza liczbę parametrów rozkładu, które zostały oszacowane na podstawie rozkładu empirycznego
ustalamy wartość krytyczną
, której nie powinna przekraczać statystyka
, określając ją w taki sposób w rozkładzie Chi-kwadrat, aby dla ustalonego poziomu zachodziła relacja:
wartości zmiennej
spełniające nierówność
są obszarem krytycznym testu, tzn.:
jeżeli uzyskamy taką wartość statystyki
, że
-
to hipotezę zerową odrzucamy na rzecz hipotezy alternatywnej,
-
to stwierdzamy, że nie ma podstaw do odrzucenia hipotezy zerowej.
TESTY ISTOTNOŚCI DLA DWÓCH ŚREDNICH
A
Założenia
badane są dwie populacje generalne, a których każda ma rozkład normalny o nieznanych wartościach średnich m1 i m2 oraz znanych odchyleniach standardowych σ1 i σ2,
hipotezę weryfikujemy za pomocą n1 i n2 elementowych prób pobranych z populacji generalnych
Etapy weryfikacji
stawiamy hipotezę zerową, że wartości średnich w obu populacjach są identyczne, tzn.:
wobec hipotezy alternatywnej
10
20
30
za sprawdzian hipotezy przyjmujemy różnicę średnich arytmetycznych
jeżeli Ho jest prawdziwa to statystyka o postaci:
ma rozkład N(0;1)
TESTY ISTOTNOŚCI DLA DWÓCH ŚREDNICH
B
Założenia
badane są dwie populacje generalne, z których każda ma rozkład normalny o nieznanych wartościach parametrów
hipotezę weryfikujemy za pomocą małych n1 i n2 elementowych prób pobranych z populacji generalnych
Etapy weryfikacji
stawiamy hipotezę zerową, że wartości średnich w obu populacjach są identyczne, tzn.:
wobec hipotezy alternatywnej
10
20
30
za sprawdzian hipotezy przyjmuje statystykę o postaci:
,
gdzie:
jeżeli Ho jest prawdziwa to statystyka t posiada rozkład t-Studenta o (n1+n2-2) stopniach swobody
TESTY ISTOTNOŚCI DLA DWÓCH ŚREDNICH
C
Założenia
badane są dwie populacje generalne o dowolnych rozkładach, z nieznanymi parametrami
hipotezę weryfikujemy za pomocą dużych n1 i n2 elementowych prób pobranych z populacji generalnej
Etapy weryfikacji
stawiamy hipotezę zerową, że wartości średnich w obu populacjach są identyczne, tzn.:
wobec hipotezy alternatywnej
10
20
30
za sprawdzian hipotezy przyjmujemy różnicę średnich arytmetycznych
mających asymetryczny rozkład
jeżeli Ho jest prawdziwa to statystyka o postaci:
ma rozkład N(0;1)
TESTY ISTOTNOŚCI ŚREDNIEJ RÓŻNICY
DOBIERANYCH PAR WARTOŚCI
D
Założenia
badana jest populacja generalna o dowolnym rozkładzie z nieznanymi parametrami
hipotezę weryfikujemy za pomocą próby par zmiennych losowych (Xi1;Xi2), gdzie: i =1,2,...,n
Etapy weryfikacji
zakładamy, że różnice par zmiennych
mają w populacji rozkład
stawiamy hipotezę zerową, że średnia różnic dobieranych par wartości z populacji równa jest zeru, tzn.:
wobec hipotezy alternatywnej
10
20
30
za sprawdzian hipotezy przyjmujemy statystykę o postaci:
gdzie:
jeżeli H0 jest prawdziwa to statystyka t posiada rozkład t-Studenta o n-1 stopniach swobody
TESTY ISTOTNOŚCI DLA FRAKCJI
Założenia
populacja generalna ma rozkład zero -jedynkowy z nieznanym parametrem p
hipotezę weryfikujemy za pomocą dużej, n-elementowej próby (n>120)
Etapy weryfikacji
stawiamy hipotezę zerową, że parametr p ma w populacji wartości p0, tzn.:
wobec hipotezy alternatywnej:
10
20
30
za sprawdzian hipotezy przyjmujemy wskaźnik struktury z próby:
,
gdzie X jest zmienną losową oznaczającą liczbę wyróżnionych elementów w próbie mającą asymptotyczny rozkład
jeżeli H0 jest prawdziwa to frakcja z próby
ma asymptotyczny rozkład
a statystyka o postaci:
ma asymptotyczny rozkład N(0;1)
TESTY ISTOTNOŚCI DLA RÓŻNICY DWÓCH FRAKCJI
Założenia
badane są dwie populacje o rozkładach zero-jedynkowych z nieznanymi parametrami p1 i p2
hipotezę weryfikujemy za pomocą dużych prób, n1 i n2 elementowych pobranych z populacji generalnych
Etapy weryfikacji
stawiamy hipotezę zerową, że parametry p1 i p2 w obu populacjach generalnych są identyczne, tzn.:
10
20
30
za sprawdzian hipotezy przyjmujemy różnicę wskaźników struktury z prób
,
gdzie:
i
, która posiada asymptotyczny rozkład
jeżeli H0 jest prawdziwa to statystyka o postaci:
,
gdzie:
ma rozkład N(0;1)