1. HIPOTEZA STATYSTYCZNA. DEFINICJA, PRZYKŁADY METODY WERYFIKACJI.
Hipoteza statystyczna - każde przypuszczenie dotyczące rozkładu lub charakterystyk rozkład określonej zmiennej losowej, o prawdziwości lub fałszywości którego wnioskuje się na podstawie pobranej próbki.
Rodzaje hipotez statystycznych:
parametryczna - hipoteza, która dotyczy wyłącznie wartości parametru określonej klasy rozkładów
nieparametryczna - każda hipoteza, która nie jest parametryczna
prosta - jeżeli hipoteza parametryczna precyzuje dokładne wartości wszystkich nieznanych parametrów rozkładu badanej cechy
złożona - hipoteza, która nie jest prostą
2. TEST STATYSTYCZNY. POJĘCIE, ZASTOSOWANIE, RODZAJE
Test statystyczny - reguła postępowania, za pomocą której, na podstawie wyników próby losowej, decydujemy o przyjęciu lub odrzuceniu sprawdzanej hipotezy
Rodzaje testów statystycznych:
testy parametryczne - służą do weryfikacji hipotez parametrycznych
testy nieparametryczne - służą do weryfikacji hipotez nieparametrycznych
testy niezależności - służą do weryfikacji skojarzeń cech
testy zgodności - mają na celu ustalenie typu rozkładu rozważanej zmiennej losowej
testy istotności - pozwalają na odrzucenie hipotezy sprawdzanej z małym ryzykiem popełnienia błędu I rodzaju lub stwierdzenia, że brak jest podstaw do jej odrzucenia.
3. WERYFIKACJA HIPOTEZ STATYSTYCZNYCH. RODZAJE POPEŁNIANYCH BŁĘDÓW. METODY MINIMALIZACJI PRAWDOPODOBIEŃSTWA POPEŁNIENIA BŁĘDU.
Sprawdzając hipotezę statystyczną, można popełnić dwojakiego rodzaju błędy. Odrzucenie hipotezy zerowej gdy jest ona prawdziwa, nosi nazwę błędu pierwszego rodzaju, a przyjęcie hipotezy zerowej gdy jest ona fałszywa - błędu drugiego rodzaju. Prawdopodobieństwo popełnienia błędu pierwszego rodzaju jest oznaczone przez α, zaś prawdopodobieństwo popełnienia błędu drugiego rodzaju oznacza się przez β.
Udowodniono, że przy danej próbie n-elementowej zmniejszenie prawdopodobieństwa α popełnienia błędu I rodzaju powoduje wzrost prawdopodobieństwa β popełnienia błędu II rodzaju i odwrotnie. Aby rozwiązać ten problem, można najpierw zmniejszać α, aby następnie - przez zwiększenie liczebności próby n - obniżyć również prawdopodobieństwo β do wymaganego poziomu i w ten sposób zwiększyć moc testu.
4. SCHEMAT POSTEPOWANIA PRZY WERYFIKACJI HIPOTEZ STATYSTYCZNYCH PRZY POMOCY TESTÓW ISTOTNOŚCI
W testach istotności nie oblicza się błędu drugiego rodzaju. Przy założeniu prawdziwości weryfikowanej hipotezy budujemy zbiór krytyczny w ten sposób, aby zagwarantować małe prawdopodobieństwo zaobserwowania wartości statystyki testowej należącej do tego zbioru, równe z góry obranemu poziomowi istotności α. Jeżeli zatem wartość statystyki testowej wpadnie do wyznaczonego uprzednio obszaru krytycznego, to można twierdzić, że zaszło zdarzenie o małym prawdopodobieństwie i wówczas weryfikowaną hipotezę należy odrzucić. Jeżeli jednak wartość statystyki testowej nie znajdzie się w obszarze krytycznym, a prawdopodobieństwo takiego zdarzenia jest większe niż α, to można jedynie twierdzić, że nie ma podstaw do odrzucenia weryfikowanej hipotezy.
Schemat postępowania:
sformułowanie hipotezy zerowej i hipotezy alternatywnej
ustalenie poziomu istotności α
wybór odpowiedniej statystyki testowej związanej z hipotezą zerową
określenie obszaru krytycznego
obliczenie wartości wybranej statystyki testowej na podstawie wyników uzyskanych z próby
podjęcie decyzji weryfikującej
5. TESTY ISTOTNOŚCI DLA DWÓCH ŚREDNICH. WARUNKI STOSOWANIA, SPRAWDZIANY
MODEL I
Założenia:
Losujemy dwie próby niezależne: X1 ~ N(μ1,σ1) oraz X2 ~ N(μ2,σ2)
σ1,σ2 - znane
H0: μ1=μ2
H1: μ1
μ2
poziom istotności α
n1 n2
Sprawdzianem Hipotezy zerowej są średnie arytmetyczne
, ale wiemy, że zmienna która jest różnicą tych zmiennych:
~
. Jeśli hipoteza H0 jest prawdziwa, to
~
, natomiast standaryzowana statystyka postaci
ma standaryzowany rozkład normalny N(0;1).Obszar krytyczny jest określony nierównością
MODEL II
Założenia:
Losujemy dwie próby niezależne: X1 ~ N(μ1,σ1) oraz X2 ~ N(μ2,σ2)
σ1,σ2 - nieznane, ale wiemy, że σ1=σ2
H0: μ1=μ2
H1: μ1
μ2
poziom istotności α
n1 n2
Do weryfikacji hipotezy zerowej wykorzystujemy test t oparty na statystyce
, która przy założeniu prawdziwości hipotezy zerowej ma rozkład t-Studenta o (n1+n2-2) stopniach swobody, gdzie S12 i S22 są wariancjami z prób. Obszar krytyczny jest określony nierównością
MODEL III
Założenia:
Losujemy dwie próby niezależne: X1 ~ N(μ1,σ1) oraz X2 ~ N(μ2,σ2)
σ1,σ2 - nieznane i nie wiemy czy σ1=σ2
H0: μ1=μ2
H1: μ1
μ2
poziom istotności α
n1 n2
Musimy zweryfikować odpowiednią hipotezę o równości dwóch wariancji. W obu testach poziom istotności musi być taki sam.
2.wykonujemy procedure z modelu 2 jeśli nie podstaw do odrzucenia hipotezy
H0: σ12=σ22
MODEL IV
Założenia:
Losujemy dwie próby niezależne: X1 ~ N(μ1,σ1) oraz X2 ~ N(μ2,σ2)
σ1,σ2 - nieznane
H0: μ1=μ2
H1: μ1
μ2
poziom istotności α
n1 n2 - duże
Sprawdzianem Hipotezy zerowej są średnie arytmetyczne
, ale wiemy, że zmienna która jest różnicą tych zmiennych:
~
, gdzie S12 i S22 są wariancjami z prób. Jeśli hipoteza H0 jest prawdziwa, to
~
, natomiast standaryzowana statystyka postaci
ma asymptotyczny rozkład normalny N(0;1).Obszar krytyczny jest określony nierównością
6. TEST ISTOTNOŚCI DLA DWÓCH FRAKCJI. WARUNKI STOSOWANIA, SPRAWDZIAN
MODEL
Założenia:
Losujemy dwie próby niezależne: X1 oraz X2 o rozkładach dwupunktowych
Z obu prób obliczamy m1 i m2 elementów z cechą wyróżnioną w tych próbach
p1,p2 - nieznane
H0: p1=p2
H1: p1
p2
poziom istotności α
n1 n2 - duże
Korzystam z twierdzenia, że w próbie rozkład różnicy miedzy wskaźnikami struktury
można dobrze zaproksymować za pomocą rozkładu normalnego postaci
. Jeśli prawdziwa jest hipoteza zerowa to statystyka
~
. Za ocenę p w obu populacjach przyjmuje się wskaźnik struktury z połączonych prób
. Sprawdzianem hipotezy zerowej jest
statystyka postaci
. Obszar krytyczny jest określony nierównością
7. ZWIĄZEK MIĘDZY WSPÓŁCZYNNIKIEM UFNOŚCI, A ROZPIĘTOŚCIĄ PRZEDZIAŁU UFNOŚCI
Ponieważ wraz ze wzrostem liczebności próby otrzymuje się na ogół - przy ustalonym poziomie ufności 1-α - przedziały o coraz mniejszej długości, to można stwierdzić, że wraz ze wzrostem współczynnika ufności rośnie rozpiętość przedziału ufności, a tym samym maleje precyzja oszacowania.
8. POZIOM ISTOTNOŚCI, HIPOTEZA ALTERNATYWNA, OBSZAR KRYTYCZNY. DEFINICJE, ZWIĄZKI MIĘDZY TYMI WIELKOŚCIAMI.
Hipoteza alternatywna - hipoteza przeciwna do hipotezy zerowej
Poziom istotności - prawdopodobieństwo popełnienia błędu I rodzaju, czyli odrzucenia hipotezy zerowej gdy jest ona prawdziwa. Im mniejszy przyjmie się poziom istotności α, tym
trudniej jest hipotezę zerową odrzucić. Odrzucenie hipotezy zerowej na poziomie istotności α=0,01 oznacza, że ryzyko popełnienia błędu pierwszego rodzaju przy tej decyzji wynosi 1%.
Obszar krytyczny testu - taki zbiór możliwych wartości wybranej statystyki Zn, że zaobserwowanie w próbie losowej wartości statystyki należącej do tego zbioru będzie powodować odrzucenie sprawdzanej hipotezy zerowej.
W zależności od sformułowanej hipotezy alternatywnej wyróżnia się trzy rodzaje obszarów krytycznych:
dwustronny
prawostronny
lewostronny
Rozkład sprawdzianu hipotezy określa, z jakich tablic należy odczytać wartość krytyczną Zα, wyznaczającą zbiór krytyczny.
9. TEST NIEZALEŻNOŚCI χ2
Test niezależności χ2 wykorzystuje się do oceny niezależności stochastycznej dwóch cech jakościowych, dwóch cech ilościowych lub cechy jakościowej i ilościowej
Uwagi:
dobre ułożenie zapisu - uporządkowanie rosnąco lub malejąco
liczebność duża
mały poziom istotności
wymaga się by liczebności oczekiwane były nie mniejsze od 5 dla każdego i, j. Ze względu na ten warunek zmniejsza się czasem liczba stopni swobody statystyki testowej, a tym samym zmniejsza się szansa odrzucenia hipotezy zerowej.
jeżeli dysponujemy danymi w postaci %, to należy je przekształcić w liczebności
Sprawdzianem hipotezy zerowej jest statystyka:
, która przy założeniu prawdziwości hipotezy zerowej o niezależności badanych cech, ma asymptotyczny rozkład chi-kwadrat z (r-1)(k-1) stopniami swobody. Obszar krytyczny jest prawostronny i wyznacza się go z warunku
10. TEST ZGODNOŚCI χ2
Test zgodności χ2 pozwala na sprawdzenie hipotezy, że populacja generalna ma określony typ rozkładu.
pobieramy próbkę losową o dużej liczebności
.
uzyskane z obserwacji dane przedstawiamy w postaci:
szeregu rozdzielczego punktowego lub przedziałowego o k wartościach xi zmiennej X w przypadku zmiennej skokowej
szeregu rozdzielczego-klasowego o k klasach o środkach
dla zmiennej ciągłej.
formułujemy hipotezy:
z teoretycznego rozkładu określonego typu obliczamy, dla każdego z możliwych wariantów cechy (klas), prawdopodobieństwa pi, ze zmienna losowa X o określonym rozkładzie przyjmie wartości należące do wariantu cechy X o numerze i.
mnożymy te prawdopodobieństwa przez wielkość próby otrzymując liczebności teoretyczne.
obliczamy wartość statystyki testowej:
obszar krytyczny jest prawostronny i buduje się go na podstawie
, gdzie
odczytujemy z tablic rozkładu chi-kwadrat o (k-l-1) stopniach swobody, gdzie l jest liczbą parametrów rozkładu teoretycznego.
11. TEST SHAPIRO-WILKA
Test Shapiro-Wilka służy tylko i wyłącznie do sprawdzania hipotezy, że próba pochodzi ze zbiorowości o rozkładzie normalnym. Obszar odrzucenia jest lewostronny. Liczebność próby musi być duża
. W praktyce stosuje się go gdy:
wyraźnie jest powiedziane że dana próba pochodzi ze zbiorowości o rozkładzie normalnym
celem głównym jest weryfikacja hipotezy o średniej, ale wówczas statystyka testowa będzie miała rozkład t-Studenta, jeśli:
próba pochodzi ze zbiorowości o rozkładzie normalnym
hipoteza zerowa prawdziwa
Statystyka testowa
służy do sformułowania jednego z wniosków:
jeżeli Wobl wpadnie do obszaru krytycznego to odrzucamy hipotezę zerową
jeżeli Wobl >Wα to nie ma podstaw do odrzucenia hipotezy zerowej
Schemat postępowania:
1.sformułowanie hipotez statystycznych:
gdzie
- dystrybuanta rozkładu normalnego
2.obliczam wartość statystyki testowej Wobl
12. TESTY SERII
Testy serii stosujemy do:
sprawdzenia, że próba jest losowa. Obszar odrzucenia jest dwustronny
.
dwie próby pochodzą z tej samej populacji (rozkłady są jednakowe). Obszar odrzucenia jest lewostronny.
MODEL I
Schemat postępowania:
sformułowanie hipotez statystycznych:
H0: F(x1) = F(x2)
H1: F(x1)
F(x2)
losujemy małą n-elementową próbę.
wyznaczamy medianę.
zaobserwowane wartości xi∈X1 oznaczamy jako A, zaś wartości xi∈X2 oznaczamy jako B
otrzymuję ciąg elementów a i b
obliczam ogólną liczbę serii k (im mniejsza jest liczba k w stosunku do liczby obserwacji n, tym większe jest prawdopodobieństwo nielosowości próby)
przy założeniu prawdziwości hipotezy zerowej liczba k ma znany i stablicowany rozkład zależny tylko od liczebności elementów a i b.
obszar krytyczny jest lewostronny
MODEL II
Schemat postępowania:
sformułowanie hipotez statystycznych:
H0: próba jest losowa
H1; próba nie jest losowa
losujemy małą n-elementową próbę.
wyznaczamy medianę.
zaobserwowane wartości xi>Me oznaczamy jako A, zaś wartości xi<Me oznaczamy jako B
otrzymuję ciąg elementów a i b
obliczam ogólną liczbę serii k (im mniejsza jest liczba k w stosunku do liczby obserwacji n, tym większe jest prawdopodobieństwo nielosowości próby)
przy założeniu prawdziwości hipotezy zerowej liczba k ma znany i stablicowany rozkład zależny tylko od liczebności elementów a i b.
obszar krytyczny jest dwustronny
13. WERYFIKACJA HIPOTEZY O WARTOŚCI OCZEKIWANEJ W POPULACJI
MODEL I
Założenia:
Losujemy niezależnie: X ~ N(μ,σ)
σ - znane
H0: μ=μ0
H1: μ
μ0
poziom istotności α
liczebność n
Sprawdzianem Hipotezy zerowej jest statystyka testowa postaci
, która przy założeniu prawdziwości hipotezy zerowej ma standaryzowany rozkład normalny N(0;1).Obszar krytyczny jest określony:
, czyli dla obszaru jednostronnego
, zaś dla obszaru odrzucenia dwustronnego
MODEL II
Założenia:
Losujemy niezależnie: X ~ N(μ,σ)
σ - nieznane
H0: μ=μ0
H1: μ
μ0
poziom istotności α
liczebność n <30
Statystyka testowa jest postaci
i przy założeniu prawdziwości hipotezy zerowej ma rozkład t-Studenta o (n-1) stopniach swobody.
Obszar krytyczny jest określony:
MODEL III
Założenia:
Losujemy niezależnie: X (nie ma podstaw do przyjęcia, że populacja ma rozkład normalny)
σ - nieznane
H0: μ=μ0
H1: μ
μ0
poziom istotności α
liczebność n >30
Sprawdzianem Hipotezy zerowej jest statystyka testowa postaci
, która przy założeniu prawdziwości hipotezy zerowej ma standaryzowany rozkład normalny N(0;1).Obszar krytyczny jest określony:
, czyli dla obszaru jednostronnego
, zaś dla obszaru odrzucenia dwustronnego
14. WERYFIKACJA HIPOTEZY O WSKAŹNIKU STRUKTURY
Założenia:
Losujemy niezależnie: X ~ rozkład dwupunktowy
H0: p=p0
H1: p
p0
poziom istotności α
liczebność n >100
Wyznaczamy wskaźnik struktury z próby
, gdzie k - liczba elementów wyróżnionych w próbie
obliczamy wartość statystyki testowej
gdzie
, która przy założeniu prawdziwości hipotezy zerowej ma rozkład N(0;1)
15. WERYFIKACJA HIPOTEZY O RÓWNOŚCI WARIANCJI
Założenia:
Losujemy dwie próby niezależne: X1 ~ N(μ1,σ1) oraz X2 ~ N(μ2,σ2)
σ1,σ2 - nieznane
poziom istotności α
n1 n2
Hipotezy:
Statystyka testowa ma postać
i ma ona przy założeniu prawdziwości hipotezy zerowej rozkład F Snedecora o (n1-1) i (n2-1) stopniach swobody. Obszar odrzucenia jest prawostronny.
Hipotezy statystyczne i ich weryfikacja testy statystyczne
- 4 -