WERYFIKACJA HIPOTEZ STATYSYCZNYCH
Weryfikacja hipotez statystycznych jest obok estymacji drugim ważnym działem wnioskowania statystycznego. Hipotezą statystyczną nazywamy osąd inaczej przypuszczenie spełniające dwa warunki :
Po pierwsze dotyczy rozkładu lub jego parametrów w populacji generalnej
Po drugie jego słuszność da się zweryfikować na podstawie danych z badania reprezentacyjnego. Taki osąd może powstać na podstawie logicznych przesłanek lub obserwacji badanego zjawiska.
Hipotezy statystyczne mogą dotyczyć parametrów rozkładu teoretycznego np. jego wartości przeciętnej - są to wówczas hipotezy parametryczne. Mogą również mówić o postaci rozkładu teoretycznego np. rozkładu cechy w populacji jest zgodny z rozkładem normalnym. Mogą dotyczyć też współzależności cech, losowości próby, itp.
Są to wówczas hipotezy nieparametryczne. Test statystyczny jest regułą postępowania określającą sposób sprawdzania słuszności hipotezy oraz warunki w których podejmujemy decyzje, że dana hipoteza jest słuszna i należy ją przyjąć lub , że jest niesłuszna i należy ją odrzucić. Ponieważ weryfikacji dokonujemy na podstawie danych z próby losowej należy się liczyć z możliwością popełnienia błędu przy podejmowanej decyzji. Co do słuszności weryfikowanej hipotezy rozróżniamy dwa rodzaje błędów:
Podejmujemy decyzje o odrzuceniu hipotezy gdy w rzeczywistości jest ona prawdziwa - jest to tzw. błąd pierwszego rodzaju. Prawdopodobieństwo popełnienia takiego błędu najczęściej oznaczamy symbolem α .
Podejmujemy decyzje o uznaniu weryfikowanej hipotezy za słuszną gdy w rzeczywistości jest ona fałszywa - jest to błąd drugiego rodzaju. Jego prawdopodobieństwo zazwyczaj oznaczamy literą β
Test statystyczny powinien być tak zbudowany aby zapewnić jak najmniejsze prawdopodobieństwo podjęcia niesłusznej decyzji. Wartości prawdopodobieństw α, β są ze sobą związane. Zmniejszając jedno z nich powodujemy jednocześnie zwiększenie drugiego.
Do najczęściej stosowanych testów należy test istotności. Testy te są tak zbudowane aby zapewnić możliwie małe prawdopodobieństwo popełnienia błędu drugiego rodzaju przy określonym z góry i zaakceptowanym przez organizatorów badania prawdopodobieństwa α, popełnienia błędu pierwszego rodzaju. Prawdopodobieństwo to nazywamy poziomem istotności. Ustalamy z reguły poziom istotności jako wartość bliską "0” np.: 0,1; 0,05; 0,06.
Poziom istotności określa wiarygodność wyniku weryfikacji. Przyjęcie np. α=0,05 oznaczona, że godzimy się z ryzykiem iż w 5 przypadkach na 100 podejmujemy na podstawie wyników z próby niesłuszną decyzje o odrzuceniu hipotezy H0.
Testy istotności określają w jakich warunkach podejmujemy decyzje o odrzuceniu hipotezy H0 - gdy wynik z próby wskazuje na jej fałszywość. W przypadku gdy wyniki z próby nie wskazują na fałszywość hipotezy H0 podejmujemy decyzje , że na podstawie tych danych nie mamy podstaw do odrzucenia hipotezy weryfikowanej.
Budując test statystyczny wykonujemy kolejno następujące czynności:
Definiujemy tzw. hipotezę zerową H0 czyli hipotezę która będzie podlegała weryfikacji ; z reguły jest to hipoteza prosta mająca tylko jedno rozwiązanie
Definiujemy tzw. hipotezę alternatywną H1 która może przyjmować wszystkie rozwiązania poza zawartym w H0 , najczęściej jest ona zgodna z logicznymi przesłankami lub wynikami z próby
Dokonujemy wyboru tzw. sprawdzeniu hipotezy którym jest zmienna losowa o znanym rozkładzie prawdopodobieństwa ,wybierając sprawdzian hipotezy uwzględniamy liczebność próby i dodatkowe informacje o rozkładzie teoretycznym
Ustalamy tzw. obszar krytyczny czyli obszar odrzucenia hipotezy zerowej H0 . Sprawdzian hipotezy jako zmienna losowa ma rozkład prawdopodobieństwa, znany nam z tablic tego rozkładu odczytujemy wartość krytyczną pozwalającą na ustalenie w zależności od postaci hipotezy alternatywnej obszaru krytycznego
Wyznaczamy wartość sprawdzianu dla danych z próby i podejmujemy decyzje
Jeśli obliczona wartość należy do obszaru krytycznego odrzucamy hipotezę H0 na korzyść hipotezy alternatywnej
Jeśli natomiast nie należy do obszaru krytycznego stwierdzamy, że nie mamy podstaw do odrzucenia hipotezy zerowej H0
TEST ISTOTNOŚCI DLA WARTOŚCI OCZEKIWANEJ
Hipoteza H0 przy teście o poziomie wartości oczekiwanej ma postać H0 : m = m0
m0 - hipotetyczna wartość średniej
Hipoteza alternatywna może mieć jedną z trzech postaci :
m ≠ m0
H1 m > m0
m < m0
Przy weryfikacji hipotezy dotyczącej średniej rozpatrujemy następujące przypadki.
Model:
Zakładamy, że cecha ma w zbiorowości rozkład normalny N(m,σ) σ - znane
wówczas jako sprawdzian hipotezy wybieramy statystykę
_
X - m0
U = ———— √n
σ
która ma przy założeniu prawdziwości hipotezy H0 rozkład normalny o parametrach N(0,1)
Gdy dysponujemy dużą próbą czyli (n>30) wówczas możemy zastosować również statystykę U z modelu 1 przyjmując (σ ≈ S ) odchylenie standardowe z próby . Niektórzy autorzy uważają, że ten model można używać dopiero przy n≥120. Wtedy mówimy, że statystyka ma rozkład asymptotycznie normalny
Wiemy, że cecha ma w populacji rozkład normalny. Nie znamy odchylenia standardowego tego rozkładu i dysponujemy próbą. Wówczas jako sprawdzian hipotezy przyjmujemy statystkę która ma przy założeniu prawdziwości hipotezy H0 rozkład studenta o n-1 stopniach swobody
_
X - m0
Tn-1 = ———— √ n - 1
S
Mamy podaną wartość estymatora Ŝ to przeliczając otrzymujemy
_
X - m0
Tn-1 = ———— √ n
Ŝ
σ - nieznane (mała próba) n ≤ 30
WERYFIKACJA HIPOTEZ O RÓWNOŚCI DWÓCH ŚREDNICH
W wielu przypadkach otrzymujemy dla prób wylosowanych z dwóch zbiorowości generalnych lub dwóch podzbiorów tej samej zbiorowości różne wartości średniej dla badanej cechy. Musimy stwierdzić czy różnica między średnimi jest przypadkowa czy taż wynika z pewnej prawidłowości. Dla hipotez o równości średnich hipoteza H0 ma postać
H0 : m1 = m2
Hipoteza alternatywna może mieć jedna z trzech postaci:
m1 ≠ m2
H1 m1 > m2
m1 < m2
Rozpatrujemy tu następujące sytuacje:
N(m1, σ1) , N(m2, σ2) σ1, σ2 o nieznanych odchyleniach standardowych
Wówczas jako statystykę testową wybieramy statystykę U
_ _
X1 - X2
U = —————
σ²1 σ²2
√ — + —
n1 n2
która ma w założeniu hipotezy H0 rozkład o parametrach N(0,1)
Obie próby są duże
n1 > 30 ( n1>120 )
n2 > 30 ( n2>120 )
możemy zastosować statystyk ę U przyjmując w przybliżeniu jako odchylenie standardowe
σ1 ≈ S1 odchylenie standardowe w próbie
σ2 ≈ S2
Statystyka ta ma wówczas rozkład asymptotycznie normalny o parametrach N(0,1)
3. Wiemy , że cecha ma w obu zbiorowościach rozkład normalny
N(m1, σ1), N(m2, σ2) σ1 = σ2
n1
n2 próba mała
o nieznanych ale równych odchyleniach standardowych i dysponujemy małymi próbami. Wówczas jako statystykę testową przyjmujemy statystykę T (wzór 20)
_ _
X1 - X2
T = ——————————
n1 s²1 + n2 s²2 1 1
√ —————— (— + — )
n1 + n2 - 2 n1 n2
Statystyka ta ma przy założeniu prawdziwości hipotezy H0 rozkład studenta o
T: n1+ n2-2 stopniach swobody
Uwaga:
Jeśli w modelu nr3 nie jest spełniony warunek stosuje się do weryfikacji hipotezy H0 inny test.
WERYFIKACJA HIPOTEZY O POZIOMIE WSKAŹNIKA STRYKTURY
Testy te są często stosowane zarówno pod badaną zbiorowość z punktu widzenia cechy mierzalnej i niemierzalnej. Stosujemy je wyłącznie do dużych prób n>100 hipoteza
H0 : P = P0
P0 - hipotetyczna wartość wskaźnika struktury
P ≠ P0
H1 P > P0
P < P0
Jako statystykę testową przyjmujemy statystykę U
k
— - P0
n
U = —————
P0 q0
√ ———
n
q0 = 1- P0
n- liczebność próby
k- liczba jednostek w próbie o zróżnicowanym wariancie cechy
Statystyka ta ,ma przy założeniu prawdziwości hipotezy H0 układ normalny o parametrach N(0,1)
WERYFIKACJA HIPOTEZY O RÓWNOŚCI DWÓCH WSKAŹNIKÓW STRUKTURY
Jeśli badamy dwie zbiorowości z punktu widzenia tej samej cechy, to czy chcemy wiedzieć, czy udział jednostek z wyróżnionym wariantem cechy jest taki sam w obu zbiorowościach.
Hipotezę zerową definiujemy jako
P1 ≠ P2
H1 P1 > P2
P1 < P2
Następnym sprawdzianem przy weryfikacji tej hipotezy jest statystyka (wzór nr23 ) gdzie
n1 n2 _— k1 k2
n = ———— P= ————
n1 + n2 n1 + n2
_ _
q = 1- P
Statystyka ta ma rozkład asymptotycznie normalny przy założeniu prawdziwości hipotezy H0. W omówionych przypadkach weryfikacji hipotez dotyczących średnich i wskaźników struktury, obszary krytyczne dla przyjętego poziomu istotności wyznaczamy następująco :
Np.:
W pewnej firmie zakupiono 10 nowych obrabiarek . aby sprawdzi czy są one rzeczywiście wydajniejsze niż dotychczas używane porównano czas produkcji określonego elementu na 8 starych i 10 nowych obrabiarek i otrzymano dane :
N1 - 8 (obrabiarki stare)
_
Χ - 2.6 (średni czas wykonywania tego elementu)
S1 - 0,3 (odchylenie standardowe)
N2 - 10 (nowe obrabiarki )
_
X2 - 2,2 (średni czas wykonywania tego elementu)
S2- 0,4 (odchylenie standardowe)
Wiemy , że czas produkcji tego elementu ma dla typów obrabiarek rozkład normalny i odchylenia standardowe tego rozkładu są jednakowe
_ _
X1 - X2
T = ——————————
n1 s²1 + n2 s²2 1 1
√ —————— (— + — )
n1 + n2 - 2 n1 n2
Wzór na sprawdzian hipotezy o równości dwóch wartości średnich
2,6 - 2,2
T = ————— = 2,2
0,18
jeżeli przyjmiemy α+0,05 = (1,746)
odczytujemy hipotezę, że oba typy obrabiarek pracują tak samo szybko na korzyść hipotezy , że nowe pracują szybciej