HIPOTEZY I TESTOWANIE HIPOTEZ (WNIOSKOWANIE STATYSTYCZNE)
Hipoteza statystyczna jest to każde takie przypuszczenie, które dotyczy:
- wartości parametrów rozkładu zmiennej losowej
lub
- postaci (typu) rozkładu zmiennej losowej,
i które może być weryfikowane statystycznie, tzn. w oparciu o wyniki zaobserwowane w próbie losowej
Weryfikacja hipotezy odbywa się przez zastosowanie testu statystycznego.
Test statystyczny to każda jednoznacznie zdefiniowana reguła postępowania określająca warunki, przy których należy sprawdzaną hipotezę przyjąć lub odrzucić.
Podział hipotez i testów statystycznych:
- parametryczne - dotyczą parametrów rozkładu zmiennej losowej, np. wartości oczekiwanej i wariancji
- nieparametryczne - dotyczą innych cech nie związanych z parametrami, np. typu rozkładu
Hipoteza H0 jest to hipoteza statystyczna stawiana w oparciu o przeprowadzoną próbę, związana z wyznaczeniem wielkości nazywanych funkcjami testowymi, sprawdzianami hipotezy lub statystyką
Jako hipotezę H0 wybiera się z reguły hipotezą łatwiejszą do weryfikacji, np:
H0: µ = xsr
H0: rozkład jest rozkładem normalnym
Uwagi ogólne:
- nie można udzielić absolutnie pewnej odpowiedzi co do słuszności postawionej hipotezy
- w praktyce określa się wielkość obszaru, wewnątrz którego z określonym prawdopodobieństwem powinna się znaleźć weryfikowana wielkość uzyskana z próby, aby można ją było uznać za reprezentatywną dla populacji generalnej
- hipotezę H0 się przyjmuje, jeżeli wartość testu trafi do obszaru przyjęcia hipotezy, hipotezę H0 się odrzuca, jeżeli wartość testu trafi do obszaru krytycznego f(χ2)
ilość stopni swobody k=6
1-α=0.95
α=0.05
χ2kr
χ2
obszar przyjęcia
obszar odrzucenia
hipotezy H0
hipotezy H0 (krytyczny)
Konsekwencje weryfikacji hipotezy:
H0 słuszna
H0 fałszywa
przyjęcie H0
+
błąd drugiego rodzaju
odrzucenie H0 błąd pierwszego rodzaju
+
- popełnienie błędu pierwszego rodzaju - silnie uwarunkowane jest wartością poziomu ufności 1-α
(zbyt wysoki poziom powodować może odrzucenie hipotezy mimo tego, że hipoteza jest
prawdziwa)
W celu uniknięcia błędów lub w przypadku odrzucenia hipotezy H0 formułuje się często hipotezę alternatywną H1, która jest konkurencyjna względem hipotezy H0, np:
H1: µ <xsr lub H1: µ >xsr lub H1: µ≠ xsr
H1: rozkład nie jest normalnym
Wikipedia: Czasami nazwą błąd trzeciego rodzaju określa się też wszelkie inne błędy, które mogą wyniknąć przy testowaniu hipotez, np. błąd wynikający z zaokrąglenia wartości statystyki testowej podczas obliczeń komputerowych.
- test nieparametryczny wprowadzony w 1900 r. przez Pearsona
- test daje w wyniku jedną ilościową miarę zgodności częstości doświadczalnych mi i teoretycznych (modelowych) mit w całym badanym przedziale zmienności
- test może być stosowany do wszystkich rozkładów zmiennych losowych
- hipoteza H0: rozkład wyników uzyskany z próby jest rozkładem określonego typu, np. rozkładem normalnym, czyli:
H0: rozkład wyników = rozkład N
- hipoteza alternatywna H1: rozkład wyników jest rozkładem innego typu, czyli: H1: rozkład wyników ≠ rozkład N
- postać funkcji testowej (statystyki)
k
2
( m
m )
i −
2
χ = ∑
it
m
i= 1
it
k - ilość przedziałów klasowych (k ≥ 5), mi - ilość wyników w i-tym przedziale klasowym (mi ≥ 5), mit-ilość teoretyczna wyników w i-tym przedziale klasowym uzyskana przy założeniu prawdziwości hipotezy H0 o określonym typie rozkładu zmiennej losowej, np. że rozkład jest rozkładem normalnym
- statystyka opisana jest rozkładem χ 2; przy ilości stopni swobody równej ksw=k-L-1
(L-liczba wielkości określanych z próby xsr i sx : L=2): ksw=k-3
- uzyskaną wartość χ 2 porównuje się z wartością χ 2k, α odczytaną z tablic rozkładu χ 2 przy założeniu określonego poziomu ufności 1-α;
- hipotezy H0 nie powinno się odrzucać, jeżeli χ 2 ≤χ 2k, α
- gdy χ 2 > χ 2k, α należy hipotezę H0 odrzucić; prawdopodobieństwo tego, że decyzja jest błędna nie przekracza wartości α
- zalecane jest sformułowanie hipotezy alternatywnej
- wartość χ 2 zależy silnie od sposobu grupowania wyników - ważną rolę odgrywa opracowanie szeregu rozdzielczego; opracowanie to może wpływać na powstanie błędów I i II rodzaju
TESTY NA WYKRYCIE BŁĘDU GRUBEGO
Wynik odskakujący nie zawsze musi świadczyć o tym, że wynik ten jest obarczony błędem grubym. Odrzucenie lub pozostawienie takiego wyniku powinno oparte być na ocenie statystycznej
- należy zastosować odpowiedni test na błąd gruby
Test Dixona - oparty jest na wyznaczaniu rozrzutu wyników
Procedura testowa
- należy uporządkować wyniki w określony sposób np. od najmniejszej do największej wartości x1, x2,.....xn-1, xn. Błędem grubym może być obarczona najmniejsza wartość x1 lub największa xn
- należy obliczyć wartości parametrów definiowanych następująco:
- dla ilości wyników z zakresu od 3 do 7 (zależność podstawowa): x − x
x − x
2
1
Q
=
n
n 1
Q
=
−
min
x − x
max
x − x
n
1
n
1
- dla ilości wyników z zakresu od 8 do 12:
x − x
x − x
2
1
Q
=
n
n 1
Q
=
−
min
x
max
−
− − x
x
x
n 1
1
n
2
- dla ilości wyników z zakresu od 13 do 40:
x − x
x − x
3
1
Q
=
n
n 2
Q
=
−
min
x
max
−
− − x
x
x
n 2
1
n
3
- z obliczonych Qmin i Qmax wybrać wartość większą i porównać ją z wartością krytyczną Qkryt odczytaną przy założonym poziomie ufności z tabeli testu Dixona (z reguły poziom ufności 0.95). Jeżeli wybrana wartość spełnia warunek
Qwybrane ≤ Qkryt
to nie ma podstaw do odrzucenia wątpliwego wyniku (z prawdopodobieństwem 95% lub inaczej
- z prawdopodobieństwem 5% podjęcia błędnej decyzji). Jeżeli warunek nie jest spełniony z takimi samymi prawdopodobieństwami należy wynik wątpliwy odrzucić
Test Grubbsa - oparty jest na wyznaczaniu odchylenia wątpliwego wyniku od średniej względem odchylenia standardowego
Procedura testowa
- należy uporządkować wyniki w określony sposób np. od najmniejszej do największej wartości x1, x2,.....xn-1, xn.
- należy obliczyć wartość parametru T z wzoru
x
− x
watpl
T =
sx
gdzie xwatpl - wynik odskakujący, x - średnia arytmetyczna i sx - estymator odchylenia standardowego (błąd średni pojedynczego pomiaru) wyznaczony z wszystkich wyników
- obliczoną wartość T porównać z wartością krytyczną Tkryt odczytaną przy założonym poziomie ufności z tabeli testu Grubbsa (z reguły poziom ufności 0.95). Jeżeli wybrana wartość spełnia warunek
T ≤ Tkryt
to nie ma podstaw do odrzucenia wątpliwego wyniku (z prawdopodobieństwem 95% lub inaczej
- prawdopodobieństwem 5% podjęcia błędnej decyzji). Jeżeli warunek nie jest spełniony z takimi samymi prawdopodobieństwami należy wynik wątpliwy odrzucić
TEST t-Studenta różnic dwóch średnich Test stosowany w celu porównania różnic dwóch wartości średnich z dwóch serii pomiarowych (wyniki pochodzą z populacji generalnych o rozkładzie normalnym)
Procedura testowa
- należy obliczyć średnie arytmetyczne x1ś r i x2ś r estymatory odchyleń standardowych (błędy średnie pojedynczych pomiarów) sx1 i sx2 dla dwóch serii pomiarowych
- obliczyć wartość parametru t z wzoru
x
− x
n n n + n − 2
ś
ś
1 r
2 r
1 2 ( 1
2
)
t =
(
n − 1 s + n − 1 s
n + n
1
) 21 ( 2 ) 2
1
2
2
gdy obydwie serie są równoliczne tzn. n1 = n2 wzór upraszcza się do postaci x
−
ś
x
t
ś
1 r
2 r
=
n
s2 + s2
1
2
- obliczoną wartość t porównać z wartością krytyczną tkryt odczytaną przy założonym poziomie ufności z tablic rozkładu t-Studenta (z reguły poziom ufności 0.95) dla liczby stopni swobody równej k = n
+ n
2
-
. Jeżeli obliczona wartość spełnia warunek
1
2
t ≤ tkryt
to obydwie średnie nie różnią się w sposób statystycznie istotny (z prawdopodobieństwem 95%)
- inaczej obydwie poprawnie reprezentują tę samą wielkość. Jeżeli warunek nie jest spełniony to różnią się w sposób statystycznie istotny.
TEST F-Snedecora (Fishera-Snedecora)
Test ten stosowany jest do porównania wartości odchyleń standardowych (lub wariancji) dla dwóch serii wyników (wyniki pochodzą z populacji generalnych o rozkładzie normalnym).
Procedura testowa
- obliczyć wartości odchylenia standardowego dla dwóch serii wyników
- obliczyć wartość parametry testu F-Snedecora wg wzoru
n1
2
s1
n − 1
1
F =
n2
2
s2
n − 1
2
gdy n1 = n2 wzór przyjmuje postać
2
s1
F =
2
s2
Uwaga: wzór należy tak skonstruować, żeby wartość F była zawsze większa od 1
- obliczoną wartość należy porównać z wartością krytyczną Fkr znalezioną w tablicach rozkładu testu F-Snedecora dla założonego poziomu istotności α (najczęściej 0,05) i ilości stopni swobody f1 = n1 - 1 i f2 = n2 - 1
- jeżeli spełniony jest warunek
F ≤ Fkr
to odchylenia standardowe nie różnią się między sobą w sposób statystycznie istotny. W praktyce oznacza to, że obydwie serie wyznaczone zostały metodami o tej samej precyzji. W przeciwnym przypadku różnica jest istotna i precyzje metod są różne.
Inne testy
parametryczne:
- test różnicy dwóch średnich (test Cochrana - Coxa i test Aspina - Welcha))
- test t-Studenta istotności różnicy wartości średniej z założoną wartością nieparametryczne:
- test Smirnowa - Kołmogorowa
- test Shapiro - Wilka
Podsumowanie - ogólna metodyka testów statystycznych:
- postawienie hipotezy H0 w oparciu o wyniki z próby (lub z prób)
- wybranie odpowiedniej funkcji testowej
- obliczenia wartości funkcji testowej
- porównanie wartości obliczonej z wartością krytyczną dla wybranej funkcji testowej przy założonym poziomie ufności lub współczynniku istotności