HIPOTEZY I TESTOWANIE HIPOTEZ (WNIOSKOWANIE STATYSTYCZNE)

Hipoteza statystyczna jest to kaŜde takie przypuszczenie, które dotyczy:

- wartości parametrów rozkładu zmiennej losowej

lub

- postaci (typu) rozkładu zmiennej losowej,

i które moŜe być weryfikowane statystycznie, tzn. w oparciu o wyniki zaobserwowane w próbie losowej

Weryfikacja hipotezy odbywa się przez zastosowanie testu statystycznego.

Test statystyczny to kaŜda jednoznacznie zdefiniowana reguła postępowania określająca warunki, przy których naleŜy sprawdzaną hipotezę przyjąć lub odrzucić.

Podział hipotez i testów statystycznych:

- parametryczne - dotyczą parametrów rozkładu zmiennej losowej, np. wartości oczekiwanej i wariancji

- nieparametryczne - dotyczą innych cech nie związanych z parametrami, np. typu rozkładu

Hipoteza H0 jest to hipoteza statystyczna stawiana w oparciu o przeprowadzoną próbę, związana z wyznaczeniem wielkości nazywanych funkcjami testowymi, sprawdzianami hipotezy lub statystyką

Jako hipotezę H0 wybiera się z reguły hipotezą łatwiejszą do weryfikacji, np:

H0: µ = xsr

H0: rozkład jest rozkładem normalnym

Uwagi ogólne:

- nie moŜna udzielić absolutnie pewnej odpowiedzi co do słuszności postawionej hipotezy

- w praktyce określa się wielkość obszaru, wewnątrz którego z określonym prawdopodobieństwem powinna się znaleźć weryfikowana wielkość uzyskana z próby, aby moŜna ją było uznać za reprezentatywną dla populacji generalnej

- hipotezę H0 się przyjmuje, jeŜeli wartość testu trafi do obszaru przyjęcia hipotezy, hipotezę H0 się odrzuca, jeŜeli wartość testu trafi do obszaru krytycznego f(χ2)

ilość stopni swobody k=6

1-α=0.95

α=0.05

χ2kr

χ2

obszar przyjęcia

obszar odrzucenia

hipotezy H0

hipotezy H0 (krytyczny)

Konsekwencje weryfikacji hipotezy:

H0 słuszna

H0 fałszywa

przyjęcie H0

+

błąd drugiego rodzaju

odrzucenie H0 błąd pierwszego rodzaju

+

- popełnienie błędu pierwszego rodzaju - silnie uwarunkowane jest wartością poziomu ufności 1-α

(zbyt wysoki poziom powodować moŜe odrzucenie hipotezy mimo tego, Ŝe hipoteza jest

prawdziwa)

W celu uniknięcia błędów lub w przypadku odrzucenia hipotezy H0 formułuje się często hipotezę alternatywną H1, która jest konkurencyjna względem hipotezy H0, np:

H1: µ <xsr lub H1: µ >xsr lub H1: µ≠ xsr

H1: rozkład nie jest normalnym

Wikipedia: Czasami nazwą błąd trzeciego rodzaju określa się teŜ wszelkie inne błędy, które mogą wyniknąć przy testowaniu hipotez, np. błąd wynikający z zaokrąglenia wartości statystyki testowej podczas obliczeń komputerowych.

TEST χ 2 (chi kwadrat)

- test nieparametryczny wprowadzony w 1900 r. przez Pearsona

- test daje w wyniku jedną ilościową miarę zgodności częstości doświadczalnych mi i teoretycznych (modelowych) mit w całym badanym przedziale zmienności

- test moŜe być stosowany do wszystkich rozkładów zmiennych losowych

- hipoteza H0: rozkład wyników uzyskany z próby jest rozkładem określonego typu, np. rozkładem normalnym, czyli:

H0: rozkład wyników = rozkład N

- hipoteza alternatywna H1: rozkład wyników jest rozkładem innego typu, czyli: H1: rozkład wyników ≠ rozkład N

- postać funkcji testowej (statystyki)

k

2

( m

m )

i −

2

χ = ∑

it

m

i= 1

it

k - ilość przedziałów klasowych (k ≥ 5), mi - ilość wyników w i-tym przedziale klasowym (mi ≥ 5), mit-ilość teoretyczna wyników w i-tym przedziale klasowym uzyskana przy załoŜeniu prawdziwości hipotezy H0 o określonym typie rozkładu zmiennej losowej, np. Ŝe rozkład jest rozkładem normalnym

- statystyka opisana jest rozkładem χ 2; przy ilości stopni swobody równej ksw=k-L-1

(L-liczba wielkości określanych z próby xsr i sx : L=2): ksw=k-3

- uzyskaną wartość χ 2 porównuje się z wartością χ 2k, α odczytaną z tablic rozkładu χ 2 przy załoŜeniu określonego poziomu ufności 1-α;

- hipotezy H0 nie powinno się odrzucać, jeŜeli χ 2 ≤χ 2k, α

- gdy χ 2 > χ 2k, α naleŜy hipotezę H0 odrzucić; prawdopodobieństwo tego, Ŝe decyzja jest błędna nie przekracza wartości α

- zalecane jest sformułowanie hipotezy alternatywnej

- wartość χ 2 zaleŜy silnie od sposobu grupowania wyników - waŜną rolę odgrywa opracowanie szeregu rozdzielczego; opracowanie to moŜe wpływać na powstanie błędów I i II rodzaju

TESTY NA WYKRYCIE BŁĘDU GRUBEGO

Wynik odskakujący nie zawsze musi świadczyć o tym, Ŝe wynik ten jest obarczony błędem grubym. Odrzucenie lub pozostawienie takiego wyniku powinno oparte być na ocenie statystycznej

- naleŜy zastosować odpowiedni test na błąd gruby

Test Dixona - oparty jest na wyznaczaniu rozrzutu wyników

Procedura testowa

- naleŜy uporządkować wyniki w określony sposób np. od najmniejszej do największej wartości x1, x2,.....xn-1, xn. Błędem grubym moŜe być obarczona najmniejsza wartość x1 lub największa xn

- naleŜy obliczyć wartości parametrów definiowanych następująco:

- dla ilości wyników z zakresu od 3 do 7 (zaleŜność podstawowa): x − x

x − x

2

1

Q

=

n

n 1

Q

=

−

min

x − x

max

x − x

n

1

n

1

- dla ilości wyników z zakresu od 8 do 12:

x − x

x − x

2

1

Q

=

n

n 1

Q

=

−

min

x

max

−

− − x

x

x

n 1

1

n

2

- dla ilości wyników z zakresu od 13 do 40:

x − x

x − x

3

1

Q

=

n

n 2

Q

=

−

min

x

max

−

− − x

x

x

n 2

1

n

3

- z obliczonych Qmin i Qmax wybrać wartość większą i porównać ją z wartością krytyczną Qkryt odczytaną przy załoŜonym poziomie ufności z tabeli testu Dixona (z reguły poziom ufności 0.95). JeŜeli wybrana wartość spełnia warunek

Qwybrane ≤ Qkryt

to nie ma podstaw do odrzucenia wątpliwego wyniku (z prawdopodobieństwem 95% lub inaczej

- z prawdopodobieństwem 5% podjęcia błędnej decyzji). JeŜeli warunek nie jest spełniony z takimi samymi prawdopodobieństwami naleŜy wynik wątpliwy odrzucić

Test Grubbsa - oparty jest na wyznaczaniu odchylenia wątpliwego wyniku od średniej względem odchylenia standardowego

Procedura testowa

- naleŜy uporządkować wyniki w określony sposób np. od najmniejszej do największej wartości x1, x2,.....xn-1, xn.

- naleŜy obliczyć wartość parametru T z wzoru

x

− x

watpl

T =

sx

gdzie xwatpl - wynik odskakujący, x - średnia arytmetyczna i sx - estymator odchylenia standardowego (błąd średni pojedynczego pomiaru) wyznaczony z wszystkich wyników

- obliczoną wartość T porównać z wartością krytyczną Tkryt odczytaną przy załoŜonym poziomie ufności z tabeli testu Grubbsa (z reguły poziom ufności 0.95). JeŜeli wybrana wartość spełnia warunek

T ≤ Tkryt

to nie ma podstaw do odrzucenia wątpliwego wyniku (z prawdopodobieństwem 95% lub inaczej

- prawdopodobieństwem 5% podjęcia błędnej decyzji). JeŜeli warunek nie jest spełniony z takimi samymi prawdopodobieństwami naleŜy wynik wątpliwy odrzucić

TEST t-Studenta róŜnic dwóch średnich Test stosowany w celu porównania róŜnic dwóch wartości średnich z dwóch serii pomiarowych (wyniki pochodzą z populacji generalnych o rozkładzie normalnym)

Procedura testowa

- naleŜy obliczyć średnie arytmetyczne x1ś r i x2ś r estymatory odchyleń standardowych (błędy średnie pojedynczych pomiarów) sx1 i sx2 dla dwóch serii pomiarowych

- obliczyć wartość parametru t z wzoru

x

− x

n n n + n − 2

ś

ś

1 r

2 r

1 2 ( 1

2

)

t =

(

n − 1 s + n − 1 s

n + n

1

) 21 ( 2 ) 2

1

2

2

gdy obydwie serie są równoliczne tzn. n1 = n2 wzór upraszcza się do postaci x

−

ś

x

t

ś

1 r

2 r

=

n

s2 + s2

1

2

- obliczoną wartość t porównać z wartością krytyczną tkryt odczytaną przy załoŜonym poziomie ufności z tablic rozkładu t-Studenta (z reguły poziom ufności 0.95) dla liczby stopni swobody równej k = n

+ n

2

-

. JeŜeli obliczona wartość spełnia warunek

1

2

t ≤ tkryt

to obydwie średnie nie róŜnią się w sposób statystycznie istotny (z prawdopodobieństwem 95%)

- inaczej obydwie poprawnie reprezentują tę samą wielkość. JeŜeli warunek nie jest spełniony to róŜnią się w sposób statystycznie istotny.

TEST F-Snedecora (Fishera-Snedecora)

Test ten stosowany jest do porównania wartości odchyleń standardowych (lub wariancji) dla dwóch serii wyników (wyniki pochodzą z populacji generalnych o rozkładzie normalnym).

Procedura testowa

- obliczyć wartości odchylenia standardowego dla dwóch serii wyników

- obliczyć wartość parametry testu F-Snedecora wg wzoru

n1

2

s1

n − 1

1

F =

n2

2

s2

n − 1

2

gdy n1 = n2 wzór przyjmuje postać

2

s1

F =

2

s2

Uwaga: wzór naleŜy tak skonstruować, Ŝeby wartość F była zawsze większa od 1

- obliczoną wartość naleŜy porównać z wartością krytyczną Fkr znalezioną w tablicach rozkładu testu F-Snedecora dla załoŜonego poziomu istotności α (najczęściej 0,05) i ilości stopni swobody f1 = n1 - 1 i f2 = n2 - 1

- jeŜeli spełniony jest warunek

F ≤ Fkr

to odchylenia standardowe nie róŜnią się między sobą w sposób statystycznie istotny. W praktyce oznacza to, Ŝe obydwie serie wyznaczone zostały metodami o tej samej precyzji. W przeciwnym przypadku róŜnica jest istotna i precyzje metod są róŜne.

Inne testy

parametryczne:

- test róŜnicy dwóch średnich (test Cochrana - Coxa i test Aspina - Welcha))

- test t-Studenta istotności róŜnicy wartości średniej z załoŜoną wartością nieparametryczne:

- test Smirnowa - Kołmogorowa

- test Shapiro - Wilka

Podsumowanie - ogólna metodyka testów statystycznych:

- postawienie hipotezy H0 w oparciu o wyniki z próby (lub z prób)

- wybranie odpowiedniej funkcji testowej

- obliczenia wartości funkcji testowej

- porównanie wartości obliczonej z wartością krytyczną dla wybranej funkcji testowej przy załoŜonym poziomie ufności lub współczynniku istotności