TESTY ZGODNOŚCI
Rodzaje testów
Testy zgodności służą do weryfikacji
nieparametrycznych hipotez zerowych.
Stosowane są następujące testy:
Test chi2.
-Kołmogorowa
Smirnowa-Kołmogorowa
Weryfikując hipotezę o postaci
funkcyjnej rozkładu sprawdzamy, czy
rozkład empiryczny jest zgodny z
rozkładem teoretycznym
sformułowanym w hipotezie zerowej
Warunki stosowania
testów
Stosowanie tych testów jest
uprawnione wtedy, gdy :
liczebność próby jest duża,
próba jest uzyskana w wyniku
losowania niezależnego,
liczebność teoretyczna
poszczególnych wariantów lub
przedziałów klasowych n*p
i
>=5,
liczba wariantów lub przedziałów
klasowych >=4.
Test chi
2
Pearsona
W teście zgodności chi
2
miernikiem
rozbieżności między rozkładem
hipotetycznym, a empirycznym jest
statystyka:
n
i
- liczebność empiryczna
poszczególnych klas.
n*p
i
- liczebność teoretyczna
poszczególnych klas.
i
i
i
p
n
p
n
n
*
)
*
(
2
2
Test chi
2
Pearsona
Wyznaczona statystyka jest zmienną
losową o rozkładzie chi
2
całkowicie
określonym przez k-r-1 stopni
swobody, gdzie k – liczba wariantów
(przedziałów) cechy, r – liczba
szacowanych parametrów rozkładu.
Statystyka ta służy do weryfikacji
hipotezy zerowej o postaci :
H0 : F = F
0
.
Wobec hipotezy alternatywnej:
H1 : F # F
0
.
Test chi
2
Pearsona
Obliczoną wg powyższego wzoru
statystykę Chi
2
należy porównać
z wartością krytyczną chi
2
odczytaną z tablic rozkładu Chi
2
przy ustalonym poziomie
istotności i określonej liczbie
stopni swobody .
Relacja wyznaczająca obszar
krytyczny testu ma postać :
P(Chi
2
> chi
2
) =
Procedura wyznaczania
statystyki Chi
2
Budowa szeregu rozdzielczego dla
zebranych danych,
Wyznaczenie parametrów
hipotetycznego rozkładu na
podstawie zebranych danych,
Obliczenie liczebności
teoretycznych dla hipotetycznego
rozkładu,
Wyznaczenie statystyki Chi
2
.
Przykład testu Chi
2
Pearsona
Dokonano analizy 200 niezależnych
próbek stężenia zanieczyszczeń
wody związkami manganu.
Na poziomie istotności 0,05
zweryfikować hipotezę, że rozkład
zanieczyszczeń wody związkami
manganu jest normalny.
Sprawdzaną hipotezą jest: H0: F= F
0
gdzie F
0
jest dystrybuantą rozkładu
normalnego.
Test Kołmogorowa.
Miarą rozbieżności rozkładów
hipotetycznego i empirycznego
jest statystka zdefiniowana
następująco:
= sup | F – F
0
| * sqr(n)
gdzie sup jest maksymalną
różnicą między wartościami
dystrybuant teoretycznych i
empirycznych.
Test Kołmogorowa
Test ten może być stosowany
jedynie dla dystrybuant ciągłych.
Wartość krytyczną odczytujemy
z tablic rozkładu - Kołmogorowa
jako Q( )= 1- ..
W rezultacie weryfikując H0 należy:
odrzucić H0 , jeżeli zachodzi >
stwierdzić brak podstaw do
odrzucenia H0, jeżeli < .
Test zgodności
Smirnowa-Kołmogorowa
Służy do weryfikacji hipotez, że dwie
populacje mają jednakowy rozkład.
Do weryfikacji tych hipotez służy test :
= D
n1,n2
* sqr[n1 * n2 /(n1 + n2)]
Symbolem D
n1,n2
oznaczono
największą różnicę dwóch dystrybuant
D
n1,n2
= sup | F
n1
(x) – F
n2
(x) |
duże wartości statystyki wskazują
na to, że rozkłady nie są podobne
Testowanie losowości
próby
Losowość próby jest
podstawowym założeniem
wnioskowania statystycznego.
Stąd też ważne znaczenie mają
testy weryfikacji hipotez o
losowości próby.
Jednym z testów
wykorzystywanych w tym celu
jest nieparametryczny test serii.
Test serii
W teście serii sprawdzenie, czy
próba jest losowa, czy nie polega
na uporządkowaniu wyników
próby pobranej ze zbiorowości
generalnej o dowolnym
rozkładzie w ciąg niemalejący i
wyznaczenie z tego ciągu
mediany.
Test serii
Następnie powraca się do
pierwotnego uporządkowania
wyników (zgodnego z kolejnością
pobierania jednostek próby) i
poszczególnym wartościom ciągu
wyników x
i
przypisuje oznaczenia
literowe a lub b wg zasady:
- jeśli x
i
< Me, to a
- jeśli x
i
> Me, to b
- jeśli x
i
= Me, to pomijamy.
Test serii
W rezultacie takiego postępowania
otrzymujemy ciąg symboli a i b .
Każdy podciąg symboli jednego
rodzaju występujących po sobie
nazywamy serią.
Liczbę serii występujących w
danym ciągu oznaczamy przez k.
Liczbę liter a oznaczamy przez
n
A
,a liczbę liter b oznaczamy
przez n
B
.
Test serii
Liczba serii k ma znany i
stablicowany rozkład, zależny tylko
od n
A
i n
B
.
W tablicach tego rozkładu
odczytujemy dla ustalonego poziomu
istotności wartość krytyczną k1 w
taki sposób, aby zachodziło:
P( k <= k1 ) = .
Test serii
Otrzymaną z analizowanego
ciągu empirycznego liczbę serii k
porównujemy z odczytaną z
tablic rozkładu serii wartością
krytyczną.
Jeżeli spełniona jest nierówność
k <= k1 , to hipotezę o losowości
próby należy odrzucić.
Jeżeli k > k1 to nie ma podstaw
do odrzucenia hipotezy H0.
Test serii dla dużych
prób
Jeżeli nA i nB ≥ 20, to
zmienna losowa K dąży asymptotycznie do
rozkładu normalnego N{E(K),D(K)}.
Wartość średnia i wariancja zmiennej są
określone wzorami:
Wykorzystując te parametry, obliczamy
statystykę Z, która przy założeniu
prawdziwości H_{0} ma rozkład N(0,1).