Metody probabilistyczne i statystyka Wykład
11
Testy zgodności
Dr Joanna Banaś
Zakład Matematyki Stosowanej
Katedra Metod Sztucznej Inteligencji i Matematyki Stosowanej Wydział Informatyki Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie
Metody probabilistyczne i statystyka Wykład 11
27. Nieparametryczne testy zgodności
Weryfikacja hipotezy nieparametrycznej
zbadanie zgodności między hipotetycznym rozkładem w populacji, a empirycznym rozkładem w próbce
zbadanie zgodności między empirycznymi rozkładami w dwóch próbkach
Wstępne informacje co do postaci rozkładu – analiza histogramu uzyskanego z próbki
a)
b)
0
0
Rys.27.1. Przykłady histogramów empirycznych
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 11
Testy zgodności dla jednej populacji
(27.1) Testy zgodności dla jednej populacji
test χ2 Pearsona ( n ≥ 80)
test λ Kołmogorowa (liczność dowolna, cecha typu ciągłego)
test Shapiro-Wilka (rozkład normalny, n ≤ 50)
test Kołmogorowa-Lillieforsa (rozkład normalny, n > 30)
Hipotezy
H : cecha X ma rozkład okre
0
ślony dystrybuantą F
H : ∼ H
1
0
Dla cechy typu ciągłego zakładamy, że wartości próbki są przedstawione w postaci szeregu przedziałowego rozdzielczego Lp.
Granice klas
Liczebność empiryczna ni
1
x
− x
n
1 d
1 g
1
Zauważmy, że
2
x
− x
n
2 d
2 g
2
x = x
ig
i-1 g
…
…
…
k
x
− x
n
kd
kg
k
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 11
Test χ2 Pearsona
Model (test χ2 Pearsona, n ≥ 80)
Jeśli hipoteza H jest prawdziwa, to prawdopodobieństwo p , że cecha X
0
i
typu ciągłego przyjmuje wartości należące do i-tej klasy można obliczyć ze wzoru
p = F x
− F x
i
( ig )
( i 1
− g )
Wtedy liczność hipotetyczna w i-tej klasie wyraża się wzorem npi
i zachodzą następujące twierdzenia
Twierdzenie
a)
Jeśli próba jest liczna ( n ≥ 80), to statystyka k
( N − np
i
i ) 2
2
χ = ∑ i 1=
npi
ma w przybliżeniu rozkład χ2 z k−1 stopniami swobody, gdzie N jest zmienn i
ą
losową, oznaczającą liczbę elementów próbki, należących do i-tej klasy Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 11
Test χ2 Pearsona
Twierdzenie – cd.
b)
Jeśli dystrybuanta F cechy X zależy od l parametrów o nieznanych wartościach, to statystyka χ2 ma w przybliżeniu rozkład χ2 z k− l− 1
stopniami swobody
Obszar krytyczny dla hipotezy alternatywnej H : ∼ H ma dla 1
0
ustalonego poziomu ufności α postać
K = 〈 χ2 (1−α, k− l− 1), ∞) Uwaga
Do klasy 1-szej i k-tej (ostatniej) powinno należeć co najmniej 5
elementów, do pozostałych klas – co najmniej 10 elementów Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 11
Test χ2 Pearsona
Przykład (a)
Z populacji, w której badana cecha X ma nieznaną dystrybuantę F
pobrano próbkę o liczności 200
Wyniki po podziale na 10 równych klas zawarto w tabeli Środki klas 45,25 45,75 46,25 46,75 47,25 47,75 48,25 48,75 49,25 49,75
ni
23
19
25
18
17
24
16
22
20
16
Na poziomie istotności 0.05 zweryfikować hipotezę, że cecha X ma rozkład jednostajny na przedziale 〈40,50〉
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 11
Test χ2 Pearsona
Przykład (b)
Doświadczenie dotyczy selekcji grochu
Mendel obserwował liczności występowania różnych rodzajów nasion, otrzymanych przy krzyżowaniu roślin z okrągłymi i żółtymi nasionami oraz roślin z pomarszczonymi i zielonymi nasionami
Otrzymane wyniki zebrano w tabeli
Nasiona
żółte
zielone
okrągłe
315
108
pomarszczone
101
32
Na poziomie istotności 0.05 zweryfikować hipotezę, że stosunek liczby czterech rodzajów nasion wynosi 9:3:3:1
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 11
Test χ2 Pearsona
Przykład (c)
Dokonano 100 pomiarów wytrzymałości elementów żelbetonowych
Wyniki przedstawiono w tabeli
Wytrzymałość
289-291
291-293
293-295
295-297
297-299
Liczba pomiarów
1
4
9
15
24
Wytrzymałość
299-301
301-303
303-305
305-307
307-309
Liczba pomiarów
21
13
9
3
1
Na poziomie istotności 0.05 sprawdzić hipotezę, że zmienna losowa X, będąca modelem wytrzymałości tych elementów, ma rozkład normalny
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 11
Testy zgodności dla dwóch populacji
(27.2) Testy zgodności dla dwóch populacji (cecha typu ciągłego)
test serii
test Smirnowa-Kołmogorowa
test Wilcoxona
Założenia
W dwóch populacjach dystrybuanty F i F badanej cechy X są ciągłe 1
2
Dane są dwie niezależne próbki proste o licznościach n i n odpowiednio 1
2
Hipotezy
H : F ( x) = F ( x) 0
1
2
H : F ( x) ≠ F ( x) 1
1
2
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 11
Test serii
Model (test serii)
Wyniki obu próbek ustawiamy w n + n -elementowy ciąg 1
2
niemalejący
Tworzymy drugi ciąg, w którym a odpowiada elementom pierwszej próbki, b – drugiej, np. aaabbabaab
Ustalamy liczbę serii występujących w ciągu
(w powyższym jest 6 serii)
Wyznaczamy obszar krytyczny
K = 〈2, k(α,
〉
1
n , n 2 )
gdzie k(α, n , n ) odczytujemy z tablic rozkładu serii 1
2
Odrzucamy hipotezę H o zgodności rozkładów, jeśli 0
k∈ K
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład 11
Test serii
Przykład
Chcemy sprawdzić, która kapusta: biała czy czerwona, zawiera więcej witaminy C
Pobrano próbki 100 gramowe z każdego gatunku i wyznaczono ilość witaminy C dla każdej próbki w mg:
Kapusta
45
50
64
38
66
43
49
58
31
49
biała
Kapusta
70
68
55
61
62
74
52
71
56
czerwona
Na poziomie istotności 0.05 zweryfikować testem serii hipotezę, że rozkłady zawartości witaminy C dla obu gatunków kapusty są identyczne
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka Wykład
11
Dziękuję za uwagę
Opracowała Joanna Banaś