Metody probabilistyczne i statystyka Wykład

11

Testy zgodności

Dr Joanna Banaś

Zakład Matematyki Stosowanej

Katedra Metod Sztucznej Inteligencji i Matematyki Stosowanej Wydział Informatyki Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie

Metody probabilistyczne i statystyka Wykład 11

27. Nieparametryczne testy zgodności

Weryfikacja hipotezy nieparametrycznej

zbadanie zgodności między hipotetycznym rozkładem w populacji, a empirycznym rozkładem w próbce

zbadanie zgodności między empirycznymi rozkładami w dwóch próbkach

Wstępne informacje co do postaci rozkładu – analiza histogramu uzyskanego z próbki

a)

b)

0

0

Rys.27.1. Przykłady histogramów empirycznych

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 11

Testy zgodności dla jednej populacji

(27.1) Testy zgodności dla jednej populacji

test χ2 Pearsona ( n ≥ 80)

test λ Kołmogorowa (liczność dowolna, cecha typu ciągłego)

test Shapiro-Wilka (rozkład normalny, n ≤ 50)

test Kołmogorowa-Lillieforsa (rozkład normalny, n > 30)

Hipotezy

H : cecha X ma rozkład okre

0

ślony dystrybuantą F

H : ∼ H

1

0

Dla cechy typu ciągłego zakładamy, że wartości próbki są przedstawione w postaci szeregu przedziałowego rozdzielczego Lp.

Granice klas

Liczebność empiryczna ni

1

x

− x

n

1 d

1 g

1

Zauważmy, że

2

x

− x

n

2 d

2 g

2

x = x

ig

i-1 g

…

…

…

k

x

− x

n

kd

kg

k

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 11

Test χ2 Pearsona

Model (test χ2 Pearsona, n ≥ 80)

Jeśli hipoteza H jest prawdziwa, to prawdopodobieństwo p , że cecha X

0

i

typu ciągłego przyjmuje wartości należące do i-tej klasy można obliczyć ze wzoru

p = F x

− F x

i

( ig )

( i 1

− g )

Wtedy liczność hipotetyczna w i-tej klasie wyraża się wzorem npi

i zachodzą następujące twierdzenia

Twierdzenie

a)

Jeśli próba jest liczna ( n ≥ 80), to statystyka k

( N − np

i

i ) 2

2

χ = ∑ i 1=

npi

ma w przybliżeniu rozkład χ2 z k−1 stopniami swobody, gdzie N jest zmienn i

ą

losową, oznaczającą liczbę elementów próbki, należących do i-tej klasy Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 11

Test χ2 Pearsona

Twierdzenie – cd.

b)

Jeśli dystrybuanta F cechy X zależy od l parametrów o nieznanych wartościach, to statystyka χ2 ma w przybliżeniu rozkład χ2 z k− l− 1

stopniami swobody

Obszar krytyczny dla hipotezy alternatywnej H : ∼ H ma dla 1

0

ustalonego poziomu ufności α postać

K = 〈 χ2 (1−α, k− l− 1), ∞) Uwaga

Do klasy 1-szej i k-tej (ostatniej) powinno należeć co najmniej 5

elementów, do pozostałych klas – co najmniej 10 elementów Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 11

Test χ2 Pearsona

Przykład (a)

Z populacji, w której badana cecha X ma nieznaną dystrybuantę F

pobrano próbkę o liczności 200

Wyniki po podziale na 10 równych klas zawarto w tabeli Środki klas 45,25 45,75 46,25 46,75 47,25 47,75 48,25 48,75 49,25 49,75

ni

23

19

25

18

17

24

16

22

20

16

Na poziomie istotności 0.05 zweryfikować hipotezę, że cecha X ma rozkład jednostajny na przedziale 〈40,50〉

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 11

Test χ2 Pearsona

Przykład (b)

Doświadczenie dotyczy selekcji grochu

Mendel obserwował liczności występowania różnych rodzajów nasion, otrzymanych przy krzyżowaniu roślin z okrągłymi i żółtymi nasionami oraz roślin z pomarszczonymi i zielonymi nasionami

Otrzymane wyniki zebrano w tabeli

Nasiona

żółte

zielone

okrągłe

315

108

pomarszczone

101

32

Na poziomie istotności 0.05 zweryfikować hipotezę, że stosunek liczby czterech rodzajów nasion wynosi 9:3:3:1

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 11

Test χ2 Pearsona

Przykład (c)

Dokonano 100 pomiarów wytrzymałości elementów żelbetonowych

Wyniki przedstawiono w tabeli

Wytrzymałość

289-291

291-293

293-295

295-297

297-299

Liczba pomiarów

1

4

9

15

24

Wytrzymałość

299-301

301-303

303-305

305-307

307-309

Liczba pomiarów

21

13

9

3

1

Na poziomie istotności 0.05 sprawdzić hipotezę, że zmienna losowa X, będąca modelem wytrzymałości tych elementów, ma rozkład normalny

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 11

Testy zgodności dla dwóch populacji

(27.2) Testy zgodności dla dwóch populacji (cecha typu ciągłego)

test serii

test Smirnowa-Kołmogorowa

test Wilcoxona

Założenia

W dwóch populacjach dystrybuanty F i F badanej cechy X są ciągłe 1

2

Dane są dwie niezależne próbki proste o licznościach n i n odpowiednio 1

2

Hipotezy

H : F ( x) = F ( x) 0

1

2

H : F ( x) ≠ F ( x) 1

1

2

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 11

Test serii

Model (test serii)

Wyniki obu próbek ustawiamy w n + n -elementowy ciąg 1

2

niemalejący

Tworzymy drugi ciąg, w którym a odpowiada elementom pierwszej próbki, b – drugiej, np. aaabbabaab

Ustalamy liczbę serii występujących w ciągu

(w powyższym jest 6 serii)

Wyznaczamy obszar krytyczny

K = 〈2, k(α,

〉

1

n , n 2 )

gdzie k(α, n , n ) odczytujemy z tablic rozkładu serii 1

2

Odrzucamy hipotezę H o zgodności rozkładów, jeśli 0

k∈ K

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład 11

Test serii

Przykład

Chcemy sprawdzić, która kapusta: biała czy czerwona, zawiera więcej witaminy C

Pobrano próbki 100 gramowe z każdego gatunku i wyznaczono ilość witaminy C dla każdej próbki w mg:

Kapusta

45

50

64

38

66

43

49

58

31

49

biała

Kapusta

70

68

55

61

62

74

52

71

56

czerwona

Na poziomie istotności 0.05 zweryfikować testem serii hipotezę, że rozkłady zawartości witaminy C dla obu gatunków kapusty są identyczne

Opracowała Joanna Banaś

Metody probabilistyczne i statystyka Wykład

11

Dziękuję za uwagę

Opracowała Joanna Banaś