Materiały z wykładów ze statystyki z zadaniem


Materiały z wykładów ze statystyki z zadaniem

8. NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

  1. Test zgodności 0x01 graphic

Nieparametryczne testy istotności, w których weryfikowana hipoteza dotycząca rozkładu badanej cechy w populacji generalnej nie precyzuje wartości parametrów tego rozkładu, można ogólnie podzielić na dwie grupy. Pierwsza grupa to tzw. testy zgodności, a druga, bardzo liczna, to testy dla hipotezy, że dwie próby pochodzą z jednej populacji (czyli że dwie populacje mają ten sam rozkład.) Jednym z najstarszych testów statystycznych jest test zgodności 0x01 graphic
. Nazwa jego pochodzi stąd, że statystyka, jakiej używa się przy weryfikacji hipotezy o zgodności próby wyników z rozkładem populacji, ma rozkład asymptotyczny 0x01 graphic
.

Test zgodności 0x01 graphic
pozwala na sprawdzenie hipotezy, że populacja ma określony typ rozkładu (tj. określoną postać funkcyjną dystrybuanty). W teście zgodności 0x01 graphic
próba musi być duża.

Model

Populacja generalna ma dowolny rozkład o dystrybuancie na­leżącej do pewnego zbioru 0x01 graphic
rozkładów o określonym typie postaci funk­cyjnej dystrybuanty. Z populacji tej wylosowano niezależnie dużą próbę (n co najmniej kilkadziesiąt), której wyniki podzielono na r rozłącznych klas o liczebnościach ni w każdej klasie, przy czym 0x01 graphic
. Otrzymano w ten sposób tzw. rozklad empiryczny. Na podstawie wyników tej próby należy sprawdzić hipotezę Ha, że populacja generalna ma rozkład typu 0x01 graphic
, tzn. Ho : F(x) 0x01 graphic
S2, gdzie F(x) jest dystrybuantą rozkładu populacji.

Test istotności, zwany testem zgodności, dla tej hipotezy jest następu­jący. Z hipotetycznego rozkładu typu 0x01 graphic
obliczamy dla każdej z r klas wartości badanej cechy X prawdopodobieństwa pi, że zmienna losowa X o rozkładzie 0x01 graphic
przyjmie wartości należące do klasy o numerze i (i=1, 2, ..., r). Z kolei mnożąc pi przez liczebność całej próby n otrzymuje się liczebności teoretyczne npi , które powinny były wystąpić w klasie i, gdyby populacja miała rozkład typu 0x01 graphic
, tzn. gdyby hipoteza Ho była prawdziwa. Ze wszystkich liczebności empirycznych ni oraz hipotetycznych npi wyznacza się następnie wartość statystyki

(2.1) 0x01 graphic

która przy założeniu prawdziwości hipotezy Ho ma rozkład asymptotyczny 0x01 graphic
o r-1 stopniach swobody lub o r-k-1 stopniach swobody, gdy z próby szacowano k parametrów rozkładu 0x01 graphic
metodą największej wiarygodności.

PRZYKŁAD1

W oddziale położniczym szpitala miejskiego w Bydgoszczy otrzymano dane statystyki płci urodzonych niemowląt za rok 2010.

Na łączną liczbę 2176 porodów urodziło się 1126 chłopców i 1050 dziewczynek. Zweryfikować hipotezę czy uzyskane proporcje liczby chłopców i dziewczynek przeczą teorii, że rozkład płci u potomstwa jest jak 0,5 : 0,5. Czyli 2176:2 = 1088 ni - npi = 38

0x01 graphic
= (38x38):1126+(38x38):1050=1,375+1,282= 2,657

Ponieważ wartość krytyczna Z tablicy rozkładu 0x01 graphic
dla 1stopni swobody i dla przyjętego poziomu istotności α=0,05 odczytujemy wartość krytyczną 0x01 graphic
=3,991, to oznacza, że .

Przykład 2

Losowa próba n=200 niezależnych obserwacji miesięcznych wydatków na żywność rodzin 3-osobowych dała następujący rozkład tych wydatków (w tys. zł):

Wydatki

Liczba rodzin

1,0-1,4

1,4-1,8

1,8-2,2

2,2-2,6

2,6-3,0

15

45

70

50

20

Należy na poziomie istotności α=0,05 zweryfikować hipotezę, że rozkład wydatków na żywność jest normalny.

Rozwiązanie

Z treści zadania wynika, że nie są sprecyzowane parametry rozkładu hipotetycznego, stawiamy zatem hipotezę Ho : F(x)0x01 graphic
, gdzie 0x01 graphic
jest klasą wszystkich dystrybuant normalnych. Hipotezę tę weryfikujemy za pomocą testu 0x01 graphic
. Dwa parametry rozkładu, średnią m i odchylenie standardowe 0x01 graphic
, szacujemy z próby za pomocą estymatorów uzyskanych metodą największej wiarygodności i uzyskujemy wartości 0x01 graphic
=2,0 tys. zł oraz s=0,43 tys. zł. Dalsze obliczenia w teście 0x01 graphic
wygodnie jest przeprowa­dzić tabelarycznie, przy czym niech ui oznacza standaryzowaną (tj. ui= =(xi-0x01 graphic
)/s) wartość prawego końca przedziału klasowego, a F(ui) wartość dystrybuanty rozkładu N(0, 1) w punkcie ui. Mamy

xi

ni

ui

F(ui)

pi

npi

(F-f) x(F-f)

0x01 graphic

1,4

1,8

2,2

2,6

3,0

15

45

70

50

20

-1,39

-0,46

+0,46

1,39

-

0,082

0,323

0,667

0,918

-

0,082

0,241

0,354

0,241

0,082

16,4

48,2

70,8

48,2

16,4

1,96

10,24

0,64

3,24

12,96

0,12

0,21

0,01

0,07

0,79

200

1,000

200,0

1,20

Zwróćmy przy tym uwagę, że prawdopodobieństwo dla ostatniego prze­działu wyznaczamy jako 1- F(1,39). Otrzymaliśmy więc wartość statystyki 0x01 graphic
=1,20: Odpowiednia liczba stopni swobody wynosi 5-2-1=2. Z tablicy rozkładu 0x01 graphic
dla 2 stopni swobody i dla przyjętego poziomu istotności α=0,05 odczytujemy wartość krytyczną 0x01 graphic
=5,991.

Ponieważ

0x01 graphic

nie ma podstaw do odrzucenia hipotezy H0, że rozkład miesięcznych wydatków na żywność w populacji rodzin 3-osobowych jest normalny.

Przykład 2

Zbadano 300 losowo wybranych 5-sekundowych odcin­ków czasowych pracy pewnej centrali telefonicznej i otrzymano następujący empiryczny rozkład liczby zgłoszeń:

Liczba zgłoszeń

Liczba odcinków

0

1

2

3

4

5

50

100

80

40

20

10

Na poziomie istotności α=0,05 należy zweryfikować hipotezę, że rozkład liczby zgłoszeń w tej centrali jest rozkładem Poissona.

Rozwiązanie

Z treści zadania wynika, że nie jest sprecyzowany parametr 0x01 graphic
rozkładu Poissona, stawiamy więc hipotezę H0 : F(x)0x01 graphic
,gdzie F(x) jest dystrybuantą rozkładu liczby zgłoszeń, a 0x01 graphic
klasą wszystkich rozkładów Poissona. Parametr 0x01 graphic
szacujemy z próby za pomocą jego estymatora uzyskanego metodą największej wiarygodności, którym jest średnia z próby 0x01 graphic
. Otrzymujemy 0x01 graphic
=1,7. Przyjmując za 0x01 graphic
tę wartość, z tablicy rozkładu Poissona odczytujemy prawdopodobieństwa pi dla każdej kolejnej liczby zgłoszeń i przeprowadzamy tabelarycznie dalsze obliczenia w celu uzyskania wartości statystyki 0x01 graphic
.

Mamy

xi

ni

pi

npi

0x01 graphic

0x01 graphic

0

1

2

3

4

5

50

100

80

40

20

10

0,183

0,311

0,264

0,150

0,064

0,028

54,9

93,3

79,2

45,0

19,2

8,4

24,01

44,89

0,64

25,00

0,64

2,56

0,44

0,48

0,01

0,55

0,03

0,30

300

1,000

300,0

1,81

Z obliczeń otrzymaliśmy wartość statystyki 0x01 graphic
=1,81, a dla przyjętego poziomu istotności α=0,05 i dla 6-1-1 =4 stopni swobody odczytana z tablicy rozkładu 0x01 graphic
krytyczna wartość wynosi 0x01 graphic
=9,488. Ponieważ 0x01 graphic
=1,81 < 9,488 =0x01 graphic
, więc nie ma podstaw do odrzucenia hipotezy, że rozkład liczby zgłoszeń w tej centrali telefonicznej jest rozkładem Poissona.

  1. Test niezależności 0x01 graphic

Często stosowany w praktyce test niezależności 0x01 graphic
jest testem istotności pozwalającym na sprawdzenie, czy dwie badane cechy (niekoniecznie mierzalne) są niezależne. Test ten oparty jest na tej samej statystyce co test zgodności 0x01 graphic
, z tym że hipotetycznymi prawdopodobieństwami są oszacowane z próby prawdopodobieństwa otrzymania równocześnie określonej wartości (czy kategorii jakościowej) cechy X oraz Y, przy założeniu niezależności tych cech. Sporządza się zatem odpowiednią tablicę kombinowaną dla dwu cech, zwaną tablicy niezależności, która po wypełnieniu daje macierz liczebności empirycznych. Nakłada się na nią macierz liczebności teoretycznych, obliczonych przy założeniu niezależności cech znajdujących się w główce i w boczku. Porównanie elementów obu macierzy, czego dokonuje się przez zastosowanie statystyki 0x01 graphic
, daje odpowiedź, czy można odrzucić hipotezę o niezależności cech na skutek wystąpienia zbyt dużych różnic liczebności empirycznych i teoretycznych.

Model

Z populacji tej wylosowano niezależnie dużą próbę o liczebności n elementów. Wyniki próby klasyfikujemy w kombinowaną tablicę niezależności o r wierszach i s kolumnach. Poniższe wzory reprezentują liczebności brzegowe. Zachodzą zatem równości

(2.2) 0x01 graphic
0x01 graphic

(2.3) 0x01 graphic

Z elementów macierzy liczebności empirycznych [nij] oraz elementów macierzy liczebności teoretycznych [npij] konstruujemy statystykę

(2.4) 0x01 graphic

Statystyka ta ma przy założeniu prawdziwości hipotezy H0 o niezależności cech, asymptotyczny rozkład 0x01 graphic
z (r-1)(s-1) stopniami swobody.

Przykład

W celu stwierdzenia, czy podanie chorym na pewną chorobę nowego leku przynosi poprawę w ich stanie zdrowia, wylosowano dwie grupy pacjentów w jednakowym stopniu chorych na tę chorobę i jednej grupie o liczebności 120 podawano nowy lek, a druga grupa o liczebności 80 pacjentów otrzymała tradycyjne leki. Po pewnym czasie stwierdzono zestawione w tablicy liczebności chorych w poszczególnych kategoriach stanu zdrowia. Na poziomie istotności a=0,001 zweryfikować hipotezę, że nowy lek istotnie poprawia stan zdrowia pacjentów.

Leczeni

Stan zdrowia po leczeniu

Bez poprawy

Wyraźna poprawa

Całkowite wyzdrowienie

badanym lekiem

20 39

40 36

60 45

tradycyjnie

45 26

20 24

15 30

65 60 75 200

Występujące w badaniach wyniki (f empiryczne) reprezentujące badania empiryczne pozwalają wyznaczyć na podstawie proporcji wartości liczebności teoretycznych, które powinniśmy otrzymać gdy badany czynnik nie wpływałby na wyniki leczenia co pozwala wyliczyć F teoretyczne - czyli liczebność teoretyczną .

X:65 =120:200 X:65=80:200 X:75=120:200

X11 = 65x120/200 = 39 X21 = 65x80/200=26 X13 75x120:200=45

Pozostałe wartości teoretyczne możemy obliczyć z różnic bądź proporcji

Jeżeli częstotliwość empiryczną oznaczymy przez f, a teoretyczną obliczoną z proporcji - przez F, to wartość chi kwadrat obliczamy wg następującego wzoru:

χ2 = (F11-f11)x(F11-f11 )/F11 + +(F23 -f23 )x(F23 -f23 )/F23

χ2o= (39-20)x19/39 + (26-45)x(-19) + (36-40)x(-4) + (24-20)x4 +

+(45-60)x(-15) + (30-15)x15 = 9,2 +13,88 + 0,44 + 0,66 + 5 + 7,5=

= 36,66.

Ponieważ liczba stopni swobody n' = (2-1)x(3-1) = 2 to χ2 0,001=13,815.

Przy χ2o = 36,66 to na poziomie istotności α0,001 odrzucamy hipotezę zerową, co oznacza, że zastosowanie nowego leku decyduje o wynikach leczenia.Rozwiązanie

W inny sposób możemy wykonać obliczenia następująco:

Obliczenia w tekście 0x01 graphic
niezależności rozpoczynamy od obliczeń liczebności brzegowych ni. i n.j oraz oszacowania prawdopodobieństw brzegowych pi. i p.j. Przyjmując następnie założenie o niezależności cech obliczamy prawdopodobieństwa teoretyczne pij= pi.p.j. Wyniki obliczeń prawdopodobieństw pij zamieszczone są w prawym górnym rogu każdej kratki. Mnożąc te prawdopodobieństwa przez n=200 otrzymujemy dla każdej kratki liczebności teoretyczne npij, które umieszczono w dolnym lewym rogu. Zauważyć przy tym trzeba, że ze względu na konieczność bilansowania się elementów w wierszach i kolumnach obliczenia przeprowadzamy tylko dla tylu kratek, ile wynosi liczba stopni swobody, tzn. (r-1)(s-1)=(2-1)(3-1)=2, a pozostałe elementy zarówno macierzy [pij] jak i [npij] wyznaczamy z wartości brzegowych.

Leczeni

Stan zdrowia po leczeniu

Bez poprawy

Wyraźna poprawa

Całkowite wyzdrowienie

ni.

pi.

Badanym

lekiem

0,195

0,180

0,225

120

0,60

20

40

60

-39

36

45

Tradycyjnie

0,130

0,120

0,150

80

0,40

45

20

15

26

24

30

n.j

65

60

75

200

p.j

0,325

0,300

0,375

1,00

PRZYKŁAD MARKETINGOWY- 1

W dużej sieci handlowej wprowadzano do sprzedaży trzy nowe asortymenty produktów spożywczych, stosując trzy różne metody promocji stosowane równolegle w trzech podobnych obiektach handlowych. Z systemu informacji handlowej hipermarketu uzyskiwano dane o liczbie klientów kupujących poszczególne asortymenty wyrobów oraz odpowiadające im wartości sprzedaży.

Należy zweryfikować hipotezę zerową o braku zależności pomiędzy stosowanymi metodami promocji a liczbą klientów dokonujących zakupy wprowadzanych do sprzedaży nowych wyrobów.

W poniższej tabeli zamieszczono wyniki dotyczące liczby osób kupujących poszczególne produkty w tyś osób na tydzień

Asort/ met. pro

Metoda1

Metoda2

Metoda3

Produkt 1

3,5

6,7

7,8 18

Produkt 2

11,4

8,9

12,5 32,8

Produkt 3

5,8

5,0

8,9 19,7

Σ 20,7 20,6 29,2 70,5

F11 =5,3 F12 = 5,26 F13 = 7,46 F21 = 9,63 F22 =9,58 F23 = 13,6

F31 = 5,78 F32 = 5,76 F33 =8,16

X = 0,61 +0,39+0,02+0,33+0,05+0,09+0,00+0,1+0,07=1,66

Ponieważ 0x01 graphic
α0,05 = 9,488 przy l. st. Sw. = (3-1)x(3-1) = 4 < od χ2o = 1.66

To nie ma podstaw do odrzuceni hipotezy zerowej. Oznacza to że porównywane metody promocji nie różnią się istotnie we wpływie na liczbę klientów hipermarketu kupujących dany produkt w okresie tygodnia.

Przykład Marketingowy 2

W ramach trzech kanałów dystrybucji dokonywano działań reklamowo promocyjnych o podobnym poziomie nakładów i dokonywano oceny przyrostu wartości sprzedaży w kolejnych czterech tygodniach. Badanie miało na celu zidentyfikowanie kanału dystrybucji o najwyższym poziomie efektywności reagowania na zastosowane metody reklamy, które kontynuowałoby w przyszłości w tym sektorze.

Wyniki przyrostu sprzedaży w poszczególnych kanałach dystrybucji zestawiono w poniższej tabeli.

Zestawienie przyrostu sprzedaży w kanałach dystrybucji w tyś zł

Tydz sp\ kanały dyst

I kan dyst

II kan. dyst

III kan. dyst

Σ

I tydz

3,2 3,37

4,4 4,6

5,5 5,13

13,1

II tydz

5,4 4,89

6,5 6,67

7,1 7,44

19,0

III tydz

3,7 4,14

5,9 5,5

6,5 6,46

16,1

IV tydz

6,3 6.32

8,6 8.67

9,7 9,61

24,6

Σ

18,6

25,4

28,8

72,3

F11 =18,6x13,1/72,3 =3,37

Ponieważ różnice F teoret i f emp. Nie przekracają 0,5, to nie celowe jest obliczanie 0x01 graphic
o przy wartości krytycznej dla l zt sw 4 równe 9,488

Zadanie domowe

Zestawienie przyrostu sprzedaży w kanałach dystrybucji w tyś zł

Tydz sp\ kanały dyst

I kan dyst

II kan. dyst

III kan. dyst

Σ

I tydz

8,8

17,5

20,1

II tydz

6,2

14,3

16,3

III tydz

5,1

12,5

18,2

IV tydz

3,6

10,5

14,1

Σ

WYKONAĆ OBLICZENIA I ZINTERPRETOWAĆ WYNIKI



Wyszukiwarka