Materiały z wykładów ze statystyki z zadaniem

8. NIEPARAMETRYCZNE TESTY ISTOTNOŚCI

Test zgodności

Nieparametryczne testy istotności, w których weryfikowana hipoteza dotycząca rozkładu badanej cechy w populacji generalnej nie precyzuje wartości parametrów tego rozkładu, można ogólnie podzielić na dwie grupy. Pierwsza grupa to tzw. testy zgodności, a druga, bardzo liczna, to testy dla hipotezy, że dwie próby pochodzą z jednej populacji (czyli że dwie populacje mają ten sam rozkład.) Jednym z najstarszych testów statystycznych jest test zgodności
. Nazwa jego pochodzi stąd, że statystyka, jakiej używa się przy weryfikacji hipotezy o zgodności próby wyników z rozkładem populacji, ma rozkład asymptotyczny
.

Test zgodności
pozwala na sprawdzenie hipotezy, że populacja ma określony typ rozkładu (tj. określoną postać funkcyjną dystrybuanty). W teście zgodności
próba musi być duża.

Model

Populacja generalna ma dowolny rozkład o dystrybuancie należącej do pewnego zbioru
rozkładów o określonym typie postaci funkcyjnej dystrybuanty. Z populacji tej wylosowano niezależnie dużą próbę (n co najmniej kilkadziesiąt), której wyniki podzielono na r rozłącznych klas o liczebnościach n_i w każdej klasie, przy czym
. Otrzymano w ten sposób tzw. rozklad empiryczny. Na podstawie wyników tej próby należy sprawdzić hipotezę Ha, że populacja generalna ma rozkład typu
, tzn. Ho : F(x)
S2, gdzie F(x) jest dystrybuantą rozkładu populacji.

Test istotności, zwany testem zgodności, dla tej hipotezy jest następujący. Z hipotetycznego rozkładu typu
obliczamy dla każdej z r klas wartości badanej cechy X prawdopodobieństwa p_i, że zmienna losowa X o rozkładzie
przyjmie wartości należące do klasy o numerze i (i=1, 2, ..., r). Z kolei mnożąc p_i przez liczebność całej próby n otrzymuje się liczebności teoretyczne np_i, które powinny były wystąpić w klasie i, gdyby populacja miała rozkład typu
, tzn. gdyby hipoteza Ho była prawdziwa. Ze wszystkich liczebności empirycznych n_i oraz hipotetycznych np_i wyznacza się następnie wartość statystyki

(2.1)

która przy założeniu prawdziwości hipotezy Ho ma rozkład asymptotyczny
o r-1 stopniach swobody lub o r-k-1 stopniach swobody, gdy z próby szacowano k parametrów rozkładu
metodą największej wiarygodności.

PRZYKŁAD1

W oddziale położniczym szpitala miejskiego w Bydgoszczy otrzymano dane statystyki płci urodzonych niemowląt za rok 2010.

Na łączną liczbę 2176 porodów urodziło się 1126 chłopców i 1050 dziewczynek. Zweryfikować hipotezę czy uzyskane proporcje liczby chłopców i dziewczynek przeczą teorii, że rozkład płci u potomstwa jest jak 0,5 : 0,5. Czyli 2176:2 = 1088 ni - npi = 38

= (38x38):1126+(38x38):1050=1,375+1,282= 2,657

Ponieważ wartość krytyczna Z tablicy rozkładu
dla 1stopni swobody i dla przyjętego poziomu istotności α=0,05 odczytujemy wartość krytyczną
=3,991, to oznacza, że .

Przykład 2

Losowa próba n=200 niezależnych obserwacji miesięcznych wydatków na żywność rodzin 3-osobowych dała następujący rozkład tych wydatków (w tys. zł):

Wydatki

Liczba rodzin

1,0-1,4

1,4-1,8

1,8-2,2

2,2-2,6

2,6-3,0

Należy na poziomie istotności α=0,05 zweryfikować hipotezę, że rozkład wydatków na żywność jest normalny.

Rozwiązanie

Z treści zadania wynika, że nie są sprecyzowane parametry rozkładu hipotetycznego, stawiamy zatem hipotezę Ho : F(x)
, gdzie
jest klasą wszystkich dystrybuant normalnych. Hipotezę tę weryfikujemy za pomocą testu
. Dwa parametry rozkładu, średnią m i odchylenie standardowe
, szacujemy z próby za pomocą estymatorów uzyskanych metodą największej wiarygodności i uzyskujemy wartości
=2,0 tys. zł oraz s=0,43 tys. zł. Dalsze obliczenia w teście
wygodnie jest przeprowadzić tabelarycznie, przy czym niech u_i oznacza standaryzowaną (tj. u_i= =(xi-
)/s) wartość prawego końca przedziału klasowego, a F(u_i) wartość dystrybuanty rozkładu N(0, 1) w punkcie u_i. Mamy

x_i

n_i

u_i

F(u_i)

p_i

np_i

(F-f) x(F-f)

1,4

1,8

2,2

2,6

3,0

-1,39

-0,46

+0,46

1,39

0,082

0,323

0,667

0,918

0,082

0,241

0,354

0,241

0,082

16,4

48,2

70,8

48,2

16,4

1,96

10,24

0,64

3,24

12,96

0,12

0,21

0,01

0,07

0,79

200

1,000

200,0

1,20

Zwróćmy przy tym uwagę, że prawdopodobieństwo dla ostatniego przedziału wyznaczamy jako 1- F(1,39). Otrzymaliśmy więc wartość statystyki
=1,20: Odpowiednia liczba stopni swobody wynosi 5-2-1=2. Z tablicy rozkładu
dla 2 stopni swobody i dla przyjętego poziomu istotności α=0,05 odczytujemy wartość krytyczną
=5,991.

Ponieważ

nie ma podstaw do odrzucenia hipotezy H₀, że rozkład miesięcznych wydatków na żywność w populacji rodzin 3-osobowych jest normalny.

Przykład 2

Zbadano 300 losowo wybranych 5-sekundowych odcinków czasowych pracy pewnej centrali telefonicznej i otrzymano następujący empiryczny rozkład liczby zgłoszeń:

Liczba zgłoszeń

Liczba odcinków

100

Na poziomie istotności α=0,05 należy zweryfikować hipotezę, że rozkład liczby zgłoszeń w tej centrali jest rozkładem Poissona.

Rozwiązanie

Z treści zadania wynika, że nie jest sprecyzowany parametr
rozkładu Poissona, stawiamy więc hipotezę H₀ : F(x)
,gdzie F(x) jest dystrybuantą rozkładu liczby zgłoszeń, a
klasą wszystkich rozkładów Poissona. Parametr
szacujemy z próby za pomocą jego estymatora uzyskanego metodą największej wiarygodności, którym jest średnia z próby
. Otrzymujemy
=1,7. Przyjmując za
tę wartość, z tablicy rozkładu Poissona odczytujemy prawdopodobieństwa p_i dla każdej kolejnej liczby zgłoszeń i przeprowadzamy tabelarycznie dalsze obliczenia w celu uzyskania wartości statystyki
.

Mamy

x_i

n_i

p_i

np_i

100

0,183

0,311

0,264

0,150

0,064

0,028

54,9

93,3

79,2

45,0

19,2

8,4

24,01

44,89

0,64

25,00

0,64

2,56

0,44

0,48

0,01

0,55

0,03

0,30

300

1,000

300,0

1,81

Z obliczeń otrzymaliśmy wartość statystyki
=1,81, a dla przyjętego poziomu istotności α=0,05 i dla 6-1-1 =4 stopni swobody odczytana z tablicy rozkładu
krytyczna wartość wynosi
=9,488. Ponieważ
=1,81 < 9,488 =
, więc nie ma podstaw do odrzucenia hipotezy, że rozkład liczby zgłoszeń w tej centrali telefonicznej jest rozkładem Poissona.

Test niezależności

Często stosowany w praktyce test niezależności
jest testem istotności pozwalającym na sprawdzenie, czy dwie badane cechy (niekoniecznie mierzalne) są niezależne. Test ten oparty jest na tej samej statystyce co test zgodności
, z tym że hipotetycznymi prawdopodobieństwami są oszacowane z próby prawdopodobieństwa otrzymania równocześnie określonej wartości (czy kategorii jakościowej) cechy X oraz Y, przy założeniu niezależności tych cech. Sporządza się zatem odpowiednią tablicę kombinowaną dla dwu cech, zwaną tablicy niezależności, która po wypełnieniu daje macierz liczebności empirycznych. Nakłada się na nią macierz liczebności teoretycznych, obliczonych przy założeniu niezależności cech znajdujących się w główce i w boczku. Porównanie elementów obu macierzy, czego dokonuje się przez zastosowanie statystyki
, daje odpowiedź, czy można odrzucić hipotezę o niezależności cech na skutek wystąpienia zbyt dużych różnic liczebności empirycznych i teoretycznych.

Model

Z populacji tej wylosowano niezależnie dużą próbę o liczebności n elementów. Wyniki próby klasyfikujemy w kombinowaną tablicę niezależności o r wierszach i s kolumnach. Poniższe wzory reprezentują liczebności brzegowe. Zachodzą zatem równości

(2.2)

(2.3)

Z elementów macierzy liczebności empirycznych [n_ij] oraz elementów macierzy liczebności teoretycznych [np_ij] konstruujemy statystykę

(2.4)

Statystyka ta ma przy założeniu prawdziwości hipotezy H₀ o niezależności cech, asymptotyczny rozkład
z (r-1)(s-1) stopniami swobody.

Przykład

W celu stwierdzenia, czy podanie chorym na pewną chorobę nowego leku przynosi poprawę w ich stanie zdrowia, wylosowano dwie grupy pacjentów w jednakowym stopniu chorych na tę chorobę i jednej grupie o liczebności 120 podawano nowy lek, a druga grupa o liczebności 80 pacjentów otrzymała tradycyjne leki. Po pewnym czasie stwierdzono zestawione w tablicy liczebności chorych w poszczególnych kategoriach stanu zdrowia. Na poziomie istotności a=0,001 zweryfikować hipotezę, że nowy lek istotnie poprawia stan zdrowia pacjentów.

Leczeni	Stan zdrowia po leczeniu
Leczeni		Bez poprawy	Wyraźna poprawa	Całkowite wyzdrowienie
badanym lekiem	20 39	40 36	60 45
tradycyjnie	45 26	20 24	15 30

65 60 75 200

Występujące w badaniach wyniki (f empiryczne) reprezentujące badania empiryczne pozwalają wyznaczyć na podstawie proporcji wartości liczebności teoretycznych, które powinniśmy otrzymać gdy badany czynnik nie wpływałby na wyniki leczenia co pozwala wyliczyć F teoretyczne - czyli liczebność teoretyczną .

X:65 =120:200 X:65=80:200 X:75=120:200

X11 = 65x120/200 = 39 X21 = 65x80/200=26 X13 75x120:200=45

Pozostałe wartości teoretyczne możemy obliczyć z różnic bądź proporcji

Jeżeli częstotliwość empiryczną oznaczymy przez f, a teoretyczną obliczoną z proporcji - przez F, to wartość chi kwadrat obliczamy wg następującego wzoru:

χ2 = (F11-f11)x(F11-f11 )/F11 + +(F23 -f23 )x(F23 -f23 )/F23

χ2o= (39-20)x19/39 + (26-45)x(-19) + (36-40)x(-4) + (24-20)x4 +

+(45-60)x(-15) + (30-15)x15 = 9,2 +13,88 + 0,44 + 0,66 + 5 + 7,5=

= 36,66.

Ponieważ liczba stopni swobody n' = (2-1)x(3-1) = 2 to χ2 0,001=13,815.

Przy χ2o = 36,66 to na poziomie istotności α0,001 odrzucamy hipotezę zerową, co oznacza, że zastosowanie nowego leku decyduje o wynikach leczenia.Rozwiązanie

W inny sposób możemy wykonać obliczenia następująco:

Obliczenia w tekście
niezależności rozpoczynamy od obliczeń liczebności brzegowych n_i. i n._j oraz oszacowania prawdopodobieństw brzegowych p_i. i p._j. Przyjmując następnie założenie o niezależności cech obliczamy prawdopodobieństwa teoretyczne p_ij= p_i.p._j. Wyniki obliczeń prawdopodobieństw p_ij zamieszczone są w prawym górnym rogu każdej kratki. Mnożąc te prawdopodobieństwa przez n=200 otrzymujemy dla każdej kratki liczebności teoretyczne np_ij, które umieszczono w dolnym lewym rogu. Zauważyć przy tym trzeba, że ze względu na konieczność bilansowania się elementów w wierszach i kolumnach obliczenia przeprowadzamy tylko dla tylu kratek, ile wynosi liczba stopni swobody, tzn. (r-1)(s-1)=(2-1)(3-1)=2, a pozostałe elementy zarówno macierzy [p_ij] jak i [np_ij] wyznaczamy z wartości brzegowych.

Leczeni

Stan zdrowia po leczeniu

Bez poprawy

Wyraźna poprawa

Całkowite wyzdrowienie

n_i.

p_i.

Badanym

lekiem

0,195

0,180

0,225

120

0,60

-39

Tradycyjnie

0,130

0,120

0,150

0,40

n._j

200

p._j

0,325

0,300

0,375

1,00

PRZYKŁAD MARKETINGOWY- 1

W dużej sieci handlowej wprowadzano do sprzedaży trzy nowe asortymenty produktów spożywczych, stosując trzy różne metody promocji stosowane równolegle w trzech podobnych obiektach handlowych. Z systemu informacji handlowej hipermarketu uzyskiwano dane o liczbie klientów kupujących poszczególne asortymenty wyrobów oraz odpowiadające im wartości sprzedaży.

Należy zweryfikować hipotezę zerową o braku zależności pomiędzy stosowanymi metodami promocji a liczbą klientów dokonujących zakupy wprowadzanych do sprzedaży nowych wyrobów.

W poniższej tabeli zamieszczono wyniki dotyczące liczby osób kupujących poszczególne produkty w tyś osób na tydzień

Asort/ met. pro	Metoda1	Metoda2	Metoda3
Produkt 1	3,5	6,7	7,8 18
Produkt 2	11,4	8,9	12,5 32,8
Produkt 3	5,8	5,0	8,9 19,7

Σ 20,7 20,6 29,2 70,5

F11 =5,3 F12 = 5,26 F13 = 7,46 F21 = 9,63 F22 =9,58 F23 = 13,6

F31 = 5,78 F32 = 5,76 F33 =8,16

X = 0,61 +0,39+0,02+0,33+0,05+0,09+0,00+0,1+0,07=1,66

Ponieważ
α0,05 = 9,488 przy l. st. Sw. = (3-1)x(3-1) = 4 < od χ2o = 1.66

To nie ma podstaw do odrzuceni hipotezy zerowej. Oznacza to że porównywane metody promocji nie różnią się istotnie we wpływie na liczbę klientów hipermarketu kupujących dany produkt w okresie tygodnia.

Przykład Marketingowy 2

W ramach trzech kanałów dystrybucji dokonywano działań reklamowo promocyjnych o podobnym poziomie nakładów i dokonywano oceny przyrostu wartości sprzedaży w kolejnych czterech tygodniach. Badanie miało na celu zidentyfikowanie kanału dystrybucji o najwyższym poziomie efektywności reagowania na zastosowane metody reklamy, które kontynuowałoby w przyszłości w tym sektorze.

Wyniki przyrostu sprzedaży w poszczególnych kanałach dystrybucji zestawiono w poniższej tabeli.

Zestawienie przyrostu sprzedaży w kanałach dystrybucji w tyś zł

Tydz sp\ kanały dyst	I kan dyst	II kan. dyst	III kan. dyst	Σ
I tydz	3,2 3,37	4,4 4,6	5,5 5,13	13,1
II tydz	5,4 4,89	6,5 6,67	7,1 7,44	19,0
III tydz	3,7 4,14	5,9 5,5	6,5 6,46	16,1
IV tydz	6,3 6.32	8,6 8.67	9,7 9,61	24,6
Σ	18,6	25,4	28,8	72,3

F₁₁=18,6x13,1/72,3 =3,37

Ponieważ różnice F teoret i f emp. Nie przekracają 0,5, to nie celowe jest obliczanie
_o przy wartości krytycznej dla l zt sw 4 równe 9,488

Zadanie domowe

Zestawienie przyrostu sprzedaży w kanałach dystrybucji w tyś zł

Tydz sp\ kanały dyst	I kan dyst	II kan. dyst	III kan. dyst	Σ
I tydz	8,8	17,5	20,1
II tydz	6,2	14,3	16,3
III tydz	5,1	12,5	18,2
IV tydz	3,6	10,5	14,1
Σ

WYKONAĆ OBLICZENIA I ZINTERPRETOWAĆ WYNIKI

Wyszukiwarka