Materiały z wykładów ze statystyki z zadaniem
Test zgodności
Nieparametryczne testy istotności, w których weryfikowana hipoteza dotycząca rozkładu badanej cechy w populacji generalnej nie precyzuje wartości parametrów tego rozkładu, można ogólnie podzielić na dwie grupy. Pierwsza grupa to tzw. testy zgodności, a druga, bardzo liczna, to testy dla hipotezy, że dwie próby pochodzą z jednej populacji (czyli że dwie populacje mają ten sam rozkład.) Jednym z najstarszych testów statystycznych jest test zgodności . Nazwa jego pochodzi stąd, że statystyka, jakiej używa się przy weryfikacji hipotezy o zgodności próby wyników z rozkładem populacji, ma rozkład asymptotyczny .
Test zgodności pozwala na sprawdzenie hipotezy, że populacja ma określony typ rozkładu (tj. określoną postać funkcyjną dystrybuanty). W teście zgodności próba musi być duża.
Populacja generalna ma dowolny rozkład o dystrybuancie należącej do pewnego zbioru rozkładów o określonym typie postaci funkcyjnej dystrybuanty. Z populacji tej wylosowano niezależnie dużą próbę (n co najmniej kilkadziesiąt), której wyniki podzielono na r rozłącznych klas o liczebnościach ni w każdej klasie, przy czym . Otrzymano w ten sposób tzw. rozklad empiryczny. Na podstawie wyników tej próby należy sprawdzić hipotezę Ha, że populacja generalna ma rozkład typu , tzn. Ho : F(x) S2, gdzie F(x) jest dystrybuantą rozkładu populacji.
Test istotności, zwany testem zgodności, dla tej hipotezy jest następujący. Z hipotetycznego rozkładu typu obliczamy dla każdej z r klas wartości badanej cechy X prawdopodobieństwa pi, że zmienna losowa X o rozkładzie przyjmie wartości należące do klasy o numerze i (i=1, 2, ..., r). Z kolei mnożąc pi przez liczebność całej próby n otrzymuje się liczebności teoretyczne npi , które powinny były wystąpić w klasie i, gdyby populacja miała rozkład typu , tzn. gdyby hipoteza Ho była prawdziwa. Ze wszystkich liczebności empirycznych ni oraz hipotetycznych npi wyznacza się następnie wartość statystyki
(2.1)
która przy założeniu prawdziwości hipotezy Ho ma rozkład asymptotyczny o r-1 stopniach swobody lub o r-k-1 stopniach swobody, gdy z próby szacowano k parametrów rozkładu metodą największej wiarygodności.
Ponieważ wartość krytyczna Z tablicy rozkładu dla 1stopni swobody i dla przyjętego poziomu istotności α=0,05 odczytujemy wartość krytyczną =3,991, to oznacza, że .
Losowa próba n=200 niezależnych obserwacji miesięcznych wydatków na żywność rodzin 3-osobowych dała następujący rozkład tych wydatków (w tys. zł):
Wydatki | Liczba rodzin |
---|---|
1,0-1,4 1,4-1,8 1,8-2,2 2,2-2,6 2,6-3,0 |
15 45 70 50 20 |
Należy na poziomie istotności α=0,05 zweryfikować hipotezę, że rozkład wydatków na żywność jest normalny.
Z treści zadania wynika, że nie są sprecyzowane parametry rozkładu hipotetycznego, stawiamy zatem hipotezę Ho : F(x) , gdzie jest klasą wszystkich dystrybuant normalnych. Hipotezę tę weryfikujemy za pomocą testu . Dwa parametry rozkładu, średnią m i odchylenie standardowe , szacujemy z próby za pomocą estymatorów uzyskanych metodą największej wiarygodności i uzyskujemy wartości =2,0 tys. zł oraz s=0,43 tys. zł. Dalsze obliczenia w teście wygodnie jest przeprowadzić tabelarycznie, przy czym niech ui oznacza standaryzowaną (tj. ui= =(xi-)/s) wartość prawego końca przedziału klasowego, a F(ui) wartość dystrybuanty rozkładu N(0, 1) w punkcie ui. Mamy
xi | ni | ui | F(ui) | pi | npi | (F-f) x(F-f) | |
---|---|---|---|---|---|---|---|
1,4 1,8 2,2 2,6 3,0 |
15 45 70 50 20 |
-1,39 -0,46 +0,46 1,39 - |
0,082 0,323 0,667 0,918 - |
0,082 0,241 0,354 0,241 0,082 |
16,4 48,2 70,8 48,2 16,4 |
1,96 10,24 0,64 3,24 12,96 |
0,12 0,21 0,01 0,07 0,79 |
200 | 1,000 | 200,0 | 1,20 |
Zwróćmy przy tym uwagę, że prawdopodobieństwo dla ostatniego przedziału wyznaczamy jako 1- F(1,39). Otrzymaliśmy więc wartość statystyki =1,20: Odpowiednia liczba stopni swobody wynosi 5-2-1=2. Z tablicy rozkładu dla 2 stopni swobody i dla przyjętego poziomu istotności α=0,05 odczytujemy wartość krytyczną =5,991.
Ponieważ
nie ma podstaw do odrzucenia hipotezy H0, że rozkład miesięcznych wydatków na żywność w populacji rodzin 3-osobowych jest normalny.
Zbadano 300 losowo wybranych 5-sekundowych odcinków czasowych pracy pewnej centrali telefonicznej i otrzymano następujący empiryczny rozkład liczby zgłoszeń:
Liczba zgłoszeń | Liczba odcinków |
---|---|
0 1 2 3 4 5 |
50 100 80 40 20 10 |
Na poziomie istotności α=0,05 należy zweryfikować hipotezę, że rozkład liczby zgłoszeń w tej centrali jest rozkładem Poissona.
Z treści zadania wynika, że nie jest sprecyzowany parametr rozkładu Poissona, stawiamy więc hipotezę H0 : F(x),gdzie F(x) jest dystrybuantą rozkładu liczby zgłoszeń, a klasą wszystkich rozkładów Poissona. Parametr szacujemy z próby za pomocą jego estymatora uzyskanego metodą największej wiarygodności, którym jest średnia z próby . Otrzymujemy =1,7. Przyjmując za tę wartość, z tablicy rozkładu Poissona odczytujemy prawdopodobieństwa pi dla każdej kolejnej liczby zgłoszeń i przeprowadzamy tabelarycznie dalsze obliczenia w celu uzyskania wartości statystyki .
Mamy
xi | ni | pi | npi | ||
---|---|---|---|---|---|
0 1 2 3 4 5 |
50 100 80 40 20 10 |
0,183 0,311 0,264 0,150 0,064 0,028 |
54,9 93,3 79,2 45,0 19,2 8,4 |
24,01 44,89 0,64 25,00 0,64 2,56 |
0,44 0,48 0,01 0,55 0,03 0,30 |
300 | 1,000 | 300,0 | 1,81 |
Z obliczeń otrzymaliśmy wartość statystyki =1,81, a dla przyjętego poziomu istotności α=0,05 i dla 6-1-1 =4 stopni swobody odczytana z tablicy rozkładu krytyczna wartość wynosi =9,488. Ponieważ =1,81 < 9,488 =, więc nie ma podstaw do odrzucenia hipotezy, że rozkład liczby zgłoszeń w tej centrali telefonicznej jest rozkładem Poissona.
Test niezależności
Często stosowany w praktyce test niezależności jest testem istotności pozwalającym na sprawdzenie, czy dwie badane cechy (niekoniecznie mierzalne) są niezależne. Test ten oparty jest na tej samej statystyce co test zgodności , z tym że hipotetycznymi prawdopodobieństwami są oszacowane z próby prawdopodobieństwa otrzymania równocześnie określonej wartości (czy kategorii jakościowej) cechy X oraz Y, przy założeniu niezależności tych cech. Sporządza się zatem odpowiednią tablicę kombinowaną dla dwu cech, zwaną tablicy niezależności, która po wypełnieniu daje macierz liczebności empirycznych. Nakłada się na nią macierz liczebności teoretycznych, obliczonych przy założeniu niezależności cech znajdujących się w główce i w boczku. Porównanie elementów obu macierzy, czego dokonuje się przez zastosowanie statystyki , daje odpowiedź, czy można odrzucić hipotezę o niezależności cech na skutek wystąpienia zbyt dużych różnic liczebności empirycznych i teoretycznych.
Z populacji tej wylosowano niezależnie dużą próbę o liczebności n elementów. Wyniki próby klasyfikujemy w kombinowaną tablicę niezależności o r wierszach i s kolumnach. Poniższe wzory reprezentują liczebności brzegowe. Zachodzą zatem równości
(2.2)
(2.3)
Z elementów macierzy liczebności empirycznych [nij] oraz elementów macierzy liczebności teoretycznych [npij] konstruujemy statystykę
(2.4)
Statystyka ta ma przy założeniu prawdziwości hipotezy H0 o niezależności cech, asymptotyczny rozkład z (r-1)(s-1) stopniami swobody.
Przykład
W celu stwierdzenia, czy podanie chorym na pewną chorobę nowego leku przynosi poprawę w ich stanie zdrowia, wylosowano dwie grupy pacjentów w jednakowym stopniu chorych na tę chorobę i jednej grupie o liczebności 120 podawano nowy lek, a druga grupa o liczebności 80 pacjentów otrzymała tradycyjne leki. Po pewnym czasie stwierdzono zestawione w tablicy liczebności chorych w poszczególnych kategoriach stanu zdrowia. Na poziomie istotności a=0,001 zweryfikować hipotezę, że nowy lek istotnie poprawia stan zdrowia pacjentów.
Leczeni | Stan zdrowia po leczeniu |
---|---|
Bez poprawy | |
badanym lekiem | 20 39 |
tradycyjnie | 45 26 |
65 60 75 200
Występujące w badaniach wyniki (f empiryczne) reprezentujące badania empiryczne pozwalają wyznaczyć na podstawie proporcji wartości liczebności teoretycznych, które powinniśmy otrzymać gdy badany czynnik nie wpływałby na wyniki leczenia co pozwala wyliczyć F teoretyczne – czyli liczebność teoretyczną .
X:65 =120:200 X:65=80:200 X:75=120:200
X11 = 65x120/200 = 39 X21 = 65x80/200=26 X13 75x120:200=45
Pozostałe wartości teoretyczne możemy obliczyć z różnic bądź proporcji
Jeżeli częstotliwość empiryczną oznaczymy przez f, a teoretyczną obliczoną z proporcji – przez F, to wartość chi kwadrat obliczamy wg następującego wzoru:
χ2 = (F11-f11)x(F11-f11 )/F11 + +(F23 –f23 )x(F23 –f23 )/F23
χ2o= (39-20)x19/39 + (26-45)x(-19) + (36-40)x(-4) + (24-20)x4 +
+(45-60)x(-15) + (30-15)x15 = 9,2 +13,88 + 0,44 + 0,66 + 5 + 7,5=
= 36,66.
Ponieważ liczba stopni swobody n’ = (2-1)x(3-1) = 2 to χ2 0,001=13,815.
Przy χ2o = 36,66 to na poziomie istotności α0,001 odrzucamy hipotezę zerową, co oznacza, że zastosowanie nowego leku decyduje o wynikach leczenia.
Rozwiązanie
W inny sposób możemy wykonać obliczenia następująco:
Obliczenia w tekście niezależności rozpoczynamy od obliczeń liczebności brzegowych ni. i n.j oraz oszacowania prawdopodobieństw brzegowych pi. i p.j. Przyjmując następnie założenie o niezależności cech obliczamy prawdopodobieństwa teoretyczne pij= pi.p.j. Wyniki obliczeń prawdopodobieństw pij zamieszczone są w prawym górnym rogu każdej kratki. Mnożąc te prawdopodobieństwa przez n=200 otrzymujemy dla każdej kratki liczebności teoretyczne npij, które umieszczono w dolnym lewym rogu. Zauważyć przy tym trzeba, że ze względu na konieczność bilansowania się elementów w wierszach i kolumnach obliczenia przeprowadzamy tylko dla tylu kratek, ile wynosi liczba stopni swobody, tzn. (r-1)(s-1)=(2-1)(3-1)=2, a pozostałe elementy zarówno macierzy [pij] jak i [npij] wyznaczamy z wartości brzegowych.
Leczeni | Stan zdrowia po leczeniu |
---|---|
Bez poprawy | |
Badanym lekiem |
|
20 | |
-39 | |
Tradycyjnie | |
45 | |
26 | |
n.j | 65 |
p.j | 0,325 |
PRZYKŁAD MARKETINGOWY- 1
W dużej sieci handlowej wprowadzano do sprzedaży trzy nowe asortymenty produktów spożywczych, stosując trzy różne metody promocji stosowane równolegle w trzech podobnych obiektach handlowych. Z systemu informacji handlowej hipermarketu uzyskiwano dane o liczbie klientów kupujących poszczególne asortymenty wyrobów oraz odpowiadające im wartości sprzedaży.
Należy zweryfikować hipotezę zerową o braku zależności pomiędzy stosowanymi metodami promocji a liczbą klientów dokonujących zakupy wprowadzanych do sprzedaży nowych wyrobów.
W poniższej tabeli zamieszczono wyniki dotyczące liczby osób kupujących poszczególne produkty w tyś osób na tydzień
Asort/ met. pro | Metoda1 | Metoda2 | Metoda3 |
---|---|---|---|
Produkt 1 | 3,5 | 6,7 | 7,8 18 |
Produkt 2 | 11,4 | 8,9 | 12,5 32,8 |
Produkt 3 | 5,8 | 5,0 | 8,9 19,7 |
Σ 20,7 20,6 29,2 70,5
F11 =5,3 F12 = 5,26 F13 = 7,46 F21 = 9,63 F22 =9,58 F23 = 13,6
F31 = 5,78 F32 = 5,76 F33 =8,16
X = 0,61 +0,39+0,02+0,33+0,05+0,09+0,00+0,1+0,07=1,66
Ponieważ α0,05 = 9,488 przy l. st. Sw. = (3-1)x(3-1) = 4 < od χ2o = 1.66
To nie ma podstaw do odrzuceni hipotezy zerowej. Oznacza to że porównywane metody promocji nie różnią się istotnie we wpływie na liczbę klientów hipermarketu kupujących dany produkt w okresie tygodnia.
Przykład Marketingowy 2
W ramach trzech kanałów dystrybucji dokonywano działań reklamowo promocyjnych o podobnym poziomie nakładów i dokonywano oceny przyrostu wartości sprzedaży w kolejnych czterech tygodniach. Badanie miało na celu zidentyfikowanie kanału dystrybucji o najwyższym poziomie efektywności reagowania na zastosowane metody reklamy, które kontynuowałoby w przyszłości w tym sektorze.
Wyniki przyrostu sprzedaży w poszczególnych kanałach dystrybucji zestawiono w poniższej tabeli.
Zestawienie przyrostu sprzedaży w kanałach dystrybucji w tyś zł
Tydz sp\ kanały dyst | I kan dyst | II kan. dyst | III kan. dyst | Σ |
---|---|---|---|---|
I tydz | 3,2 3,37 | 4,4 4,6 | 5,5 5,13 | 13,1 |
II tydz | 5,4 4,89 | 6,5 6,67 | 7,1 7,44 | 19,0 |
III tydz | 3,7 4,14 | 5,9 5,5 | 6,5 6,46 | 16,1 |
IV tydz | 6,3 6.32 | 8,6 8.67 | 9,7 9,61 | 24,6 |
Σ | 18,6 | 25,4 | 28,8 | 72,3 |
F11 =18,6x13,1/72,3 =3,37
Ponieważ różnice F teoret i f emp. Nie przekracają 0,5, to nie celowe jest obliczanie o przy wartości krytycznej dla l zt sw 4 równe 9,488
Zadanie domowe
Zestawienie przyrostu sprzedaży w kanałach dystrybucji w tyś zł
Tydz sp\ kanały dyst | I kan dyst | II kan. dyst | III kan. dyst | Σ |
---|---|---|---|---|
I tydz | 8,8 | 17,5 | 20,1 | |
II tydz | 6,2 | 14,3 | 16,3 | |
III tydz | 5,1 | 12,5 | 18,2 | |
IV tydz | 3,6 | 10,5 | 14,1 | |
Σ |
WYKONAĆ OBLICZENIA I ZINTERPRETOWAĆ WYNIKI