Testy nieparametryczne
TEST PORÓWNUJĄCY DWIE PRÓBY, KTÓRE NIE SĄ ZGODNE Z ROZKŁADEM NORMALNYM.
tEST U MaNNA-wHITNEY'A
Test ten jest nieparametrycznym testem, który może być użyty zamiast testu t dla prób niezależnych. Przy pomocy tego testu można zweryfikować hipotezę, że dwie próby pochodzą z tej samej populacji (mają jednakowe mediany). Inaczej mówiąc czy obserwacje jednego zbioru są większe od obserwacji drugiego zbioru.
Załóżmy że mamy obserwacje z dwóch prób (x1, x2,…,xn) oraz (y1,y2,… ym) Porównujemy każdą wartość xi z pierwszej próby z każdą wartością yj z drugiej próby. Ilość takich porównań wynosi
. Jeżeli obie populacje mają tę sama medianę wówczas każde xi ma jednakową szansę być większym od yj.
Stawiamy hipotezę zerową
przy hipotezie alternatywnej
Liczymy ile razy xi jest większe od yj i oznaczamy to przez UX Podobnie ile razy xi jest mniejsze od yj i oznaczamy to przez UY.
Można to zrobić przy pomocy następującej procedury: Należy wszystkie wartości z obu prób ustawić w rosnący ciąg i każdą podpisać z którego zbioru pochodzi. Następnie pod każdą z wartości podpisać ile wartości z drugiej próby jest poniżej jej. Sumując te wartości otrzymujemy UX i UY. Należy zauważyć, że UX + UY =m•n
Wyznaczamy U=min(UX , UY)
Wartość porównujemy z tablicami U-Manna-Whitneya
Dla dużych prób można skorzystać z przybliżenia rozkładem normalnym o średniej
i odchyleniu
Jeżeli istnieją powtarzające się obserwacje wówczas przypisuje się im rangi będące średnią rang tych obserwacji. Przy stosowaniu rozkładu normalnego w takim przypadku należy przyjąć poprawkę na odchylenie standardowe i obliczyć je wówczas jako
przy czym N=n+m,
g -- ilość węzłów (powtarzających się wartości) tj - ilość wartości w węźle
dotyczące: zgodności z rozkładem teoretycznym, niezależności, zgodności dwóch rozkładów empirycznych, losowości
Test zgodności z rozkładem teoretycznym
H0 : F(x)=F0(x), tzn. rozkład F(x), z którego pochodzi próba pokrywa się z pewnym rozkładem teoretycznym F0(x),
H1 : F(x)F0(x), tzn. rozkład F(x), z którego pochodzi próba jest różny od rozkładu teoretycznego F0(x),
gdzie:
F(x)-dystrybuanta rozkładu empirycznego badanej cechy,
F0(x)-określona postać teoretyczna dystrybuanty.
Sprawdzian testu:
,
gdzie:
ni - liczebność i-tej klasy, (i=1,2,3,..,r),
,
pi - prawdopodobieństwo, że wartość cechy o rozkładzie F0(x) będzie należała do i-tej klasy,
npi - liczebność teoretyczna i-tej klasy, tzn. liczebność i-tej klasy przy założeniu prawdziwości hipotezy H0.
Jeżeli weryfikowana hipoteza jest prawdziwa, to sprawdzian testu ma przy
n rozkład
o (r-s-l) stopniach swobody, gdzie s jest liczbą szacowanych parametrów rozkładu z próby.
Obszar odrzucenia
.
Średnia wartość ni nie powinna być mniejsza od 10 i liczba klas r nie mniejsza od 5.
Test niezależności
Dwie cechy X i Y (niekoniecznie mierzalne).
H0: obie cechy są niezależne, tzn.: H0:
,
H1: obie cechy są zależne, tzn. H1:
,
Sprawdzian testu
,
gdzie
nij - liczebność elementów z i -tej grupy według cechy X (i =1,2,...,r) i j-tej grupy według cechy Y (j=1,2,...,s),
- teoretyczna liczebność klasy przy założeniu niezależności cech,
|
yj |
|
|
|
|
xi |
y1 |
y2 |
... |
ys |
|
x1 |
n11 |
n12 |
... |
n1s |
n1. |
x2 |
n21 |
n22 |
... |
n2s |
n2. |
... |
... |
... |
... |
... |
... |
xr |
nr1 |
nr2 |
... |
nrs |
nr. |
|
n.1 |
n.2 |
... |
n.s |
n |
Obszar odrzucenia
,
gdzie
jest wartością odczytaną dla i (r-1)(s-1) stopni swobody.
Przykład
Opierając się na przedstawionych poniżej wynikach ankiety przeprowadzonej wśród losowo wybranej 1000-osobowej grupie uczniów szkół licealnych w Łodzi należy sprawdzić, czy fakt sprawiania trudności wychowawczych w szkole przez młodzież jest związany z częstością spożywania alkoholu w domu. Przyjmując poziom istotności 0,05.
|
Jak często spożywa się alkohol w domu ucznia? [nij] |
Razem |
||||
Czy uczeń sprawia trudności wychowawcze? |
w ogóle nie |
bardzo rzadko |
raz w miesiącu |
częściej |
ni |
|
Tak |
110 |
500 |
150 |
40 |
800 |
|
Nie |
40 |
100 |
50 |
10 |
200 |
|
Razem nj |
150 |
600 |
200 |
50 |
1000 |
|
H0: fakt sprawiania trudności wychowawczych przez młodzież nie zależy od częstości spożywania alkoholu w domu;
H1: fakt sprawiania trudności wychowawczych przez młodzież zależy od częstości spożywania alkoholu w domu.
Czy uczeń sprawia trudności wychowawcze? |
Jak często spożywa się alkohol w domu ucznia?
|
Razem |
|||
|
w ogóle nie |
bardzo rzadko |
raz w miesiącu |
częściej |
ni |
Tak |
120 |
480 |
160 |
40 |
800 |
Nie |
30 |
120 |
40 |
10 |
200 |
Razem nj |
150 |
600 |
200 |
50 |
1000 |
Warianty cechy X i Y |
|
Razem |
|||
|
w ogóle nie |
bardzo rzadko |
raz w miesiącu |
częściej |
ni |
Tak |
-10 |
20 |
-10 |
0 |
0 |
Nie |
10 |
-20 |
10 |
0 |
0 |
Razem nj |
0 |
0 |
0 |
0 |
0 |
Warianty cechy X i Y |
|
Razem |
|||
|
w ogóle nie |
bardzo rzadko |
raz w miesiącu |
częściej |
ni |
Tak |
0,83 |
0,83 |
0,63 |
0,00 |
2,29 |
Nie |
3,33 |
3,33 |
2,50 |
0,00 |
9,17 |
Razem nj |
4,17 |
4,17 |
3,13 |
0,00 |
11,46 |
Z tablic rozkładu 2 odczytujemy wartość krytyczną
dla poziomu istotności
i (2-1)(4-1)=3 stopni swobody:
. Mamy zatem:
, czyli hipotezę H0 odrzucamy na rzecz hipotezy alternatywnej H1.
Można sądzić przy prawdopodobieństwie błędu 5%, że fakt sprawiania trudności wychowawczych w szkole przez młodzież jest związany z częstością spożywania alkoholu w domu.
Test zgodności dwóch rozkładów empirycznych (t. serii)
Dane są dwie próby o liczebnościach odpowiednio równych n1 i n2, pochodzące z populacji generalnych, co do których nie ma pewności, czy rozkład cechy X jest w nich identyczny.
H0: dwie próby pochodzą z populacji o jednakowym rozkładzie, tzn. F1(x)=F2(x),
H1: dwie próby różnią się istotnie rozkładem, a więc F1(x)F2(x).
Obliczanie sprawdzianu testu k:
wyniki obu prób porządkujemy w jeden ciąg według rosnących wartości,
przyporządkowujemy elementom tego ciągu symbol a, jeśli pochodzą z pierwszej próby lub b, jeśli z drugiej i łączymy kolejne jednakowe znaki w serie, które liczymy i uzyskujemy w ten sposób liczbę serii k - sprawdzian testu.
Obszar odrzucenia jest
, gdzie k - wartość krytyczna z tablic rozkładu serii dla ustalonego poziomu istotności oraz dla odpowiednich n1 i n2 (liczebności prób) taka by zachodziła równość
.
Jeżeli ta sama wartość cechy X występuje w obu próbach należy przyjąć takie uporządkowanie symboli a i b, przy którym liczba serii jest mniejsza.
Przykład
Korzystając z Biuletynu Statystycznego z IV`97 otrzymano następujące dane dotyczące spożycia ryb (w kg/osobę) w wylosowanych rodzinach zamieszkujących:
miasta: 4,5; 8,2; 3,2; 6,6; 5,8; 9,4; 9,8; 5,6; 7,2; 7,8; 6,4; 8,4 oraz
tereny wiejskie: 2,2; 0,8; 2,6; 1,4; 1,5; 3,9; 4,6; 3,0.
Sprawdzić na poziomie istotności 0,025, czy spożycie ryb wśród rodzin zamieszkujących miasta i wsie istotnie różni się.
H0: spożycie ryb wśród rodzin zamieszkujących miasta i wsie nie różni się istotnie,
H1: spożycie ryb wśród rodzin zamieszkujących miasta i wsie istotnie różni się.
Podane wartości porządkujemy w szereg niemalejący i pod każdą daną oznaczamy, z której próby pochodzi (a -miasto, b- wieś):
k=6
Na poziomie istotności =0,025 i dla liczebności prób n1=12 i n2=8 wartość odczytana z tablic rozkładu serii wynosi
,
.
, należy zatem odrzucić hipotezę H0 na rzecz hipotezy alternatywnej H1. Spożycie ryb wśród rodzin zamieszkujących miasta i wsie różni się istotnie.
Test weryfikujący hipotezę o losowości próby (medianowy)
Próba: n obserwacji
pobrana w pewien sposób z populacji o dowolnym rozkładzie
H0: próba ma charakter losowy,
H1: próba nie ma charakteru losowego.
Obliczanie sprawdzianu testu k:
wyznaczenie mediany z próby Me,
przyporządkowanie każdemu elementowi próby xi, według kolejności pobierania elementów do badania, symbolu a - jeśli xi<Me, bądź symbolu b, jeśli xi>Me, (wyniki xi=Me można pominąć),
z ciągu symboli a i b wyznaczamy ogólną liczbę serii k.
Obszar odrzucenia:
, gdzie
.
dla n1 i n2 (liczebności odpowiednio symboli a i b)
Przykład
Przeprowadzając badanie pracowników pewnego zakładu produkcyjnego z punktu widzenia stażu pracy, otrzymano następujące wartości tej cechy (w latach) dla kolejno wybranych pracowników: 5, 7, 4, 9, 11, 1, 18, 18, 3, 10, 6, 22, 13, 23, 3, 2, 2, 9, 11, 4, 20, 8, 30. Sprawdzić, czy otrzymana próba jest próbą losową na poziomie istotności 0,05.
H0: pobrana próba ma charakter losowy,
H1: pobrana próba nie jest próbą losową.
Wyznaczamy medianę z próby: w tym celu porządkujemy ciąg niemalejąco, czyli
1, 2, 2, 3, 3, 4, 4, 5, 6, 7, 8, 9, 9, 10, 11, 11, 13, 18, 18, 20, 22, 23, 30.
n=23,
.
Wartość cechy xi=9 pomijamy, zatem mamy próbę n=21-elementową. Każdej wartości próby xi według kolejności pobierania elementów do badania przyporządkowujemy symbol a - jeśli xi<Me, bądź symbol b jeśli xi>Me. Otrzymujemy następujący ciąg:
Liczebność symboli a wynosi n1=11, natomiast symboli b - n2=10.
k=14
Odczytane wartości z tablic wynoszą odpowiednio k1=6, a k2=16.
, a więc nie ma podstaw do odrzucenia hipotezy H0.
Test mediany dla dwóch populacji
Dwie próby o liczebnościach n1 i n2 z dwóch populacji generalnych o dowolnych dystrybuantach rozkładów F1(x) i F2(x).
Hipoteza o zgodności rozkładów:
H0: F1(x)=F2(x),
H1: F1(x)F2(x).
1. z wyników obu prób należy wyznaczyć łączną medianę (Me),
2. wszystkie obserwacje należy zgrupować w tablicę czteropolową:
Obserwacje |
Próba I |
Próba II |
Razem |
>Me |
n11 |
n12 |
n1 |
<=Me |
n21 |
n22 |
n2 |
Razem |
n1 |
n2 |
n |
3. tablicę tę należy potraktować jak tablicę niezależności i wyznaczyć wartość statystyki
, tak jak miało to miejsce w teście niezależności
; statystyka ta ma przy założeniu prawdziwości hipotezy H0 asymptotyczny rozkład
o jednym stopniu swobody,
4. z tablic rozkładu
dla ustalonego poziomu istotności i jednego stopnia swobody odczytujemy wartość krytyczną
taką, że
,
5.
.
Test znaków
Dwie populacje generalne o ciągłych rozkładach i dystrybuantach F1(x) i F2(x), z których wylosowano n parami odpowiadających sobie elementów.
H0: dwie próby pochodzą z populacji o jednakowym rozkładzie, tzn. F1(x)=F2(x),
H1: dwie próby różnią się istotnie.
Weryfikacja hipotezy H0 testem znaków przebiega następująco:
1. badamy znak różnicy par wyników w obu próbach i znajdujemy liczbę tych znaków, których jest mniej (jeśli są w próbie pary o identycznych wartościach, to nie rozważamy ich w teście), tzn. r = min(r-,r+), gdzie r- i r+ oznaczają odpowiednio liczbę znaków ujemnych i dodatnich różnic rozważanych par wyników,
2. z tablic rozkładu liczby znaków odczytujemy dla liczby par wyników n oraz przyjętego poziomu istotności taką wartość krytyczną r, że
,
3. obszar odrzucenia ma postać
,
4. jeżeli
, to odrzucamy hipotezę H0 na rzecz hipotezy alternatywnej, w przeciwnym przypadku tzn. gdy
brak podstaw do odrzucenia hipotezy, że obie próby pochodzą z jednej populacji.