Wykład 9
Nieparametryczne metody statystyczne
Metody nieparametryczne
Z założenia test t dla dwóch próbek wymaga, by obie populacje, z których pochodzą próbki miały rozkład normalny o takich samych wariancjach.
Wiele innych powszechnie stosowanych procedur ma w swoim założeniu normalność rozkładów. Na szczęście większość z nich jest odporna na drobne odstępstwa od normalności rozkładów.
Jednakże jest cała grupa procedur wnioskowania statystycznego, które nie wymagają oceny wariancji czy wartości średniej w populacji, a hipotezy nie dotyczą jawnie parametrów rozkładów.
Takie procedury nazywane są testami nieparametrycznymi.
Metody te zazwyczaj nie wymagają założeń co do dystrybucji analizowanej zmiennej losowej (np. nie wymagają normalności rozkładu), aczkolwiek mogą pojawiać się założenia, iż porównywane populacje mają taką samą zmienność albo kształt funkcji gęstości prawdopodobieństwa.
Testy nieparametryczne mogą być używane zarówno w sytuacjach, w których stosuje się testy parametryczne, np. test t dla dwóch próbek, jak i tam, gdzie tych metod zastosować nie można.
Będziemy również tych metod używać do analizy zmiennych rangowych i atrybutów.
Jednakże, jeśli można zastosować test parametryczny i nieparametryczny, wówczas zawsze test parametryczny będzie miał moc co najmniej taką jak test nieparametryczny (tzn. metoda nieparametryczna ma większe prawdopodobieństwo popełnienia błędu typu II).
Często jednak różnice mocy testu parametrycznego i jego odpowiednika nieparametrycznego nie są tak duże i ulegają zmniejszeniu wraz ze wzrostem liczności próbki.
Pojedyncza próbka. Test znaków:
Załóżmy, że jesteśmy zainteresowani testowaniem hipotezy o którejś ze statystyk opisowych położenia i nie wiemy niczego więcej o rozkładzie zmiennej losowej poza tym, iż jest ciągła.
Wygodnie jest wykorzystać medianę m jako statystykę położenia, gdyż ma własność:
Hipoteza zerowa ma zatem postać:
H0: m=m0
i jeśli jest prawdziwa, spodziewamy się mniej więcej takiej samej liczby obserwacji powyżej jak i poniżej m0 a jeśli próbka odbiega zbyt mocno od tego, odrzucamy H0.
Test opisywany jest najczęściej jako przypisywanie każdej z obserwacji znaku plus (jeśli wartość jest większa od mediany m0) albo minus jeśli jest poniżej m0 (założenie o ciągłości teoretycznie wyklucza przypadki, dla których obserwacja jest dokładnie równa m0, jeśli jednak mamy taki przypadek to przypisujemy mu zero).
Oznaczmy zatem przez N+ liczbę znaków plus: N+= #{k: Xk>m0}.
Załóżmy, że hipoteza alternatywna jest dwustronna i ma postać HA: m ≠
m0.
Odrzucamy zatem H0 jeśli N+ jest albo zbyt duża albo zbyt mała, a powstały w ten sposób test nazywany jest testem znaków.
Załóżmy iż X1, ..., Xn są realizacjami ciągłej zmiennej losowej o medianie m i stawiamy hipotezę zerową H0: m = m0 ; versus HA: m ≠
m0.
Odrzucamy H0 jeśli N+ ≤
k lub N+≥
n −k na poziomie istotności:
Dowód: Zakładając słuszność H0, N+ bin(n,1/2), co oznacza, że zmienna losowa n −N+ (liczba minusów) ma również rozkład dwumianowy bin(n, 1/2) oraz:
Zatem poziom istotności może być bezpośrednio wyrażony z wykorzystaniem dystrybuanty rozkładu dwumianowego bin(n, 1/2), co jest łatwym obliczeniowo zadaniem.
Ponieważ zmienna losowa N+ jest z natury swojej zmienną dyskretną, więc nie zawsze uda się określić k, dla którego poziom istotności jest równy dokładnie założonemu, przyjmujemy zatem najbliższy mniejszy niż α.
Przykład 1
Szczury laboratoryjne przechodzą labirynt i mierzony jest czas przejścia. Szczur albo bezproblemowo radzi sobie z zadaniem i dociera do wyjścia w miarę szybko, albo też gubi się i znajduje wyjście po długim czasie. Oznacza to, że rzadko pojawiać się będą czasy pośrednie.
Dystrybucja czasu przejścia może być jednak uznana za symetryczną.
Uznano, że średni czas przejścia wynosi więcej niż 100 sekund.
Zebrano następujące dane i należy zweryfikować tę hipotezę na poziomie á 5%:
26,31,43,163,171,181,193,199,206,210
Ponieważ dystrybucja jest symetryczna wartość średnia µ i mediana m są sobie równe.
Formułujemy hipotezy H0: µ=100 versus HA: µ>100, i odrzucamy H0 jeśli N+ ≥
n −k gdzie n=10 a k spełnia:
Otrzymujemy k=2.
Zatem odrzucamy jeśli N+ ≥
8.
Dla naszych danych
26,31,43,163,171,181,193,199,206,210
obserwowana wartość N+=7, więc nie mamy podstaw do odrzucenia H0 na poziomie
α =0.05.
Pojedyncza próbka.
Test Wilcoxona.
Jeśli rozkład zmiennej losowej jest symetryczny, wartość średnia i mediana są sobie równe to formułujemy hipotezę w dziedzinie średniej µ zamiast mediany m.
Załóżmy, że chcemy zweryfikować hipotezę H0: µ=µ0 na podstawie obserwacji X1, ..., Xn, realizacji ciągłej zmiennej losowej o symetrycznym rozkładzie.
Rozważmy wartości absolutne odchyłek od µ0 |X1−µ0|, ..., |Xn−µ0|, i uporządkujmy je od najmniejszej do największej.
Przyporządkujmy każdej wartości Xk jej rangę Rk, tak, że Rk=j jeśli Xk ma j-tą najmniejszą absolutną odchyłkę od µ0.
Trzeba równocześnie pamiętać dla każdej obserwacji Xk po której stronie µ0 się znajdowała, poprzez przypisanie wartości wskaźnika Ik :
Ostatecznie, dla każdej obserwacji Xk otrzymujemy parę (Rk, Ik), rangę oraz wskaźnik położenia względem µ0.
Użyjemy następującej statystyki testowej
która jest po prostu sumą rang wszystkich obserwacji powyżej µ0.
Zmienna losowa W przyjmuje wartości od 0 (wszystkie obserwacje poniżej µ0) do n(n+1)/2 (wszystkie obserwacje powyżej µ0).
Jeśli H0 jest prawdziwa, dystrybucja W jest symetryczna o średniej n(n+1)/4, i odrzucimy H0 jeśli obliczone W odstaje zbyt mocno od swojej wartości średniej.
Jak zwykle musimy sprecyzować pojęcie „zbyt mocno odstaje” co wymaga znajomości dystrybucji zmiennej losowej W.
Wymaga to znajomości własności funkcji tworzących prawdopodobieństwa.
Ogólnie, rozkład prawdopodobieństwa W ma postać:
gdzie α(r) jest współczynnikiem składnika sr w rozwinięciu
Jeśli H0 jest prawdziwa a liczność próbki jest duża, możemy wykorzystać następujące przybliżenie rozkładu W rozkładem normalnym o parametrach:
Definiujemy zatem dla próbek o dużej liczności statystykę
Przykład 2
Podaje się najczęściej, iż gęstość Ziemi wynosi 5.52g/cm3. W swoim słynnym doświadczeniu w 1798, Henry Cavendish wykorzystał swoje sprytne urządzenie do pomiaru gęstości.
Uzyskał następujące wyniki przy 29 powtórzeniach: 4.07,4.88,5.10,5.26,5.27,5.29,5.29,5.30,5.34,5.34,5.36,5.395.42,5.44,5.46,5.47,5.50,5.53,5.55,5.57,5.58,5.61,5.62,5.635.65,5.75,5.79,5.85,5.86
a średnia z próbki wyniosła 5.42.
Niech µ oznacza rzeczywistą, nieznaną wartość średnią i zweryfikujmy hipotezę
H0: µ=5.52 versus HA: µ ≠
5.52 na poziomie 5%.
Wykorzystamy w tym celu statystykę T i normalne przybliżenie rozkładu W. Dla α =0.05, odrzucimy H0 jeśli |T| ≥
1.96, n=29.
Wartości absolutne odchyłek |Xk−5.52|, k=1, ..., 29, uporządkowane według wartości, z dodatnimi odchyłkami zaznaczonymi podkreśleniem, są następujące:
0.01, 0.02, 0.03, 0.05, 0.05, 0.06, 0.06, 0.08,0.09,0.10, 0.10, 0.11, 0.13, 0.13, 0.16, 0.18, 0.18, 0.22,0.23,0.23, 0.23, 0.25, 0.26, 0.27, 0.33, 0.34, 0.42, 0.64,1.45
Wartość statystyki W=1+3+4.5+6.5+9+10.5+12+13.5+20+24+25+ 26 = 155
oraz
i |T|=1.35. Nie mamy zatem podstaw do odrzucenia H0.
Testy rangowe dla dwóch próbek.
Pomimo tego, że zaproponowano wiele metod nieparametrycznych testowania różnic pomiędzy dyspersją czy, w ogólnym przypadku, zmiennością dwóch populacji, żadna z nich nie zyskała powszechnej akceptacji.
Najczęściej stosowany test to nieparametryczny odpowiednik testu t dla dwóch próbek.
Test został zaproponowany, dla przypadku próbek o takiej samej liczności, przez Wilcoxona (1945) a następnie zmodyfikowany dla przypadku próbek o różnej liczności przez Manna i Whitneya (1947).
Test jest zatem oficjalnie zwany testem Wilcoxona-Manna-Whitneya, albo, częściej, testem U Mann-Whitneya.
Test U Mann-Whitneya
W tym teście, jak w wielu testach nieparametrycznych, bezpośrednie wartości pomiarów nie są wykorzystywane a jedynie ich rangi.
Rangi
Pomiary mogą mieć przypisane rangi albo w porządku malejącym (od największego do najmniejszego) albo rosnącym (od najmniejszego do największego).
Jeśli przypisujemy rangi pomiarom od największego do najmniejszego to pomiar o największej wartości będzie miał rangę 1, następny rangę 2 itd., a najmniejszy rangę N, gdzie N = n1+n2 (suma liczności obu próbek).
Przykład 3 - Wzrost
Kiedy dwie lub więcej obserwacji ma dokładnie taką samą wartość mówimy, iż są związane (ang. tied).
Ranga przypisana takim obserwacjom jest średnią rang, które byłyby przypisane tym obserwacjom, gdyby nie były one związane.
Przykład 4 - Prędkość maszynopisania
Na przykład, kodując zbiór danych w systemie od najmniejszej do największej wartości, trzecia i czwarta wartość są związane i wynoszą 32 słowa na minutę, dlatego każdej z nich przypisujemy rangę (3+4)/2=3.5
Ósma, dziewiąta i dziesiąta obserwacja są również związane i wynoszą 44 słowa na minutę, więc każda z nich otrzymuje rangę (8+9+10)/3=9
Test U Mann-Whitneya
Mając przypisane wszystkie rangi, obliczamy statystykę Mann-Whitneya:
gdzie n1 oraz n2 są liczbami obserwacji w każdej z próbek, natomiast R1 jest sumą rang obserwacji z próbki pierwszej.
Dla testu dwustronnego, obliczona wartość U jest porównywana z wartością graniczną Uα,n1,n2 zamieszczoną w odpowiednich tabelach statystycznych.
W tabelach zakłada się najczęściej że n1< n2. Jeśli n1> n2 należy użyć Uα,n2,n1 jako wartości krytycznej testu.
Statystyka Mann-Whitneya może być także obliczona jako:
(gdzie R2 jest sumą rang obserwacji z drugiej próbki), gdyż etykietowanie próbek jako 1 czy 2 jest zupełnie arbitralne.
Przeprowadzając test dwustronny musimy obliczyć obie wartości U i U', a większa z nich porównywana jest z wartością krytyczną.
Przykład 3
H0: Studenci są takiego samego
wzrostu, niezależnie od płci.
H1: Wzrost zależny jest od płci.
Można zauważyć, że
U (lub U') jest również równa liczbie pomiarów, które są większe od obserwacji w drugiej próbie.
Dla grupy kobiet, każda z rang 7 i 8 jest większa od 6 rang z grupy mężczyzn, a każda z rang 10, 11 i 12 each przekracza wszystkich 7 rang mężczyzn, sumując otrzymujemy 6+6+7+7+7=33=U. W grupie mężczyzn, tylko ranga 9 przewyższa 2 rangi z grupy kobiet, co daje 2=U'.
Test U Mann-Whitneya jest testem o największej mocy wśród testów nieparametrycznych; jeśli zastosujemy do analizy porównawczej rozkładów normalnych oba - test t dla dwóch próbek i test U Mann-Whitneya - ten drugi będzie miał moc około 95% testu parametrycznego.
Jeśli natomiast istnieją silne odchyłki od założeń testu t, test Mann-Whitneya będzie miał większą moc.
Inne rozwiązania
Alternatywą dla testów nieparametrycznych jest zastosowanie testu t dla dwóch próbek po obliczeniu rang (nazywane jest to często transformacją rangową danych).
Taka procedura ma moc taką samą jak test Mann-Whitneya.
Jednostronny test U Mann-Whitneya.
W przypadku testu jednostronnego konieczne jest określenie, która część dystrybucji statystyki Mann-Whitney nas interesuje.
Determinuje to, czy w teście wykorzystywana będzie wartość U czy U'.
Przykład 4
H0: Prędkość maszynopisania
nie jest większa wśród osób,
które ukończyły kurs w porównaniu
do osób bez szkolenia.
H1: Prędkość maszynopisania jest
większa w grupie osób po kursie
Rangowanie: z dołu do góry
Normalna aproksymacja testu U Mann-Whitneya
Tablice z wartościami krytycznymi testu Mann-Whitney są określone tylko dla małych liczności próbek.
Rozkład zmiennej losowej U zmierza do normalnego wraz ze wzrostem liczebności.
Dla dużych n1 i n2 wykorzystujemy fakt, że U ma wartość średnią
i odchylenie standardowe
Zatem, jeśli obliczymy U albo U' a liczność n1 bądź n2 jest większa od tych zamieszczonych w tablicach, poziom istotności może być obliczony poprzez
lub, uwzględniając poprawkę ze względu na nieciągłość
Pamiętając, iż rozkład t dla ν = ∞ jest identyczny z rozkładem normalnym, możemy wartość krytyczną Zα określić jako równą wartości krytycznej tα,∞.
Gdy korzystamy w normalnej aproksymacji dla testu dwustronnego, wystarczy obliczyć tylko jedną z wartości U albo U'.
Można również sformułować test jednostronny.
Przykład 5
Jednostronny test Mann-Whitney został użyty do zbadania hipotezy, czy zwierzęta, którym podawano dodatkowo witaminy i mikroelementy przybrały więcej na wadze w porównaniu do zwierząt bez dodatków.
W trakcie eksperymentu, 22 zwierzęta (grupa 1) hodowano podając równocześnie witaminy i mikroelementy, a 46 zwierząt hodowano metodami tradycyjnymi, nie podając żadnych dodatkowych witamin (grupa 2).
Masie ciała zwierząt przypisano rangi od 1 (dla najmniejszej wagi) to 68 (dla wagi największej), oraz obliczono U otrzymując 282.
H0: Masa ciała zwierząt karmionych witaminami nie jest większa niż masa ciała zwierząt karmionych standardowo.
H1: Masa zwierząt karmionych witaminami jest wyższa od masy zwierząt hodowanych bez witamin.
Dla testu jednostronnego α = 0.05
t0.05[1],∞ = 1.6449
Ponieważ Z = 2.94 > 1.6449, odrzucamy H0 (p=0.0016)
Test U Mann-Whitneya dla zmiennych w skali porządkowej
Test U Mann-Whitneya może być również stosowany do analizy danych przedstawionych w skali porządkowej.
Przykład 6 pokazuje tę procedurę. Dwadzieścioro pięcioro studentów wybrało kurs z zoologii. Studentów podzielono losowo do dwóch grup prowadzonych przez innych nauczycieli. Na podstawie wyników końcowych zweryfikować hipotezę zerową, że studenci z uzyskują takie same wyniki niezależnie od prowadzącego ćwiczenia.
Example 4
Przykład 6
Testowanie różnic pomiędzy medianami.
Można wyobrazić sobie sytuację, w której interesować nas będzie odpowiedź na pytanie, czy dwie próbki pochodzą z populacji o takich samych medianach - jest to tzw. test medianowy (Mood, 1950).
Procedura wymaga obliczenia tzw. globalnej mediany oraz konstrukcji odpowiedniej tablicy kontyngencyjnej o wymiarze 2x2.
Tak powstała tablica kontyngencyjna może być analizowana z wykorzystaniem np. testu χ2.
Przykład 7
H0: Dwie próbki pochodzą z populacji o takiej samej medianie (tzn. mediana ocen jest taka sama w obu populacjach, niezależnie od nauczyciela).
H1: Mediany obu populacji są różne.
α=0.05
Mediana dla wszystkich N pomiarów wynosi (N=25):
X(N+1)/2 = X13 = grade C+
Powstaje zatem następująca tablica kontyngencyjna.
Możemy obliczyć statystykę
Test porównawczy dla dwóch próbek wyrażonych w skali nominalnej (atrybutów)
Możemy porównać dwie próbki danych w skali nominalnej poprzez odpowiednio skonstruowaną tablicę kontyngencyjną 2xC oraz test niezależności χ2.
Tablice kontyngencyjne
Hipoteza zerowa stanowi, że częstości obserwacji umieszczone w wierszach macierzy są niezależne od częstości w kolumnach (częstości „kolumnowe” są niezależne od „wierszowych”).
Przykład 8
Schematy próbkowania
Trzeba sobie uświadomić, że są trzy schematy eksperymentu zebrania danych z przykładu 8:
1. Można losowo wybrać 100 mężczyzn i zapytać ich o kolor włosów oraz losowo wybrać 200 kobiet i również zapytać je o kolor włosów.
Oznacza to, że ustalono liczności danych w wierszach tablicy kontyngencyjnej (100 oraz 200).
2. Albo, możemy zdecydować iż pytamy o płeć losowo wybrane 87 osoby o czarnych włosach, 108 osób o włosach brązowych, 80 osób o włosach w kolorze blond oraz 25 osób rudych.
Tak przeprowadzony eksperyment odpowiada schematowi o ustalonych wcześniej licznościach w kolumnach.
3. Albo, pytamy losowo wybrane 300 osób o kolor włosów i płeć.
Taki eksperyment wymaga jedynie określenia całkowitej liczności próby.
Niezależnie od schematu eksperymentu, analizę danych można przeprowadzić w taki sam sposób.
Test niezależności Χ2
W analizie χ2 tablic kontyngencyjnych korzystamy ze standardowej formuły na statystykę χ2:
Ogółem, liczność oczekiwana dla każdej z komórek tabeli wynosi:
Mając obliczoną wartość statystyki χ2, jej znamienność statystyczna może być wyznaczona poprzez porównanie wartości z rozkładem χ2 o (r-1)(c-1) liczbie stopni swobody.
Przykład 8 - oczekiwane liczności
Wzrost mężczyzn [cm]
Wzrost kobiet [cm]
Rangi wzrostu mężczyzn
Rangi wzrostu kobiet
193
175
1
7
188
173
2
8
185
168
3
10
183
165
4
11
180
163
5
12
178
6
170
9
n1=7
n2=5
Po kursie
Rangi
Bez kursu
Rangi
44
32
?
48
40
36
44
32
?
44
51
34
45
30
2
54
26
1
56
n1=8
n2=7
Po kursie
Rangi
Bez kursu
Rangi
44
9
32
3.5
48
12
40
7
36
6
44
9
32
3.5
44
9
51
13
34
5
45
11
30
2
54
14
26
1
56
15
n1=8
n2=7
Rangi wzrostu mężczyzn
Rangi wzrostu kobiet
1
7
2
8
3
10
4
11
5
12
6
9
R1=30
R2=48
H0: Grupa 1 ≥ Grupa 2
H1:Grupa 1 < Grupa 2
H0: Grupa 1 ≤ Grupa 2
H1: Grupa 1 > Grupa 2
Rangowanie z dołu do góry
U
U'
Rangowanie z góry do dołu
U'
U
Grupa 1 po kursie
Grupa 2 bez kursu
9
3.5
12
7
6
9
3.5
9
13
5
11
2
15
R1=83.5
R2=36.5
14
1
Płeć
Kolor włosów
Czarne
Brązowe
Blond
Rude
Ogółem
Mężczyźni
32
43
16
9
100
Kobiety
55
Asystent A
Asystent B
Suma Ri
Powyżej mediany
6
6
12
Nie więcej niż mediana
5
8
13
Całkowite Ci
11
14
25
65
64
16
200
Ogółem
87
108
80
25
300
Płeć
Kolor włosów
Czarne
Brązowe
Blond
Rude
Ogółem
Mężczyźni
29.00
36.00
26.67
8.33
100
Kobiety
58.00
72.00
53.33
16.67
200
Ogółem
87
108
80
25
300
Asystent A
Asystent B
Ocena
Ranga
Ocena
Ranga
A
3
A
3
A
3
A
3
A
3
B+
7.5
A-
6
B+
7.5
B
10
B
10
B
10
B-
12
C+
13.5
C
16.5
C_
13.5
C
16.5
C
16.5
C-
19.5
C
16.5
D
22.5
C-
19.5
D
22.5
D
22.5
D
22.5
D-
25
R1=114.5
R2=210.5