Wyklad 7 Nieparametryczne metody statystyczne PL [tryb zgodności]

Biometria i Biostatystyka
Nieparametryczne metody statystyczne
Metody nieparametryczne
Z założenia test t dla dwóch próbek wymaga,
by obie populacje, z których pochodzą próbki
miały rozkład normalny o takich samych
wariancjach (test aproksymacyjny t, gdy
wariancjach (test aproksymacyjny t, gdy
wariancje są różne).
Wiele innych powszechnie stosowanych
procedur ma w swoim założeniu normalność
rozkładów. Na szczęście większość z nich jest
odporna na drobne odstępstwa od
normalności rozkładów.
Metody nieparametryczne
Jednakże jest cała grupa procedur
wnioskowania statystycznego, które nie
wymagają oceny wariancji czy wartości
wymagają oceny wariancji czy wartości
średniej w populacji, a hipotezy nie
dotyczą jawnie parametrów rozkładów.
Takie procedury nazywane są testami
nieparametrycznymi.
Termin metody nieparametryczne był po raz pierwszy użyty przez J.Wolfowitza w
1942
Metody nieparametryczne
Metody te zazwyczaj nie formułują założeń
co do rozkładu analizowanej zmiennej
losowej (np. nie wymagają normalności
losowej (np. nie wymagają normalności
rozkładu), aczkolwiek mogą pojawiać się
założenia, iż porównywane populacje mają
taką samą zmienność albo kształt funkcji
gęstości prawdopodobieństwa.
Metody nieparametryczne
Testy nieparametryczne mogą być
używane zarówno w sytuacjach, w
których stosuje się testy parametryczne,
których stosuje się testy parametryczne,
np. test t dla dwóch próbek, jak i tam,
gdzie tych metod zastosować nie
można.
Będziemy tych metod używać do analizy
zmiennych rangowych a niektóre z nich
także do analizy atrybutów.
Metody nieparametryczne
Jednakże, jeśli można zastosować test
parametryczny i nieparametryczny,
wówczas zawsze test parametryczny
wówczas zawsze test parametryczny
będzie miał moc co najmniej taką jak
test nieparametryczny (tzn. metoda
nieparametryczna ma większe
prawdopodobieństwo popełnienia błędu
typu II).
Metody nieparametryczne
Często jednak różnice mocy testu
parametrycznego i jego odpowiednika
nieparametrycznego nie są tak duże i
nieparametrycznego nie są tak duże i
ulegają zmniejszeniu wraz ze wzrostem
liczności próbki.
Pojedyncza próbka. Test znaków.
Załóżmy, że jesteśmy zainteresowani
testowaniem hipotezy o którejś ze statystyk
opisowych położenia i nie wiemy niczego
opisowych położenia i nie wiemy niczego
więcej o rozkładzie zmiennej losowej poza
tym, iż jest ciągła.
Wygodnie jest wykorzystać medianę m jako
statystykę położenia, gdyż ma własność:
1
P( X d" m ) = P( X e" m ) =
2
Pojedyncza próbka. Test znaków.
Hipoteza zerowa ma zatem postać:
H0: m=m0
i jeśli jest prawdziwa, spodziewamy się
i jeśli jest prawdziwa, spodziewamy się
mniej więcej takiej samej liczby
obserwacji powyżej jak i poniżej m0 a
jeśli próbka odbiega zbyt mocno od
tego, odrzucamy H0.
Pojedyncza próbka. Test znaków.
Test opisywany jest najczęściej jako
przypisywanie każdej z obserwacji znaku
plus (jeśli wartość jest większa od mediany
plus (jeśli wartość jest większa od mediany
m0) albo minus jeśli jest poniżej m0
(założenie o ciągłości teoretycznie wyklucza
przypadki, dla których obserwacja jest
dokładnie równa m0, jeśli jednak mamy taki
przypadek to przypisujemy mu zero).
Pojedyncza próbka. Test znaków.
Oznaczmy zatem przez N+ liczbę znaków
plus: N+=#{k: Xk>m0}.
Załóżmy, że hipoteza alternatywna jest
Załóżmy, że hipoteza alternatywna jest
dwustronna i ma postać HA: m`"m0.
Odrzucamy zatem H0 jeśli N+ jest albo zbyt
duża albo zbyt mała, a powstały w ten
sposób test nazywany jest testem znaków.
Pojedyncza próbka. Test znaków.
Załóżmy iż X1, ..., Xn są realizacjami
ciągłej zmiennej losowej o medianie m i
stawiamy hipotezę zerową H0: m=m0
stawiamy hipotezę zerową H0: m=m0
versus HA: m`"m0.
Odrzucamy H0 jeśli N+ d" k lub N+ e" n-k
na poziomie istotności:
k
n
1 1
�ł �ł
ą =
"�ł j �ł
2 2n j=0 �ł �ł
�ł łł
Pojedyncza próbka. Test znaków.
Dowód: Zakładając słuszność H0, N+
bin(n,�), co oznacza, że zmienna
losowa n-N+ (liczba minusów) ma
również rozkład dwumianowy bin(n,�)
również rozkład dwumianowy bin(n,�)
oraz:
k
n
1 1
�ł �ł
P(N+ d" k) = P(N+ e" n - k) =
"�ł j �ł
2 2n j=0 �ł �ł
�ł łł
Pojedyncza próbka. Test znaków.
Zatem poziom istotności może być bezpośrednio
wyrażony z wykorzystaniem dystrybuanty
rozkładu dwumianowego bin(n,�), co jest
rozkładu dwumianowego bin(n,�), co jest
łatwym obliczeniowo zadaniem.
Ponieważ zmienna losowa N+ jest z natury
swojej zmienną dyskretną, więc nie zawsze uda
się określić k, dla którego poziom istotności jest
równy dokładnie założonemu, przyjmujemy
zatem najbliższy mniejszy niż ą.
Przykład 1
Szczury laboratoryjne przechodzą labirynt i
mierzony jest czas przejścia. Szczur albo
bezproblemowo radzi sobie z zadaniem i
bezproblemowo radzi sobie z zadaniem i
dociera do wyjścia w miarę szybko, albo też
gubi się i znajduje wyjście po długim czasie.
Oznacza to, że rzadko pojawiać się będą
czasy pośrednie.
Dystrybucja czasu przejścia może być jednak
uznana za symetryczną.
Przykład 1
Uznano, że średni czas przejścia wynosi
więcej niż 100 sekund.
Zebrano następujące dane i należy
Zebrano następujące dane i należy
zweryfikować tę hipotezę na poziomie ą
5%:
26,31,43,163,171,181,193,199,206,210
Przykład 1
Ponieważ dystrybucja jest symetryczna
wartość średnia � i mediana m są sobie
równe.
równe.
Formułujemy hipotezy H0: �=100
versus HA: �>100, i odrzucamy H0 jeśli
N+e"n-k gdzie n=10 a k spełnia
k
10
1 �ł �ł
�ł �ł H" 0.05
"
�ł �ł
210 j=0 j
�ł łł
Otrzymujemy k=2.
Przykład 1
Przykład 1
Zatem odrzucamy jeśli N+e"8.
Dla naszych danych
Dla naszych danych
26,31,43,163,171,181,193,199,206,210
obserwowana wartość N+=7, więc nie mamy
podstaw do odrzucenia H0 na poziomie
ą=0.05.
Pojedyncza próbka.
Test Wilcoxona.
Jeśli rozkład zmiennej losowej jest
symetryczny, wartość średnia i mediana są
sobie równe to formułujemy hipotezę w
sobie równe to formułujemy hipotezę w
dziedzinie średniej � zamiast mediany m.
Załóżmy, że chcemy zweryfikować hipotezę
H0: �=�0 na podstawie obserwacji X1, ..., Xn,
realizacji ciągłej zmiennej losowej o
symetrycznym rozkładzie.
Pojedyncza próbka.
Test Wilcoxona.
Rozważmy wartości absolutne odchyłek
od �0 |X1-�0|, ..., |Xn-�0|, i
uporządkujmy je od najmniejszej do
uporządkujmy je od najmniejszej do
największej.
Przyporządkujmy każdej wartości Xk jej
rangę Rk, tak, że Rk=j jeśli Xk ma j-tą
najmniejszą absolutną odchyłkę od �0.
Pojedyncza próbka.
Test Wilcoxona.
Trzeba równocześnie pamiętać dla
każdej obserwacji Xk po której stronie
�0 się znajdowała, poprzez przypisanie
�0 się znajdowała, poprzez przypisanie
wartości wskaznika Ik
1 Xk > �0
ńł
Ik =
�ł0 w przeciwnym przypadku
ół
Pojedyncza próbka.
Test Wilcoxona.
Ostatecznie, dla każdej obserwacji Xk
otrzymujemy parę (Rk,Ik), rangę oraz
wskaznik położenia względem �0.
wskaznik położenia względem �0.
Użyjemy następującej statystyki testowej
n
W =
"R Ik
k
k=1
która jest po prostu sumą rang wszystkich
obserwacji powyżej �0.
Pojedyncza próbka.
Test Wilcoxona.
Zmienna losowa W przyjmuje wartości
od 0 (wszystkie obserwacje poniżej �0)
do n(n+1)/2 (wszystkie obserwacje
do n(n+1)/2 (wszystkie obserwacje
powyżej �0).
Jeśli H0 jest prawdziwa, dystrybucja W
jest symetryczna o średniej n(n+1)/4, i
odrzucimy H0 jeśli obliczone W odstaje
zbyt mocno od swojej wartości średniej.
Pojedyncza próbka.
Test Wilcoxona.
Jak zwykle musimy sprecyzować pojęcie
zbyt mocno odstaje co wymaga
znajomości dystrybucji zmiennej losowej
znajomości dystrybucji zmiennej losowej
W.
Wymaga to znajomości własności funkcji
tworzących prawdopodobieństwa.
Pojedyncza próbka.
Test Wilcoxona.
Ogólnie, rozkład prawdopodobieństwa
W ma postać:
ą( r ) n( n + 1)
ą( r ) n( n + 1)
P(W = r ) = ,r = 0,1,...,
P(W = r ) = ,r = 0,1,...,
2
2n
gdzie ą(r) jest współczynnikiem
składnika sr w rozwinięciu
n
"( 1+ sk )
k=1
Dystrybucja statystyki W
Pojedyncza próbka.
Test Wilcoxona.
Jeśli H0 jest prawdziwa a liczność próbki
jest duża, możemy wykorzystać
następujące przybliżenie rozkładu W
następujące przybliżenie rozkładu W
rozkładem normalnym o parametrach:
n( n + 1)
E[W ] =
4
n( n + 1)( 2n + 1)
Var[W ] =
24
Pojedyncza próbka.
Test Wilcoxona.
Definiujemy zatem dla próbek o dużej
liczności statystykę
W - n( n + 1) / 4
T = H" N( 0,1)
n( n + 1)( 2n + 1) / 24
Przykład 2
Podaje się najczęściej, iż gęstość Ziemi wynosi
5.52g/cm3. W swoim słynnym doświadczeniu w
1798, Henry Cavendish przeprowadził serię
eksperymentów pomiaru gęstości.
eksperymentów pomiaru gęstości.
Uzyskał następujące wyniki przy 29 powtórzeniach:
4.07,4.88,5.10,5.26,5.27,5.29,5.29,5.30,5.34,5.34,5.
36,5.395.42,5.44,5.46,5.47,5.50,5.53,5.55,5.57,5.58
,5.61,5.62,5.635.65,5.75,5.79,5.85,5.86
a średnia z próbki wyniosła 5.42.
Przykład 2
Niech � oznacza rzeczywistą, nieznaną
wartość średnią i zweryfikujmy hipotezę H0:
�=5.52 versus HA: �`"5.52 na poziomie 5%.
�=5.52 versus HA: �`"5.52 na poziomie 5%.
Wykorzystamy w tym celu statystykę T i
normalne przybliżenie rozkładu W. Dla
ą=0.05, odrzucimy H0 jeśli |T|e"1.96, n=29.
Przykład 2
Wartości absolutne odchyłek |Xk-5.52|, k=1, ..., 29,
uporządkowane według wartości, z dodatnimi odchyłkami
zaznaczonymi podkreśleniem, są następujące:
0.01, 0.02, 0.03, 0.05, 0.05, 0.06, 0.06, 0.08,0.09,0.10, 0.10,
0.01, 0.02, 0.03, 0.05, 0.05, 0.06, 0.06, 0.08,0.09,0.10, 0.10,
0.11, 0.13, 0.13, 0.16, 0.18, 0.18, 0.22,0.23,0.23, 0.23, 0.25,
0.26, 0.27, 0.33, 0.34, 0.42, 0.64,1.45
Wartość statystyki
W=1+3+4.5+6.5+9+10.5+12+13.5+20+24+25+ 26 = 155
155 - 29 �"30 / 4
oraz
T = = -1.35
29 �"30( 2�" 29 + 1) / 24
i |T|=1.35. Nie mamy zatem podstaw do odrzucenia H0.
Testy rangowe dla dwóch próbek.
Pomimo tego, że zaproponowano wiele
metod nieparametrycznych testowania
różnic pomiędzy dyspersją czy, w
różnic pomiędzy dyspersją czy, w
ogólnym przypadku, zmiennością dwóch
populacji, żadna z nich nie zyskała
powszechnej akceptacji.
Najczęściej stosowany test to
nieparametryczny odpowiednik testu t
dla dwóch próbek.
Testy rangowe dla dwóch próbek.
Test został zaproponowany, dla
przypadku próbek o takiej samej
liczności, przez Wilcoxona (1945) a
liczności, przez Wilcoxona (1945) a
następnie zmodyfikowany dla
przypadku próbek o różnej liczności
przez Manna i Whitneya (1947).
Test jest zatem oficjalnie zwany testem
Wilcoxona-Manna-Whitneya, albo,
częściej, testem U Mann-Whitneya.
Test U Mann-Whitneya
W tym teście, jak w wielu testach
nieparametrycznych, bezpośrednie
wartości pomiarów nie są
wartości pomiarów nie są
wykorzystywane a jedynie ich rangi.
Rangi
Pomiary mogą mieć przypisane rangi albo w
porządku malejącym (od największego do
najmniejszego) albo rosnącym (od
najmniejszego do największego).
najmniejszego do największego).
Jeśli przypisujemy rangi pomiarom od
największego do najmniejszego to pomiar o
największej wartości będzie miał rangę 1,
następny rangę 2 itd., a najmniejszy rangę N,
gdzie N = n1+n2 (suma liczności obu próbek).
Przykład 3 - Wzrost
Wzrost Wzrost kobiet Rangi wzrostu Rangi wzrostu
mężczyzn [cm] [cm] mężczyzn kobiet
193 175 1 7
188 173 2 8
185 168 3 10
185 168 3 10
183 165 4 11
180 163 5 12
178 6
170 9
n1=7 n2=5
Rangi
Kiedy dwie lub więcej obserwacji ma
dokładnie taką samą wartość mówimy,
iż są związane (ang. tied).
iż są związane (ang. tied).
Ranga przypisana takim obserwacjom
jest średnią rang, które byłyby
przypisane tym obserwacjom, gdyby nie
były one związane.
Przykład 4
Prędkość maszynopisania
Po kursie Rangi Bez kursu Rangi
44 32 ?
48 40
36 44
32 ? 44
32 ? 44
51 34
45 30 2
54 26 1
56
n1=8 n2=7
Rangi
Na przykład, kodując zbiór danych w
systemie od najmniejszej do
największej wartości, trzecia i czwarta
wartość są związane i wynoszą 32
wartość są związane i wynoszą 32
słowa na minutę, dlatego każdej z nich
przypisujemy rangę (3+4)/2=3.5
Ósma, dziewiąta i dziesiąta obserwacja
są również związane i wynoszą 44
słowa na minutę, więc każda z nich
otrzymuje rangę (8+9+10)/3=9
Przykład 4
Prędkość maszynopisania
Po kursie Rangi Bez kursu Rangi
44 9 32 3.5
48 12 40 7
36 6 44 9
32 3.5 44 9
32 3.5 44 9
51 13 34 5
45 11 30 2
54 14 26 1
56 15
n1=8 n2=7
Test U Mann-Whitneya
Mając przypisane wszystkie rangi,
obliczamy statystykę Mann-Whitneya
n1(n1 + 1)
n1(n1 + 1)
+
+
+
+
+
+
U = n n + - R
U = n1n2 + - R1
= + -
= + -
= + -
= + -
= + -
= + -
2
gdzie n1 oraz n2 są liczbami obserwacji
w każdej z próbek, natomiast R1 jest
sumą rang obserwacji z próbki
pierwszej.
Test U Mann-Whitneya
Dla testu dwustronnego, obliczona
wartość U jest porównywana z
wartością graniczną Uą,n1,n2
wartością graniczną Uą,n1,n2
zamieszczoną w odpowiednich tabelach
statystycznych.
W tabelach zakłada się najczęściej że
n1n2 należy użyć Uą,n2,n1
jako wartości krytycznej testu.
Test U Mann-Whitneya
Statystyka Mann-Whitneya może być
także obliczona jako:
n2(n2 + 1)
n2(n2 + 1)
+
+
+
+
+
+
U' = n n + - R
U' = n2n1 + - R2
= + -
= + -
= + -
= + -
= + -
= + -
2
(gdzie R2 jest sumą rang obserwacji z
drugiej próbki), gdyż etykietowanie
próbek jako 1 czy 2 jest zupełnie
arbitralne.
Test U Mann-Whitneya
Przeprowadzając test dwustronny
musimy obliczyć obie wartości U i U , a
większa z nich porównywana jest z
większa z nich porównywana jest z
wartością krytyczną.
H0: Studenci są
takiego samego
Przykład 3
wzrostu, niezależnie
od płci.
Rangi Rangi
wzrostu wzrostu
H1: Wzrost zależny
mężczyzn kobiet
jest od płci.
1 7
n1( n1 + 1)
U = n1n2 + - R1 =
2 8
2 8
2
2
3 10
(7 )( 8 )
= (7 )( 5 ) + - 30 = 33
2
4 11
5 12
U' = 2
U0.05,7,5 = U0.05,5,7 = 5 6
9
ponieważ 33 > 5
R1=30 R2=48
H0 zostaje odrzucona
Test U Mann-Whitneya
Można zauważyć, że
U' = n1n2 - U
= -
= -
= -
U (lub U ) jest również równa liczbie pomiarów,
które są większe od obserwacji w drugiej próbie.
które są większe od obserwacji w drugiej próbie.
Dla grupy kobiet, każda z rang 7 i 8 jest większa
od 6 rang z grupy mężczyzn, a każda z rang 10, 11
i 12 each przekracza wszystkich 7 rang mężczyzn,
sumując otrzymujemy 6+6+7+7+7=33=U. W
grupie mężczyzn, tylko ranga 9 przewyższa 2 rangi
z grupy kobiet, co daje 2=U .
Test U Mann-Whitneya
Test U Mann-Whitneya jest testem o
największej mocy wśród testów
nieparametrycznych; jeśli zastosujemy do
analizy porównawczej rozkładów normalnych
analizy porównawczej rozkładów normalnych
oba test t dla dwóch próbek i test U Mann-
Whitneya ten drugi będzie miał moc około
95% testu parametrycznego.
Jeśli natomiast istnieją silne odchyłki od
założeń testu t, test Mann-Whitneya będzie
miał większą moc.
Inne rozwiązania
Alternatywą dla testów
nieparametrycznych jest zastosowanie
testu t dla dwóch próbek po obliczeniu
testu t dla dwóch próbek po obliczeniu
rang (nazywane jest to często
transformacją rangową danych).
Taka procedura ma moc taką samą jak
test Mann-Whitneya.
Jednostronny test U Mann-
Whitneya.
W przypadku testu jednostronnego
konieczne jest określenie, która część
dystrybucji statystyki Mann-Whitney nas
dystrybucji statystyki Mann-Whitney nas
interesuje.
Determinuje to, czy w teście
wykorzystywana będzie wartość U czy
U .
Jednostronny test U Mann-
Whitneya.
H0: Grupa 1 e" Grupa 2 H0: Grupa 1 d" Grupa 2
H1: Grupa 1 < Grupa 2 H1: Grupa 1 > Grupa 2
H1: Grupa 1 < Grupa 2 H1: Grupa 1 > Grupa 2
Rangowanie z dołu do
U U
góry
Rangowanie z góry do
U U
dołu
H0: Prędkość
maszynopisania nie
Przykład 4
jest większa wśród
osób, które ukończyły
Grupa 1 Grupa 2
kurs w porównaniu do
po kursie bez kursu
osób bez szkolenia.
9 3.5
H1: Prędkość
12 7
maszynopisania jest
Rangowanie:
z dołu do
z dołu do
6 9
6 9
większa w grupie osób
większa w grupie osób
góry
po kursie
3.5 9
n2( n2 + 1)
13 5
U' = n2n1 + - R2 = 47.5
2
11 2
U0.05[ 1],8,7 = U0.05[ 1],7,8 = 10
14 1
ponieważ 47.5 > 10 H0 odrzucamy
15
R1=83.5 R2=36.5
Normalna aproksymacja testu
U Mann-Whitneya
Tablice z wartościami krytycznymi testu
Mann-Whitney są określone tylko dla
małych liczności próbek.
małych liczności próbek.
Rozkład zmiennej losowej U zmierza do
normalnego wraz ze wzrostem
liczebności.
Normalna aproksymacja testu
U Mann-Whitneya
Dla dużych n1 i n2 wykorzystujemy fakt,
że U ma wartość średnią
n1n2
n1n2
� =
�U =
2
i odchylenie standardowe
n1n2(N +1)
�U =
12
Normalna aproksymacja testu
U Mann-Whitneya
Zatem, jeśli obliczymy U albo U a
liczność n1 bądz n2 jest większa od tych
zamieszczonych w tablicach, poziom
zamieszczonych w tablicach, poziom
istotności może być obliczony poprzez
U - �U
Z =
�U
lub, uwzględniając poprawkę ze
| U - �U | -0.5
względu na nieciągłość
ZC = .
�U
Normalna aproksymacja testu
U Mann-Whitneya
Pamiętając, iż rozkład t dla �=" jest
identyczny z rozkładem normalnym, możemy
wartość krytyczną Zą określić jako równą
wartości krytycznej tą,".
wartości krytycznej t .
Gdy korzystamy w normalnej aproksymacji
dla testu dwustronnego, wystarczy obliczyć
tylko jedną z wartości U albo U .
Można również sformułować test
jednostronny.
Przykład 5
Jednostronny test Mann-Whitney został
użyty do zbadania hipotezy, czy
zwierzęta, którym podawano
zwierzęta, którym podawano
dodatkowo witaminy i mikroelementy
przybrały więcej na wadze w
porównaniu do zwierząt bez dodatków.
Przykład 5
W trakcie eksperymentu, 22 zwierzęta (grupa
1) hodowano podając równocześnie witaminy
i mikroelementy, a 46 zwierząt hodowano
i mikroelementy, a 46 zwierząt hodowano
metodami tradycyjnymi, nie podając żadnych
dodatkowych witamin (grupa 2).
Masie ciała zwierząt przypisano rangi od 1
(dla najmniejszej wagi) to 68 (dla wagi
największej), oraz obliczono U otrzymując
282.
Przykład 5
H0: Masa ciała zwierząt karmionych
witaminami nie jest większa niż masa
ciała zwierząt karmionych standardowo.
ciała zwierząt karmionych standardowo.
H1: Masa zwierząt karmionych witaminami
jest wyższa od masy zwierząt
hodowanych bez witamin.
Przykład 5
Dla testu jednostronnego
n1 = 22, n2 = 46, N = 68
ą = 0.05
U = 282
U' = n1n2 - U' = 22 �" 46 - 282 = 730
U' = n1n2 - U' = 22 �" 46 - 282 = 730
t0.05[1]," = 1.6449
t0.05[1]," = 1.6449
n1n2
�U = = 506
2
Ponieważ Z = 2.94 >
n1n2(N +1)
1.6449, odrzucamy H0
�U = = 76.28
12
(p=0.0016)
U'-�U 224
Z = = = 2.94
�U 76.28
Test U Mann-Whitneya dla
zmiennych w skali porządkowej
Test U Mann-Whitneya może być również
stosowany do analizy danych przedstawionych w
skali porządkowej.
Przykład 6 pokazuje tę procedurę. Dwadzieścioro
Przykład 6 pokazuje tę procedurę. Dwadzieścioro
pięcioro studentów wybrało kurs z zoologii.
Studentów podzielono losowo do dwóch grup
prowadzonych przez innych nauczycieli. Na
podstawie wyników końcowych zweryfikować
hipotezę zerową, że studenci z uzyskują takie
same wyniki niezależnie od prowadzącego
ćwiczenia.
Asystent A Asystent B
Ocena Ranga Ocena Ranga
A 3 A 3
Example 4
A 3 A 3
A 3 B+ 7.5
A- 6 B+ 7.5
B 10 B 10
B 10 B- 12
C+ 13.5 C 16.5
C+ 13.5 C 16.5
C_ 13.5 C 16.5
C 16.5 C- 19.5
C 16.5 D 22.5
C- 19.5 D 22.5
D 22.5
D 22.5
D- 25
R1=114.5 R2=210.5
Przykład 6
n1( n1 + 1)
U = n1n2 + - R1 = 105.5
2
U' = n1n2 -U = 48.5
U' = n1n2 -U = 48.5
U0.05[ 2 ],11,14 = 114
ponieważ 105.5 < 114
nie ma podstaw do odrzucenia H0
Testowanie różnic pomiędzy
medianami.
Można wyobrazić sobie sytuację, w której
interesować nas będzie odpowiedz na pytanie,
czy dwie próbki pochodzą z populacji o takich
samych medianach jest to tzw. test
samych medianach jest to tzw. test
medianowy (Mood, 1950).
Procedura wymaga obliczenia tzw. globalnej
mediany oraz konstrukcji odpowiedniej tablicy
kontyngencyjnej o wymiarze 2x2.
Tak powstała tablica kontyngencyjna może być
analizowana z wykorzystaniem np. testu �2.
Przykład 7
H0: Dwie próbki pochodzą z populacji o
takiej samej medianie (tzn. mediana
ocen jest taka sama w obu populacjach,
niezależnie od nauczyciela).
niezależnie od nauczyciela).
H1: Mediany obu populacji są różne.
ą=0.05
Przykład 7
Mediana dla wszystkich N pomiarów
wynosi (N=25):
X(N+1)/2=X13=grade C+
X(N+1)/2=X13=grade C+
Powstaje zatem następująca tablica
kontyngencyjna.
Przykład 7 7
Asystent A Asystent B Suma Ri
Powyżej
Powyżej
6 6 12
6 6 12
mediany
Nie więcej
niż
5 8 13
mediana
Całkowite
11 14 25
Ci
Przykład 7
Możemy obliczyć statystykę
2
N
(
(
N | f11 f22 - f12 f21 | - )
N | f11 f22 - f12 f21 | - )
2
2
2
2
ż = = 0.031
ż = = 0.031
C
C1C2R1R2
2
X0.05,1 = 3.841
zatem nie mamy podstaw do odrzucenia
hipotezy H0
Test porównawczy dla dwóch próbek
wyrażonych w skali nominalnej
(atrybutów)
Możemy porównać dwie próbki danych
w skali nominalnej poprzez odpowiednio
skonstruowaną tablicę kontyngencyjną
skonstruowaną tablicę kontyngencyjną
2xC oraz test niezależności �2.
Tablice kontyngencyjne
Hipoteza zerowa stanowi, że częstości
obserwacji umieszczone w wierszach
macierzy są niezależne od częstości w
macierzy są niezależne od częstości w
kolumnach (częstości kolumnowe są
niezależne od wierszowych ).
Przykład 8
Kolor włosów
Czarne Brązowe Blond Rude
Czarne Brązowe Blond Rude
Płeć
Płeć
Ogółem
Mężczyzni
32 43 16 9 100
Kobiety
55 65 64 16 200
Ogółem
87 108 80 25 300
Schematy próbkowania
Trzeba sobie uświadomić, że są trzy schematy
eksperymentu zebrania danych z przykładu 8:
1. Można losowo wybrać 100 mężczyzn i
zapytać ich o kolor włosów oraz losowo
zapytać ich o kolor włosów oraz losowo
wybrać 200 kobiet i również zapytać je o
kolor włosów.
Oznacza to, że ustalono liczności danych w
wierszach tablicy kontyngencyjnej (100 oraz
200).
Schematy próbkowania
2. Albo, możemy zdecydować iż pytamy o
płeć losowo wybrane 87 osoby o
czarnych włosach, 108 osób o włosach
czarnych włosach, 108 osób o włosach
brązowych, 80 osób o włosach w
kolorze blond oraz 25 osób rudych.
Tak przeprowadzony eksperyment
odpowiada schematowi o ustalonych
wcześniej licznościach w kolumnach.
Schematy próbkowania
3. Albo, pytamy losowo wybrane 300
osób o kolor włosów i płeć.
Taki eksperyment wymaga jedynie
Taki eksperyment wymaga jedynie
określenia całkowitej liczności próby.
Schematy próbkowania
Niezależnie od schematu eksperymentu,
Niezależnie od schematu eksperymentu,
analizę danych można przeprowadzić w
taki sam sposób.
Test niezależności ż2
W analizie �2 tablic kontyngencyjnych
korzystamy ze standardowej formuły na
statystykę �2:
statystykę � :
Ć
Ć
(f - f )2
(fij - fij)2
ż2 = .
""
""
Ć
fij
Ogółem, liczność oczekiwana dla każdej z
komórek tabeli wynosi:
Ri �ł �ł
�ł �ł�ł Cj �ł = RiCj
Ć
fij =
�ł �ł�ł
�łN
N N N
�ł łł
�ł łł
Test niezależności ż2
Mając obliczoną wartość statystyki �2, jej
znamienność statystyczna może być
wyznaczona poprzez porównanie
wyznaczona poprzez porównanie
wartości z rozkładem �2 o (r-1)(c-1)
liczbie stopni swobody.
Przykład 8 oczekiwane liczności
Kolor włosów
Płeć
Czarne Brązowe Blond Rude
Czarne Brązowe Blond Rude
Ogółem
Mężczyzni
29.00 36.00 26.67 8.33 100
Kobiety
58.00 72.00 53.33 16.67 200
Ogółem
87 108 80 25 300
Przykład 8
Ćij
( fij - f )2 ( 32 - 29 )2
2
ż = = +
""
Ćij
29
f
( 43 - 36 )2 ( 16 - 26.67 )2 ( 9 - 8.33 )2
+ + +
36 26.67 8.33
( 55 - 58 )2 ( 65 -72 )2 ( 64 - 53.33 )2 ( 16 - 16.67 )2
+ + + =
58 72 53.33 16.67
= 8.987
2
� = ( r - 1)( c - 1) = 3; �0.05,3 = 7.815 zatem odrzucamy H0 .

Wyszukiwarka

Podobne podstrony:
wyklad 3 Funkcje gestosci prawdopodobienstwa PL [tryb zgodności]
wyklad 1 Wstepne przetwarzania danych PL [tryb zgodności]
wyklad 9 Wnioskowanie o proporcjach PL [tryb zgodności]
wyklad 5 Testy parametryczne PL [tryb zgodności]
wyklad 2 Prezentacja danych PL [tryb zgodności]
Blachownica? PL [tryb zgodności] (1)
Wykład 01 właściwości reologiczne asfaltów [tryb zgodności]
TRIAGE PL [tryb zgodności]
Wykład 6 [tryb zgodności]
wykład 7i8 4h podstawy zarządzania m jablonski [tryb zgodności]
WYKŁAD 01 WprowInzynSterowania [tryb zgodności]
USM Automatyka w IS (wyklad 3) regulatory ppt [tryb zgodnosci]
wyklad 8 d [tryb zgodności]
wyklad 3 SYGNALIZACJA NR 7 [tryb zgodności]
wyklad 5 d [tryb zgodności]
wyklad 4 d [tryb zgodności]
Wykład 10 [tryb zgodności]
ROZROD PTAKOW wyklad i 13 andro platforma tryb zgodnosci
wyklad 3 d [tryb zgodności]

więcej podobnych podstron