Testowanie hipotez
Testy t-Studenta dla rozkładu normalnego
> help.search("test",package="stats")
Problem
Rolnik chce sprawdzić, czy stosowanie nowego nawozu zwiększa plony pewnego
zbo\a. W tym celu zastosował ten nawóz na 15 małych jednakowych poletkach,
a następnie zapisał plony (w kg):
2.5 3.0 3.1 4.0 1.2 5.0 4.1 3.9 3.2 3.3 2.8 4.1 2.7 2.9 3.7
Przy stosowaniu starego nawozu średni plon z takich poletek wynosił 2 kg.
Czy na poziomie istotności 0,05 mo\na twierdzić, \e nowy nawóz istotnie
zwiększa wielkość plonów?
#Wprowadzamy dane:
> plon<-c(2.5,3.0,3.1,4.0,1.2,5.0,4.1,3.9,3.2,3.3,
2.8,4.1,2.7,2.9,3.7)
#wyświetlamy dane
> plon
[1] 2.5 3.0 3.1 4.0 1.2 5.0 4.1 3.9 3.2 3.3 2.8 4.1
2.7 2.9 3.7
#obliczamy średni plon
> mean(plon)
[1] 3.3
" Zakładamy, \e wielkość plonów w populacji po zastosowaniu nowego
nawozu jest opisana pewnym (nieznanym) rozkładem z nieznaną
wartością średnią m
" H0: m = 2 vs. H1: m > 2
" Nie jest znana wariancja populacji
" Próba nie jest du\a (n=15 danych)
" Test dla układu hipotez H0: m = m0 vs. H1: m > m0 jest znany, gdy próba
pochodzi z rozkładu normalnego.
Test ten nosi nazwę testu t-Studenta (dla pojedynczej próby).
Test dla średniej w populacji,
gdy próba pochodzi z rozkładu normalnego z nieznaną wariancją
" H0: m = m0 vs. H1: m > m0
" Przy zało\eniu, \e prawdziwa jest hipoteza zerowa zachodzi, \e
X - 0
S oznacza odchylenie standardowe
T = ~ t(n -1)
z próby (pierwiastek z wariancji z próby)
S / n
" Jeśli poziom istotności testu jest równy a, to obszar krytyczny
C = (tkryt; +ś), gdzie tkryt kwantyl rzędu 1-a rozkładu t(n-1)
" p-value = P(T Ą tobs| H0 jest prawdziwa)
" t(n-1) oznacza rozkład t-Studenta z n-1 stopniami swobody.
" Rozkład t-Studenta to rozkład ciągły zbli\ony kształtem do rozkładu
normalnego N(0,1).
" Jedynym parametrem tego rozkładu jest tzw. liczba stopni swobody
(oznaczana w pakiecie R przez df [degrees od freedom]).
" Im większa liczba stopni swobody, tym rozkład t-Studenta bardziej
przypomina rozkład N(0,1).
Gęstość rozkładu t-Studenta
w zale\ności od liczby stopni swobody
N(0,1)
t(1)
t(10)
-3 -2 -1 0 1 2 3
0.4
0.3
0.2
0.1
0.0
" Kwantyle rozkładu t-Studenta mo\na odczytać z tablic statystycznych
lub uzyskać za pomocą programu R
U\ywamy do celu funkcji
qt(p=rząd kwantyla, df=liczba stopni swobody)
# kwantyl rzędu 0,95 rozkładu t(8)
> qt(p=0.95,df=8)
[1] 1.859548
Gdy H0: m = m0 vs. H1: m < m0 , to:
" Jeśli poziom istotności testu jest równy a, to obszar krytyczny
C = ( ś; tkryt), gdzie tkryt kwantyl rzędu 1-a rozkładu t(n-1)
" p-value = P(T Ł tobs| H0 jest prawdziwa)
Gdy H0: m = m0 vs. H1: m Ą m0 , to:
" Jeśli poziom istotności testu jest równy a, to obszar krytyczny
C = ( ś; tkryt) (tkryt; +ś), gdzie tkryt kwantyl rzędu 1-a/2 rozkładu
t(n-1)
" p-value =
=2min{P(T Ł tobs| H0 jest prawdziwa), P(T Ą tobs| H0 jest prawdziwa)}
Sprawdzamy hipotezę o normalności rozkładu plonów
> stem(plon)# tą komendą utworzymy wykres łodyga-liście
The decimal point is at the |
1 | 2
2 | 5789
3 | 012379
4 | 011
5 | 0
Wykres łodyga-liście dla rozkładu normalnego
powinien być w miarę symetryczny
Do graficznej oceny normalności rozkładu mo\na zastosować
tzw. wykres kwantylowo-normalny.
> qqnorm(plon)
Normal Q-Q Plot
Jeśli próba pochodzi z rozkładu normalnego,
to punkty na wykresie układają się mniej
więcej wokół linii prostej.
-1 0 1
Theoretical Quantiles
5
4
3
Sample Quantiles
2
Normalność rozkładu mo\na tak\e sprawdzić za pomocą testu
Shapiro-Wilka.
Hipoteza zerowa w tym teście: próba pochodzi z rozkładu normalnego
Hipoteza alternatywna w tym teście: próba nie pochodzi z rozkładu
normalnego
> shapiro.test(plon)
Shapiro-Wilk normality test
data: plon
W = 0.9577, p-value = 0.652
Nie ma podstaw do odrzucenia hipotezy o normalności rozkładu, gdy\
p-wartość jest większa, ni\ 0,05 (typowy poziom istotności testu)
t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0,
t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0,
t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0,
t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0,
paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...)
paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...)
paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...)
paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...)
H0: m = 2 vs. H1: m > 2
> t.test(x=plon,alternative="greater", mu=2)
One Sample t-test
data: plon
t = 5.6443, df = 14, p-value = 3.026e-05
alternative hypothesis: true mean is greater than 2
95 percent confidence interval:
2.894334 Inf
sample estimates:
mean of x
Nale\y odrzucić H0 i przyjąć H1
3.3
(p-wartość jest mniejsza, ni\ 0,05
[zało\ony poziom istotności testu])
t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0,
t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0,
t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0,
t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0,
paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...)
paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...)
paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...)
paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...)
H0: m = 2 vs. H1: m > 2
> t.test(x=plon,alternative="greater", mu=2)
One Sample t-test
data: plon
t = 5.6443, df = 14, p-value = 3.026e-05
alternative hypothesis: true mean is greater than 2
95 percent confidence interval:
2.894334 Inf
sample estimates:
mean of x
95% przedział ufności dla średniego
3.3 plonu ma postać: [2,9; +" )
> t.test(x=plon,alternative="greater", mu=2)
One Sample t-test
data: plon
t = 5.6443, df = 14, p-value = 3.026e-05
Wartość Liczba
statystyki stopni
testowej swobody
alternative hypothesis: true mean is greater than 2
95 percent confidence interval:
2.894334 Inf
sample estimates:
mean of x
średnia z próby (średni plon w próbie)
3.3
Problem
Przy uprawie pewnej rośliny rolnik stosował nawóz A na 11 poletkach
doświadczalnych i nawóz B na 15 analogicznych innych poletkach
i uzyskał następujące plony
z poletek nawo\onych nawozem A:
69 75 76 80 81 82 86 89 91 92 97
z poletek nawo\onych nawozem B:
59 62 66 70 70 75 75 77 78 79 81 84 84 86 94
Czy na poziomie istotności 0,05 mo\na twierdzić, \e istnieje ró\nica
w wielkości plonów w zale\ności od stosowanego nawozu?
> mean(A)
[1] 83.45455
> mean(B)
[1] 76
" Zakładamy, \e wielkości plonów w populacji po zastosowaniu
nawozów A i B są opisane pewnymi (nieznanymi) rozkładami
z nieznanymi wartościami średnimi mA i mB
" H0: mA = mB vs. H1: mA +" mB
" Nie są znane wariancje w populacjach
" Próby nie są du\e
" Test dla hipotezy zerowej jest znany, gdy próby pochodzą
z rozkładów normalnych. Test ten nosi nazwę testu t-Studenta.
Postać testu zale\y od tego, czy wariancje w obu populacjach są
równe, czy nie.
Niezale\ne próby pochodzą z rozkładów N(mX,s2X) oraz N(mY,s2Y),
przy czym wariancje nie są znane, ale s2X= s2Y
X1, X , ..., X oraz Y1, Y2, ..., Yn
2 nX
Y
H0: mX mY = d0
Jeśli H0 jest prawdziwa, to
(X -Y ) - (X - Y )
T = ~ t(nX + nY - 2)
ł ł
1 1
2
ł ł
Spł +
nX nY ł
ł łł
2 2
(nX -1)SX + (nY -1)SY
2
Sp =
nX + nY - 2
Hipoteza alternatywna Obszar krytyczny
- Y < 0 (-"; - tkryt1)
X
- Y > 0 (tkryt1; + ")
X
- Y `" 0 (-"; - tkryt 2 ) *" (tkryt 2; + ")
X
tkryt1 jest kwantylem rzędu 1-a rozkładu t(nX+ nY-2)
tkryt2 jest kwantylem rzędu 1-a/2 rozkładu t(nX+ nY-2)
Wprowadzamy dane o wysokości plonów w zale\ności od zastosowanego
nawozu:
> A<-c(69,75,76,80,81,82,86,89,91,92,97)
> A
[1] 69 75 76 80 81 82 86 89 91 92 97
> B<-c(59,62,66,70,70,75,75,77,78,79,81,84,84,86,94)
> B
[1] 59 62 66 70 70 75 75 77 78 79 81 84 84 86 94
Wyznaczamy średnie plony:
> mean(A)
[1] 83.45455
> mean(B)
[1] 76
> stem(A)
The decimal point is 1 digit(s) to the right of
the |
6 | 9
7 | 56
8 | 01269
9 | 127
> stem(B)
The decimal point is 1 digit(s) to the right of
the |
5 | 9
6 | 26
7 | 0055789
8 | 1446
9 | 4
> par(mfrow=c(1,2),pty="s")
> qqnorm(A, main="nawóz A")
> qqline(A)
> qqnorm(B, main="nawóz B")
> qqline(B)
> par(mfrow=c(1,1),pty="m")
nawóz A nawóz B
-1.5 -0.5 0.5 1.5 -1 0 1
Theoretical Quantiles Theoretical Quantiles
Sample Quantiles
Sample Quantiles
70
75
80
85
90
95
60
70
80
90
" Badamy normalność rozkładów
> shapiro.test(A)
Shapiro-Wilk normality test
data: A
W = 0.9821, p-value = 0.9765
Na poziomie istotności
0,05 nie ma podstaw do
> shapiro.test(B)
odrzucenia hipotezy
o normalności rozkładu
Shapiro-Wilk normality test
data: B
W = 0.9829, p-value = 0.9853
> boxplot(A,B,names=c("A","B"))
A B
90
80
70
60
> var(A)
[1] 70.67273
> var(B)
[1] 89.28571
H0: wariancje w obu populacjach są równe
H1: wariancje w obu populacjach nie są równe
> var.test(A,B,ratio=1,alternative="two.sided")
F test to compare two variances
data: A and B
F = 0.7915, num df = 10, denom df = 14,
p-value = 0.7225
alternative hypothesis: true ratio of variances is not
equal to 1
95 percent confidence interval:
0.2515314 2.8102720
sample estimates:
Nie ma podstaw do odrzucenia hipotezy
ratio of variances
o równości wariancji
0.7915345
H0: mA = mB vs. H1: mA +" mB
inaczej:
H0: mA - mB = 0 vs. H1: mA - mB +" 0 (d0 = 0)
H0: plony są jednakowe (nie zale\ą od rodzaju nawozu)
H1: plony nie są jednakowe (zale\ą od rodzaju nawozu)
> t.test(A,B,var.equal=TRUE)
Zakładamy równość wariancji
Two Sample t-test
data: A and B
t = 2.0798, df = 24, p-value = 0.0484
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval:
0.05691592 14.85217499
sample estimates:
mean of x mean of y
Na poziomie istotności 0,05 odrzucamy
83.45455 76.00000
hipotezę zerową i przyjmujemy
hipotezę alternatywną
Przypadek, gdy niezale\ne próby pochodzą z rozkładów N(mX,s2X)
oraz N(mY,s2Y), przy czym wariancje nie są znane i nie są równe
H0: mX mY = d0
Jeśli H0 jest prawdziwa, to
(X -Y ) - (X - Y )
Z = ~ N(0;1)
2 2
ł ł
ł X Y ł
+
ł
nX nY ł
ł łł
(X -Y ) - (X - Y )
T =
2 2
ł ł
SX SY ł
ł
+
ł
nX nY ł
ł łł
T ma w przybli\eniu rozkład t z liczbą stopni swobody aproksymowaną
przez wzór Welcha-Satterthwaita.
Problem
Zawartość wit. C w próbkach pewnego produktu pochodzących od
producentów X i Y przedstawia się następująco
> X
[1] 84 73 92 84 95 74 80 86 80 77 86 72 62 54 77
63 85 59 66 79
> Y
[1] 78 79 84 82 80 85 81 83 79 81
przy czym
> mean(X)
[1] 76.4
> mean(Y)
[1] 81.2
Czy na poziomie istotności 0,05 mo\na twierdzić, \e produkt
wytwarzany przez producenta Y ma średnio wy\szą zawartość wit. C
w porównaniu z producentem X?
" Zakładamy, \e zawartość wit. C w próbkach pochodzących
od producentów X i Y jest modelowana przez rozkłady z nieznanymi
wartościami średnimi równymi odpowiednio mX i mY
" H0: mX = mY vs. H1: mY > mX
" Sprawdzamy, czy spełnione są warunki stosowalności testu
(normalność rozkładów oraz ewentualna równość wariancji)
> stem(X)
The decimal point is 1 digit(s) to the right of the |
5 | 49
6 | 236
7 | 234779
8 | 0044566
9 | 25
> stem(Y)
The decimal point is at the |
78 | 000
80 | 000
82 | 00
84 | 00
> stem(X)
The decimal point is 1 digit(s) to the right of
the |
5 | 49
6 | 236
7 | 234779
8 | 0044566
9 | 25
> stem(Y,scale=0.25)
The decimal point is 1 digit(s) to the right of
the |
7 | 899
8 | 0112345
> par(mfrow=c(1,2),pty="s")
> qqnorm(X, main="producent X")
> qqline(X)
> qqnorm(Y, main="producent Y")
> qqline(Y)
> par(mfrow=c(1,1),pty="m")
producent X producent Y
-2 -1 0 1 2 -1.5 -0.5 0.5 1.5
Theoretical Quantiles Theoretical Quantiles
Sample Quantiles
Sample Quantiles
60
70
80
90
78
80
82
84
> shapiro.test(X)
Shapiro-Wilk normality test
data: X
W = 0.9655, p-value = 0.6584
> shapiro.test(Y)
Shapiro-Wilk normality test
data: Y
W = 0.9611, p-value = 0.7986
> var(X)
[1] 122.7789
> var(Y)
[1] 5.288889
> boxplot(X,Y,names=c("X","Y"))
X Y
90
80
70
60
> var.test(X,Y,ratio=1,alternative="two.sided")
F test to compare two variances
data: X and Y
F = 23.2145, num df = 19, denom df = 9,
p-value = 3.921e-05
alternative hypothesis: true ratio of variances is
not equal to 1
95 percent confidence interval:
6.302573 66.858988
sample estimates:
Odrzucamy hipotezę o równości
ratio of variances
wariancji
23.21451
> t.test(X,Y,var.equal=FALSE,alternative="less")
Welch Two Sample t-test
data: X and Y
t = -1.8589, df = 22.069, p-value = 0.03822
alternative hypothesis: true difference in means
is less than 0
95 percent confidence interval:
-Inf -0.3665724
sample estimates:
mean of x mean of y
76.4 81.2
Na poziomie istotności 0,05
odrzucamy H0 i przyjmujemy H1
Testowanie istotności ró\nicy między średnimi
w dwóch populacjach w przypadku, gdy dane są powiązane
w pary
Z sytuacją danych powiązanych w pary mamy do czynienia najczęściej
wówczas, gdy
" ta sama grupa jednostek statystycznych jest obserwowana dwukrotnie w
pewnym odstępie czasu i dwukrotnie są dla niej dokonywane pomiary tej
samej cechy
" ju\ na etapie projektowania badania statystycznego celowo dobierane są
dwie grupy w ten sposób, \e elementy w obu grupach są połączone w pary
względem wartości pewnej cechy, która potencjalnie mo\e mieć wpływ na
kształtowanie się średniego poziomu cechy będącej głównym przedmiotem
badania (np. chcemy zbadać, czy istnieje ró\nica w wadze urodzeniowej
dzieci matek palących i niepalących, ale podejrzewamy, \e wiek matki te\
mo\e mieć wpływ na wagę dziecka. W tej sytuacji mo\na celowo dobrać
pary: paląca-niepaląca, przy czym obie kobiety w parze mają być
w tym samym wieku).
" W celu zbadania ró\nicy między średnimi dla danych połączonych w pary
u\ywa się statystyki testowej zbudowanej w oparciu o ró\nice między
pomiarami
w parach.
" Dj = X1j X2j oznacza ró\nicę między wartością pierwszego i drugiego
pomiaru u j-tej jednostki statystycznej
Średnia z próby dla ró\nic
D
t =
SD / n
Liczba ró\nic
Odch. std z próby dla ró\nic
" Statystyka testowa przy zało\eniu prawdziwości hipotezy o braku ró\nic ma
rozkład t-Studenta z (n 1) stopniami swobody.
waga
przed waga po
Obs dietą diecie
Czy mo\na uznać, \e
stosowanie diety wpłynęło 1 61.7 59.7
na utratę wagi istotnie 2 58.8 58.2
większą, ni\ 1 kg? 3 66.0 64.6
4 66.2 65.3
5 79.0 78.2
6 82.3 78.6
7 74.3 73.7
H 0: utrata wagi nie przekracza 1 kg
8 59.3 56.3
H 1 : utrata wagi jest większa, ni\ 1 kg 9 79.1 78.5
10 66.0 66.4
11 73.4 71.1
12 76.9 76.7
13 93.1 94.7
14 63.0 61.0
15 68.2 64.7
16 60.3 60.8
> po
[1] 59.7 58.2 64.6 65.3 78.2 78.6 73.7 56.3 78.5 66.4 71.1 76.7 94.7
61.0 64.7 60.8
> przed
[1] 61.7 58.8 66.0 66.2 79.0 82.3 74.3 59.3 79.1 66.0 73.4 76.9 93.1
63.0 68.2 60.3
> ró\nice<-po-przed
> ró\nice
[1] -2.0 -0.6 -1.4 -0.9 -0.8 -3.7 -0.6 -3.0 -0.6 0.4 -2.3 -0.2 1.6 -
2.0 -3.5 0.5
> mean(ró\nice)# średnia z próby dla ró\nic
[1] -1.19375
> sd(ró\nice) # odchylenie standardowe z próby dla ró\nic
[1] 1.481652
> shapiro.test(ró\nice)
Shapiro-Wilk normality test
data: ró\nice
W = 0.9704, p-value = 0.8443
> t.test(ró\nice,mu=-1,alternative="less")
One Sample t-test
data: ró\nice
t = -0.5231, df = 15, p-value = 0.3043
alternative hypothesis: true mean is less than -1
95 percent confidence interval:
-Inf -0.5443975
sample estimates:
mean of x
-1.19375
> t.test(po,przed,paired=TRUE,mu=-1,alternative="less")
Paired t-test
data: po and przed
t = -0.5231, df = 15, p-value = 0.3043
alternative hypothesis: true difference in means is less
than -1
95 percent confidence interval:
-Inf -0.5443975
sample estimates:
mean of the differences
-1.19375
Wyszukiwarka
Podobne podstrony:
Tablice Dystrybuanta rozkładu normalnegoTeoria 7 Testowanie hipotez02 ROZKŁAD NORMALNY, JEDNOSTANJY i DWUMIANOWY9 Testowanie hipotezPrawdopodobieństwo Rozkład dwumianowy Rozkład normalnyTablice statystyczne wartości krytyczne rozkładu normalnegorozklad normalny nowe zadania6 5 Rozkład normalnyTablica dystrybuanty rozkladu normalnego 2011Tablice statystyczne współczynniki {an i 1} dla testu normalności Shapiro Wilkatestowanie hipotez1 ROZKŁAD NORMALNY(1)więcej podobnych podstron