Agnieszka Nowak – Brzezińska
Wykład dla przedmiotu „Biostatystyka”
Testy parametryczne – weryfikują hipotezy dotyczące
wartości
parametrów
rozkładu
badanej
populacji
(najczęściej średnie, wariancje, odsetki). W większości
przypadków
statystyki
testowe
obliczane
są
przy
wykorzystaniu bezpośrednich danych pochodzących z
próby, a ich rozkład zależy od rozkładu analizowanych
zmiennych.
Testy nieparametryczne – służą do weryfikacji różnorakich
hipotez, lecz nie są one bezpośrednio powiązane z
parametrami rozkładu (bywają wyjątki). Dotyczą one raczej
samej postaci rozkładu (kształtu), podobieństwa pomiędzy
rozkładami, losowości. Testy te operują na danych
„przekształconych” – najczęściej rang, wobec czego
rozkład statystyki z próby nie zależą bezpośrednio od
rozkładu danych.
1.
Sformułowanie tezy rzeczowej i ustaleniu hipotez H
0
i H
a
;
2.
Wyboru właściwej funkcji testowej (statystyki z próby);
3.
Przyjęciu stosownego poziomu istotności
;
4.
Odczytaniu wartości krytycznych w tablicach dystrybuanty
właściwego rozkładu i ustaleniu obszaru krytycznego;
5.
Odrzuceniu hipotezy zerowej na korzyść hipotezy
alternatywnej, gdy funkcja testowa obliczona z próby
znajduje się w obszarze krytycznym i nie odrzucenie jej,
gdy funkcja testowa jest poza obszarem krytycznym.
1.
Porównanie poziomów parametrów medycznych dla dwóch grup
sprowadza się z reguły do porównania przeciętnych poziomów
zmiennych lub też porównania rozkładów analizowanego parametru
2.
Należy ustalić czy próby są niezależne czy też zależne
3.
Czy znane są rozkłady cech w populacji, w próbkach ?
4.
Jeżeli spełnione są wszystkie założenia (głównie normalność,
ewentualnie równość wariancji, liczebność prób) należy wykonać test
parametryczny:
– Test t dla prób niezależnych
– Test t dla prób zależnych (założenie: rozkład różnic ma być zbliżony do
normalnego)
5.
W przypadku naruszenia jakiegokolwiek z założeń (np. jedna z grup
ma rozkład cechy istotnie różny od normalnego lub jest bardzo mała)
wówczas wykonuje się test nieparametryczny:
– Dla prób niezależnych: test Manna-Whitneya-Wilcoxona
– Dla prób zależnych: test kolejności par Wilcoxona (rangowanych znaków)
Alternatywa: normalizacja danych, wykonywanie testów parametrycznych
na danych rangowanych.
Liczba grup do porównania nie powinna być za duża (teoretycznie
kilkanaście, praktycznie najlepiej kilka).
Jeżeli porównanie ma być reprezentatywne to próby powinny być
raczej liczne oraz mieć zbliżone liczności (nie powinna
występować sytuacja, w której np. dwie grupy liczą po 40
obserwacji, a trzecie 8).
Większość medycznych porównań wielu grup dotyczy poziomów
analizowanych parametrów medycznych (głównie średnie).
W przypadku zmiennych jakościowych porównuje się po prostu
odsetki w kilku grupach (k>2).
Najczęściej mamy też do czynienia z analizą jednoczynnikową
(jeden czynnik grupujący/efekt/zmienna zależna).
W przypadku wielu czynników można badać interakcje pomiędzy
czynnikami (jeżeli jest to uzasadnione).
1.
Sparowany
test
t Studenta: sprawdza
różnicę między parą obserwacji na tym
samym obiekcie. Czyli bada istotność
wpływu jednego czynnika na zachowanie
określonej zmiennej. Np. wpływ leku na
parametr krwi.
2.
Test t Studenta (bada czy średnia próby jest
istotnie różna od hipotetycznej średniej)
3.
Test normalny (test z): stosowany dla
licznych prób (n>60).
Hipoteza zerowa mówi, że średnia różnica między
wartościami dwóch zmiennych na jednym obiekcie =0
Jeżeli różnica między parami zmiennych obserwacji
posiada rozkład normalny, to wartość ( - µ)/(s/ ) należy
do pola pod krzywą rozkładu t Studenta o n-1 stopniach
swobody. A skoro H0 zakłada, że różnica µ =0 to
statystyka t przyjmuje tu wartość:
Porównujemy
tą
wartość
z
wartością
teoretyczną
odczytaną z tablic:
Jeżeli t
par
>=t
teor
odrzucamy H0
Jeżeli t
par
< t
teor
nie mamy podstaw do odrzucenia H0
x
n
n
s
x
t
par
/
bada czy średnia próby jest istotnie różna od
hipotetycznej średniej
n
s
x
t
par
/
Porównujemy tą wartość z wartością teoretyczną odczytaną
z tablic:
Jeżeli t
par
>=t
teor
odrzucamy H0
Jeżeli t
par
< t
teor
nie mamy podstaw do odrzucenia H0
Dla dużych prób
n
s
x
z
/
n
x
z
/
Gdy znamy s to:
Istotą
jest
badanie,
czy
zmienność
międzygrupowa
przeważa
nad
wewnątrzgrupową. Jeżeli zakres zmienności
obserwowanej wewnątrz każdej grupy jest
mniejszy niż między grupami to mówimy, że
grupy są odseparowane od siebie i mogą tworzyć
izolowane populacje.
Tutaj wymaga się dodatkowo, aby odchylenia
standardowe nie różniły się istotnie od siebie.
Porównywanie średnich wymaga aby próby były
niezależne. Więc jeśli mamy porównywanie
średnich ale dla tej samej próby to stosujemy test
t Studenta (sparowany).
Hipoteza zerowa (H0): średnie w obu
populacjach są równe
Zmienność różnic wyraża wzór:
2
2
2
1
2
1
n
n
SE
1. Test normalny (duża liczebność prób)
2. Test t Studenta dla prób niezależnych (mała liczebność prób)
2
2
2
1
2
1
2
1
n
s
n
s
x
x
z
2
2
2
1
2
1
2
1
n
n
x
x
z
Gdy znamy
Przedział ufności:
Dla dużych prób:
Gdy znamy
2
2
2
1
2
1
2
1
)
'
(
)
(
n
s
n
s
SE
SE
z
x
x
CI
2
2
2
1
2
1
2
1
)
'
(
)
(
n
n
SE
SE
z
x
x
CI
2
)
1
(
)
1
(
2
1
2
2
2
2
1
1
n
n
s
n
s
n
s
2
1
2
1
1
1
n
n
s
x
x
t
2
1
2
1
1
1
)
'
(
)
(
n
n
s
SE
SE
t
x
x
CI
Gdzie:
d.f.=n1+n2-2
Próby mają mieć rozkład normalny i odchylenia standardowe muszą
być równe. Gdy nie ma równości wariancji to:
1. Transformacja danych (np. logarytmiczna)
2. Testy nieparametryczne (Wlcoxona, U Manna-Whitneya)
Służą
one
do
weryfikacji
hipotez
parametrycznych,
odnoszących się do parametrów rozkładu badanej cechy w
populacji generalnej.
Najczęściej weryfikują sądy o takich parametrach populacji
jak średnia arytmetyczna, wskaźnik struktury i wariancja.
Testy te konstruowane są przy założeniu znajomości postaci
dystrybuanty w populacji generalnej.
Biorąc pod uwagę zakres ich zastosowań, testy te można
podzielić na dwie grupy:
1.
Testy parametryczne służące do weryfikacji własności
populacji jednowymiarowych,
2.
Testy parametryczne służące do porównania własności
dwóch populacji
.
Testy
parametryczne
służące
do
weryfikacji
własności
populacji
jednowymiarowych, a wśród nich wyróżnia się:
◦
testy dla średniej
◦
test dla proporcji (wskaźnika struktury)
◦
test dla wariancji
W testach tych oceny parametrów uzyskane z próby losowej są porównywane
z hipotetycznymi wielkościami parametrów, traktowanymi jako pewien
wzorzec.
Testy parametryczne służące do porównania własności dwóch populacji, do
których należą:
◦
test dla dwóch średnich
◦
test dla dwóch proporcji
◦
test dla dwóch wariancji
Testy te porównują oceny parametrów, uzyskane z dwóch prób losowych.
Służą do weryfikacji różnorodnych hipotez,
dotyczących m.in. zgodności rozkładu cechy w
populacji z określonym rozkładem teoretycznym,
zgodności rozkładów w dwóch populacjach, a
także losowości doboru próby. Biorąc pod uwagę
zakres ich zastosowań, testy te można podzielić
na dwie grupy:
1.
Testy nieparametryczne służące do porównania
własności dwóch populacji,
2.
Testy nieparametryczne służące do weryfikacji
własności populacji jednowymiarowych
Test Manna-Whitneya jest jedną z najpopularniejszych alternatyw dla
testu t-Studenta dla prób niezależnych.
Jeżeli dane nie spełniają założeń dla zastosowania testu t-Studenta,
warto skorzystać z testu Manna-Whitneya, gdy chcemy porównać ze
sobą dwie niezależne wobec siebie grupy.
Zaleta: niewielkie wymogi: Zmienna zależna musi być mierzona na skali
co najmniej porządkowej (może być również mierzona na skali
ilościowej). Może też być skala dychotomiczna (czyli 0-1), dlatego, że
jest to przypadek zmiennej nominalnej, która jest zarazem zmienną
porządkową.
Zastosowanie testu Manna-whitneya nie wymaga równoliczności grup,
rozkładu normalnego czy też homogenicznych wariancji. To sprawia, że
może
być
on
szeroko
stosowany.
Test Manna-Whitneya polega na rangowaniu wyników zmiennej zależnej
(od najmniejszej do największej) w badanych grupach, a następnie grupy
są
ze
sobą
porównywane.
Przykład zastosowania:
Chcemy sprawdzić, czy kobiety różnią się od mężczyzn pod względem
poziomu wykształcenia mierzonego na skali (podstawowe, zawodowe,
średnie, wyższe). Z racji, że zmienna zależna (poziom wykształcenia)
jest mierzona na skali porządkowej zastosujemy test Manna-Whitneya
do
sprawdzenia
różnic
pomiędzy
badanymi
grupami.
Podstawową wadą tego testu jest fakt, że test nie bierze pod uwagę
wariancji wyników w badanych grupach. To sprawia, że grupy mogą mieć
różną wariancję wyników, co może nie zostać "wykryte" przez test,
podczas gdy testy parametryczne biorą to pod uwagę.
Wniosek:
Test
Manna-Whitneya
ma
słabszą
moc
interpretacyjną
uzyskanych danych. W porównaniu do testu t-Studenta należy zachować
większą ostrożność w interpretowaniu uzyskanych wyników.
gdzie:
R oznacza sumę rang n
1
, n
2
oznacza
liczebność w badanych grupach.
Należy obliczyć statystykę U zarówno dla R1
(suma rang w I grupie) jak i dla R2 (suma
rang w II grupie). Mniejsza z dwóch wartości
U
stanowi
statystykę
U,
a
istotność
statystyczna odczytywana jest z tabel.
Dalej, dla próby większej niż 20, stosuje się inny wzór
(zakłada się, że rozkład U jest wtedy w przybliżeniu
normalny. Wzór ten ma postać:
Analiza korelacji służy do "wychwycenia" czy zachodzi związek
pomiędzy dwiema zmiennymi (właściwościami, cechami). Co
oznacza związek? Choć istnieje podobieństwo (przynajmniej przez
analogię) do związków interpresonalnych to jednak należy tutaj
rozumieć związek jako rodzaj podobieństwa w "zachowywaniu się
dwóch cech". Gdy jedna cecha, właściwość wzrasta to czy druga
również wzrasta? A może maleje? A może w ogóle się nie zmienia?
Przykład: Czy poziom kondycji fizycznej jest związana z ilością
spożywanego tygodniowo alkoholu? W tym celu zapytano 100
losowo wybranych osób o średnią ilość (w litrach ;-) spożywanego
alkoholu w tygodniu oraz zmierzono ich wynik w biegu na 400m.
Aby stwierdzić, czy istnieje związek pomiędzy spożywanym
alkoholem a kondycją fizyczną (rozumianą tutaj jako wynik w biegu
na 400m) należy przeprowadzić analizę korelacji r-Pearsona
pomiędzy
wynikami
dla
tych
dwóch
zmiennych.
Nieparametryczny
odpowiednik
jednoczynnikowej
analizy
wariancji
dla
pomiarów powtarzanych.
Uznawany za najlepszy nieparametryczny test
dla danych tego rodzaju.
Najczęściej są to wyniki dla tych samych osób
otrzymane w n (n>>2) różnych badaniach lub
wyniki równoważnych grup osób.
Występuje
kilka
zależnych
pomiarów.
Wyniki
pomiarów
rejestrowane
dla
każdej
jednostki
porządkuje się w kolejności niemalejącej i nadaje
kolejne rangi.
H0: Nie istnieje różnica miedzy efektami działania
różnych poziomów czynnika kontrolowanego
H1: Istnieje różnica miedzy efektami działania
różnych poziomów czynnika kontrolowanego
Statystyka ma postać:
gdzie k to liczba kategorii czynnika kontrolowanego,
n – liczba jednostek w próbie, rij – ranga nadana j-tej
obserwacji zmiennej zależnej u i-tej jednostki.
bardzo
podobny
do
testu
Friedmana.
Statystyka ma postać
gdzie n – liczba jednostek we wszystkich
próbach łącznie,
nj – liczba jednostek w j-tej próbie (j=1,...,k),
rij – ranga nadana i-tej obserwacji zmiennej
zależnej z j-tej próby
Nieparametryczny
odpowiednik
jednoczynnikowej analizy wariancji.
Za pomocą tego testu sprawdzamy, czy „n”
niezależnych próbek pochodzi z tej samej
populacji, czy z populacji z taką samą
medianą.
Próbki nie muszą być tej samej liczebności.
Maks. 10 grup.
Celem
analizy
wariancji
(ANOVA)
jest
zazwyczaj
testowanie
istotności
różnic
pomiędzy średnimi.
W przypadku porównywania dwóch średnich
ANOVA daje takie same rezultaty, jak test
t
dla prób niezależnych (jeśli porównujemy
dwie różne grupy przypadków lub obserwacji)
lub
test
t
dla
prób
zależnych
(jeśli
porównujemy dwie zmienne dla tego samego
zbioru przypadków lub obserwacji).
Anova pozwala stwierdzić, czy analizowane
czynniki wywierają wpływ na obserwowane
zmienne.
Celem
ANOVA
jest
traktowanie
istotności różnic pomiędzy średnimi.
Założenia:
Analizowana zmienna zależna jest mierzalna
Analizowana zmienna w każdej z rozważanych k
populacji ma rozkład normalny
Rozkłady te mają jednakową wariancję
1
2=
2
2=…=
k
2
Dlaczego porównujemy tu średnie ? Bo jeśli
średnie różnią się istotnie to analizowany czynnik
wpływa na zmienną zależną.
Może wydawać się dziwne, że procedura
służąca do porównywania średnich jest
określana nazwą analiza wariancji.
Nazwa ta wywodzi się z faktu, że w celu
testowania statystycznej istotności różnic
pomiędzy
średnimi
w
rzeczywistości
przeprowadzamy porównanie (tzn. analizę)
wariancji.
Każda populacja musi mieć rozkład normalny
Pobrane do analizy próby są niezależne
Próby pobrane z każdej populacji muszą być
losowymi próbami prostymi
Wariancje w populacjach są równe
UWAGA: W przypadku, gdy założenia analizy wariancji nie
są spełnione należy posługiwać się testem Kruskala-
Wallisa.
Rozważmy
r
populacji o rozkładzie normalnym,
jednakowej wariancji
2
i wartości oczekiwanej
µ
i
, gdzie
i=1,…,r
. Z populacji tych losujemy
niezależne próby o liczebnościach
n
i
, na których
przeprowadzamy pomiary otrzymując wartości
x
ij
dla
i=1,…,r
i
j=1,…,n
i
. Całkowita wielkość próby
wynosi
n = n1 + n2 + …+ n
r
. .
Układ hipotez jest następujący:
Hipoteza zerowa:
Hipoteza alternatywna: nie wszystkie
µ
i
są sobie
równe: (i=1,…,r)
Do weryfikacji powyższej hipotezy obliczamy wartość
statystyki F postaci:
gdzie:
MSTR oznacza średni kwadratowy błąd "zabiegowy",
MSE oznacza średni kwadratowy błąd losowy,
oznacza średnią arytmetyczną z i-tej próby,
oznacza średnią arytmetyczną ze wszystkich obserwacji
ze wszystkich
r
prób.
i
x
xˆ
Przy założeniu prawdziwości hipotezy zerowej statystyka
ma rozkład F-Snedecora z r-1 stopniami swobody w
liczniku i n-r stopniami swobody w mianowniku.
Obszar krytyczny jest postaci:
gdzie
F
jest wartością krytyczną odczytaną z tablic
rozkładu F-Snedecora dla (r-1,n-r) stopni swobody.
Jeżeli obliczona wartość statystyki F należy do obszaru
krytycznego Q to hipotezę zerową odrzucamy na korzyść
hipotezy alternatywnej i wnioskujemy, że badane średnie
nie są jednorodne.
Jeżeli obliczona wartość statystyki F nie należy do obszaru
krytycznego Q to nie ma podstaw do odrzucenia hipotezy
zerowej i wnioskujemy, że badane średnie są jednorodne.
Fabryka gwoździ zamierza kupić jedną
z czterech maszyn do produkcji.
Wszystkie
maszyny mają podobną
cenę.
Na podstawie analizy wariancji należy
sprawdzić czy istnieje istotna różnica
między wydajnościami maszyn
.
Tabela
przedstawia
procentowe
wydajności
uzyskane
na
poszczególnych maszynach.
Wyniki dla każdej z maszyn to inna populacja.
Dane:
r = 4, a każde próba n
i
ma wielkość 19.
Łączna wartość próby n wynosi zatem 76.
Dla danych z tabeli:
MSTR = 21.23
MSE = 4.26
Wartość emipryczna statystyki F wynosi 4.99
Liczba stopni swobody licznika wynosi 3,
natomiast liczba stopni swobody mianownika
wynosi 72.
Dla rozkładu F-Snedecora(3,72) wartość
krytyczna na poziomie istotności α = 0.05
wynosi 2.732. Obliczona wartość empiryczna
statystyki testowej odpowiada p-wartości
równej 0.0034.
Należy zatem odrzucić
hipotezę zerową na rzecz
hipotezy alternatywnej.
http://www.itl.nist.gov/div898/handbook/eda/section3/eda3673.htm
Większa liczba czynników. Jedną z ważnych przyczyn,
dla których powinno się stosować raczej metody ANOVA
niż wielokrotne badanie dwóch grup przy pomocy
testów
t
jest to, że ANOVA jest bardziej
efektywna
,
dzięki czemu możemy uzyskać więcej informacji
dysponując mniejszą liczbą obserwacji.
Kontrola czynników. Przypuśćmy, że w przykładzie dwóch
grup wprowadzimy kolejny czynnik grupujący, np.
Płeć
.
Wyobraźmy sobie, że w każdej z grup mamy 3 mężczyzn i 3
kobiety. Układ ten moglibyśmy zestawić w tabeli 2x2:
całkowitą wariancję możemy rozdzielić na co
najmniej
trzy
składniki:
(1)
zmienność
spowodowaną
błędem
(wariancja
wewnątrzgrupowa),
(2)
zmienność
spowodowaną przynależnością do grupy
eksperymentalnej
oraz
(3)
zmienność
spowodowaną czynnikiem płci. (Zauważmy,
że jest jeszcze dodatkowe źródło zmienności
--
interakcja
). Co by się stało, gdybyśmy w
analizie nie uwzględnili czynnika
Płeć
lecz
przeprowadzili prosty test
t
?
Test t
ANOVA
suma kwadratów odchyleń od średniej (
SS) pomijając
czynnik
Płeć (stosujemy średnie wewnątrzgrupowe
łącząc grupy badanych o różnej płci):
SS
=10+10=20
Gdy uwzględniamy płeć:
Czyli stosujemy średnie wewnątrzgrupowe w obrębie
SS; po 2 w każdej z grup, tak więc połączone
wewnętrzne sumy kwadratów odchyleń będą równe
2+2+2+2=8
Różnica ta jest spowodowana faktem, iż średnie dla
mężczyzn
są
systematycznie niższe od średnich dla
kobiet
i różnica ta powoduje wzrost
zmienności, w przypadku gdy pomijamy ten czynnik. Kontrola wariancji błędu
zwiększa moc testu.
W przypadku metody ANOVA możemy oceniać wpływ każdego z czynników,
kontrolując wszystkie pozostałe; jest to prawdziwa przyczyna, dla której
ANOVA charakteryzuje się wyższą mocą niż prosty test
t
(tzn. potrzebujemy
mniej obserwacji, aby stwierdzić istotny wpływ).
20 > 8
Jest jeszcze jedna przewaga analizy wariancji nad prostymi
testami
t
: ANOVA umożliwia wykrywanie efektów
interakcji
pomiędzy zmiennymi i w związku z tym testowanie
bardziej złożonych hipotez na temat otaczającej nas
rzeczywistości.
Efekty główne, interakcja dwuczynnikowa. Wyobraźmy
sobie, że mamy grupę studentów nastawionych na
osiągnięcia oraz drugą grupę pozbawioną tych "dążeń".
Utwórzmy następnie w sposób losowy dwie podgrupy o
równej liczebności w każdej z prób i wśród studentów
jednej podgrupy przeprowadźmy test o wysokim stopniu
trudności, a wśród studentów drugiej podgrupy test o
niskim poziomie trudności. Mierzymy wyniki uzyskane
przez studentów w teście. Uzyskane w tym (fikcyjnym)
badaniu średnie są następujące:
(1)
testy bardziej wymagające powodują, że studenci pracują
bardziej intensywnie,
(2)
studenci nastawieni na osiągnięcia pracują intensywniej
od studentów nie nastawionych na osiągnięcia?
(3)
Żadne z tych stwierdzeń nie odzwierciedla istoty tych
wyraźnie regularnych relacji pomiędzy średnimi.
(4)
testy wymagające powodują intensywniejszą pracę tylko
wśród studentów nastawionych na osiągnięcia, podczas
gdy łatwe testy wpływają mobilizująco na studentów nie
nastawionych na osiągnięcia. Inaczej mówiąc,
rodzaj
nastawienia na osiągnięcia oraz stopień trudności testu
współdziałają
we wpływie na wysiłek studentów, w
szczególności jest to przykład
dwuczynnikowej interakcji
pomiędzy nastawieniem na osiągnięcia a stopniem
trudności testu.
Podczas gdy interakcja dwuczynnikowa może
być stosunkowo łatwo wyrażona werbalnie,
interakcje
wyższego
rzędu
są
coraz
trudniejsze
do
wyrażenia
słowami.
Wyobraźmy sobie, że w przedstawionym
powyżej badaniu osiągnięć uwzględniliśmy
czynnik
Płeć
i otrzymaliśmy następujący
układ średnich:
Kobiety nastawione na osiągnięcia pracują intensywniej z testami
bardziej wymagającymi niż z testami łatwymi, podczas gdy kobiety nie
nastawione na osiągnięcia pracują intensywniej nad testami łatwymi niż
nad trudnymi. W przypadku mężczyzn interakcja ta ma charakter
przeciwny. Jak więc widać opis interakcji stał się bardziej złożony.
Ogólny sposób wyrażania interakcji. Ogólnym sposobem wyrażenia
wszystkich interakcji jest stwierdzenie, że dany efekt jest modyfikowany
(warunkowany) przez inny efekt. Spróbujmy to prześledzić na
przykładzie zaprezentowanej powyżej interakcji pomiędzy dwoma
czynnikami. Efekt główny w postaci trudności testu jest modyfikowany
przez nastawienia na osiągnięcia.
Dwuczynnikowa interakcja pomiędzy trudnością testu i nastawieniem na
osiągnięcia jest modyfikowana (warunkowana) przez czynnik
Płeć
. Mając
do czynienia z czteroczynnikową interakcją, możemy powiedzieć, że
trójczynnikowa interakcja jest modyfikowana poprzez wpływ czwartej
zmiennej, to znaczy istnieją różne rodzaje interakcji na różnych
poziomach oddziaływania czwartej zmiennej. Jak się okazuje, w wielu
dziedzinach badań interakcje piątego lub wyższych stopni nie należą do
rzadkości.
to metoda statystyczna, służąca do badania obserwacji, które zależą od
jednego lub wielu działających równocześnie czynników. Metoda ta
wyjaśnia, z jakim prawdopodobieństwem wyodrębnione czynniki mogą
być powodem różnic między obserwowanymi średnimi grupowymi.
Analiza wariancji została stworzona w latach dwudziestych przez
Ronalda Fishera.
Modele analizy wariancji można podzielić na:
modele jednoczynnikowe - wpływ każdego czynnika jest rozpatrywany
oddzielnie, tą klasą zagadnień zajmuje się jednoczynnikowa analiza
wariancji,
modele wieloczynnikowe - wpływ różnych czynników jest rozpatrywany
łącznie, tą klasą zagadnień zajmuje się wieloczynnikowa analiza
wariancji.
Według kryterium podział modeli przebiega następująco:
model efektów stałych - obserwacje są z góry podzielone na kategorie,
model efektów losowych - kategorie mają charakter losowy,
model mieszany - część kategorii jest ustalona, a część losowa.
Średnia dla całego zbioru (z wartościami
pustymi) będzie inna niż dla zbioru bez
wartości pustych:
Zakładamy, że z
α∕2
oznacza 100(1 −α∕2)
percentyl
standardowego
rozkładu
normalnego. Dla losowej próbki odpowiednio
dużego zbioru danych, koniec przedziału
ufności (1 − α) dla wartości średniej
wyznaczymy jako:
Zakładając,
że
odchylenie
standardowe
populacji dotyczącej wzrostu studentów w
badaniu wynosiło σ= 9.48.
Chcemy
znaleźć
margines
błędu
dla
oszacowanego przedziału na 95% poziomie
ufności.
Jeśli to test dwustronny w rozkładzie
normalnym,
to
95%
przedział
ufności
oznacza, że rozkłada nam się równo po 2.5%
na lewą i prawą stronę, przez co do
rozważenia
bierzemy
97.5
ty
percentyl
lewostronnego przedziału. Przez to z
α∕2
wyznaczymy jako qnorm(.975). Mnożymy to
przez błąd standardowy średniej „sem” i
otrzymujemy margines błędu.
Teraz dodajemy obliczoną wartość błędu do średniej i
znajdujemy przedział ufności
Zakładając, że odchylenie standardowe populacji równe jest 9.48,
margines błędu dotyczący wzrostu studentów na 95% przedziale ufności
wynosi 1.2852. Przez to przedział ufności wynosi: (171.10 ,173.67).
Można
użyć
testu
z.test
z
pakietu:
<TeachingDemos>. Nie jest on domyślnym
pakietem środowiska R – dlatego trzeba go
najpierw zainstalować i załadować, by móc z
niego korzystać.
Po oszacowaniu wartości średniej populacji
możemy potrzebować określić dokładność.
Ale w przypadku gdy nie znamy wariancji.
t
α∕2
–to
100(1
−α∕2)
percentyl
studentyzowanego rozkładu normalnego z
n− 1 stopniami swobody. Dla losowo
wybranych
próbek
odpowiednio
dużej
populacji, z odchyleniem standardowym (s),
obliczymy (1 −α) przedział ufności jako:
Np. nie znając odchylenia standardowego
populacji chcemy oszacować przedział
ufności dla wzrostu studentów – 95%.
Rozwiązanie
Najpierw pozbądźmy się wartości pustych,
które wpływają na średnią – za pomocą
funkcji na.omit i zapiszmy nową kolumnę
jako „height.response”.
Skoro mówimy o teście dwustronnym dla
poziomu ufności 95%, interesuje nas 97.5
ty
percentyl
studentyzowanego
rozkładu
normalnego. Dlatego t
α∕2
będzie dane jako
qt(.975, df=n-1). Mnożymy tę wartość przez
błąd standardowy SE i otrzymujemy margines
błędu.
Dodajemy do średniej utworzony przedział i
w ten sposób znajdujemy przedział ufności
dla średniej.
Jeśli nie znamy odchylenia standardowego populacji, to zakres błędu
na 95 % poziomie ufności wynosi 1.3429 cm wzrostu studenta.
Przedział ufności wynosi wtedy (171.04,173.72).
t.test (biblioteka stats)
Jakość badania próby można poprawić przez
zwiększenie
rozmiaru
próby.
Formuła
wyznaczenia optymalnego rozmiaru próby na
poziomie ufności (1 −α), z błędem E, i
wariancją populacji σ
2 jest następująca:
z
α∕2
to 100(1 − α∕2) percentyl standardowego rozkładu normalnego.
Zakładając, że znamy odchylenie standardowe(σ)
wzrostu studentów w badaniu jako 9.48. Chcemy
znaleźć rozmiar próby niezbędny by otrzymać błąd
nie większy niż 1.2 cm na poziomie ufności 95%.
Jako że mamy dwustronny test, to dla 95% poziomu
ufności bierzemy pod uwagę 97.5
ty
percentyl
rozkładu normalnego. Więc: z
α∕2
będzie dany
jakoqnorm(.975).
Zakładając, że odchylenie
standardowe populacji wynosi
9.48, potrzebujemy
przynamniej 240 elementów w
próbie by uzyskać margines
błędu nie większy niż 1.2cm.
Testy dla proporcji to testy parametryczne
służące do weryfikacji hipotez dotyczących
wartości proporcji w populacji generalnej lub też
do porównania wartości proporcji w kilku
populacjach – na podstawie znajomości wartości
tej proporcji w losowej próbie (czy też dwóch lub
kilku próbach) pobranych z populacji.
Proporcją w statystyce nazywamy liczbę (ułamek,
procent) wyrażający, jaka część elementów
pewnego zbioru spełnia określony warunek. Inne
równoważnie stosowane określenia to: frakcja,
wskaźnik struktury. Na przykład, jeśli w grupie
n
osób jest
m
palących, to proporcja osób palących
w tej grupie jest równa
Test prawostronny dla proporcji populacji może
być wyrażony jako:
Gdzie p
0
jest zakładaną minimalną wartością dla
proporcji populacji p.
Definiujemy statystykę z na podstawie
przykładowej próby i jej rozmiaru:
Odrzucimy hipotezę zerową jeśli z ≤−z
α
, gdzie
z
α
jest 100(1 − α) percentylem standarodowego
rozkładu normalnego.
Test lewostronny dla proporcji populacji
może być wyrażony jako:
Gdzie p
0
jest zakładaną minimalną wartością
dla proporcji populacji p.
Definiujemy statystykę z na podstawie
przykładowej próby i jej rozmiaru:
Odrzucimy hipotezę zerową jeśli z > z
α
,
gdzie z
α
jest 100(1 − α) percentylem
standarodowego rozkładu normalnego.
Gdzie p
0
jest zakładaną minimalną wartością
dla proporcji populacji p.
Definiujemy statystykę z na podstawie
przykładowej próby i jej rozmiaru:
Odrzucimy hipotezę zerową jeśli z ≤−z
α/2 lub
z ≥ z
α∕2
, gdzie z
α/2
jest 100(1 − α)
percentylem standarodowego rozkładu
normalnego.
Spośród żarówek wyprodukowanych przez pewną fabrykę wylosowano
n=200 szt. i sprawdzono ich jakość. Okazało się, iż 50 żarówek jest
złych. Czy można się zgodzić z przypuszczeniem, że braki stanowią 28%
produkowanych żarówek? Przyjąć a = 0,06.
ROZWI
Ą
ZANIE:
dane: badana zbiorowość - żarówki
zmienna losowa X – odsetek złych żarówek
zmienna losowa X ma nieznany rozkład w zbiorowości generalnej
próba: n = 200, n'=50 w = n’/n = 50/200 = 0,25
szukane:
H0 : p = 0,28
(w zbiorowo
ś
ci generalne
ż
arówek braki stanowi
ą
28%)
H1 : p ¹ 0,28
(w zbiorowo
ś
ci generalne
ż
arówek braki nie stanowi
ą
28%)
rozkład normalny
hipoteza alternatywna jest dwustronna zatem
obszar krytyczny przyjmuje postać
(
u
odczytujemy z tablic rozkładu
normalnego przy zadanym
)
Nie mamy podstaw do odrzucenia hipotezy
zerowej mówiącej, iż procent wadliwych
żarówek wynosi 28%.
Skoro wartość -0.94
leży
w
środku
przedziału
krytycznego a więc
na
poziomie
istotności 0,06 nie
mamy podstaw by
odrzucić hipotezę
zerową.
Najczęściej w ankietach badamy procent jednej grupy w
odniesieniu do całości.
Problem
Chcemy znaleźć oszacowanie proporcji kobiet wśród studentów
danej uczelni.
Rozwiązanie
Filtrowanie danych (survey$Sex) za pomocą funkcji na.omit co
zapiszemy w zmiennej: gender.response.
By znaleźć liczbę kobiet wystarczy zliczyć obiekty
które w zmiennej gender.response mają wartość:
’Female’, Potem podzielimy to przez liczbę
wszystkich obiektów (n) co da nam szukaną
proporcję. Wynik: 50%.
Gdy już wiemy jak oszacować wartość
średniej populacji możemy chcieć oszacować
przedział ufności.
Niech z
α∕2
będzie 100(1 −α∕2) percentylem
standardowego rozkładu normalnego.
Jeśli rozmiar próby (n) i proporcja populacji
spełniają warunek: np ≥ 5 oraz n(1 − p) ≥ 5,
wówczas koniec przedziału na poziomie
istotności (1 − α) jest zdefiniowany jako:
Oblicz błąd i przedział ufności dla liczby
kobiet w grupie studentów na poziomie
ufności 95%.
Rozwiązanie
Najpierw oszacujemy średnią wartość dla
proporcji.
Wynik: na poziomie istotności 95 %, kobiet
wśród studentów uczelni stanowią między
43.6% a 56.3%, z błędem 6.4%.
Skoro przedział ufności wynosi 95 % to tak naprawdę 5 % dzielimy na 2
przy dwustronnym teście – co daje 97.5ty percentyl standardowego
rozkładu normalnego. Przez to z
α∕2
jest dany przez qnorm(.975). Wtedy
mnożymy tę wartość przez błąd standardowy SE i obliczamy margines
błędu.
Można użyć prop.test z pakietu stats
Dwie próby są sparowane jeśli pochodzą z obserwacji tych samych
obiektów. Zakładamy rozkład normalny w danych. Stosując
sparowany test t-test, możemy określić przedział ufności różnicy
między średnimi w populacji.
W zbiorze „immer”, zapisano zbiory jęczmienia z dwóch lat: 1931 i
1932 z tych samych pól. Są one prezentowane w kolumnach Y1 i Y2.
Problem
Zakładając ze dane pochodzą z rozkładu normalnego, chcemy znaleźć
95% przedział ufności dla różnicy między średnimi w zbiorach
jęczmienia z lat 1931 i 1932.
Rozwiązanie
Stosujemy test t.test by obliczyć różnice między średnimi. Ponieważ to
test sparowany, wymaga argumentu "paired„ ustawionego na
wartość TRUE.
Między rokiem 1932 a 1932 w zbiorze immer 95 % przedział
ufności dla różnicy między średnimi należy do przedziału
(6.122 , 25.705).
Dwie próby są niezależne jeśli pochodzą z
populacji które nie są ze sobą skorelowane a
próby nie wpływają na siebie wzajemnie.
Zakładamy, że populacje pochodzą z rozkładu
normalnego. Stosując test niesparowany możemy
określić przedział ufności dla różnicy między
średnimi w obu populacjach.
przykład
W zbiorze mtcars zajmiemy się cechą mpg
określającą zużycie paliwa (gas mileage) z
różnych samochodów roku 1974.
Możemy użyć t.test by obliczyć różnice
między średnimi.
W zbiorze mtcars, średnie zużycie palowa
wynosi dla skrzyni automatycznej 17.147 a
dla ręcznej 24.392.
95% przedział ufności dla średniego zużycia
paliwa to: (3.2097,11.2802)
Możemy też stworzyć zmienną odpowiedzi (objaśnianą)
mtcars$mpg na podstawie mtcars$am, i potem
zastosować t.test do oszacowania różnicy między
średnimi w populacji:
Wiadomo, że badanie 2 różnych populacji da
nam inne wyniki. Jest to jednak często
niezbędne by porównać wyniki między
dwoma populacjami. Zakładamy jednak, że
obie pochodzą z rozkładu normalnego.
Tabele
krzyżowe
(albo
rozdzielcze,
kontyngencji)
przedstawiają łączne rozkłady dwóch lub większej ilości
zmiennych.
Podczas gdy rozkład częstości informuje o rozkładzie jednej
zmiennej, tablica kontyngencji opisuje jednocześnie rozkład
dwóch lub większej ilości zmiennych.
Każda komórka pokazuje ilość respondentów, którzy udzielili
określonej kombinacji odpowiedzi.
Zmienna
potencjał konsumpcyjny
ma trzy kategorie: zje dużo, zje mało, nic nie zje.
Kategorie są wzajemnie rozłączne i wyczerpujące, więc wartości w kolumnach sumują się do
100%. Druga zmienna
poziom głodu
posiada dwie kategorie: głodny, najedzony. W tym
przypadku, wartości w wierszach nie muszą sumować się do 100%. Każda z komórek
odzwierciedla procent respondentów posiadających daną kombinację cech.
Są łatwe do zrozumienia, także dla ludzi, którzy
nie rozumieją bardziej wyszukanych miar.
Mogą być używane w przypadku zmiennych
mierzonych
na
dowolnym
poziomie:
nominalnym, porządkowym, interwałowym czy
ilorazowym - tablice krzyżowe traktują wszystkie
dane tak - jakby były mierzone na poziomie
nominalnym.
Łatwiej jest zauważyć związki między zmiennymi
analizując taką tablicę niż oddzielne statystyki.
Rozwiązują problem braków danych.
W zbiorze quine dzieci z australijskich miast są
klasyfikowane na pochodzenie etniczne,
płeć, wiek,
status kształcenia i liczbę dni nieobecności w szkole.
W wyniku, kolumna „Eth” określa czy uczeń jest
Aboriginal czy nie ("A" or "N"), a kolumna „Sex” określa
kobietę albo mężczyznę („F" / „M").
W środowisku R jest możliwe przedstawienie rozkładu
danych płci i pochodzenia etnicznego w tablicy. W
wyniku z 38 uczniów pochodzenia „Aboriginal” 38 jest
to kobiety. A w grupie „Non-Aboriginal” 42 osoby to
kobiety.
Zakładając, że dane te pochodzą z rozkładu
normalnego, chcemy znaleźć 95% przedział
ufności dla różnicy między proporcją kobiet
w grupie uczniów z klasy Aboriginal i kobiet
w grupie drugiej klasy (Non-Aboriginal).
Stosujemy funkcję R: prop.test by wyznaczyć
różnice w proporcjach kobiet.
95% przedział ufności dla różnicy między średnimi w obu
grupach kobiet z różnych grup etnicznych wynosi: (-15.6% ,
16.7%)
2 losowe zmienne x i y nazywamy niezależnymi,
gdy
prawdopodobieństwo
rozkładu
jednej
zmiennej nie zależy od obecności tej drugiej
zmiennej.
Zakładając, że f
ij
oznacza liczność częstości
zdarzeń przynależności do obu kategorii: i-tej
dla x i j-tej dla y. oraz zakładając, że e
ij
jest
oczekiwaną wartością tego, że obie zmienne są
niezależne.
Hipoteza
zerowa
niezależności
między zmiennymi będzie odrzucona jeśli p-
value testu Chi-kwadrat będzie mniejsza niż
zadany poziom istotności α.
W zbiorze survey, kolumna Smoke ("Heavy", "Regul"
(regularly), "Occas" (occasionally) i "Never". ) oznacza
zwyczaj palenia studentów, zaś kolumna Exer ("Freq"
(frequently), "Some" i "None")oznacza częstość palenia.
Możemy sprawdzić rozkład poszczególnych wartości
znów w tabeli:
Testujemy hipotezę, czy częstość palenia zależy od
liczby wypalonych papierosów na poziomie istotności
.05.
Rozwiązanie
Stosujemy funkcję R: chisq.test by stworzyć tablicę
kontyngencji i znajdujemy wartość p-value jako 0.4828.
Skoro wartość p-value = 0.4828 jest większa niż poziom
istotności.05 – to nie możemy odrzucić hipotezy zerowej mówiącej,
że zmienna „habit” nie zależy od „exer”.
łączymy drugą i trzecią kolumnę tbl, i zapisujemy w
nową tabelę o nazwie ctbl. Następnie stosujemy
chisq.test:
Item1 Item2 Item3
22
52
16
42
33
24
44
8
19
52
47
18
45
43
34
37
32
39
Algorytm:
1. Skopiuj powyższy zbiór do pliku i nazwij go "fastfood-1.txt“.
2. Załaduj plik jako data frame i nazwij df1 za pomocą funkcji
read.table. Pierwsza linia naturalnie określa nazwy kolumn
(header=TRUE).
3. Połącz wiersze df1 w jeden wektor „r” .
4. Określ nowe zmienne dla określenia poziomu
czynnika i liczby obserwacji.
5.
Stwórz
wektor
czynników
odpowiadających
każdemu elementowi „r” w kroku 3 za pomocą
funkcji „gl”.
6.
Zastosuj funkcję „aov” by zbadać zależność „r” a
czynnikiem „tm”.
7.
Wyświetl tablicę ANOVA jako podsumowanie:
Skoro p-value = 0.11 jest większe niż .05 poziom istotności, nie możemy
odrzucić hipotezy zerowej mówiącej że średnia sprzedaż dla nowych
pozycji menu są równe.
Nadal jest tylko jeden czynnik główny badany. Ale
podobne przedmioty są łączone w grupy (bloki).
Każdy blok jest testowany – czy zależy od głównego
czynnika badanego. To ma wykluczyć wpływ innych
czynników dodatkowych.
przykład
Ten sam przykład z fastfood ale 6 restauracji
tworzących jeden blok będzie testowana odnośnie
wszystkich 3 nowych produktów. Ale tylko jeden
produkt na każdy osobny tydzień. Losowy jest wybór
produktów do testowania (kolejność).
Problem
Załóżmy, że mamy następujące dane. Sprawdź, czy
na poziomie istotności .05 średnie sprzedaży
wszystkich 3 nowych produktów są takie same.
Item1 Item2 Item3
31 27
24
31 28
31
45 29
46
21 18
48
42 36
46
32 17
40
Algorytm:
1.
Skopiuj dane do pliku o nazwie"fastfood-2.txt".
2.
Załaduj plik do ramki data frame i nazwij df2.
3.
Połącz wiersze w jeden wektor „r” .
4.
Określ nowe zmienne „treatment levels” oraz „liczba
bloków”
5.
Stwórz wektor „treatment factors” który odpowiada
każdemu elementowi z wektora „r” z kroku 3 za
pomocą funkcji „gl”.
6.
Stwórz wektor czynników bloków dla każdego
elementu z wektora „r”
7.
Zastosuj funkcję „aov”.
8.
Wyświetl rezultat ANOVA
Skoro p-value = 0.032 jest mniejsze niż .05 to odrzucamy hipotezę
zerową mówiącą że średnie sprzedaży wszystkich produktów są równe.
Rozważa się tylko jeden główny czynnik który może
wpływać na inne.
przykład
Sieć fastfood testuje 3 nowe produkty wprowadzone
na rynek. By przekonać się, czy cieszą się one tą
samą popularnością, wybrano 18 losowych restauracji
do badania. Podzielono jest losowo na te 3 grupy, po
6 dla każdego nowego produktu.
Problem
Załóżmy, że tak się rozkłada sprzedaż po tygodniu
testów. Na poziomie istotności .05 średnie sprzedaży
wszystkich 3 produktów są takie same.
Tutaj może istnieć więcej niż jedne czynnik do rozważenia.
Przykład
Nadal rozważamy fastfood który testuje 3 nowe produkty na obu
wybrzeżach wschodnim (East) i zachodnim (West) USA. By się
przekonać, że wszystkie produkty cieszą się tą samą
popularnością 12 restauracji z wybrzeża wschodniego zostało
wybranych do analizy. Założeniem jest w analizie czynnikowej,
że 12 restauracji będzie podzielone: 4 do badania 1 produktu, 4
do drugiego i 4 do trzeciego. To samo w przypadku restauracji z
zachodniego wybrzeża.
Problem
Zakładając, że dane są takie jak w tabeli, po tygodniu testów.
Każdy wiersz w górnej tabeli reprezentuje sprzedaż w 3 różnych
restauracjach na wschodnim wybrzeżu. Dolna połowa
reprezentuje restauracje zachodniego wybrzeża. Na poziomie
istotności .05 chcemy przeprowadzić test czy średnie sprzedaży
są takie same dla wszystkich produktów. I czy region wpływa na
wartość sprzedaży.
East Coast:
==========
Item1 Item2 Item3
E1 25 39 36
E2 36 42 24
E3 31 39 28
E4 26 35 29
West Coast:
==========
Item1 Item2 Item3
W1 51 43 42
W2 47 39 36
W3 47 53 32
W4 52 46 33
1.
Zapisz dane do pliku o nazwie "fastfood-3.csv
2.
Załaduj dane jako data frame i nazwij df3 stosując
funkcję read.csv
3.
Połącz dane w wierszach w jeden wektor „r”
4.
Oznacz nowe zmienne „treatment levels” oraz „number of
observations”.
5.
Stwórz wektor odpowiadający pierwszej wartości
„treatment level” w zmiennej odpowiedzi w kroku 3
element po elemencie za pomocą funkcji „gl”.
6.
Podobnie stwórz wektor korespondujący z 2 wartością
cechy „treatment level” w zmiennej odpowiedzi wektora
„r” z kroku 3.
7.
Zastosuj funkcję „aov” by opisać zmienną odpowiedzi „r”
za pomocą czynników „tm1” i „tm2”.
8.
Pokaż wyniki ANOVA.
Ponieważ wartość p-value = 0.0015 jest mniejsza niż poziom istotności .05 –
odrzucamy hipotezę zerową mówiącą, że średnia sprzedaż nowych produktów
jest taka sama wszędzie. Co więcej, wartość p-value = 1.2e-05 dla
porównania wybrzeży wschód-zachód jest również mniejsza niż zadany
poziom istotności. To pokazuje, że istnieje różnica w ogólnej wartości
sprzedaży między wybrzeżami. Ostatecznie, w analizie wykazano też, że p-
value = 0.0113 (< 0.05) określa możliwe interakcje między produktami z
menu a lokalizacją restauracji – jakoże klienci z różnych regionów mogą mieć
inne upodobania kulinarne.
Nie zakłada się żadnych założeń co do
rozkładu populacji, ani co do wielkości próby
Przypominając:
metody
parametryczne
wymagają by dane były ilościowe, by miały
rozkład normalny, i by rozmiar próby był
odpowiednio duży.
Oczywiście testy nieparametryczne nie są tak
mocne jak te parametryczne, ale mają mniej
założeń, są bardziej elastyczne, i mogą być
użyte do danych jakościowych !
Test ten stosujemy, gdy chcemy sprawdzić
czy rozkład binominalny ma równe szanse
porażki/sukcesu.
Producent napojów wymyślił nowy napój i chce sprawdzić
czy będzie tak popularny jak jego dotychczasowy
najpopularniejszy napój. W tym celu zaangażował 18
ochotników do testów. Każdy z nich próbuje obu drinków:
nowy i stary w losowej kolejności.
Okazało się, że 5 uczestników wybrało nowy napój jako
lepszy, reszta wybrała dotychczasowy. Na poziomie
istotności = .05 czy możemy odrzucić hipotezę, że
sympatia do obu napojów jest taka sama ?
Rozwiązanie
Zerowa hipoteza ma sprawdzić czy napoje są tak samo
lubiane. Stosujemy test: binom.test. Wartość p-value=
0.096525, i jako że jest większa niż zadany poziom
istotności .05, nie mamy podstaw by odrzucić tę hipotezę.
Tutaj dwie próby są sparowany gdy pochodzą
z
powtórnych
obserwacji
tych
samych
obiektów.
Stosując ten test możemy decydować, czy
korespondujące rozkłady dwu populacji są
takie same nie zakładając, że pochodzą z
rozkładu normalnego.
Stosujemy
zbiór
„immer”
ze
zbiorami
jęczmienia z lat 1931 i 1932. Są odpowiednio
zapisane w kolumnach Y1 i Y2.
Bez założeń o rozkładzie normalnym, na
poziomie istotności .05 chcemy sprawdzić czy
dane mają te same rozkładu w dwóch różnych
latach.
Rozwiązanie
Hipoteza zerowa że jęczmień w dwóch latach
zbiorów miał takie same wartości. Aby testować
tę hipotezę stosujemy test wilcox.test by
porównać
pasujące
próbki.
Dla
testu
sparowanego
pamiętajmy
o
ustawieniu
parametru "paired" na wartość TRUE. Skoro p-
value = 0.005318 jest mniejsza niż zadany
poziom istotności .05 -
odrzucamy hipotezę
zerową.
Na poziomie istotności .05 wnioskujemy, że zbiory jęczmienia z
latach 1931 i 1932 nie są identycznymi populacjami.
Dwie próby są niezależne jeśli pochodzą z
różnych populacji i nie wpływają jedna na
drugą.
Stosując
test
Manna-Whitneya-Wilcoxona
możemy ocenić czy rozkłady populacji są
identyczne nie zakładając ze pochodzą z
rozkładu normalnego.
Mamy zbiór mtcars, i dane dotyczące zużycia
paliwa różnych samochodów w roku 1974.
Mamy też dana „am” określającą czy skrzynia
biegów jest ręczna czy automatyczna (0 =
automatic, 1 = manual).
Przyjmuje się, że zużycie paliwa nie ma związku z
typem skrzyni biegów. Sprawdzimy to…
Nie
zakładając
rozkładu
normalnego
chcemy
sprawdzić, czy na poziomie istotności .05 zużycie
paliwa skrzyni automatycznych i ręcznych mają te
same rozkłady danych.
Rozwiązanie
Hipoteza zerowa mówić będzie, że zużycie paliwa dla
skrzyni ręcznych ma taką samą populację jak zużycie
paliwa skrzyni automatycznych.
Aby to sprawdzić użyjemy funkcji R: wilcox.test by
porównać wartości w niezależnych próbkach.
Skoro wartość p-value= 0.001817 i jest ona mniejsza
niż .05 – odrzucamy hipotezę zerową na rzecz
alternatywnej mówiącej, że jednak wartości zużycia
paliwa w obu typach skrzyni jest różna.
Na poziomie istotności testu = .05 stwierdzamy, że
zużycie
paliwa
w
skrzyniach
ręcznych
i
automatycznych nie są takie same.
Zakłada się, że kolekcje próbek danych są
niezależne jeśli pochodzą z niezwiązanych
populacji i nie wpływają jedna na drugą.
Stosując
test
Kruskala-Wallisa,
możemy
oceniać, czy rozkłady populacji są identyczne
bez
konieczności
zakładania
rozkładu
normalnego.
W zbiorze „airquality” mamy pomiary dzienne jakości
powietrza z Nowego Jorku z okresu od maja do
września 1973 roku. Gęstość ozonu przedstawiono
w kolumnie o nazwie :Ozone.
Problem
Bez założeń o rozkładzie normalnym populacji
chcemy sprawdzić na poziomie istotności.05 czy
miesięczna wartość gęstości ozonu w Nowym
Jorku ma taki sam rozkład w miesiącach od maja
do września.
Rozwiązanie
Hipoteza zerowa mówi, że miesięczna gęstość
ozonu jest taka sama we wszystkich populacjach.
Aby
to
sprawdzić
stosujemy
funkcję
R:
kruskal.test by porównać dane z niezależnych
miesięcy. Wartość p-value zmierza do 0 (6.901e-
06). Dlatego odrzucamy hipotezę zerową.
Na poziomie istotności .05 stwierdzamy, że miesięczna
gęstość ozonu w Nowym Jorku w miesiącach od maja do
września nie pochodziła z identycznych populacji.