wyklad 7 Wnioskowanie o proporcjach


Biometria i Biostatystyka
Wykład 7: Wnioskowanie o proporcjach
Wnioskowanie o proporcjach
W badaniach statystycznych często
analizie poddawane są liczby wystąpień
jakiejś cechy.
Musimy wówczas stosować narzędzia
dostosowane do takiego charakteru
informacji.
Nie mają tutaj zastosowania poznane
dotychczas testy parametryczne np. test
t Studenta.
Wnioskowanie o proporcjach
Wnioskowanie dla prostej proporcji
Przeprowadzamy PPL o liczności n z
populacji i otrzymujemy liczbę X sukcesów
Liczbę sukcesów w próbie opisuje rozkład
dwumianowy o nieznanym
prawdopodobieństwie sukcesu p.
Wnioskowanie o proporcjach
Dla prób zależnych (losowanie bez
zwracania), liczbę sukcesów X opisuje
rozkład hipergeometryczny.
Estymator Największej
Wiarogodności (NW)
Estymator największej wiarogodności to
proporcja z próby = liczba obserwowanych
sukcesów X odniesiona do liczności próby.
Najlepiej jest ją stosować gdy 0.1 Jest to najczęściej stosowany estymator.
X
Ć
p =
n
Przedział ufności dla
proporcji w populacji  estymator NW
Wezmy PPL o wystarczająco dużej
liczności n z proporcją p sukcesów, przy
czym n"pe"5 oraz n"qe"5.
Niech X to liczba zliczeń sukcesów w
próbie.
Przedział ufności dla
proporcji w populacji  estymator NW
Przy spełnieniu tych założeń rozkład
zmiennej losowej X - liczba sukcesów w
próbie  można przybliżyć rozkładem
normalnym:
X N(n p, n p q)
X N(n p, n p (1- p))
Przedział ufności dla
proporcji w populacji  estymator NW
Zatem rozkład estymatora proporcji
sukcesów w próbie (wskaznika
struktury) X/n można przybliżyć
rozkładem normalnym o parametrach:
ć
n p q
X

Ć
p = N p,

n n
Ł ł
ć
p (1- p)

Ć
p N p,

n
Ł ł
Przedział ufności dla
proporcji w populacji  estymator NW
Przybliżenie przedziału ufności na
poziomie C to
Ć Ć
( )
p - zkryt SEp, p + zkryt SEp
Ć Ć
gdzie zkryt to wartość, dla której pole
pod standardowa krzywą normalną z
przedziału -zkryt do zkryt jest równe C
oraz
Ć Ć
p(1- p)
SEp =
Ć
n
Estymator Laplace a
Znany w literaturze przykład problemu
o dużej liczności pochodzi z pracy
semestralnej Laplace a z wczesnych lat
1800.
Sformułował on pytanie jak pewnym
być można, że słońce wzejdzie jutro,
wiedząc iż wschodziło każdego dnia
przez ostatnie 500 lat (1 825 000 dni).
Estymator Laplace a
Można być tego bardzo pewnym, ale nie
mamy absolutnej pewności.
Estymator Laplace a
W odpowiedzi na to pytanie, Laplace a
zaproponował Rule of Succession (1812).
Wykorzystując Bayesowską postać metody
największej wiarogodności, przy założeniu
rozkładu a priori w postaci rozładu
równomiernego, otrzymuje się estymator
X +1
)
proporcji w postaci
p =
n + 2
Estymator Laplace a
Stosując tę procedurę otrzymujemy
99.999945% pewności, że słońce
wzejdzie jutro - blisko 100% granicy,
ale jednak mniej.
X +1
)
p =
n + 2
Estymator Laplace a
Wpływ czynnika korygującego jest
większy gdy liczności próby są małe.
Przykładowo, gdy obserwujemy dwa
sukcesy na dwie próby i stosujemy
algorytm Laplace a, to uzyskana
estymata p wynosi 75% (x+1=3,
n+2=4, p=3/4) zamiast 100%.
Estymator Laplace a
Jeśli obserwujemy dwie porażki, wtedy
nasza estymata p jest równa 25%
(x+1=1, n+2=4, p=1/4) a nie 0%.
Podsumowując, Laplace mówi, że
następny wynik jest jak rzut monetą
więc trzeba każdej możliwości dać
równą szansę wystąpienia.
Przedział ufności dla
proporcji w populacji  estymator Laplace a
Przybliżenie przedziału ufności na poziomie C
to
)
() )
p - zkryt SEp, p + zkryt SEp
Ć Ć
gdzie zkryt to wartość, dla której pole pod
standardowa krzywą normalną z przedziału
-zkryt do zkryt jest równe C oraz
) )
p(1- p)
)
SEp =
n + 2
Estymator Jeffreysa
Jeffreys (1961) zaproponował
kompromis pomiędzy metodą Laplace a
a klasyczną metodą największej
wiarogodności.
X + 0.5
(
p =
n +1
EB Wilson, Probable inference, the law of succession, and statistical inference. Journal of the American Statistical
Association 22: 209-212, 1927
Estymator Wilsona
Estymator Wilsona (1927) definiuje środek
najczęściej stosowanego w praktyce
przedziału ufności dla proporcji, zwanego
przedziałem Walda.
Jego wartość, dla zadanego poziomu ufności
2
zkryt
C, znajduje się jako: X +
~ 2
p =
2
n + zkryt
gdzie zkryt to tak jak poprzednio wartość
krytyczna.
Przedział ufności Walda dla
proporcji w populacji  estymator Wilsona
Przybliżenie przedziału ufności na poziomie C
to
~
(~ )
p - zkryt SEp, p + zkryt SEp
Ć Ć
gdzie zkryt to wartość, dla której pole pod
standardowa krzywą normalną z przedziału
-zkryt do zkryt jest równe C oraz
~ ~
p(1- p)
SEp =
~
2
n + zkryt
95% przedział ufności Walda dla
proporcji w populacji
Estymata Wilsona proporcji populacji
wynosi w przybliżeniu dla 95%CI
bo zkryt=1.96H"2
X + 2
~
p =
n + 4
Błąd standardowy wynosi
~ ~
p(1- p)
SEp =
~
n + 4
Przykład
X = 3316 n = 17100
X + 2
~
p = = 0.193990
n + 4
~ ~
p(1 - p) 0.193990* 0.806010 0.156358
SEp = = = = 0.003024
~
n + 4 17104 17104
~ ~
(p - z *SEp, p + z *SEp)
~ ~
(0.193990 - 1.96* 0.003024, 0.193990 + 1.96* 0.003024)
(0.188063, 0.199917)
95% CI
Przykład 1 - Ranking partii -
przełom marca i kwietnia 2007
http://www.pbsdga.pl
Czy są to istotne
różnice?
Sondaż przeprowadził PBS DGA na reprezentatywnej próbie
1068 dorosłych mieszkańców Polski.
15% respondentów, którzy zadeklarowali udział w
wyborach, nie potrafiło wskazać, które ugrupowanie poprze.
Przykład 1 - Ranking partii -
przełom marca i kwietnia 2007
X = 85 n =1068
Samoobrona
X + 2
~
p = = 0.081157
n + 4
~ ~
p(1 - p) 0.081157 * 0.918843 0.074571
SEp = = = = 0.008340
~
n + 4 1072 1072
~
(~ - z* SEp , p + z* SEp)
p
~ ~
(0.0812 - 1.96* 0.0083, 0.0812 + 1.96* 0.0083)
Wniosek: Na poziomie ą=0.05
( 0.0648, 0.0975 )
odrzucam H0, że p=6%.
95% CI
Przykład 1 - Ranking partii -
przełom marca i kwietnia 2007
X = 320 n =1068
PO
X + 2
~
p = = 0.300373
n + 4
~ ~
p(1 - p) 0.300373* 0.699627 0.210149
SEp = = = = 0.014001
~
n + 4 1072 1072
~
(~ - z* SEp , p + z* SEp)
p
~ ~
(0.3004 - 1.96* 0.0140, 0.3004 + 1.96* 0.0140)
Wniosek: Na poziomie ą=0.05 brak
( 0.2729, 0.3278 )
różnic znamiennych statystycznie.
95% CI
Testy istotności dla proporcji
populacji
Wezmy PPL o liczności n z dużej populacji z
nieznaną proporcją sukcesów p. Żeby
zweryfikować hipotezę H0: p = p0,
obliczamy wartość statystyki z
Ć
p - p0
X
z =
Ć
p =
Ć Ć
p(1- p)
n
n
Odnosząc to do standardowej normalnej
zmiennej losowej Z, przybliżona P-wartość
P(Z ł z )
dla testu H0 przeciw Ha: p `" p0 wynosi
Testy istotności dla proporcji
populacji
Korekta ze względu na nieciągłość.
Należy stosować tylko wtedy gdy
poprawka jest mniejsza niż różnica p-p0
1
Ć
p - p0 -
2n
z =
Ć Ć
p(1- p)
n
Porównywanie dwóch
proporcji
Pojęcia
Populacja
Proporcja populacji
Liczność próby
Liczba sukcesów
Proporcja próby

D = p1 - p2
Przedziały ufności dla
porównań proporcji
Wezmy PPL o liczności n1 z dużej
populacji z proporcją sukcesów p1 i
inną, niezależną PPL o liczności n2 z
innej populacji z proporcją sukcesów p2.
Przybliżenie przedziału ufności na
poziomie C dla p1  p2 to
((~ - p2)- z *SED,(~ - p2)+ z*SED)
p1 ~ ~ p1 ~ ~
Przedziały ufności dla
porównań proporcji
z2 z2
X1 + X2 +
X1 + 2 X2 + 2
~ 2 ~ 2
p1 = p2 =
n1 + z2 n1 + 4 n2 + z2 n2 + 4
CI=0.95 CI=0.95
~ ~ ~ ~
p1(1- p1) p2(1- p2)
~
SED = +
n1 + z2 n2 + z2
Tę metodę stosuje się, gdy obie liczności prób
wynoszą co najmniej 10 oraz gdy poziom ufności to
90%, 95%, lub 99%.
Testy istotności
Możemy zdefiniować hipotezę zerową
że proporcje obu populacji są równe.

1 1
Ć Ć
s = p(1- p)ć n1 +
D

n2
Ł ł
Przeciętną wartość p szacuje się z
ogólnej liczby sukcesów z obu prób.
X1 + X2
Ć
p =
n1 + n2
Przedziały ufności dla
porównań proporcji
Żeby zweryfikować hipotezę H0: p1 = p2
należy obliczyć statystykę
Ć Ć
p1 - p2
z =
SED
p
gdzie standardowy błąd sumaryczny wynosi

1 1
Ć Ć
SED = p(1- p)ć n1 +
p
n2
Ł ł
W kategoriach standardowej zmiennej losowej
Z, P-wartość dla testu H0 przeciw Ha: p1 > p2
(Z
wynosi P ł z)
Tablice kontyngencyjne
Wezmy przykład z zakresu immunologii.
Grupa 111 myszy została podzielona na
dwie podgrupy:
" 57 z nich otrzymało standardową dawkę
patogennych bakterii, następnie
antidotum,
" pozostałym 54 podano samą dawkę
bakterii.
Tablice kontyngencyjne
Po określonym czasie inkubacji choroby
stwierdzono 73 żywe myszy i 38 martwych
- wśród tych było 13, które otrzymały
dodatkowo antidotum i 25, które nie
otrzymały.
Tablice kontyngencyjne
Interesuje nas zagadnienie czy
antidotum chroniło myszy przed
chorobą, przyczyniając się do większej
przeżywalności.
Tablice kontyngencyjne
Zebrane dane można wygodnie przedstawić
w formie tabeli dwudzielczej.
Tabele dwu- i wielodzielcze (z większą liczbą
kryteriów) często nazywa się tabelami
kontyngencyjnymi.
Tabela, w której dwa kryteria podzielone są
na dwie klasy, nazywa się także tabelą 2x2.
Tablice kontyngencyjne
Martwe Żywe Ł
Bakterie i antidotum 13 44 57
Bakterie 25 29 54
Suma 38 73 111
Tablice kontyngencyjne
Wiersze, kolumny i komórki tabeli
opisujemy następująco:
a b a + b
c d c + d
a + c b + d n
Tablice kontyngencyjne
Martwe Żywe Ł
Bakterie i antidotum p1 = 0.22807 q1 = 0.77193 1.0
Bakterie p2 = 0.46296 q2 = 0.53704 1.0
a b
p1 = , q1 =
a b a + b
ż
a + b a + b
c d c + d
c d
p2 = , q2 =
ż
c + d c + d
a + c b + d n
Test niezależności c2
Hipoteza zerowa stanowi, że częstości
obserwacji umieszczone w wierszach tablicy
kontyngencyjnej są niezależne od częstości
w kolumnach.
Zweryfikowanie tak postawionej hipotezy
wymaga przeprowadzenia testu typu  test
zgodności dopasowania , gdzie oczekiwane
liczności wyznaczane będą z
wykorzystaniem warunku niezależności.
Test niezależności 2
Test taki nazywa się testem niezależności
2.
Liczność oczekiwana dla każdej z komórek
tabeli wynosi:
RiCj

Ri Cj
ć ć
Ć
nij = =

N N
Ł ł N N
Ł ł
gdzie symbolem Ri oznaczono sumę
obserwacji w i-tym wierszu, a symbolem Cj 
sumę obserwacji w j-tej kolumnie.
Test niezależności c2
W analizie c2 tablic kontyngencyjnych
korzystamy ze standardowej formuły na
statystykę c2:
Ć
(nij - nij )2
C2 = .

Ć
nij
Test niezależności c2
Mając obliczoną wartość statystyki c2, jej
znamienność statystyczna może być
wyznaczona poprzez porównanie
wartości z rozkładem c2 o (r-1)(c-1)
liczbie stopni swobody.
Przykład
H0: Podanie leku nie zmienia proporcji
myszy, które przeżyły infekcję
H1: ~H0
a=0.05
Przykład
Martwe
Żywe myszy Suma Ri
myszy
Bakterie+
13 44 57
Antidotum
Tylko
25 29 54
bakterie
Suma Ci
38 73 111
Przykład  oczekiwane liczności
Martwe
Żywe myszy Suma Ri
myszy
Bakterie+
19.5 37.5 57
Antidotum
Tylko
18.5 35.5 54
bakterie
Suma Ci
38 73 111
Przykład
Możemy obliczyć statystykę
2 2 2 2
(13-19.5) (44 - 37.5) (25 -18.5) (29 - 35.5)
2
CC = + + +
19.5 37.5 18.5 35.5
2 2
CC = 6.77 X0.05,1 = 3.841
p = 1-cdf(6.77,1)=0.0093
Wniosek: Przeżywalność zależy od podania
antidotum
Iloraz szans (Odds Ratio)
" W naszym przykładzie proporcja
przeżywalności pod warunkiem leczenia
wynosi około 0.77; przy braku leczenia
0.54. Jak wyrazić różnicę?
" Moglibyśmy to zrobić poprzez zwykłą
różnicę arytmetyczną: 0.77-0.54=0.23
ale to nie będzie reprezentacyjne jeśli
nie odniesiemy wyniku do proporcji.
Iloraz szans (OR)
Załóżmy, że różnica wynosiłaby 0.01. Jeśli
proporcja przeżywalności wynosiłaby tylko
0.02, wzrost o 0.01 byłby skokiem o 50%.
Ale jeśli ta proporcja wynosiłaby 0.50,
wzrost byłby tylko dwuprocentowy.
Iloraz szans
Alternatywnym sposobem wyrażania różnic
w proporcjach jest iloraz szans.
Szansa na przeżycie myszy z antidotum
wynosi q1/p1, w naszym przypadku
0.77193/0.22807 = 3.38462.
Iloraz szans
Zatem mysz ma ponad trzy razy większą
szansę na przeżycie jeśli dostanie antidotum.
Szansa przeżycia bez antidotum wynosi q2/p2,
czyli 0.53704/0.46296 = 1.16000. Oznacza to,
iż szansa na przeżycie takiej myszy wynosi
nieco więcej niż 1.
Iloraz szans OR
Iloraz szans jest dobrym sposobem na
zobrazowanie różnicy w wynikach. Iloraz
szans OR, obliczamy następująco:
q1 / p1 3.38462
OR = = = 2.91778
q2 / p2 1.16000
Tak więc szansa na przeżycie po podaniu
antidotum jest prawie 3 razy większa niż bez
niego.
Iloraz szans (OR) versus
względne ryzyko (RR)
Iloraz szans jest najlepszą formą prezentacji
wyników dla modelu danych z tabeli 2x2.
W wielu dziedzinach, np. epidemiologii q1 i
q2 są zwykle małe. W takich przypadkach
p2/p1H"1.
Wartość q1/q2 nazywamy względnym
ryzykiem (RR) i jest ona przybliżeniem
ilorazu szans OR.
Transformacja logit
Transformacja logit - skaluje bardzo duże i
bardzo małe proporcje.
Logit to logarytm naturalny szans:
logit q = ln(q/p) = ln(q/(1-q)).
Zbadajmy różnicę dla dwóch proporcji:
q1 q2
logit q1 - logit q2 = ln - ln = lnOR
p1 p2
Transformacja logit
Iloraz szans jest łatwy do wyobrażenia,
ponieważ jest w "naturalnej" skali. Iloraz
szans np. 2.91778 mówi, że mysz ma tyle
razy większą szansę przeżycia, jeśli
zaaplikuje się jej antidotum.
Tracimy orientację, jeśli iloraz poddamy
przekształceniu logit. Jednak logit jest
funkcją gwarantującą, iż zmienna po
transformacji ma rozkład normalny.
Transformacja logit
Im większy logarytm ilorazu, tym większa
różnica proporcji. Gdy proporcje są równe,
iloraz szans jest równy 1, a logarytm 0.
Błąd standardowy log OR i
przedziały ufności
Dla dużych prób można skutecznie
oszacować błąd standardowy
estymatora logarytmu ilorazu szans
(lnOR) ze wzoru:
1 1 1 1
SElnR = + + +
a b c d
Dla danych z przykładu ta wartość wynosi 0.41729.
Błąd standardowy log OR i
przedziały ufności
Niektórzy autorzy stosują korektę ze względu
na nieciągłość statystyki poprzez dodawanie
do każdego mianownika. Po uwzględnieniu
korekty, wartość błędu jest nieznacznie
niższa: 0.41190.
Przedział ufności na poziomie 95% dla lnOR
to
( )
ln R - zkryt SElnR;ln R + zkryt SElnR
1.07082 ą 1.96*0.41190= (0.26350,1.87814)
Błąd standardowy log OR i
przedziały ufności
W skali ilorazu szans te wartości
odpowiadają liczbom 1.30147 i 6.54135.
Wniosek: antidotum w wyrazny sposób
zwiększa szansę przeżycia myszy.
Testowanie różnicy między
obserwowanym a założonym OR
Inne zastosowanie błędu standardowego
to testowanie hipotezy zerowej
dotyczącej różnic między obserwowanym
ilorazem szans a ustalonym standardem.
Testowanie różnicy między
obserwowanym a założonym OR
Przypuśćmy, że weterynarz decyduje czy
zaszczepić populację myszy przeciwko chorobie
przez wstrzykiwanie antidotum, ale uznaje to za
możliwe i warte wykonania dopiero wtedy, gdy
szansa na przeżycie myszy zaszczepionych jest 8
razy większa niż tych, które nie zaszczepiono.
Testowanie różnicy między
obserwowanym a założonym OR
Iloraz kwadratu różnicy i wariancji ma
rozkład jak chi-kwadrat z jednym stopniem
swobody. X0.05[1]=3.81
2
2
(ln R - ln ORst) (1.07082 - ln 8)
= = 5.996
2
0.411902
(SElnR)
Odrzucamy zatem H0. Ponieważ iloraz szans
jest mniejszy niż 8, nie będzie szczepić
myszy.
Czynniki zaburzające
wnioskowanie - przykład
Dane pochodziły z programu badań
epidemiologicznych EURODIAB ACE
zrealizowanego na terenie Górnego Śląska w
latach 1989-1996.
W ramach tego programu założono rejestr
wszystkich dzieci chorych na cukrzycę typu 1
na terenie Górnego Śląska.
Zebrane dane obejmowały 455 dzieci w
wieku 0-14 lat.
Materiał
Grupę kontrolną stanowiły wszystkie dzieci
urodzone w latach 1975-1996 na terenie
Górnego Śląska (950 766 dzieci).
Dla każdego dziecka, zarówno z grupy dzieci
chorych na cukrzycę typu 1 jak z grupy
kontrolnej, rejestr danych zawierał między
innymi wagę urodzeniową, numer kolejny
dziecka w rodzinie oraz wiek matki i ojca w
momencie urodzenia dziecka.
Iloraz szans
Szanse i ilorazy szans oceniono na
podstawie obserwacji zdarzeń:
A / C
Z = 1 Z = 0
OR =
B / D
C = 1 A B
2
1 1 1 1
s = + + +
C = 0 C D
A B C D
Iloraz szans
Definiując czynnik ryzyka jako MA>35
otrzymujemy:
Czynnik ryzyka Chorzy Populacja
OR = 1.19
(0.803, 1.773 )
MA>35 26 45 951
MAd"35 426 900 550
Mechanizm obciążenia
Dzieci urodzone w różnej kolejności w rodzinach są
narażone na zachorowanie na cukrzycę typu 1 w
różnym stopniu.
Liczba dzieci
OR Poziom
Zdefiniowana klasa
ą95% CI istotności
Chorzy Populacja
223 396 519 1.343
Dzieci pierworodne p = 0.0019
(49.01%) (41.71%) (1.1181.614)
165 350 864 0.973
Dzieci drugie w rodzinie p = 0.8149
(36.26%) (36.91%) (0.8041.178)
Dzieci trzecie i dalsze 67 203 301 0.635
p = 0.0007
w rodzinie (14.73%) (21.38%) (0.4900.823)
Ogółem 455 950 684
Mechanizm obciążenia
Nieobciążona ocena
Numer dziecka w rodzinie
Test Mantel-
Czynnik Standard OR
Dzieci trzecie
jednorodności Haenszel OR
Pierworodni Drugie dzieci
i dalsze
1.193 2.604 2.793 0.6475
1.536
MA > 35 (0.8031.773) (1.1565.864) (1.5854.924) (0.2961.418) p = 0.0068
p = 0.0428
p = 0.4440 p = 0.0383 p = 0.0005 p = 0.3547
Zachorowalność na cukrzycę typu 1 zależy między innymi od
wieku matki w momencie narodzin dziecka.
Dzieci matek starszych mają większą szansę ujawnienia
choroby.


Wyszukiwarka

Podobne podstrony:
wyklad 9 Wnioskowanie o proporcjach PL [tryb zgodności]
! z wykładu wnioski o podk więz
[PRAWOZNAWSTWO] 7 Wykladnia prawa i wnioskowania prawnicze
semiotyka i wnioskowanie wyklad 2
Manipulacja edukacją – wykład oraz wnioski po wykładzie
Wykład 9 KRZ reguły wnioskowania
Wykład II Metody wnioskowania w naukach empirycznych
Wnioskowanie statystyczne (wykład ASZ)
proporcje 5
Sieci komputerowe wyklady dr Furtak
Wykład 05 Opadanie i fluidyzacja
WYKŁAD 1 Wprowadzenie do biotechnologii farmaceutycznej
mo3 wykladyJJ

więcej podobnych podstron