Jest to najczęściej stosowany estymator.
X
Ć
p =
n
Przedział ufności dla
proporcji w populacji estymator NW
Wezmy PPL o wystarczająco dużej liczności n
z proporcją p sukcesów, przy czym npe"5
oraz nqe"5.
Niech X to liczba zliczeń sukcesów w próbie.
Niech X to liczba zliczeń sukcesów w próbie.
Z definicji ma ona rozkład dwumianowy
bin(p,n).
Przedział ufności dla
proporcji w populacji estymator NW
Jednak przy dużej liczności próby rozkład
zmiennej losowej X - liczba sukcesów w
próbie można przybliżyć rozkładem
normalnym:
normalnym:
N(n " p, n " p " q)= N(n " p, n " p "(1- p))
X
Przedział ufności dla
proporcji w populacji estymator NW
Przybliżenie przedziału ufności na poziomie C
to
Ć Ć
( - zkryt " SEp, p + zkryt " SEp
)
p
Ć Ć
gdzie zkryt to wartość, dla której pole pod
standardowa krzywą normalną z przedziału
-zkryt do zkryt jest równe C oraz
Ć Ć
p(1- p)
SEp =
Ć
n
Estymator Laplace a
Znany w literaturze przykład problemu
o dużej liczności pochodzi z pracy
semestralnej Laplace a z wczesnych lat
semestralnej Laplace a z wczesnych lat
1800.
Sformułował on pytanie jak pewnym
być można, że słońce wzejdzie jutro,
wiedząc iż wschodziło każdego dnia
przez ostatnie 500 lat (1 825 000 dni).
Estymator Laplace a
Można być tego bardzo pewnym, ale nie
mamy absolutnej pewności.
Estymator Laplace a
W odpowiedzi na to pytanie, Laplace a
zaproponował Rule of Succession.
Wykorzystując Bayesowską postać metody
Wykorzystując Bayesowską postać metody
największej wiarogodności, przy założeniu
rozkładu a priori w postaci rozładu
równomiernego, otrzymuje się estymator
X +1
)
proporcji w postaci
p =
n + 2
Estymator Laplace a
Stosując tę procedurę otrzymujemy
99.999945% pewności, że słońce
wzejdzie jutro - blisko 100% granicy,
wzejdzie jutro - blisko 100% granicy,
ale jednak mniej.
X +1
)
p =
n + 2
Estymator Laplace a
Wpływ czynnika korygującego jest
większy gdy liczności próby są małe.
Przykładowo, gdy obserwujemy dwa
Przykładowo, gdy obserwujemy dwa
sukcesy na dwie próby i stosujemy
algorytm Laplace a, to uzyskana
estymata p wynosi 75% (x+1=3,
n+2=4, p=3/4) zamiast 100%.
Estymator Laplace a
Jeśli obserwujemy dwie porażki ,
wtedy nasza estymata p jest równa
25% (x+1=1, n+2=4, p=1/4) a nie
25% (x+1=1, n+2=4, p=1/4) a nie
0%.
Podsumowując, Laplace mówi, że
następny wynik jest jak rzut monetą
więc trzeba każdej możliwości dać
równą szansę wystąpienia.
Przedział ufności dla
proporcji w populacji estymator Laplace a
Przybliżenie przedziału ufności na poziomie C
to
)
() - zkryt " SEp, p + zkryt " SEp
)
p
Ć Ć
gdzie zkryt to wartość, dla której pole pod
standardowa krzywą normalną z przedziału
-zkryt do zkryt jest równe C oraz
) )
p(1- p)
)
SEp =
n + 2
Estymator Jeffreysa
Jeffreys (1961) zaproponował
kompromis pomiędzy metodą Laplace a
a klasyczną metodą największej
a klasyczną metodą największej
wiarogodności.
X + 0.5
(
p =
n +1
Estymator Wilsona
Estymator Wilsona definiuje środek
najczęściej stosowanego w praktyce
przedziału ufności dla proporcji, zwanego
przedziału ufności dla proporcji, zwanego
przedziałem Walda.
Jego wartość, dla zadanego poziomu ufności
2
zkryt
C, znajduje się jako: X +
~ 2
p =
2
n + zkryt
gdzie zkryt to tak jak poprzednio wartość
krytyczna.
Przedział ufności Walda dla
proporcji w populacji estymator Wilsona
Przybliżenie przedziału ufności na poziomie C
to
~
(~ - zkryt " SEp, p + zkryt " SEp
)
p
Ć Ć
gdzie zkryt to wartość, dla której pole pod
standardowa krzywą normalną z przedziału
-zkryt do zkryt jest równe C oraz
~ ~
p(1- p)
SEp =
~
2
n + zkryt
95% przedział ufności Walda dla
proporcji w populacji
Estymata Wilsona proporcji populacji
wynosi w przybliżeniu dla 95%CI
bo zkryt=1.96H"2
bo zkryt=1.96H"2
X + 2
X + 2
~
~
p =
p =
n + 4
Błąd standardowy wynosi
~ ~
p(1- p)
SEp =
~
n + 4
Przykład
X = 3316 n = 17100
= =
= =
= =
X + 2
+
+
+
~
p = = 0.193990
= =
= =
= =
n + 4
n + 4
+
+
+
+
+
+
~ ~
p(1 - p) 0.193990* 0.806010 0.156358
( - )
( - )
( - )
SEp = = = = 0.003024
= = = =
= = = =
~ = = = =
n + 4 17104 17104
+
+
+
~
(p - z *SEp, p + z *SEp)!
( - + )!
(~ - ~ + ~ )!
( - + )!
(0.193990 - 1.96 * 0.003024, 0.193990 + 1.96* 0.003024)!
( - + )!
( - + )!
( - + )!
(0.188063, 0.199917)
95% CI
Przykład 1 - Ranking partii -
przełom marca i kwietnia 2007
http://www.pbsdga.pl
Czy są to istotne
różnice?
Sondaż przeprowadził PBS DGA na reprezentatywnej próbie
1068 dorosłych mieszkańców Polski.
15% respondentów, którzy zadeklarowali udział w
wyborach, nie potrafiło wskazać, które ugrupowanie poprze.
Przykład 1 - Ranking partii -
przełom marca i kwietnia 2007
X = 85 n =1068
Samoobrona
X + 2
~
p = = 0.081157
n + 4
~ ~
p(1 - p) 0.081157 * 0.918843 0.074571
( - )
( - )
( - )
SEp = = = = 0.008340
= = = =
= = = =
~ = = = =
n + 4 1072 1072
+
+
+
~
(~ - z* SEp , p + z* SEp)!
( - + )!
(p - ~ + ~
( - + )!
)!
(0.0812 - 1.96 * 0.0083, 0.0812 + 1.96* 0.0083)!
( - + )!
( - + )!
( - + )!
Wniosek: Na poziomie ą=0.05
( 0.0648, 0.0975 )
odrzucam H0, że p=6%.
95% CI
Przykład 1 - Ranking partii -
przełom marca i kwietnia 2007
X = 320 n =1068
PO
X + 2
~
p = = 0.300373
n + 4
~ ~
p(1 - p) 0.300373* 0.699627 0.210149
( - )
( - )
( - )
SEp = = = = 0.014001
= = = =
= = = =
~ = = = =
n + 4 1072 1072
+
+
+
~
(~ - z* SEp , p + z* SEp)!
( - + )!
(p - ~ + ~
( - + )!
)!
(0.3004 - 1.96* 0.0140, 0.3004 + 1.96* 0.0140)!
( - + )!
( - + )!
( - + )!
Wniosek: Na poziomie ą=0.05 brak
( 0.2729, 0.3278 )
różnic znamiennych statystycznie.
95% CI
Testy istotności dla proporcji
populacji
Wezmy PPL o liczności n z dużej populacji z
nieznaną proporcją sukcesów p. Żeby
zweryfikować hipotezę H0: p = p0,
obliczamy wartość statystyki z
obliczamy wartość statystyki z
Ć
p - p0
X
z =
Ć
p =
Ć Ć
p(1- p)
n
n
Odnosząc to do standardowej normalnej
zmiennej losowej Z, przybliżona P-wartość
P(Z e" z )
dla testu H0 przeciw Ha: p `" p0 wynosi
Testy istotności dla proporcji
populacji
Korekta ze względu na nieciągłość.
Należy stosować tylko wtedy gdy
poprawka jest mniejsza niż różnica p-p0
poprawka jest mniejsza niż różnica p-p0
1
Ć
p - p0 -
2n
z =
Ć Ć
p(1- p)
n
Porównywanie dwóch
proporcji
Pojęcia
Populacja
Proporcja populacji
Proporcja populacji
Liczność próby
Liczba sukcesów
Proporcja próby
D = p1 - p2
Przedziały ufności dla
porównań proporcji
Wezmy PPL o liczności n1 z dużej
populacji z proporcją sukcesów p1 i
inną, niezależną PPL o liczności n2 z
inną, niezależną PPL o liczności n2 z
innej populacji z proporcją sukcesów p2.
Przybliżenie przedziału ufności na
poziomie C dla p1 p2 to
((~ - p2)- z * SED,(~ - p2)+ z *SED)
p1 ~ ~ p1 ~ ~
Przedziały ufności dla
porównań proporcji
z2 z2
X1 + X1 + 2 X + X + 2
2
~ 2 2 2
p1 = H" ~2 = H"
p
n1 + z2 n1 + 4 n2 + z2 n2 + 4
CI =0.95 CI =0.95
~ ~ ~ ~
p1(1- p1) p2(1- p2)
~
SED = +
n1 + z2 n2 + z2
Tę metodę stosuje się, gdy obie liczności prób
wynoszą co najmniej 10 oraz gdy poziom ufności to
90%, 95%, lub 99%.
Testy istotności
Możemy zdefiniować hipotezę zerową
że proporcje obu populacji są równe.
ł
1 1
1
Ć Ć ł ł
( )ł 1 n2 ł
= p(1- p)ł n1 +
D
ł ł
ł łł
Przeciętną wartość p szacuje się z
ogólnej liczby sukcesów z obu prób.
X1 + X2
Ć
p =
n1 + n2
Przedziały ufności dla
porównań proporcji
Żeby zweryfikować hipotezę H0: p1 = p2
należy obliczyć statystykę
Ć Ć
p1 - p2
z =
SED
SED
p
gdzie standardowy błąd sumaryczny wynosi
ł
1 1
Ć Ć ł ł
SED = p(1- p)ł n1 +
p ł
n2 ł
ł łł
W kategoriach standardowej zmiennej losowej
Z, P-wartość dla testu H0 przeciw Ha: p1 > p2
P(Z e" z)
wynosi
Tablice kontyngencyjne
Wezmy przykład z zakresu immunologii.
Grupa 111 myszy została podzielona na
dwie podgrupy:
dwie podgrupy:
" 57 z nich otrzymało standardową dawkę
patogennych bakterii, następnie
antidotum,
" pozostałym 54 podano samą dawkę
bakterii.
Tablice kontyngencyjne
Po określonym czasie inkubacji choroby
stwierdzono 73 żywe myszy i 38 martwych
stwierdzono 73 żywe myszy i 38 martwych
- wśród tych było 13, które otrzymały
dodatkowo antidotum i 25, które nie
otrzymały.
Tablice kontyngencyjne
Interesuje nas zagadnienie czy
antidotum chroniło myszy przed
antidotum chroniło myszy przed
chorobą, przyczyniając się do większej
przeżywalności.
Tablice kontyngencyjne
Zebrane dane można wygodnie przedstawić
w formie tabeli dwudzielczej.
Tabele dwu- i wielodzielcze (z większą liczbą
Tabele dwu- i wielodzielcze (z większą liczbą
kryteriów) często nazywa się tabelami
kontyngencyjnymi.
Tabela, w której dwa kryteria podzielone są
na dwie klasy, nazywa się także tabelą 2x2.
Tablice kontyngencyjne
Martwe Żywe Ł
Bakterie i antidotum 13 44 57
Bakterie 25 29 54
Suma 38 73 111
Tablice kontyngencyjne
Wiersze, kolumny i komórki tabeli
opisujemy następująco:
opisujemy następująco:
a b a + b
c d c + d
a + c b + d n
Tablice kontyngencyjne
Martwe Żywe Ł
Bakterie i antidotum p1 = 0.22807 q1 = 0.77193 1.0
Bakterie i antidotum p1 = 0.22807 q1 = 0.77193 1.0
Bakterie p2 = 0.46296 q2 = 0.53704 1.0
a b
p1 = , q1 =
a b a + b
a + b a + b
c d c + d
c d
p2 = , q2 =
c + d c + d
a + c b + d n
Iloraz szans (Odds Ratio)
" Proporcja przeżywalności pod warunkiem
leczenia wynosi około 0.77; przy braku
leczenia wynosi około 0.77; przy braku
leczenia 0.54. Jak wyrazić różnicę?
" Moglibyśmy to zrobić poprzez zwykłą
różnicę arytmetyczną: 0.77-0.54=0.23 ale
to nie będzie reprezentacyjne jeśli nie
odniesiemy wyniku do proporcji.
Iloraz szans (OR)
Załóżmy, że różnica wynosiłaby 0.01. Jeśli
proporcja przeżywalności wynosiłaby tylko
0.02, wzrost o 0.01 byłby skokiem o 50%.
0.02, wzrost o 0.01 byłby skokiem o 50%.
Ale jeśli ta proporcja wynosiłaby 0.50,
wzrost byłby tylko dwuprocentowy.
Iloraz szans
Alternatywnym sposobem wyrażania różnic
w proporcjach jest iloraz szans.
Szansa na przeżycie myszy z antidotum
wynosi q1/p1, w naszym przypadku
0.77193/0.22807 = 3.38462.
Iloraz szans
Zatem mysz ma ponad trzy razy większą
szansę na przeżycie jeśli dostanie antidotum.
szansę na przeżycie jeśli dostanie antidotum.
Szansa przeżycia bez antidotum wynosi q2/p2,
czyli 0.53704/0.46296 = 1.16000. Oznacza to,
iż szansa na przeżycie takiej myszy wynosi
nieco więcej niż 1.
Iloraz szans OR
Iloraz szans jest dobrym sposobem na
zobrazowanie różnicy w wynikach. Iloraz
szans OR, obliczamy następująco:
szans OR, obliczamy następująco:
q1 / p1 3.38462
OR = = = 2.91778
q2 / p2 1.16000
Tak więc szansa na przeżycie po podaniu
antidotum jest prawie 3 razy większa niż bez
niego.
Iloraz szans (OR) versus
względne ryzyko (RR)
Iloraz szans jest najlepszą formą prezentacji
wyników dla modelu danych z tabeli 2x2.
W wielu dziedzinach, np. epidemiologii q1 i
q2 są zwykle małe. W takich przypadkach
p2/p1H"1.
Wartość q1/q2 nazywamy względnym
ryzykiem (RR) i jest ona przybliżeniem
ilorazu szans OR.
Transformacja logit
Transformacja logit - skaluje bardzo duże i
bardzo małe proporcje.
Logit to logarytm naturalny szans:
logit q = ln(q/p) = ln(q/(1-q)).
Zbadajmy różnicę dla dwóch proporcji:
q1 q2
logit q1 - logit q2 = ln - ln = lnOR
p1 p2
Transformacja logit
Iloraz szans jest łatwy do wyobrażenia,
ponieważ jest w "naturalnej" skali. Iloraz
szans np. 2.91778 mówi, że mysz ma tyle
szans np. 2.91778 mówi, że mysz ma tyle
razy większą szansę przeżycia, jeśli
zaaplikuje się jej antidotum.
Tracimy orientację, jeśli iloraz poddamy
przekształceniu logit. Jednak logit jest
funkcją gwarantującą, iż zmienna po
transformacji ma rozkład normalny.
Transformacja logit
Im większy logarytm ilorazu, tym większa
różnica proporcji. Gdy proporcje są równe,
iloraz szans jest równy 1, a logarytm 0.
iloraz szans jest równy 1, a logarytm 0.
Błąd standardowy log OR i
przedziały ufności
Dla dużych prób można skutecznie
oszacować błąd standardowy
logarytmu ilorazu szans (log OR) ze
logarytmu ilorazu szans (log OR) ze
wzoru:
1
2
1 1 1 1
ł ł
slnOR = + + +
ł ł
a b c d
ł łł
Dla danych z przykładu ta wartość wynosi 0.41729.
Błąd standardowy log OR i
przedziały ufności
Niektórzy autorzy stosują korektę ze względu
na nieciągłość statystyki poprzez dodawanie
do każdego mianownika. Po uwzględnieniu
do każdego mianownika. Po uwzględnieniu
korekty, wartość błędu jest nieznacznie
niższa: 0.41190.
Przedział ufności na poziomie 95% dla log OR
to
1.07082 ą 1.96*0.41190= (0.26350,1.87814)
Błąd standardowy log OR i
przedziały ufności
W skali ilorazu szans te wartości
odpowiadają liczbom 1.30147 i 6.54135.
Wniosek: antidotum w wyrazny sposób
zwiększa szansę przeżycia myszy.
Testowanie różnicy między
obserwowanym a założonym OR
Inne zastosowanie błędu standardowego
to testowanie hipotezy zerowej
to testowanie hipotezy zerowej
dotyczącej różnic między obserwowanym
ilorazem szans a ustalonym standardem.
Testowanie różnicy między
obserwowanym a założonym OR
Przypuśćmy, że weterynarz decyduje czy
zaszczepić populację myszy przeciwko chorobie
przez wstrzykiwanie antidotum, ale uznaje to za
przez wstrzykiwanie antidotum, ale uznaje to za
możliwe i warte wykonania dopiero wtedy, gdy
szansa na przeżycie myszy zaszczepionych jest 8
razy większa niż tych, które nie zaszczepiono.
Testowanie różnicy między
obserwowanym a założonym OR
Iloraz kwadratu różnicy i wariancji ma
rozkład jak chi-kwadrat z jednym stopniem
swobody. X0.05[1]=3.81
swobody. X =3.81
(lnOR - lnORst )2 = (1.07082 - ln 8)2 = 5.996
2
slnOR 0.411902
Odrzucamy zatem H0. Ponieważ iloraz szans
jest mniejszy niż 8, nie będzie szczepić
myszy.
Czynniki zaburzające
wnioskowanie - przykład
Dane pochodziły z programu badań
epidemiologicznych EURODIAB ACE
zrealizowanego na terenie Górnego Śląska w
zrealizowanego na terenie Górnego Śląska w
latach 1989-1996.
W ramach tego programu założono rejestr
wszystkich dzieci chorych na cukrzycę typu 1
na terenie Górnego Śląska.
Zebrane dane obejmowały 455 dzieci w
wieku 0-14 lat.
Materiał
Grupę kontrolną stanowiły wszystkie dzieci
urodzone w latach 1975-1996 na terenie
Górnego Śląska (950 766 dzieci).
Górnego Śląska (950 766 dzieci).
Dla każdego dziecka, zarówno z grupy dzieci
chorych na cukrzycę typu 1 jak z grupy
kontrolnej, rejestr danych zawierał między
innymi wagę urodzeniową, numer kolejny
dziecka w rodzinie oraz wiek matki i ojca w
momencie urodzenia dziecka.
Iloraz szans
Szanse i ilorazy szans oceniono na
podstawie obserwacji zdarzeń:
A / C
Z = 1 Z = 0
OR =
=
=
=
B / D
C = 1 A B
2
1 1 1 1
= + + +
= + + +
= + + +
= + + +
C = 0 C D
A B C D
Iloraz szans
Definiując czynnik ryzyka jako MA>35
otrzymujemy:
Czynnik ryzyka Chorzy Populacja
OR = 1.19
=
=
=
( 0.803, 1.773 )
MA>35 26 45 951
MAd"35 426 900 550
Mechanizm obciążenia
Dzieci urodzone w różnej kolejności w rodzinach są
narażone na zachorowanie na cukrzycę typu 1 w
różnym stopniu.
Liczba dzieci
OR Poziom
Zdefiniowana klasa
ą95% CI istotności
Chorzy Populacja
223 396 519 1.343
Dzieci pierworodne p = 0.0019
(49.01%) (41.71%) (1.1181.614)
165 350 864 0.973
Dzieci drugie w rodzinie p = 0.8149
(36.26%) (36.91%) (0.8041.178)
Dzieci trzecie i dalsze 67 203 301 0.635
p = 0.0007
w rodzinie (14.73%) (21.38%) (0.4900.823)
Ogółem 455 950 684 ł ł
Mechanizm obciążenia
Nieobciążona ocena
Numer dziecka w rodzinie
Test Mantel-
Czynnik Standard OR
Dzieci trzecie
jednorodności Haenszel OR
Pierworodni Drugie dzieci
i dalsze
1.193 2.604 2.793 0.6475
1.536
MA > 35 (0.8031.773) (1.1565.864) (1.5854.924) (0.2961.418) p = 0.0068
p = 0.0428
p = 0.4440 p = 0.0383 p = 0.0005 p = 0.3547
Zachorowalność na cukrzycę typu 1 zależy między innymi od
wieku matki w momencie narodzin dziecka.
Dzieci matek starszych mają większą szansę ujawnienia
choroby.
Wyszukiwarka