wyklad 7 Wnioskowanie o proporcjach PL

background image

Wykład 7: Wnioskowanie o

proporcjach

Biometria i

Biostatystyka

background image

Test dla proporcji

W badaniach statystycznych często

analizie poddawane są liczby

wystąpień jakiejś cechy.

Musimy wówczas stosować

narzędzia dostosowane do takiego

charakteru informacji.

Nie mają tutaj zastosowania

poznane dotychczas testy

parametryczne np. test t Studenta.

background image

Test dla proporcji

Wnioskowanie dla prostej

proporcji

Chcemy oszacować proporcję p

jakiejś charakterystyki

Przeprowadzamy PPL o liczności n z

populacji i otrzymujemy liczbę X

sukcesów

Proporcję sukcesów próby estymuje

nieznany parametr populacji

background image

Estymatory punktowe

Szansa na to, iż ocena częstości/proporcji z

próby będzie taka sama jak nieznana

częstość w populacji jest niezwykle mała.

Dlatego powinno się zawsze wyznaczyć

przedział ufności gdy oceniamy częstość w

populacji.

Ocena przedziałowa niesie z sobą istotnie

więcej informacji niż ocena punktowa, gdyż

podaje rozsądne ograniczenie zakresu dla

oceny częstości.

background image

Estymatory punktowe

Najczęściej stosuje się jedną z czterech

podanych poniżej metod oceny proporcji w

populacji na podstawie proporcji w próbie:

MLE (x / n)

Laplace (x+1)/(n+2)

Wilson (x+z

2

/2)/(n+z

2

)

Jeffreys (x+0.5)/(n+1)

background image

Estymator Największej
Wiarygodności (NW)

Estymator największej wiarygodności
to proporcja z próby, liczba
obserwowanych „sukcesów”
odniesiona do liczności próby.
Najlepiej jest ją stosować gdy
0.5<p<0.9.

Jest to najczęściej stosowany
estymator.

n

X

p

ˆ

background image

Estymator Laplace’a

Znany w literaturze przykład
problemu o dużej liczności pochodzi z
pracy semestralnej Laplace’a z
wczesnych lat 1800.

Sformułował on pytanie jak pewnym
być można, że słońce wzejdzie jutro,
wiedząc iż wschodziło każdego dnia
przez ostatnie 500 lat (1 825 000 dni).

background image

Estymator Laplace’a

Można być tego bardzo pewnym, ale nie
mamy absolutnej pewności. Słońce może
eksplodować, albo olbrzymi asteroid może
uderzyć w Ziemię i rozbić ją w drobny mak.

W odpowiedzi na to pytanie, zaproponował
Laplace Law of Succession, które mówi, iż
należy dodać 1 do licznika a 2 do
mianownika ((x+1)/(n+2)) – należy je
stosować gdy p>0.9.

background image

Estymator Laplace’a

Stosując tę procedurę
otrzymujemy 99.999945%
pewności, że słońce wzejdzie jutro
- blisko 100% granicy, ale jednak
mniej.

2

n

1

X

p

ˆ

background image

Estymator Laplace’a

Wpływ czynnika korygującego jest
większy gdy liczności próby są małe.

Przykładowo, gdy obserwujemy dwa
„sukcesy” na dwie próby i stosujemy
algorytm Laplace’a, to uzyskana
estymata p wynosi 75% (x+1=3,
n+2=4, p=3/4) zamiast 100%.

background image

Estymator Laplace’a

Jeśli obserwujemy dwie „porażki”,
wtedy nasza estymata p jest równa
25% (x+1=1, n+2=4, p=1/4) a nie
0%.

Podsumowując, Laplace mówi, że
następny wynik jest jak rzut monetą
więc trzeba każdej możliwości dać
równą szansę wystąpienia.

background image

Estymator Wilsona

Estymator Wilsona definiuje środek najczęściej
stosowanego w praktyce przedziału ufności
dla proporcji, zwanego przedziałem Walda.

Jego wartość, dla zadanego poziomu alfa,
znajduje się jako:
gdzie z to wartość krytyczna
dla zadanego poziomu alfa.

Zalecany gdy p≤0.5

2

2

z

z

n

X

p

ˆ

2

background image

Estymator Jeffreysa

Jeffreys (1961) zaproponował
kompromis pomiędzy metodą
Laplace’a a metodą największej
wiarygodności.

Najlepiej stosować gdy p>0.9

1

n

5

.

0

X

p

ˆ

background image

Test dla proporcji

W dużych próbach zarówno liczba
sukcesów X jak i proporcja próby
mają w przybliżeniu rozkład
normalny.

Procedury wnioskowania są oparte
na przybliżeniach do rozkładu
normalnego

background image

Przedział ufności dla
proporcji prostej

Weźmy PPL o liczności n z dużej populacji z

proporcją p sukcesów (nP≥5, nQ≥5).

Niech X to liczba zliczeń sukcesów w próbie.

Dla dużych prób funkcje gęstości

prawdopodobieństwa tych statystyk są w

przybliżeniu normalne:

X ma w przybliżeniu rozkład N(np, )

ma w przybliżeniu rozkład N(p, )

p

np

1

n

p

p

1

pˆ

n

X

p

ˆ

background image

Przedział ufności dla
proporcji w populacji

Weźmy PPL o liczności n z dużej
populacji z nieznaną proporcją
sukcesów p.

Estymata Wilsona proporcji
populacji wynosi dla 95%CI

Błąd standardowy wynosi

4

2

~

n

X

p

4

~

1

~

~

n

p

p

SE

p

bo z

kryt

=1.96≈2

background image

Przedział ufności dla
proporcji w populacji

Przybliżenie przedziału ufności na poziomie

C to

gdzie z

kryt

to wartość, dla której pole pod

standardowa krzywą normalną z przedziału

-z

kryt

do z

kryt

jest równe C.

Taki przedział ufności stosuje się dla prób o

liczności co najmniej n=5 i poziomie ufności

90%, 95%, lub 99%.

p

~

kryt

p

~

kryt

SE

z

p

~

,

SE

z

p

~

background image

193990

.

0

4

n

2

X

p

~

17100

n

3316

X

003024

.

0

17104

156358

.

0

17104

806010

.

0

*

193990

.

0

4

n

p

~

1

p

~

SE

p

~

)

199917

.

0

,

188063

.

0

(

003024

.

0

*

96

.

1

193990

.

0

,

003024

.

0

*

96

.

1

193990

.

0

SE

*

z

p

~

,

SE

*

z

p

~

p

~

p

~

95% CI

Przedział ufności dla
proporcji populacji

background image

Testy istotności dla
proporcji populacji

Weźmy PPL o liczności n z dużej populacji z

nieznaną proporcją sukcesów p. Żeby

zweryfikować hipotezę H

0

: p = p

0

, obliczamy

wartość statystyki z

Odnosząc to do standardowej normalnej

zmiennej losowej Z, przybliżona P-wartość dla

testu H

0

przeciw H

a

: p > p

0

wynosi

n

p

p

p

p

z

0

0

0

1

ˆ

z

Z

P

n

X

p

ˆ

background image

Testy istotności dla
proporcji populacji

Korekta ze względu na nieciągłość.

Należy stosować tylko wtedy gdy

poprawka jest mniejsza niż różnica

p-p

0

n

p

1

p

p

p

ˆ

z

0

0

n

2

1

0

background image

background image

background image

Porównywanie dwóch
proporcji

Pojęcia

Populacja

Proporcja populacji

Liczność próby

Liczba sukcesów

Proporcja próby

2

1

ˆ

ˆ

p

p

D

background image

Przedziały ufności dla
porównań proporcji

Weźmy PPL o liczności n

1

z dużej

populacji z proporcją sukcesów p

1

i

inną, niezależną PPL o liczności n

2

z innej populacji z proporcją
sukcesów p

2

. Przybliżenie

przedziału ufności na poziomie C
dla p

1

– p

2

to

D

D

SE

z

p

p

SE

z

p

p

~

2

1

~

2

1

*

~

~

,

*

~

~

background image

Przedziały ufności dla
porównań proporcji

Tą metodę stosuje się, gdy obie liczności
prób wynoszą co najmniej 10 oraz gdy
poziom ufności to 90%, 95%, lub 99%.

2

2

2

z

2

2

2

1

2

z

1

1

z

n

X

p

~

z

n

X

p

~

2

2

2

2

2

2

2

1

1

1

D

~

z

n

p

~

1

p

~

z

n

p

~

1

p

~

SE

background image

background image

Testy istotności

Możemy zdefiniować hipotezę
zerową że proporcje obu populacji
są równe.

Przeciętną wartość p szacuje się z
ogólnej liczby sukcesów z obu prób.





2

1

1

1

1

n

n

p

p

D

2

1

2

1

ˆ

n

n

X

X

p

background image

Przedziały ufności dla
porównań proporcji

Żeby zweryfikować hipotezę H

0

: p

1

= p

2

należy

obliczyć statystykę

gdzie standardowy błąd sumaryczny wynosi

W kategoriach standardowej zmiennej losowej Z,

P-wartość dla testu H

0

przeciw H

a

: p

1

> p

2

wynosi

p

D

SE

p

p

z

2

1

ˆ

ˆ 





2

1

1

1

ˆ

1

ˆ

n

n

p

p

SE

p

D

z

Z

P

background image

background image

Tablice kontyngencyjne

Weźmy przykład z zakresu
immunologii.

Grupa 111 myszy została podzielona
na dwie podgrupy:

•57 z nich otrzymało standardową
dawkę patogennych bakterii,
następnie antidotum,

•pozostałym 54 podano samą dawkę
bakterii.

background image

Tablice kontyngencyjne

Po określonym czasie inkubacji
choroby stwierdzono 73 żywe myszy i
38 martwych - wśród tych było 13,
które otrzymały dodatkowo antidotum
i 25, które nie otrzymały.

background image

Tablice kontyngencyjne

Interesuje nas zagadnienie czy
antidotum chroniło myszy przed
chorobą, przyczyniając się do
większej przeżywalności.

background image

Tablice kontyngencyjne

Zebrane dane można wygodnie
przedstawić w formie tabeli
dwudzielczej.

Tabele dwu- i wielodzielcze (z większą
liczbą kryteriów) często nazywa się

tabelami kontyngencyjnymi

.

Tabela, w której dwa kryteria
podzielone są na dwie klasy, nazywa
się także tabelą 2x2.

background image

Tablice kontyngencyjne

Martw

e

Żywe

Σ

Bakterie i antidotum

13

44

57

Bakterie

25

29

54

Suma

38

73

111

background image

Tablice kontyngencyjne

Wiersze, kolumny i komórki
tabeli opisujemy następująco:

a

b

a + b

c

d

c + d

a + c b + d

n

background image

Tablice kontyngencyjne

Martwe

Żywe

Σ

Bakterie i antidotum

p

1

= 0.22807

q

1

=

0.77193

1.0

Bakterie

p

2

= 0.46296

q

2

=

0.53704

1.0

b

a

b

q

b

a

a

p

1

1

,

d

c

d

q

d

c

c

p

2

2

,

a

b

a + b

c

d

c + d

a +

c

b +

d

n

background image

Iloraz szans (Odds Ratio)

• Proporcja przeżywalności pod
warunkiem leczenia wynosi około
0.77; przy braku leczenia 0.54. Jak
wyrazić różnicę?

• Moglibyśmy to zrobić poprzez zwykłą
różnicę arytmetyczną: 0.77-0.54=0.23
ale to nie będzie reprezentacyjne jeśli
nie odniesiemy wyniku do proporcji.

background image

Iloraz szans (OR)

Załóżmy, że różnica wynosiłaby 0.01.
Jeśli proporcja przeżywalności
wynosiłaby tylko 0.02, wzrost o 0.01
byłby skokiem o 50%. Ale jeśli ta
proporcja wynosiłaby 0.50, wzrost
byłby tylko dwuprocentowy.

background image

Iloraz szans

Alternatywnym sposobem wyrażania
różnic w proporcjach jest

iloraz szans

.

Szansa

na przeżycie myszy z

antidotum wynosi

q

1

/p

1

, w naszym

przypadku 0.77193/0.22807 =
3.38462.

background image

Iloraz szans

Zatem mysz ma ponad trzy razy większą
szansę na przeżycie jeśli dostanie
antidotum.

Szansa przeżycia bez antidotum wynosi
q

2

/p

2

, czyli 0.53704/0.46296 = 1.16000.

Oznacza to, iż szansa na przeżycie takiej
myszy wynosi nieco więcej niż 1.

background image

Iloraz szans jest dobrym sposobem na
zobrazowanie różnicy w wynikach.
Iloraz szans OR, obliczamy
następująco:

Tak więc szansa na przeżycie po
podaniu antidotum jest prawie 3 razy
większa niż bez niego.

Iloraz szans OR

91778

.

2

16000

.

1

38462

.

3

p

/

q

p

/

q

OR

2

2

1

1

background image

Iloraz szans jest najlepszą formą
prezentacji wyników dla modelu
danych z tabeli 2x2.

W wielu dziedzinach, np. epidemiologii
q

1

i q

2

są zwykle małe. W takich

przypadkach p

2

/p

1

≈1.

Wartość q

1

/q

2

nazywamy

względnym

ryzykiem

(RR) i jest ona przybliżeniem

ilorazu szans OR.

Iloraz szans (OR) versus
względne ryzyko (RR)

background image

Transformacja logit

Transformacja

logit

- skaluje bardzo

duże i bardzo małe proporcje.

Logit to logarytm naturalny szans:

logit q = ln(q/p) = ln(q/(1-q)).

Zbadajmy różnicę dla dwóch proporcji:

OR

ln

p

q

ln

p

q

ln

q

logit

q

logit

2

2

1

1

2

1

background image

Transformacja logit

Iloraz szans jest łatwy do
wyobrażenia, ponieważ jest w
"naturalnej" skali. Iloraz szans np.
2.91778 mówi, że mysz ma tyle razy
większą szansę przeżycia, jeśli
zaaplikuje się jej antidotum.

Tracimy orientację, jeśli iloraz
poddamy przekształceniu logit. Jednak
logit jest funkcją gwarantującą, iż
zmienna po transformacji ma rozkład
normalny.

background image

Transformacja logit

Im większy logarytm ilorazu, tym
większa różnica proporcji. Gdy
proporcje są równe, iloraz szans jest
równy 1, a logarytm 0.

background image

Błąd standardowy log OR i
przedziały ufności

Dla dużych prób można skutecznie
oszacować błąd standardowy
logarytmu ilorazu szans (log OR)
ze wzoru:

2

1

OR

ln

d

1

c

1

b

1

a

1

s

Dla danych z przykładu ta wartość wynosi 0.41729.

background image

Błąd standardowy log OR i
przedziały ufności

Niektórzy autorzy stosują korektę ze
względu na nieciągłość statystyki
poprzez dodawanie ½ do każdego
mianownika. Po uwzględnieniu korekty,
wartość błędu jest nieznacznie niższa:
0.41190.
Przedział ufności na poziomie 95% dla

log OR to
1.07082 ± 1.96*0.41190=

(0.26350,1.87814)

background image

Błąd standardowy log OR i
przedziały ufności

W skali ilorazu szans te wartości
odpowiadają liczbom 1.30147 i
6.54135.

Wniosek:

antidotum w wyraźny sposób

zwiększa szansę przeżycia myszy.

background image

Test na różnice między
obserwowanym a założonym
OR

Inne zastosowanie błędu
standardowego to testowanie
hipotezy zerowej dotyczącej różnic
między obserwowanym ilorazem
szans a ustalonym standardem.

background image

Test na różnice między
obserwowanym a założonym
OR

Przypuśćmy, że weterynarz decyduje czy
zaszczepić populację myszy przeciwko
chorobie przez wstrzykiwanie antidotum,
ale uznaje to za możliwe i warte wykonania
dopiero wtedy, gdy szansa na przeżycie
myszy zaszczepionych jest 8 razy większa
niż tych, które nie zaszczepiono.

background image

Test na różnice między
obserwowanym a założonym
OR

Iloraz kwadratu różnicy i wariancji ma
rozkład jak chi-kwadrat z jednym
stopniem swobody. X

0.05[1]

=3.81

Odrzucamy zatem H

0

. Ponieważ iloraz

szans jest mniejszy niż 8, nie będzie
szczepić myszy.

996

.

5

41190

.

0

8

ln

07082

.

1

s

OR

ln

OR

ln

2

2

2

OR

ln

2

st

background image

Czynniki zaburzające
wnioskowanie - przykład

Dane pochodziły z programu badań
epidemiologicznych EURODIAB ACE
zrealizowanego na terenie Górnego Śląska w
latach 1989-1996.

W ramach tego programu założono rejestr
wszystkich dzieci chorych na cukrzycę typu 1
na terenie Górnego Śląska.

Zebrane dane obejmowały 455 dzieci w
wieku 0-14 lat.

background image

Materiał

Grupę kontrolną stanowiły wszystkie dzieci
urodzone w latach 1975-1996 na terenie
Górnego Śląska (950 766 dzieci).

Dla każdego dziecka, zarówno z grupy dzieci
chorych na cukrzycę typu 1 jak z grupy
kontrolnej, rejestr danych zawierał między
innymi wagę urodzeniową, numer kolejny
dziecka w rodzinie oraz wiek matki i ojca w
momencie urodzenia dziecka.

background image

Iloraz szans

Szanse i ilorazy szans oceniono na

podstawie obserwacji zdarzeń:

Z = 1 Z = 0

C = 1

A

B

C = 0

C

D

D

/

B

C

/

A

OR

D

1

C

1

B

1

A

1

2

background image

Iloraz szans

Definiując czynnik ryzyka jako
MA>35 otrzymujemy:

19

.

1

OR

)

773

.

1

,

803

.

0

(

Czynnik

ryzyka

Chorz

y

Populacj

a

MA>35

26

45 951

MA≤35

426

900 550

background image

Mechanizm obciążenia

Zdefiniowana klasa

Liczba dzieci

OR

±95% CI

Poziom

istotności

Chorzy

Populacja

Dzieci pierworodne

223

(49.01%)

396 519

(41.71%)

1.343

(1.118÷1.614)

p = 0.0019

Dzieci drugie w

rodzinie

165

(36.26%)

350 864

(36.91%)

0.973

(0.804÷1.178)

p = 0.8149

Dzieci trzecie i

dalsze w rodzinie

67

(14.73%)

203 301

(21.38%)

0.635

(0.490÷0.823)

p = 0.0007

Ogółem

455

950 684

Dzieci urodzone w różnej kolejności w
rodzinach są narażone na zachorowanie na
cukrzycę typu 1 w różnym stopniu.

background image

Mechanizm obciążenia

background image

Nieobciążona ocena

Zachorowalność na cukrzycę typu 1 zależy między
innymi od wieku matki w momencie narodzin
dziecka.
Dzieci matek starszych mają większą szansę
ujawnienia choroby.

Czynni

k

Standard

OR

Numer dziecka w rodzinie

Test

jednorodno

ści

Mantel-

Haenszel

OR

Pierworod

ni

Drugie

dzieci

Dzieci

trzecie

i dalsze

MA >

35

1.193

(0.803÷1.7

73)

p = 0.4440

2.604

(1.156÷5.8

64)

p = 0.0383

2.793

(1.585÷4.9

24)

p = 0.0005

0.6475

(0.296÷1.41

8)

p = 0.3547

p = 0.0068

1.536

p = 0.0428


Document Outline


Wyszukiwarka

Podobne podstrony:
Wyklad 9 Wnioskowanie o proporcjach
wyklad 2 Prezentacja danych PL
Wykład X fizjo antastic pl
Wykład III antastic pl
wyklad 5 Testy parametryczne PL
Wyklad 1 www 1 [1] file4u pl

więcej podobnych podstron