cw 2 podstawy biostatystyki seminarium z teorii

background image

Wydział Lekarski UM w Łodzi 2011/12

Prezentacja multimedialna zrealizowana w ramach projektów badawczych finansowanych ze środków Działań

1.3.1 oraz 1.2 Programu Operacyjnego Innowacyjna Gospodarka

Dr n med. Wojciech Fendler

background image

Świat wolny od ospy!


Świat (prawie) wolny od polio

background image
background image

Są pytania na które odpowiedź nie jest (lub

nie była) banalna:

Czy czyszczenie narzędzi chirurgicznych ma sens?

Czy chemioterapia nowotworów poprawia

przeżycie?

Czy lepiej leczyć cukrzycę intensywnie czy

konwencjonalnie?

background image

New England Journal of Medicine

329:977-986 September 30, 1993 14

The Effect of Intensive Treatment of Diabetes

on the Development and Progression of

Long-Term Complications in Insulin-

Dependent Diabetes Mellitus

The Diabetes Control and Complications Trial

Research Group (DCCT)

background image

Czas przeżycia?

Liczbę powikłań?

Liczbę powikłań na pacjenta?

Czas do wystąpienia powikłań?

Jakość życia?

Opłacalność?

Kontrola metaboliczna?

background image
background image
background image
background image

4/6 = 67%

background image

Wykorzystywane jest kilka rozkładów standardowych

Wykresy i wzory www.wikipedia.org

background image

Narysuj przy pomocy ołówka i kartki funkcję

gęstości prawdopodobieństwa rozkładu Chi

2

o 3 stopniach swobody wg poniższego

wzoru:

background image
background image

Występuje często w naturze

Zwykle dotyczy czynników modyfikowanych

przez bardzo wiele zmiennych losowych

Aparat Galtona – jak to działa i dlaczego?

background image

Średnia arytmetyczna


Średnia geometryczna


Średnia harmoniczna

background image

Średnia masa urodzeniowa noworodków

urodzonych o czasie wynosi 3445+456 g

+ zwykle oznacza odchylenie standardowe (SD)

„Ile średnio, każda wartość różni się od średniej”

background image

Średnia masa urodzeniowa noworodków wynosi 3445+/-423 g;

prawdopodobieństwo obserwacji oddalonej o n SD ( ) maleje

zgodnie z powyższym wykresem

background image
background image

CRP = 78*2*normal(x; 2,373; 3,7897)

0

2

4

6

8

10

12

14

16

18

20

22

24

CRP

0

10

20

30

40

50

60

N

o

o

f o

b

s

Rozkład log-normalny

– częsty dla

parametrów o niskim

zakresie normy i dużej

możliwości wzrostu

background image

Mediana

Wartość środkowa

W rozkładzie

normalnym

mediana równa

się średniej

background image

Standaryzują wartości
w danej grupie, poprzez
zmianę ich na rangi
ułożone rosnąco

Wykorzystywane do
oceny dynamiki procesu
wzrastania

Lokalizują obserwację
w ogóle populacji

background image

Wartość występująca najczęściej

Ocena 3 z anatomii prawidłowej

Anna, Agnieszka

Jan, Jakub

2 pisklęta bocianów

background image

Określa precyzję oszacowania

średniej



s – SD grupy

Wykorzystywany jako miara precyzji np. sondaży

- Ludzie prezesa tłumaczą nam, że sondaże tylko robią

widzom wodę z mózgu, więc lepiej ich nie pokazywać.

Taka jest oficjalna wykładnia zakazu - mówi dziennikarz TVP.

Gazeta Wyborcza 29 maj 2009

background image

Biologiczne uwarunkowania

Czynniki sprawcze

Istnieją miary opisujące grupy pozwalające dokonywać

porównań i wykluczać przypadkowość różnic

Sama obserwacja rozkładu informuje

o jednorodności grupy

MPV doba 1 = Distance Weighted Least Squares

1; 3%

0; 0%

1; 3%

6; 15%

4; 10%

3; 8%

2; 5%

5; 13%

7; 18%

9; 23%

1; 3%

0; 0%

6,0

6,5

7,0

7,5

8,0

8,5

9,0

9,5

10,0

10,5

11,0

11,5

12,0

MPV doba 1

0

1

2

3

4

5

6

7

8

9

10

Lic

zb

a p

ac

je

ntó

w

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

MMSE

0

20

40

60

80

100

120

Li

cz

ba

p

ac

je

nt

ów

background image

Jak opisać płeć?

Skale

Skala NYHA

CCS

Killip-Kimball

Apgar

VAS

Wskaźniki

CRIB

HOMA

M-index

background image

Odsetek mężczyzn wynosił 30% w grupie A,

a 35% w grupie B

Średnia temperatura ciała wynosiła 37,5

o

C+/-

1,2

o

C w pierwszej dobie i 39,3

o

C+/-1,2

o

C w

drugiej

Mediana punktacji w skali VAS w grupie

otrzymującej opioidy wynosiła 4 (25-75% 3-5

pkt.), a w grupie leczonej metamizolem 5

(25-75% 5-9).

background image

Wykorzystujemy:

Testy statystyczne weryfikujące hipotezy

Wnioskowanie oparte o teorię Bayesa

Wnioskowanie oparte o teorię informacji

Algorytmy oparte o techniki sztucznej inteligencji

background image

Istotność statystyczna oznacza, że uzyskanie

w sposób przypadkowy podawanej różnicy

jest mało prawdopodobne lub wręcz

niemożliwe

Wartość p (statystyki testowej) jest

prawdopodobieństwem uzyskania wartości

błędu typu 1 czyli wykazania w sposób

przypadkowy obserwowanej zależności

background image

Stan faktyczny

Decyzja

Choroba obecna

Brak choroby

Choroba obecna

-

Błąd typu 1

(Choroba źle

rozpoznana)

Brak choroby

Błąd typu 2 (nie

wykryto choroby)

-

Stan faktyczny

Decyzja

Winny

Niewinny

Winny

-

Błąd typu 1

(skazany

niewinny)

Niewinny

Błąd typu 2 (Nie

wykryto winy)

-

background image

Sytuacja w której odrzucamy hipotezę
zerową, podczas gdy tak naprawdę jest ona
prawdziwa

Różnica w skuteczności leczenia nie istnieje, a my
uznajemy że nie jest przypadkiem

Wydajemy wyrok bez podstaw

Widzimy odmienność grup, będącą przypadkiem

background image

Przyjęcie hipotezy zerowej, podczas gdy jest
ona fałszywa

Nie widzimy różnicy w skuteczności leczenia,
podczas gdy tak naprawdę ona istnieje

Nie wydajemy wyroku, podczas gdy mamy do tego
podstawy

Nie widzimy prawdziwej odmienności grup

background image

Typ 1

Wymusza fałszywe przekonanie

Narzuca zły wybór

Typ 2

Utrudnia wybór właściwej strategii

Spowalnia postęp


background image

Stan faktyczny

Decyzja

Choroba obecna

Brak choroby

Choroba obecna

-

Błąd typu 1

(Choroba źle

rozpoznana)

Brak choroby

Błąd typu 2 (nie

wykryto choroby)

-

Stan faktyczny

Decyzja

Winny

Niewinny

Winny

-

Błąd typu 1

(skazany

niewinny)

Niewinny

Błąd typu 2 (Nie

wykryto winy)

-

background image

Typu 1

Ślepy los

Zbyt mała grupa badana

Typu 2

Zbyt mała grupa badana

Zbyt ambitna hipoteza alternatywna

Zbyt wiele grup

background image

Właściwe wnioskowanie ale oparte o złe przesłanki

„W lutym śnieg i mróz stały, czynią w lecie upały.”

„Gdy dziecko upada, Bóg ręce podkłada”

Wykorzystanie złego testu prowadzącego jednak do

poprawnego wniosku

„Apples and Oranges”

Źle dobrana grupa kontrolna skutkująca złym

kierunkiem różnicy

Prawo Hardy’ego-Weinberga

background image

Zazwyczaj, hipotezy zerowe zakładają:

Równość w grupach badanych:

wartości średnich,

median,

proporcji,

czasu trwania,

skumulowanego prawdopodobieństwa zdarzenia w czasie

sumy rang

Zgodność z rozkładem oczekiwanym

background image

Test W Shapiro-Wilka

H0 testu – rozkład jest normalny

Test odrzuca założenie o normalności rozkładu na

podstawie małego prawdopodobieństwa uzyskania

obserwowanego rozkładu na drodze przypadku

background image

Ile wynosi modalna liczb: 1,1,1,2,2,2,3

Drugi kwartyl jest większy czy mniejszy od

mediany?

Dla rozkładu normalnego mediana, modalna

i średnia są:

Me ≤=≥ Mo ≤=≥ Śr?

Czy jeśli lek A wydłuża przeżycie względem

leku B z p=0,04 ile wynosi

prawdopodobieństwo, że jego efekt jest

korzystny?

background image
background image
background image
background image

Stan faktyczny

Decyzja

Choroba obecna

Brak choroby

Choroba obecna

-

Błąd typu 1

(Choroba źle

rozpoznana)

Brak choroby

Błąd typu 2 (nie

wykryto choroby)

-

Stan faktyczny

Decyzja

Winny

Niewinny

Winny

-

Błąd typu 1

(skazany

niewinny)

Niewinny

Błąd typu 2 (Nie

wykryto winy)

-

background image

Jak proszki do prania…

Rolą testu jest odrzucenie z możliwie
największym prawdopodobieństwem hipotezy
zerowej

Jednocześnie test musi być jak najbardziej
konserwatywny tzn. nie pozwalać na odrzucenie
hipotezy zerowej przy braku dostatecznie silnych
dowodów

background image

Wykryj

różnice gdzie

się da

Nie potwierdzaj

niczego czego

nie jesteś

pewien

Odrzucaj H0 tak

często jak to

możliwe

Nie odrzucaj H0 bez

bardzo silnych

dowodów

background image

Hipotezy zerowe zakładają zazwyczaj:

Równość w grupach badanych:

wartości średnich

median

proporcji

czasu trwania

skumulowanego prawdopodobieństwa

sumy rang

background image

Typy zmiennych

Ciągłe (stężenia/wskaźniki/ekspresja genów)

Temperatura ciała

Wskaźnik talia/biodra

Ekspresja VEGF w niedokrwionej siatkówce

Porządkowe (skale)

Skala Apgar

Skala VAS

Nominalne (kategorie)

Płeć

Grupa badana/kontrolna

Klasyfikacja TNM

background image

Conventional

Intensive

background image

Przykładowe pytanie - Czy grupie 1 stan A

występuje częściej niż w grupie 2?

H0 – częstość zdarzeń w obydwu grupach jest identyczna

Dwa wykluczające się stany

Kobieta/Mężczyzna;

H0 – w obu grupach jest tyle samo kobiet/mężczyzn

Choroba/zdrowie;

Dwie rozłączne grupy

Różne leczenie

Różna klasyfikacja choroby

Różny genotyp

FVII HH*

H6/H6

H6/H7

Grupa kontrolna

59

62

Grupa z zawałem 133

112

background image

Test Chi

2

Test Chi

2

z poprawką Yatesa

Oparte na rozkładzie Chi

2

jako rozkładzie

prawdopodobieństwa obserwacji

Wybór dyktowany liczebnością grupy i liczbą

stopni swobody

background image

Hipoteza zerowa zakłada równość

występowania stanów w porównywanych,

niezależnych grupach oraz częstości

oczekiwanej


Odrzucenie hipotezy zerowej oparte jest

o rozkład gęstości prawdopodobieństwa Chi

2

i liczbę stopni swobody

background image

Wykres rozkładu Chi

2

k – stopnie swobody

Wartość statystyki Chi

2

Prawdo

po

dobieńst

wo

background image

Uwiarygodnia wyniki testu Chi

2

w przypadku

małej liczebności grup badanych

Zwiększa konserwatywność testu Chi

2

Wykorzystywana w porównaniach tabel 2x2

gdy liczebność w

>

1 polu tabeli jest mała

(np. <15)

Może być zbyt konserwatywna i zawyżać p.

background image

W przypadku małych liczebności rozkład Chi

2

nie

odzwierciedla faktycznego prawdopodobieństwa
uzyskania danego rozkładu w sposób
nieprzypadkowy

Wymaga niezależności grup

(A do B a nie A1 do A2)

background image

Permutacyjny test weryfikujący dokładne
prawdopodobieństwo uzyskania rozkładu
obserwowanego spośród wszystkich możliwych
rozkładów wartości o tych samych wartościach
brzegowych tabeli

Wartość p testu Fishera odzwierciedla dokładne
prawdopodobieństwo nieprzypadkowości rozkładu
obserwowanego

Stosowany przy małych liczebnościach (zwykle <5)

background image

Bez majaczenia

Majaczenie

pooperacyjne

Razem

MMSE≥25

416

48

464

89,66%

10,34%

MMSE<25

55

44

99

55,56%

44,44%

Razem

471

92

563

Czy niższa sprawność umysłowa wg MMSE sprzyja wystąpieniu

majaczenia po zabiegu operacyjnym?

background image

Chi-

square

df

p

M-L Chi-

square

56,72161 df=1

p=,00000

Yates Chi-

square

66,92684 df=1

p=,00000

Ponad wszelką wątpliwość, niższa sprawność intelektualna

jest związana z częstszym wystąpieniem majaczenia po

zabiegu operacyjnym w badanej grupie

background image

Bez majaczenia

Majaczenie

% Stan

psychiczny w

normie

60,67%

39,33%

% Depresja

10,00%

90,00%

Chi-square

df

p

Pearson Chi-

square

9,349382

df=1

p=,00223

Yates Chi-

square

7,409705

df=1

p=,00649

Dwustronny

test Fishera

p=,00454

background image

Bez majaczenia

Majaczenie

Razem

Stan psychiczny w

normie

54

35

89

%

60,67%

39,33%

Depresja

1

9

10

%

10,00%

90,00%

Razem

55

44

99

Chi-square

df

p

Pearson Chi-

square

9,349382

df=1

p=,00223

Yates Chi-

square

7,409705

df=1

p=,00649

Dwustronny

test Fishera

p=,00454

background image

Pomimo większych różnic % w drugim przypadku
istotność statystyczna jest niższa

Sama wartość p nie determinuje ważności wyniku!

Ważniejsza jest precyzja oszacowania
i wiarygodność wyniku („uogólnialność”)

Znaczenie istotnego wyniku ocenia badacz,
recenzent i czytelnik

background image

Kryteriami decydującymi o doborze testu są:

Rozkład wartości

Układ porównania

A do B (porównanie niezależne)

A1 do A2 (pary zależne)

Zmienna 1 do zmiennej 2 w grupie A (korelacja)

Liczba grup

Dwie grupy

Więcej niż dwie

background image
background image

Porównuje w układzie dwóch równoległych

grup, z jakim prawdopodobieństwem średnie

w tych grupach są równe (H0: 1= 2)


Wymaga:

Normalności rozkładu (lub bliskiej normalności)

Jednorodności wariancji w obu grupach

background image

Normalność rozkładu – test zakłada

prawdopodobieństwa nałożenia na siebie

dwóch rozkładów prawdopodobieństwa

Jednorodność wariancji –

brak różnic

„szerokości” rozrzutu w analizowanych grupach

Mean
Mean±SD

1

2

0

20

40

60

80

100

120

140

160

180

200

1

2

0

20

40

60

80

100

120

140

background image

Transformacje zmiennych – np.:

Log10(x), Ln(x)

X

2

1/x

Transformacja Boxa-Coxa

Wykorzystanie wariantów testu t-studenta z niezależną
estymacją wariancji (test Welcha)

Weryfikacja jednorodności grup

(być może nasz podział

nie odpowiada faktycznej strukturze zbioru danych)

Wykorzystanie innego testu

background image

Hipoteza zerowa zakłada równość wartości zmiennej przed
i po są takie same – brak zmian wartości w czasie



Kierunek różnic w obrębie przypadków jest ważniejszy niż
faktyczna wartość różnicy pomiędzy średnimi w obu
grupach

Lepiej żeby w grupie badanej liczącej 10 osób wszyscy uzyskali 10%
teoretycznej korzyści niż jedna osoba 100% a 9 pozostałych 0%,
pomimo tego, że średni zysk wynosi w obydwu grupach 10%

background image

Porównanie

w parach

zależnych

wykazuje

silniejsze różnice

niż wynikałoby to

tylko z różnicy

średnich

background image
background image

Korelacja jest terminem opisującym

wzajemną zależność między dwiema

zmiennymi ciągłymi



Korelacja Pearsona daje jako wynik wartość

współczynnika korelacji r (od -1 do 1) oraz

istotność statystyczną p (im mniej tym lepiej)

Parametry te mają różną interpretację!

background image

p<0,05

p>0,05

r<-0,4

Silna, ujemna, istotna

statystycznie

Silna, ujemna,

nieistotna

statystycznie

-0,4<r<-0,1

Słaba, ujemna,

istotna statystycznie

Słaba, ujemna,

nieistotna

statystycznie

-0,1<r<0,1

Brak korelacji

0,1<r<0,4

Słaba, dodatnia,

istotna statystycznie

Słaba, dodatnia,

nieistotna

statystycznie

r>0,4

Silna, dodatnia,

istotna statystycznie

Silna, dodatnia,

nieistotna

statystycznie

background image

0

2

4

6

8

10

12

14

16

18

Czas trwania cukrzy cy

5

6

7

8

9

10

11

12

F

ilt

ere

d

b

ez

s

k

raj

ny

c

h

5%

95% conf idence

R=0,16 p<0,0001

background image

0

10

20

30

40

50

60

70

Czas mieszania

0

1

2

3

4

5

6

7

8

9

S

ło

dk

ć

he

rb

at

y

r=0,56 p=0,24

0

10

20

30

40

50

60

70

Czas mieszania

0

1

2

3

4

5

6

7

8

9

S

ło

dk

ć

he

rb

at

y

95% confidence

r=0,97 p<0,001

Obserwacja

odstająca (outlier)

psuje korelację!

background image

100

150

200

250

300

350

400

450

500

550

Objętość kubka

0

10

20

30

40

50

60

70

C

e

n

a

95% confidence

100

150

200

250

300

350

400

450

500

550

Objętość kubka

0

10

20

30

40

50

60

70

C

e

n

a

95% confidence

p=0,72; r=0,14

p<0,001; r=0,91

Odrzucenie obserwacji odstających wymaga zawsze:

1. Uzasadnienia matematycznego (zwykle wartość >średnia+/-3 SD)

2. Powodu biologicznego (specyficzny fenotyp choroby (np.

wczesny/rodzinny/obustronny rak piersi w badaniu nad rakiem piersi w populacji

ogólnej), niedotrzymanie protokołu itp.)

background image

Nie wnoszą zbyt dużo informacji

Korelacja pomiędzy liczbą piramid na km

2

a średnią

roczną temperaturą

Wrażliwe na obserwacje odstające (wynikające

z nieprawidłowego rozkładu lub wariancji)

Korelacja na małej liczbie obserwacji ma duże

szanse bycia przypadkową

background image

prawie jak…

background image
background image

Weryfikuje hipotezę o równości sum rang
w porównywanych grupach

Przeprowadzany poprzez zliczenie i porównanie
liczby obserwacji z drugiej grupy o niższej
randze

Dla większych grup można wykorzystać
aproksymację do rozkładu normalnego co wydaje
się zwiększać moc testu

background image

Wartość

Ranga

Grupa

10

7

1

15

5

2

16

4

2

135

1

1

12

6

2

14

2

1

P=0.63

background image

Nie bierze pod uwagę faktycznych wartości ale rangi

Jest odporny na obserwacje odstające, ale

Nie podaje informacji o faktycznej różnicy pomiędzy grupami
(wiemy że jest więcej, ale nie wiemy o ile dokładnie)

Można porównać zmienne dyskretne o różnym skoku
skali

Posiada 95% mocy testu t-Studenta dla grup
o rozkładzie normalnym przy większej
konserwatywności (bardziej ostrożny/wiarygodny)

background image

Odpowiednik testu t-Studenta dla par
zależnych

Porównuje liczbę dodatnich i ujemnych zmian
rang w parach zależnych

Hipoteza zerowa zakłada brak różnic znaku
zmian rang (zmiany dodatnie i ujemne się
znoszą lub nie ma żadnych zmian)

background image

Ranga

przed

Ranga

po

1

2

3

4

6

5

7

14

8

10

9

11

12

13

Porównywane są zmiana rangi i kierunek zmiany - najniższa

wartość przed nadal jest najniższa po, ale jest niższa niż

w punkcie początkowym

background image

Ignoruje założenie o normalności rozkładu

Nie wymaga ciągłości zmiennej (można

porównać zmienne dyskretne o różnym

skoku skali)

Jest bardziej konserwatywny niż test

t-studenta dla par zależnych

Nie daje precyzyjnej informacji o wartościach

różnic

Ma mniejszą moc niż test t-studenta dla par

zależnych

background image

Czy w populacji polskiej średnia

długość trwania życia koreluje

dodatnio z płcią?

background image

Jeśli nie da się znormalizować rozkładu
zmiennych

Jeśli chcemy skorelować zmienne porządkowe

Porównujemy zmienne porządkowe lub ciągłe
po transformacji na rangi

Test sprawdza czy jest zgodność w hierarchii rang
obydwu zmiennych (najwyższy jest najcięższy,
najniższy/najlżejszy)

background image

Niezależne od rozkładu

Działa na zmiennych porządkowych

Słabsze wyniki niż r Pearsona przy

zachowaniu założeń normalności, ale…

0

2

4

6

8

10

12

14

16

18

Duration of diabetes [years]

4

6

8

10

12

14

16

18

H

b

A

1

c

[

%

]

95% confidence

Pearson
r=0,16
p<0,0001

Spearman
r=0,22
p<0,0001

background image

Dziękuję za uwagę


Wyszukiwarka

Podobne podstrony:
Cw Podstawowe funktory logiczne, przerzutniki asynchroniczne RS i przerzutniki synchroniczne D, T
Cw Podstawowe funktory logiczne, przerzutniki asynchroniczne RS i przerzutniki synchroniczne D, T
Podstawy Biostatystyki
Teoretyczne podstawy wychowania, wyklady z teorii wych, Wykład 3: Teoria jako narzędzie poznawania r
PFWRE notatki cw, Podstawy funkcjonowania wspólnego rynku europejskiego, Podstawy funkcjonowania wsp
Cw 6 Podstawowe funktory logiczne
pgp Ćw. 3 w p, Podstawy gospodarki przestrzennej
Ćw. zarządzanie 2 zjazd, 2 semestr, ćw. podstawy zarządzania
Imm Cw 5 Podstawy immunohematologii
Ćw, podstawowe pojecia- materiały dla studentów
pgp Ćw. 1 w p, Podstawy gospodarki przestrzennej
Sylabus- cw. podstawy rekreacji, Turystyka i Rekreacja UEK, I rok, podstawy rekreacji
ćw-podstawy marketingu Towaroznawstwo, Studia, Towaroznawstwo, rośliny
seminarium nr 2, Studia - Politechnika Śląska, Zarządzanie, I STOPIEŃ, Podstawy zarządzania, Seminar

więcej podobnych podstron