Wydział Lekarski UM w Łodzi 2011/12
Prezentacja multimedialna zrealizowana w ramach projektów badawczych finansowanych ze środków Działań
1.3.1 oraz 1.2 Programu Operacyjnego Innowacyjna Gospodarka
Dr n med. Wojciech Fendler
Świat wolny od ospy!
Świat (prawie) wolny od polio
Są pytania na które odpowiedź nie jest (lub
nie była) banalna:
◦
Czy czyszczenie narzędzi chirurgicznych ma sens?
◦
Czy chemioterapia nowotworów poprawia
przeżycie?
◦
Czy lepiej leczyć cukrzycę intensywnie czy
konwencjonalnie?
New England Journal of Medicine
329:977-986 September 30, 1993 14
The Effect of Intensive Treatment of Diabetes
on the Development and Progression of
Long-Term Complications in Insulin-
Dependent Diabetes Mellitus
The Diabetes Control and Complications Trial
Research Group (DCCT)
Czas przeżycia?
Liczbę powikłań?
Liczbę powikłań na pacjenta?
Czas do wystąpienia powikłań?
Jakość życia?
Opłacalność?
Kontrola metaboliczna?
4/6 = 67%
Wykorzystywane jest kilka rozkładów standardowych
Wykresy i wzory www.wikipedia.org
Narysuj przy pomocy ołówka i kartki funkcję
gęstości prawdopodobieństwa rozkładu Chi
2
o 3 stopniach swobody wg poniższego
wzoru:
Występuje często w naturze
Zwykle dotyczy czynników modyfikowanych
przez bardzo wiele zmiennych losowych
Aparat Galtona – jak to działa i dlaczego?
Średnia arytmetyczna
Średnia geometryczna
Średnia harmoniczna
Średnia masa urodzeniowa noworodków
urodzonych o czasie wynosi 3445+456 g
◦
+ zwykle oznacza odchylenie standardowe (SD)
◦
„Ile średnio, każda wartość różni się od średniej”
Średnia masa urodzeniowa noworodków wynosi 3445+/-423 g;
prawdopodobieństwo obserwacji oddalonej o n SD ( ) maleje
zgodnie z powyższym wykresem
CRP = 78*2*normal(x; 2,373; 3,7897)
0
2
4
6
8
10
12
14
16
18
20
22
24
CRP
0
10
20
30
40
50
60
N
o
o
f o
b
s
Rozkład log-normalny
– częsty dla
parametrów o niskim
zakresie normy i dużej
możliwości wzrostu
Mediana
◦
Wartość środkowa
W rozkładzie
normalnym
mediana równa
się średniej
Standaryzują wartości
w danej grupie, poprzez
zmianę ich na rangi
ułożone rosnąco
Wykorzystywane do
oceny dynamiki procesu
wzrastania
Lokalizują obserwację
w ogóle populacji
Wartość występująca najczęściej
◦
Ocena 3 z anatomii prawidłowej
◦
Anna, Agnieszka
◦
Jan, Jakub
◦
2 pisklęta bocianów
Określa precyzję oszacowania
średniej
s – SD grupy
Wykorzystywany jako miara precyzji np. sondaży
- Ludzie prezesa tłumaczą nam, że sondaże tylko robią
widzom wodę z mózgu, więc lepiej ich nie pokazywać.
Taka jest oficjalna wykładnia zakazu - mówi dziennikarz TVP.
Gazeta Wyborcza 29 maj 2009
Biologiczne uwarunkowania
Czynniki sprawcze
Istnieją miary opisujące grupy pozwalające dokonywać
porównań i wykluczać przypadkowość różnic
Sama obserwacja rozkładu informuje
o jednorodności grupy
MPV doba 1 = Distance Weighted Least Squares
1; 3%
0; 0%
1; 3%
6; 15%
4; 10%
3; 8%
2; 5%
5; 13%
7; 18%
9; 23%
1; 3%
0; 0%
6,0
6,5
7,0
7,5
8,0
8,5
9,0
9,5
10,0
10,5
11,0
11,5
12,0
MPV doba 1
0
1
2
3
4
5
6
7
8
9
10
Lic
zb
a p
ac
je
ntó
w
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
MMSE
0
20
40
60
80
100
120
Li
cz
ba
p
ac
je
nt
ów
Jak opisać płeć?
Skale
◦
Skala NYHA
◦
CCS
◦
Killip-Kimball
◦
Apgar
◦
VAS
Wskaźniki
◦
CRIB
◦
HOMA
◦
M-index
Odsetek mężczyzn wynosił 30% w grupie A,
a 35% w grupie B
Średnia temperatura ciała wynosiła 37,5
o
C+/-
1,2
o
C w pierwszej dobie i 39,3
o
C+/-1,2
o
C w
drugiej
Mediana punktacji w skali VAS w grupie
otrzymującej opioidy wynosiła 4 (25-75% 3-5
pkt.), a w grupie leczonej metamizolem 5
(25-75% 5-9).
Wykorzystujemy:
◦
Testy statystyczne weryfikujące hipotezy
◦
Wnioskowanie oparte o teorię Bayesa
◦
Wnioskowanie oparte o teorię informacji
◦
Algorytmy oparte o techniki sztucznej inteligencji
Istotność statystyczna oznacza, że uzyskanie
w sposób przypadkowy podawanej różnicy
jest mało prawdopodobne lub wręcz
niemożliwe
Wartość p (statystyki testowej) jest
prawdopodobieństwem uzyskania wartości
błędu typu 1 czyli wykazania w sposób
przypadkowy obserwowanej zależności
Stan faktyczny
Decyzja
Choroba obecna
Brak choroby
Choroba obecna
-
Błąd typu 1
(Choroba źle
rozpoznana)
Brak choroby
Błąd typu 2 (nie
wykryto choroby)
-
Stan faktyczny
Decyzja
Winny
Niewinny
Winny
-
Błąd typu 1
(skazany
niewinny)
Niewinny
Błąd typu 2 (Nie
wykryto winy)
-
Sytuacja w której odrzucamy hipotezę
zerową, podczas gdy tak naprawdę jest ona
prawdziwa
◦
Różnica w skuteczności leczenia nie istnieje, a my
uznajemy że nie jest przypadkiem
◦
Wydajemy wyrok bez podstaw
◦
Widzimy odmienność grup, będącą przypadkiem
Przyjęcie hipotezy zerowej, podczas gdy jest
ona fałszywa
◦
Nie widzimy różnicy w skuteczności leczenia,
podczas gdy tak naprawdę ona istnieje
◦
Nie wydajemy wyroku, podczas gdy mamy do tego
podstawy
◦
Nie widzimy prawdziwej odmienności grup
Typ 1
◦
Wymusza fałszywe przekonanie
◦
Narzuca zły wybór
Typ 2
◦
Utrudnia wybór właściwej strategii
◦
Spowalnia postęp
Stan faktyczny
Decyzja
Choroba obecna
Brak choroby
Choroba obecna
-
Błąd typu 1
(Choroba źle
rozpoznana)
Brak choroby
Błąd typu 2 (nie
wykryto choroby)
-
Stan faktyczny
Decyzja
Winny
Niewinny
Winny
-
Błąd typu 1
(skazany
niewinny)
Niewinny
Błąd typu 2 (Nie
wykryto winy)
-
Typu 1
◦
Ślepy los
◦
Zbyt mała grupa badana
Typu 2
◦
Zbyt mała grupa badana
◦
Zbyt ambitna hipoteza alternatywna
◦
Zbyt wiele grup
Właściwe wnioskowanie ale oparte o złe przesłanki
„W lutym śnieg i mróz stały, czynią w lecie upały.”
„Gdy dziecko upada, Bóg ręce podkłada”
Wykorzystanie złego testu prowadzącego jednak do
poprawnego wniosku
„Apples and Oranges”
Źle dobrana grupa kontrolna skutkująca złym
kierunkiem różnicy
Prawo Hardy’ego-Weinberga
Zazwyczaj, hipotezy zerowe zakładają:
Równość w grupach badanych:
wartości średnich,
median,
proporcji,
czasu trwania,
skumulowanego prawdopodobieństwa zdarzenia w czasie
sumy rang
Zgodność z rozkładem oczekiwanym
Test W Shapiro-Wilka
◦
H0 testu – rozkład jest normalny
◦
Test odrzuca założenie o normalności rozkładu na
podstawie małego prawdopodobieństwa uzyskania
obserwowanego rozkładu na drodze przypadku
Ile wynosi modalna liczb: 1,1,1,2,2,2,3
Drugi kwartyl jest większy czy mniejszy od
mediany?
Dla rozkładu normalnego mediana, modalna
i średnia są:
◦
Me ≤=≥ Mo ≤=≥ Śr?
Czy jeśli lek A wydłuża przeżycie względem
leku B z p=0,04 ile wynosi
prawdopodobieństwo, że jego efekt jest
korzystny?
Stan faktyczny
Decyzja
Choroba obecna
Brak choroby
Choroba obecna
-
Błąd typu 1
(Choroba źle
rozpoznana)
Brak choroby
Błąd typu 2 (nie
wykryto choroby)
-
Stan faktyczny
Decyzja
Winny
Niewinny
Winny
-
Błąd typu 1
(skazany
niewinny)
Niewinny
Błąd typu 2 (Nie
wykryto winy)
-
Jak proszki do prania…
Rolą testu jest odrzucenie z możliwie
największym prawdopodobieństwem hipotezy
zerowej
Jednocześnie test musi być jak najbardziej
konserwatywny tzn. nie pozwalać na odrzucenie
hipotezy zerowej przy braku dostatecznie silnych
dowodów
Wykryj
różnice gdzie
się da
Nie potwierdzaj
niczego czego
nie jesteś
pewien
Odrzucaj H0 tak
często jak to
możliwe
Nie odrzucaj H0 bez
bardzo silnych
dowodów
Hipotezy zerowe zakładają zazwyczaj:
Równość w grupach badanych:
wartości średnich
median
proporcji
czasu trwania
skumulowanego prawdopodobieństwa
sumy rang
Typy zmiennych
◦
Ciągłe (stężenia/wskaźniki/ekspresja genów)
Temperatura ciała
Wskaźnik talia/biodra
Ekspresja VEGF w niedokrwionej siatkówce
◦
Porządkowe (skale)
Skala Apgar
Skala VAS
◦
Nominalne (kategorie)
Płeć
Grupa badana/kontrolna
Klasyfikacja TNM
Conventional
Intensive
Przykładowe pytanie - Czy grupie 1 stan A
występuje częściej niż w grupie 2?
◦
H0 – częstość zdarzeń w obydwu grupach jest identyczna
Dwa wykluczające się stany
◦
Kobieta/Mężczyzna;
H0 – w obu grupach jest tyle samo kobiet/mężczyzn
◦
Choroba/zdrowie;
Dwie rozłączne grupy
◦
Różne leczenie
◦
Różna klasyfikacja choroby
◦
Różny genotyp
FVII HH*
H6/H6
H6/H7
Grupa kontrolna
59
62
Grupa z zawałem 133
112
Test Chi
2
Test Chi
2
z poprawką Yatesa
Oparte na rozkładzie Chi
2
jako rozkładzie
prawdopodobieństwa obserwacji
Wybór dyktowany liczebnością grupy i liczbą
stopni swobody
Hipoteza zerowa zakłada równość
występowania stanów w porównywanych,
niezależnych grupach oraz częstości
oczekiwanej
Odrzucenie hipotezy zerowej oparte jest
o rozkład gęstości prawdopodobieństwa Chi
2
i liczbę stopni swobody
Wykres rozkładu Chi
2
k – stopnie swobody
Wartość statystyki Chi
2
Prawdo
po
dobieńst
wo
Uwiarygodnia wyniki testu Chi
2
w przypadku
małej liczebności grup badanych
Zwiększa konserwatywność testu Chi
2
Wykorzystywana w porównaniach tabel 2x2
gdy liczebność w
>
1 polu tabeli jest mała
(np. <15)
Może być zbyt konserwatywna i zawyżać p.
W przypadku małych liczebności rozkład Chi
2
nie
odzwierciedla faktycznego prawdopodobieństwa
uzyskania danego rozkładu w sposób
nieprzypadkowy
Wymaga niezależności grup
(A do B a nie A1 do A2)
Permutacyjny test weryfikujący dokładne
prawdopodobieństwo uzyskania rozkładu
obserwowanego spośród wszystkich możliwych
rozkładów wartości o tych samych wartościach
brzegowych tabeli
Wartość p testu Fishera odzwierciedla dokładne
prawdopodobieństwo nieprzypadkowości rozkładu
obserwowanego
Stosowany przy małych liczebnościach (zwykle <5)
Bez majaczenia
Majaczenie
pooperacyjne
Razem
MMSE≥25
416
48
464
89,66%
10,34%
MMSE<25
55
44
99
55,56%
44,44%
Razem
471
92
563
Czy niższa sprawność umysłowa wg MMSE sprzyja wystąpieniu
majaczenia po zabiegu operacyjnym?
Chi-
square
df
p
M-L Chi-
square
56,72161 df=1
p=,00000
Yates Chi-
square
66,92684 df=1
p=,00000
Ponad wszelką wątpliwość, niższa sprawność intelektualna
jest związana z częstszym wystąpieniem majaczenia po
zabiegu operacyjnym w badanej grupie
Bez majaczenia
Majaczenie
% Stan
psychiczny w
normie
60,67%
39,33%
% Depresja
10,00%
90,00%
Chi-square
df
p
Pearson Chi-
square
9,349382
df=1
p=,00223
Yates Chi-
square
7,409705
df=1
p=,00649
Dwustronny
test Fishera
p=,00454
Bez majaczenia
Majaczenie
Razem
Stan psychiczny w
normie
54
35
89
%
60,67%
39,33%
Depresja
1
9
10
%
10,00%
90,00%
Razem
55
44
99
Chi-square
df
p
Pearson Chi-
square
9,349382
df=1
p=,00223
Yates Chi-
square
7,409705
df=1
p=,00649
Dwustronny
test Fishera
p=,00454
Pomimo większych różnic % w drugim przypadku
istotność statystyczna jest niższa
Sama wartość p nie determinuje ważności wyniku!
Ważniejsza jest precyzja oszacowania
i wiarygodność wyniku („uogólnialność”)
Znaczenie istotnego wyniku ocenia badacz,
recenzent i czytelnik
Kryteriami decydującymi o doborze testu są:
◦
Rozkład wartości
◦
Układ porównania
A do B (porównanie niezależne)
A1 do A2 (pary zależne)
Zmienna 1 do zmiennej 2 w grupie A (korelacja)
◦
Liczba grup
Dwie grupy
Więcej niż dwie
Porównuje w układzie dwóch równoległych
grup, z jakim prawdopodobieństwem średnie
w tych grupach są równe (H0: 1= 2)
Wymaga:
◦
Normalności rozkładu (lub bliskiej normalności)
◦
Jednorodności wariancji w obu grupach
Normalność rozkładu – test zakłada
prawdopodobieństwa nałożenia na siebie
dwóch rozkładów prawdopodobieństwa
Jednorodność wariancji –
brak różnic
„szerokości” rozrzutu w analizowanych grupach
Mean
Mean±SD
1
2
0
20
40
60
80
100
120
140
160
180
200
1
2
0
20
40
60
80
100
120
140
Transformacje zmiennych – np.:
◦
Log10(x), Ln(x)
◦
X
2
◦
1/x
◦
Transformacja Boxa-Coxa
Wykorzystanie wariantów testu t-studenta z niezależną
estymacją wariancji (test Welcha)
Weryfikacja jednorodności grup
(być może nasz podział
nie odpowiada faktycznej strukturze zbioru danych)
Wykorzystanie innego testu
Hipoteza zerowa zakłada równość wartości zmiennej przed
i po są takie same – brak zmian wartości w czasie
Kierunek różnic w obrębie przypadków jest ważniejszy niż
faktyczna wartość różnicy pomiędzy średnimi w obu
grupach
◦
Lepiej żeby w grupie badanej liczącej 10 osób wszyscy uzyskali 10%
teoretycznej korzyści niż jedna osoba 100% a 9 pozostałych 0%,
pomimo tego, że średni zysk wynosi w obydwu grupach 10%
Porównanie
w parach
zależnych
wykazuje
silniejsze różnice
niż wynikałoby to
tylko z różnicy
średnich
Korelacja jest terminem opisującym
wzajemną zależność między dwiema
zmiennymi ciągłymi
Korelacja Pearsona daje jako wynik wartość
współczynnika korelacji r (od -1 do 1) oraz
istotność statystyczną p (im mniej tym lepiej)
Parametry te mają różną interpretację!
p<0,05
p>0,05
r<-0,4
Silna, ujemna, istotna
statystycznie
Silna, ujemna,
nieistotna
statystycznie
-0,4<r<-0,1
Słaba, ujemna,
istotna statystycznie
Słaba, ujemna,
nieistotna
statystycznie
-0,1<r<0,1
Brak korelacji
0,1<r<0,4
Słaba, dodatnia,
istotna statystycznie
Słaba, dodatnia,
nieistotna
statystycznie
r>0,4
Silna, dodatnia,
istotna statystycznie
Silna, dodatnia,
nieistotna
statystycznie
0
2
4
6
8
10
12
14
16
18
Czas trwania cukrzy cy
5
6
7
8
9
10
11
12
F
ilt
ere
d
b
ez
s
k
raj
ny
c
h
5%
95% conf idence
R=0,16 p<0,0001
0
10
20
30
40
50
60
70
Czas mieszania
0
1
2
3
4
5
6
7
8
9
S
ło
dk
oś
ć
he
rb
at
y
r=0,56 p=0,24
0
10
20
30
40
50
60
70
Czas mieszania
0
1
2
3
4
5
6
7
8
9
S
ło
dk
oś
ć
he
rb
at
y
95% confidence
r=0,97 p<0,001
Obserwacja
odstająca (outlier)
psuje korelację!
100
150
200
250
300
350
400
450
500
550
Objętość kubka
0
10
20
30
40
50
60
70
C
e
n
a
95% confidence
100
150
200
250
300
350
400
450
500
550
Objętość kubka
0
10
20
30
40
50
60
70
C
e
n
a
95% confidence
p=0,72; r=0,14
p<0,001; r=0,91
Odrzucenie obserwacji odstających wymaga zawsze:
1. Uzasadnienia matematycznego (zwykle wartość >średnia+/-3 SD)
2. Powodu biologicznego (specyficzny fenotyp choroby (np.
wczesny/rodzinny/obustronny rak piersi w badaniu nad rakiem piersi w populacji
ogólnej), niedotrzymanie protokołu itp.)
Nie wnoszą zbyt dużo informacji
◦
Korelacja pomiędzy liczbą piramid na km
2
a średnią
roczną temperaturą
Wrażliwe na obserwacje odstające (wynikające
z nieprawidłowego rozkładu lub wariancji)
Korelacja na małej liczbie obserwacji ma duże
szanse bycia przypadkową
prawie jak…
Weryfikuje hipotezę o równości sum rang
w porównywanych grupach
Przeprowadzany poprzez zliczenie i porównanie
liczby obserwacji z drugiej grupy o niższej
randze
Dla większych grup można wykorzystać
aproksymację do rozkładu normalnego co wydaje
się zwiększać moc testu
Wartość
Ranga
Grupa
10
7
1
15
5
2
16
4
2
135
1
1
12
6
2
…
…
…
14
2
1
P=0.63
Nie bierze pod uwagę faktycznych wartości ale rangi
◦
Jest odporny na obserwacje odstające, ale
◦
Nie podaje informacji o faktycznej różnicy pomiędzy grupami
(wiemy że jest więcej, ale nie wiemy o ile dokładnie)
Można porównać zmienne dyskretne o różnym skoku
skali
Posiada 95% mocy testu t-Studenta dla grup
o rozkładzie normalnym przy większej
konserwatywności (bardziej ostrożny/wiarygodny)
Odpowiednik testu t-Studenta dla par
zależnych
Porównuje liczbę dodatnich i ujemnych zmian
rang w parach zależnych
Hipoteza zerowa zakłada brak różnic znaku
zmian rang (zmiany dodatnie i ujemne się
znoszą lub nie ma żadnych zmian)
Ranga
przed
Ranga
po
1
2
3
4
6
5
7
14
8
10
9
11
12
13
Porównywane są zmiana rangi i kierunek zmiany - najniższa
wartość przed nadal jest najniższa po, ale jest niższa niż
w punkcie początkowym
Ignoruje założenie o normalności rozkładu
Nie wymaga ciągłości zmiennej (można
porównać zmienne dyskretne o różnym
skoku skali)
Jest bardziej konserwatywny niż test
t-studenta dla par zależnych
Nie daje precyzyjnej informacji o wartościach
różnic
Ma mniejszą moc niż test t-studenta dla par
zależnych
Czy w populacji polskiej średnia
długość trwania życia koreluje
dodatnio z płcią?
Jeśli nie da się znormalizować rozkładu
zmiennych
Jeśli chcemy skorelować zmienne porządkowe
Porównujemy zmienne porządkowe lub ciągłe
po transformacji na rangi
◦
Test sprawdza czy jest zgodność w hierarchii rang
obydwu zmiennych (najwyższy jest najcięższy,
najniższy/najlżejszy)
Niezależne od rozkładu
Działa na zmiennych porządkowych
Słabsze wyniki niż r Pearsona przy
zachowaniu założeń normalności, ale…
0
2
4
6
8
10
12
14
16
18
Duration of diabetes [years]
4
6
8
10
12
14
16
18
H
b
A
1
c
[
%
]
95% confidence
Pearson
r=0,16
p<0,0001
Spearman
r=0,22
p<0,0001
Dziękuję za uwagę