Wykład III
BADANIA POPULACYJNE
Typ badań (retrospektywne, prospektywne)
Badania przesiewowe.
Dobór próby badanej (losowanie proste, losowanie systematyczne, losowania warstwowe, losowania zespołowe)
Metoda badań (ankietowe, lekarskie, testy diagnostyczne)
Pomiar zdrowia - indywidualny
Kwestionariusze
Badania lekarskie podmiotowe i przedmiotowe
Laboratoryjne badania diagnostyczne
Pomiar zdrowia populacji - analiza statystyczna opisana z badań indywidualnych.
SFORMUŁOWANIE HIPOTEZ - ustalenie trendów i typów epidemii na podstawie:
Zebranych danych o osobach, miejscu i czasie
Wizyt i pogłębionych wywiadów z osobami, które zachorowały
Zmiany pytań w miarę nagromadzenia nowych informacji.
STATYSTYKA - nauka zajmująca się ilościowymi metodami badania prawidłowości zjawisk, procesów masowych. Jej celem jest poznanie występujących prawidłowości, ich ilościowe wyrażenie oraz wyodrębnienie w nich składnika systematycznego i przypadkowego.
Wyróżnia się statystykę opisową i matematyczną. Pierwsza zajmuje się metodami zbierania i prezentacji informacji statystycznych i ich sumarycznego opisu przy wykorzystaniu takich parametrów jak miary średnie i miary dyspersji. Droga oparta na rachunku prawdopodobieństwa, umożliwia uogólnienie wyników badań, ocenę stopnia dokładności i wiarygodności wyników.
SCHEMAT POSTĘPOWANIA:
Określenie problemu badawczego.
Jak brzmi hipoteza?
Wybór testu statystycznego.
Wybór próby badanej.
Zbieranie danych.
Zastosowanie właściwego testu.
Decyzja o wynik.
Ważne informacje:
Rodzaje statystyki: opisowa i matematyczna.
Rodzaje danych: ciągłe i dyskretne (porządkowe, skategoryzowane).
Rodzaje testów: parametryczne i nieparametryczne („distribution - free”)
Rodzaje zmiennych / cech statystycznych - klasyfikacja I
Jakościowe - kwalifikujące do kategorii - (nie można wyliczyć wartości średnich!!!)
Niemierzalne (nominalne): kolor włosów, wiek, płeć, grupa krwi, genotyp ALAD-u, nazwa schorzenia
Porządkowe: wybory w ankiecie (nigdy, rzadko, czasami, często, zawsze), stopień nasilenia objawów astmy, skala APGAR, poziom wykształcenia.
Ilościowe - wynik jest liczbą - (można wyliczyć wartości średnie!!!)
Ciągłe: wzrost, waga, stężenie
Dyskretne (interwałowe): liczba wadliwych elementów, liczba gładkich i żółtych fasolek, liczba dzieci, przedziały wiekowe.
ZMIENNE I ICH RODZAJE
Typy zmiennych - klasyfikacja I
Zmienna ilościowa - np. wzrost
Zmienna jakościowa - np. płeć
Zmienna półilościowa - np. kliniczny stopień duszności
Typy zmiennych - klasyfikacja II
Zmienna zależna - np. masa ciała
Zmienna niezależna - np. podaż kalorii
Typy cech
Metody przedstawiania danych:
Rozkład częstości
Wykresy słupkowe
Histogramy
Wykresy kołowe
Tablice wielopolowe
Rozkłady danych:
Rozkład normalny, symetryczny względem wartości średniej
Rozkład prawo skośny, rozkład lewo skośny
Rozkład bimodalny
Rozkład równomierny
Cechy rozkładu normalnego:
Najczęściej stosowane w analizach miary dzieli się na:
Miary położenia
Miary rozproszenia (zmienności, dyspersji)
Średnia arytmetyczna:
gdzie:
y - średnia arytmetyczna;
yi - stan zmiennej Y opisującej zjawisko zachodzące w badanym obiekcie dla i-tej obserwacji statystycznej (i-tej jednostki badania); (i = 1,…,n);
n- liczba obserwacji statystycznych (jednostek badania);
Średnia geometryczna:
gdzie:
yg - średnia geometryczna;
yi - stan zmiennej Y opisującej zjawisko zachodzące w badanym obiekcie dla i-tej obserwacji statystycznej (i-tej jednostki badania); (i = 1,…,n);
n - liczba jednostek badania;
Miary pozycyjne są wartościami konkretnych obserwacji statystycznych wyróżnionych ze względu na ich położenie w całym zbiorze obserwacji. Miary pozycyjne wyznacza się w szeregu wartości uporządkowanych rosnąco lub malejąco. Do miar pozycyjnych należą:
Dominanta (modalna),
Kwantyle,
Percentyle.
Wariancja:
gdzie:
s2 - wariancja;
y - średnia arytmetyczna;
yi - stan zmiennej Y opisującej zjawisko zachodzące w badanym obiekcie dla i-tej obserwacji statystycznej (i-tej jednostki badania); (i = 1,…,n);
n - liczba obserwacji statystycznych (jednostek badania).
Odchylenie standardowe:
gdzie:
s - odchylenie standardowe;
y - średnia arytmetyczna;
yi - stan zmiennej Y opisującej zjawisko zachodzące w badanym obiekcie dla i-tej obserwacji statystycznej (i=1,…,n);
n - liczba obserwacji statystycznych.
Współczynnik zmienności:
gdzie:
Vs - współczynnik zmienności oparty na odchyleniu standardowym;
sy - odchylenie standardowe wyznaczona dla zmiennej Y opisującej badane zjawisko;
y - średnia arytmetyczna wyznaczona dla poszczególnych stanów zmiennej Y opisującej zjawisko zachodzące w badanym obiekcie.
Pozycyjne miary rozproszenia
Rozstęp:
gdzie:
R - rozstęp;
yi - stan zmiennej Y opisującej zjawisko zachodzące w badanym obiekcie dla obserwacji statystycznej (i-tej jednostki badania), (i = 1,…,n).
Typowy obszar zmienności:
gdzie:
ytyp - typowy obszar zmienności wyznaczony dla zmiennej Y opisującej zjawisko zachodzące w badanym obiekcie;
s - odchylenie standardowe.
Miary centralnej tendencji rozkładu
Średnia (wartość przeciętna)
Suma wszystkich obserwacji podzielona przez liczbę wartości
Mediana (wartość środkowa)
Punkt na skali, który dzieli rozkład na dwie równe części
Moda (modalna, dominanta)
Najczęściej powtarzająca się wartość w zbiorze obserwacji
Miary zmienności rozkładu
Rozstęp (zakres)
Różnica między największą a największą wartością obserwacji
Wariancja (s2)
Suma kwadratów pomiędzy poszczególnymi obserwacjami i średnia podzielona przez liczbę obserwacji minus jeden.
Odchylenie standardowe (s, SD)
Pierwiastek kwadratowy z wariancji.
Współczynnik zmienności (CV, CV%)
Odchylenie standardowe obserwacji przez średnią wartość obserwacji wyrażone w procentach.
BIOSTATYSTYKA - jest to gałąź statystyki uwzględniająca w swej metodyce specyfikę zjawisk biologicznych, w szczególności skutki zmienności biologicznej stanowiącej przejaw procesów adaptacyjnych i homeostatycznych charakteryzujących stan zdrowia i choroby.
Podstawowe zastosowanie biostatystyki :
Test statystycznej zmienności różnic
Test statystycznej zmienności zależności
Wstępna analiza danych - opis zebranych danych w kategoriach:
Osoby
Czasu
Miejsca
Cel - sformułowanie hipotezy odnośnie potencjalnego źródła zakażenia.
CZYM JEST HIPOTEZA BADAWCZA?
Jest myślą / stwierdzeniem precyzującym istnienie jakiejś zależności, mechanizmu fukcjonowania, różnicy, prawdopodobieństwa zachodzenia procesu, itp.
Jest przestrzegana jako hipotetyczny scenariusz procesu (biologicznego)
Jest równością lub nierównością matematyczną
Hipotezy statystyczne stawiane są parami
Hipoteza zerowa (H0) |
Hipoteza alternatywna (HA) |
Jest podstawową hipotezą statystyczną, która jest przedmiotem weryfikacji, tzn. proces weryfikacji może doprowadzić do jej odrzucenia bądź do stwierdzenia, że nie ma podstaw, by ją odrzucić. Hipoteza ta jest sformułowana w taki sposób (czasem wbrew rozsądkowi) aby można było ją potwierdzić lub odrzucić. |
To hipoteza konkurencyjna w stosunku do hipotezy zerowej. Jest ona sformułowana jako przypuszczenie, że rozkład nie posiada własności określonej w hipotezie zerowej (posiadają ją w innym wariancie). |
Weryfikacja hipotez statystycznych
Hipoteza zerowa (H0) - hipoteza, którą weryfikujemy
H0 = nie ma różnic
Hipoteza alternatywna (H1) - co najmniej jeden z parametrów rozkładu jest różny od tego z hipotezy.
H1 = są różnice
Test statystyczny - narzędzie weryfikacji tej hipotezy.
Hipotezy statystyczne weryfikuje się za pomocą testów statystycznych (istotności), przy czym w zależności od rodzaju hipotezy rozróżniane są testy parametryczne i nieparametryczne.
Im większa wartość obliczonej statystyki tym mniejsze szanse, że hipoteza zerowa jest prawdziwa oraz, że obliczona różnica jest dziełem przypadku, a nie prawidłowością.
Przy testowaniu różnic: czym bardziej wartość testu odbiega od zera tym większe prawdopodobieństwo, że średnie są istotnie różne od siebie.
Poziom istotności - p - określa, w jak dużym odsetku próbek stwierdzone różnice wystąpiły przypadkowo. Określa również maksymalne dopuszczalne ryzyko błędu, jakie badacz jest skłonny zaakceptować. Im niższa wartość p wyliczona w teście, tym większe prawdopodobieństwo, że różnice pomiędzy grupami nie są dziełem przypadku. Jest to prawdopodobieństwo popełnienia błędu I rodzaju (zazwyczaj oznaczane symbolem a).
Co to znaczy?
Wynik, którego prawdopodobieństwo przy założeniu hipotezy zerowej jest mniejsze od założonego poziomu istotności nazywamy istotnym statystycznie. Wynik istotny statystycznie upoważnia do odrzucenia hipotezy zerowej i pośrednio przyjęcia hipotezy alternatywnej…. (brak części tekstu, tablica mnie pokonała )
Ustalamy α - poziom istotności testu (wybór wartości a zależy od badacza, natury problemu i od tego jak dokładnie chce on weryfikować swoje hipotezy), poziom p, poniżej którego orzekamy na korzyść hipotezy alternatywnej najczęściej α = 0,05 lub α = 0,01 lub α = 0,001
P ≤ α odrzucamy H0 na korzyść HA
P > α nie możemy odrzucić H0
P jest zatem miarą dowodów przeciwko H0, a nie za H0
Czynniki zwiększające szanse pojawienia się błędu I rodzaju: małe liczebności podobnych prób
HIPOTEZY STATYSTYCZNE
|
||
|
H0 jest prawdziwa |
H0 jest fałszywa |
odrzucić H0 |
Błąd I rodzaju (prawdopodobieństwo = istotność) |
Wniosek słuszny (prawdopodobieństwo = moc testu) |
nie odrzucić H0 |
Wniosek słuszny (prawdopodobieństwo = 1 - istotność) |
Błąd II rodzaju (prawdopodobieństwo = 1 - moc testu) |
W procedurze testowania nigdy nie możemy udowodnić prawdziwości H0 - możemy ją jedynie odrzucić. (dalej coś było ale nie wiem co)
Moc testu (pojęcie statystyczne) to dopełnienie do jedności prawdopodobieństwa niepopełnienia błędu II rodzaju. Im mniejsze jest to prawdopodobieństwo, tym lepszy jest dany test jako narzędzie do różnicowania między hipotezą prawdziwą i fałszywą.
Moc testu mierzy się prawdopodobieństwem odrzucenia fałszywej hipotezy zerowej 1 - β.
Test statystyczny może być słaby lub mocny:
Test mocny - w większości przypadków pozwala nam odrzucić fałszywą hipotezę zerową (moje przypuszczenia)
Test słaby - gdy istnieje duża szansa na to, że nie odrzucimy hipotezy zerowej, pomimo jej nieprawidłowości.
Moc testu jest to prawdopodobieństwo nie odrzucenia hipotezy zerowej w rzeczywistości gdy jest ona…
Błąd pierwszego rodzaju („false positive”) - w statystyce pojęcie z zakresu weryfikacji hipotez statystycznych - błąd polegający na odrzuceniu hipotezy zerowej, która w rzeczywistości jest prawdziwa.
Oszacowanie prawdopodobieństwa popełnienia błędu pierwszego rodzaju oznaczamy symbolem α (mała grecka litera alfa) i nazywamy poziomem istotności testu.
Błąd drugiego rodzaju (błąd drugiego typu, błąd przyjęcia, beta - błąd) - w statystyce pojęcie z zakresu weryfikacji hipotez statystycznych polegające na nieodrzuceniu hipotezy zerowej, która jest w rzeczywistości fałszywa.
Oszacowanie prawdopodobieństwa popełnienia błędu drugiego rodzaju oznaczamy symbolem β (mała grecka litera beta) i nazywana jest mocą…
Wnioskowanie statystyczne
Wnioskowanie statystyczne jest związane z procedurami matematycznymi, które rozstrzygają czy wyniki badane są znaczące czy raczej tylko przypadkowe.
PODSTAWY INTERPRETACJI OBSERWOWANYCH ZALEŻNOŚCI STATYSTYCZNYCH W EPIDEMIOLOGII ANALITYCZNEJ
Zależność może mieć charakter przypadkowy, wynikający z niereprezentatywnego charakteru badanej próby (taka zależność nie występuje w rzeczywistości w populacji, z której pochodzi próba badana);
Zależność może mieć charakter przypadkowy, wynikający z nieujawnionego wpływu jednego rzeczywistego czynnika przyczynowego, czynnika mylnie przyjętego za czynnik przyczynowy w przeprowadzonym badaniu;
Zależność ta opisuje związek pomiędzy odpowiedzią biologiczną, a czynnikiem, który jest czynnikiem pośrednim, podczas gdy poprzedzający go rzeczywisty czynnik przyczynowy pozostaje nieujawniony w przeprowadzonym badaniu epidemiologicznym;
Zależność odzwierciedla wpływ interakcji czynnika przyczynowego z innym czynnikiem, którego obecność i poziom warunkuje wystąpienie odpowiedzi biologicznej, nieobecnej gdy dodatkowy czynnik przyjmuje wartość inną niż występującą w trakcie badania epidemiologicznego;
Miary siły związku
Obliczenie ryzyka względnego (RR) jeżeli przegląd przeprowadzany jest w całej populacji lub na reprezentatywnej próbie
Jeżeli nie, obliczenie ilorazu szans (OR)
Ocena ryzyka badania epidemiologicznego
Koncepcja ryzyka oznacza szansę zaistnienia zjawiska zdrowotnego, gdy zaistnieją okoliczności wiążące się zjawiskiem przyczynowo - skutkowym z danym zjawiskiem
|
Choroba obecna |
Choroba nieobecna |
Narażenie obecne |
a |
b |
Narażenie nieobecne |
c |
d |
Funkcja przypisana narażeniu (AF - Attributable Fraction)
Jaka część przypadków choroby w grupie narażonych na dany czynnik ryzyka jest spowodowana działaniem tego czynnika?
np. 64% przypadków udaru mózgu występujących u osób palących jest spowodowana paleniem tytoniu.
Ryzyka przypisane populacji (PAR - Attributable Risk)
Jaką część zapadalności na daną chorobę w populacji przypisuje się narażeniu na dany czynnik ryzyka?
np. palenie tytoniu jest przyczyną 41% przypadków udaru mózgu występujących w populacji generalnej.
Ryzyko - prawdopodobieństwo wystąpienia niepożądanego zdarzenia.
Ryzyko względne
Ile razy bardziej prawdopodobne jest wystąpienie choroby u osób eksponowanych w porównaniu z nie eksponowanymi?
Ryzyko przypisane
Jaka jest nadwyżka ryzyka (zapadalności) na daną chorobę spowodowana ekspozycją, w porównaniu z grupą ludzi nie eksponowaną na określony czynnik ryzyka?
WE - współczynnik zapadalności w grupie eksponowanej
WN - współczynnik zapadalności w grupie nie eksponowanej
Miary ryzyka
Ryzyko bezwzględne (absolutne)
a/(a+b); lub c/(c+d)
Porównanie ryzyka absolutnego w dwóch grupach informuje o różnicy ryzyka - możliwe efekty porównań:
ryzyko względne = ryzyko narażeni / ryzyko nienarażeni
ryzyko względne RR = {a/(a+b)}/{c/(c+d)}
ryzyko przypisane = ryzyko narażeni - ryzyko nienarażeni
ryzyko przypisane AR = {a/(a+b)} - {c/(c+d)}
RR - relative risk AR - attributable risk
Ryzyko względne (RR - Relative Risk)
Ile razy bardziej prawdopodobne jest wystąpienie skutku u osób eksponowanych w porównaniu
z nieeksponowanymi?
np. prawdopodobieństwo wystąpienia udaru mózgu u osób palących jest 2,8 - krotnie wyższe niż u osób niepalących.
RR = 1
Brak związku pomiędzy narażeniem a ryzykiem wystąpienia skutku
RR ≠ 1
Istnieje określone prawdopodobieństwo związku pomiędzy narażeniem a ryzykiem wystąpienia skutku
0,9 - 1,1 w praktyce brak tego związku
1,2 - 1,6 małe ryzyko
1,7 - 2,5 średnie ryzyko
>2, 5 duże ryzyko
0,0 - 0,3 duży wpływ ochrony
0,4 - 0,5 średni wpływ ochrony
0,6 - 0,8 mały wpływ ochrony
Iloraz szans
iloraz szans - Odds ratio (OR) miara ryzyka w badaniach kontrolno - referencyjnych
iloraz szans = narażenie chorzy / narażenie zdrowi
iloraz szans = (a/c)/(b/d) = ad/bc
|
Przypadki / chorzy |
Kontrola |
Razem |
Narażeni |
a |
b |
a + b |
Brak narażenia |
c |
d |
c + d |
|
a +c |
b + d |
n |
Związek między spożyciem mięsa w ostatnim okresie a martwiczym zapalenie jelit w Papui Nowej Gwinei
[wg Beaglehole i współ.]
Martwicze zapalenie jelit |
Spożycie mięsa |
|||
|
|
tak |
nie |
ogółem |
|
tak |
50 |
11 |
61 |
|
nie |
16 |
41 |
57 |
|
ogółem |
66 |
52 |
118 |
Przypadek Thalidomidu
|
|
PODSTAWY INTERPRETACJI OBSERWOWANYCH ZALEŻNOŚCI STATYSTYCZNYCH W EPIDEMIOLOGII ANALITYCZNEJ
Zależność może mieć charakter przypadkowy, wynikający z niereprezentatywnego charakteru badanej próby (taka zależność nie występuje w rzeczywistości w populacji z której pochodzi próba badana);
Zależność może mieć charakter przypadkowy, wynikający z nieujawnionego wpływu innego, rzeczywistego czynnika przyczynowego, od którego zależy nie tylko odpowiedź biologiczna, ale także poziom czynnika mylnie przyjętego za czynnik przyczynowy w przeprowadzonym badaniu;
Zależność opisuje związek pomiędzy odpowiedzią biologiczną, a czynnikiem, który jest czynnikiem pośrednim, podczas gdy poprzedzający go rzeczywisty czynnik przyczynowy pozostaje nieujawniony w przeprowadzonym badaniu epidemiologicznym;
Zależność odzwierciedla wpływ interakcji czynnika przyczynowego z innym czynnikiem, którego obecność i poziom warunkuje wystąpienie odpowiedzi biologicznej, nieobecnej gdy dodatkowy czynnik przyjmuje wartości inne niż występujące w tym badaniu epidemiologicznym.
Postulaty Kocha
Każdy zarazek powinien być stwierdzony w każdym przypadku danej choroby
Dany zarazek nie może być stwierdzony w przypadku innych chorób
Daną chorobę można wywołać przez doświadczalne zakażenie zwierzęcia hodowlą danego zarazka
Dany zarazek musi dać się identyfikować w przypadku choroby wywołanej w warunkach doświadczalnych
Siła związku - jaka jest siła związku między przyczyną a skutkiem?
Powtarzalność w różnych badaniach - czy podobne wyniki uzyskano w innych dabaniach?
Swoistość związku.
Następstwo czasowe - czy przyczyna poprzedza skutek?
Obecność zależności typu „narażenie - odpowiedź biologiczna”
Biologiczne prawdopodobieństwo związku
Zgodność z dotychczasowym stanem wiedzy
Obecność dowodów eksperymentalnych
Obecność analogii
ZALEŻNOŚĆ DAWKA - ODPOWIEDŹ jest zależnością pomiędzy wyrażoną ekspozycją osobników badanej populacji wykazującej określony efekt (narażenie / dawka)
Rodzaje stosowanej informacji:
Dane epidemiologiczne
Dane kliniczne
Dane z eksperymentów na zwierzętach
Nominalne
Porządkowe
Dyskretne
Ciągłe
Cechy statystyczne
Percentyle
Decyle
Kwartyle
Dominanta
(moda)
Kwantyle
Średnia geometryczna
Średnia harmoniczna
Średnia ważona
Średnia arytmetyczna
Pozycyjne
Średnie klasyczne
Miary położenia
Rozstęp
Odchylenie ćwiartkowe
Współczynnik zmienności
Współczynnik zmienności
Odchylenie przeciętne
Odchylenie standardowe
Wariancje
Pozycyjne
Klasyczne
Miary rozproszenia
Wynik
testu