Statystyka biomedyczna 11.10.2011
Miary tendencji centralnej -> miary skupienia ( charakterystyki położenia, wartości średnie, wartości przeciętne, wskaźniki położenia)
Miary tendencji centralnej są to pewne charakterystyki liczbowe ( Najczęściej liczby mianowane – wiek w latach, masa ciała w kg, BMI w kg/m2), które opisują rozkład (strukturę) badanej cechy statystycznej w próbie losowej lub w populacji generalnej.
Wyróżniamy miary:
Średnia arytmetyczna
Mediana
Wartość środkowa, gdy szereg statystyczny jedno-cechowy prosty jest nieparzysty)
W szeregu statystycznym parzystym, mediana jest średnią arytmetyczna dwóch wartości środkowych. O wskaźnikach n/2 oraz n/2+1 w przypadku 4 wartości.
Szereg statystyczny jedno-cechowy musi być uporządkowany, jeżeli chcemy obliczyć medianę.
Modalna – moda, wartość modalna
Jest to wartość, która w badanej próbie wystąpiła najczęściej
Nie ma wzoru na modalną
Najłatwiej jest uporządkujemy szereg statystyczna
Zbiorowość jedno modalna, charakteryzuje się ze ma jedna zbiorowość modalną
Zbiorowość bimodalna, to taka, która ma dwie wartości modalne
259 dni –pierwsza wartość dominanty (modalnej). Częstość dominanty (liczebność), ta częstość wystąpiła 5 razy.
263 dni – druga wartość modalna. Częstość dominanty 4.
Występują również zbiorowości wielomodalne, mające więcej niż jedna modę…
Przykład 5, str. 28 ( miary tendencji centralnej) Jerzy A.Moczko. W grupie 10 pacjentów przeprowadzono ocenę jakościowej próby Benedicta, na zawartość glukozy moczu. Uzyskano następujące wyniki:
+, ++, -, -,-, ++++, +,-, +,-
Skala nominalna, dychotomiczna jest szczególnym przypadkiem skali nominalnej, 0, 1 ( binarna)
Skala porządkowa – rangowa
Skala przedziałowa – interwałowa
Skala ilorazowa – na jej wynikach można wykonać wszystkie operacje matematyczne
Wyniki zostały wyrażone w skali porządkowej.
na wynikach porządkowych nie można wykonać żadnych operacji
n = 10
mediana = - ( ponieważ ten znak w porównaniu do +, występuje częściej, a znak + 3)
modalna = - ( wystąpił najczęściej)
Wartość badań | Częstość względna | Liczebność | Procent | Częstość wzgledna kumulowana | Procent skumulowany |
---|---|---|---|---|---|
- | 0,5 | 5 | 50% | 0,5 | 50% |
+ | 0,3 | 3 | 30% | 0,8 | 80% |
++ | 0,1 | 1 | 10% | 0,9 | 90% |
++++ | 0,1 | 1 | 10% | 1,0 | 100% |
Razem | 1,0 | 10 | 100% |
Rozkład badanej zmiennej jakościowej próby Benedicta w grupie 10 pacjentów.
Liczebność kumulowana na znaku – wynosi 5, a na poziomie znaku + wynosi 8, na poziomie ++ wynosi 9, a na poziomie ++++ wynosi 10.
Częstość względna - jest wskaźnikiem struktury.
Częstość wzgledna skumulowana – dodajemy.
Procent % oraz procent skumulowany.
Przykład 2.
Wyznaczyć medianę, pomiaru masy ciała w 8 osobowej grupie dzieci ( przykład 2 strona 24.). Wyniki wyrażone w kilogramach.( Dane nieuporządkowane).
41, 2 kg |
---|
47, 5 kg |
52, 2kg |
43, 3 kg |
44, 0 kg |
83, 9 kg |
42, 6 kg |
43, 1 kg |
Pomiarów masy ciała dokonano z dokładnością do 0, 1 kg.
Średnia arytmetyczna - 49, 725 kg (397, 8 / 8) ~ 49, 7 kg
Mediana – 43, 65 kg
Modalna – Brak
Wartość masy ciała równa 83, 9 kg znacznie odbiega od pozostałych wartości, jest to wartość skrajna( odskakująca) – obserwacja wyróżniająca się wśród większości danych i nie zgodna z pozostałymi danymi.
Średnia arytmetyczna nie jest dobra miara przeciętną. Lepsza miara przeciętną jest mediana lub średnia geometryczna.
Wartości mniejszych od mediany jest 4. Wartości większe od mediany są 4.
Średnia arytmetyczna jest bardzo czuła na wartości odskakujące.
Miara przeciętna – zalety:
Można ją stosować w przypadku wszystkich wartości
Zdefiniowana algebraicznie, łatwa w algorytmizacji
Znamy rozkład próbkowania (rozdział 9.)
Wady:
Zniekształcana przez wartości odskakujące
Jest zniekształcania w przypadku rozkładów skośnych
Rozkład masy ciała w grupie dzieci jest prawostronnie dodatnio.
W rozkładzie asymetrycznym, skośnym dodatnio, największą wartość przyjmuje średnia arytmetyczna, mniejsza wartość przyjmuje mediana, natomiast modalna nie wystepuje.
Mediana – wartość środkowa – zalety:
Nie jest zniekształcana przez wartości odskakujące
Nie jest zniekształcana przez dane skośne
Wady:
Pomija większość dostępnych informacji
Niezdefiniowana algebraicznie
Skomplikowany rozkład próbkowania
Modalna zalety:
Łatwo daje się wyznaczać dla danych kategorialnych
Wady:
Pomija większość dostępnych informacji
Niezdefiniowana algebraicznie
Nieznany rozkład próbkowania
średnia geometryczna zalety:
Przed transformacją ma takie same zalety jak średnia arytmetyczna (1, 10, 100, 1000, 10000, 100000, 1000000, 10000000 – jednostek – to są wartości cechy o rozkładzie asymetrycznym, skośnie dodatnio) każdą wartość logarytmujemy, może to być logarytm naturalny…
Logarytmy 0, 1, 2, 3, 4, 5, 6, 7- log28 28/8 = 3,5
Średnia geometryczna wynosi 103,5
Odpowiednia dla rozkładów prawostronnie skośnych.
Wady:
Daje się stosować jedynie w przypadku, gdy transformacja logarytmiczna wytwarza rozkład symetryczny
Średnia ważona zalety:
Takie same zalety jak średnia
Przypisuje względna wagę do każdej obserwacji
(….)
$$\frac{w_{1}x_{1} + w_{2}x_{2} + w_{3}x_{3}\ldots.w_{n}x_{n}}{w_{1} + w_{2} + w_{3} + \ldots.w_{n}} = \ \frac{\sum_{}^{}{w_{i}x_{i}}}{\sum_{}^{}w_{i}} = \ \frac{1*3 + 2*4 + 3*6 + 4*3 + 5*3}{3 + 4 + 6 + 3 + 3 + 1} = 3,1\ kg\ $$
Oblicz średnią arytmetyczną dla całej badanej grupy, wiedząc, że dla 100 osób średnia arytmetyczna masy ciała wynosiła 70kg. Dla grupy 200 osób średnia arytmetyczna masy ciała wynosiła 80kg. Dla grupy 300 dorosłych osób średnia arytmetyczna wynosiła 60 kg .
70 + 80 + 60 / 3 = 70 kg ( zły wynik)
Należy obliczyć średnią arytmetyczną ważona
$$\frac{70*100 + 80*200 + 60*300}{100 + 200 + 300}\ = \ \frac{7000 + 16000 + 18000}{600} = \frac{41000}{600} \approx 68$$
Ten pierwszy sposób był by słuszny, gdyby wagi były równe. Gdy wagi są bardzo zbliżone do siebie, wtedy średnia arytmetyczna ważona różni się od arytmetycznej nieznacznie.
Wagi musza być znane lub oszacowane.
100, 200, 300 – liczby naturalne.
Liczby względne - $\frac{1}{6}\ ,\ \frac{2}{6},\ \frac{1}{2}$
Liczb procentowych 16,6%, 33, 3%, 50%