1
Podstawowe charakterystyki
• Miary tendencji centralnej
Średnie
Modalna
Mediana
ZAGADNIENIA OMAWIANE NA
ĆWICZENIACH
2
• Miary zmienności
Wariancja
Odchylenie standardowe
Współczynnik zmienności
• Miary asymetrii
Skośność
Błąd standardowy
Zadania do wykonania
3
Podstawowa analiza danych powinna doprowadzić do
zwięzłego przedstawienia ogólnej charakterystyki istotnych
właściwości
badanej
zbiorowości.
Parametry
tak
charakteryzują
zbiorowość,
że
porównanie
różnych
zbiorowości statystycznych można sprowadzić do ich
porównań. Podstawowe zadania tych parametrów opisowych
to :
• określenie przeciętnego rozmiaru i rozmieszczenia wartości
zmiennej. Dokonujemy tego przez obliczenie miar położenia.
• określenie granic obszaru zmienności wartości zmiennej.
Dokonujemy tego przez obliczenie miar zmienności.
• określenie skupienia i spłaszczenia (w stosunku do kształtu
krzywej normalnej) oraz stopnia zmiany od idealnej symetrii.
Dokonujemy tego przez obliczenie miar asymetrii i
koncentracji.
STATYSTYKA OPISOWA
4
Podstawowe charakterystyki
• Miary tendencji centralnej
Wskaźnik struktury – wartość średnia
Średnia arytmetyczna jest najlepszą miarą charakteryzującą rozkład cechy i
dlatego jest miarą najczęściej używaną. Obliczanie jej opiera się na
wszystkich obserwacjach i ma ogromne znaczenie teoretyczne i praktyczne.
Jedyną poważniejszą jej wadą jest to, że duży wpływ na nią wywierają
najmniejsza i największa wartość badanego szeregu, czyli tzw. skrajne
wartości cechy
Wzór:
Wyróżniamy również inne rodzaje średnich m.in. średnią geometryczną i
średnią harmoniczną.
Obie te średnie są mniejsze lub równe średniej arytmetycznej, przy czym
równość zachodzi tylko dla identycznych wszystkich wartości. Średnią
geometryczną stosujemy, gdy zjawiska są ujmowane dynamicznie (np. średnie
tempo zmian). Średnie te są rzadziej wykorzystywane w problemach
statystycznych w biologii i medycynie.
___
1
n
i
i
N
x
x
5
Modalna
Wynik najczęściej występujący – wartość madalna
Jest to wartość cechy statystycznej, która w rozkładzie empirycznym
występuje najczęściej. Oznaczona jest symbolem M
o
. W szeregach
szczegółowych i rozdzielczych jest to wartość cechy, której odpowiada
największa liczebność. Można, więc łatwo określić przedział, w którym
modalna występuje.
Wzór:
gdzie
x
o
– dolna granica przedziału, w którym występuje
modalna,
n
m
– liczebność przedziału modalnej,
n
m-1
– liczebność klasy poprzedzającej przedział modalnej,
n
m+1
– liczebność klasy następującej po przedziale
modalnej,
k
m
– rozpiętość przedziału klasowego modalnej.
1
1
1
*
m
m
o
o
m
m
m
m
m
n n
x
k
M
n n
n n
6
Znalezienie klasy o największej liczebności nie jest sprawą trudną, określona
jest przez wyraźny punkt – szczyt reprezentujący największą liczbę
obserwacji. Jeśli histogram ma 2, 3 lub więcej szczytów, to mówimy, że jest
bimodalny, trimodalny itd. To świadczy o niejednorodności badanej
zbiorowości.
Przykład 3
W tabeli umieszczono liczbę pacjentów pogrupowanych według czasu
działania pewnego leku.
Liczymy modalną. Jak wynika z tabeli – modalna znajduje się w czwartym
przedziale.
Arkusz programu
Microsoft Excel
Arkusz programu
Microsoft Excel
81 39
23
*5 25,386
81 39
81 35
o
M
7
Mediana
Wartość środkowa – mediana (jeśli uporządkujemy posiadane wartości od
największej do najmniejszej i wybierzemy wartość środkową)
To wartość jednostki położonej w zbiorowości w ten sposób, że dzieli
zbiorowość na dwie równe części.
Wyznaczenie Me musi poprzedzić ustalenie jej pozycji. Jest to
przedział, dla którego liczebność skumulowana jest mniejsza lub równa
liczbie n/2 (gdzie n to liczebność zbiorowości.
Wzór:
gdzie: m – numer klasy, w której występuje Me,
x
m
– dolna granica tej klasy,
n
m
– liczebność tej klasy,
k
m
– rozpiętość tej klasy
– liczebność skumulowana do przedziału poprzedzającego klasę, w
której występuje Me.
1
1
2
m
m
e
m
i
i
m
n
k
x
n
M
n
1
1
m
i
i
n
8
Mediana obok średniej arytmetycznej jest najczęściej stosowanym parametrem
statystycznym. Wartość mediany nie zależy od wartości krańcowych. Możemy ją
wyznaczać nawet wtedy, gdy nie wszystkie obserwacje są dokładnie znane, np. z
szeregów, w których występują nie zamknięte przedziały klasowe. Mediana
wysuwa się na czoło w zastosowaniu do wszystkich wzrokowo uchwytnych, a
trudno mierzalnych wielkości. Mediany używamy również do analizy cech
jakościowych.
Przykład 4
Wykorzystując dane z poprzedniego przykładu obliczyć medianę.
Me = 23 + 5/81 * [201/2-72] = 24,759
Oznacza to, że dla połowy pacjentów czas działania leku nie przekracza 24,75
minut i dla takiej samej liczby pacjentów nie mniejszy od tej wartości.
9
•Miary rozproszenia (zmienności)
Najprostszą miarą jest odchylenie średnie (przeciętne) do jego wyliczenia
dodajemy do siebie wartości bezwzględne różnic między kolejnymi pomiarami
i średnią a następnie dzielimy sumę tych różnic przez liczbę pomiarów.
Najpowszechniej
używaną
miarą
rozproszenia
jest
odchylenie
standardowe, jest ono większe od odchylenia przeciętnego, gdyż na nie mają
większy wpływ wartości skrajne, tzn. bardzo odbiegające od średniej; dlatego
odchylenie średnie bywa lepsza miarą rozproszenia niż odchylenie
standardowe.
Teoretycznie miarą odchylenia jest wariancja, a odchylenie standardowe jest
jej pierwiastkiem. Do obliczania odchylenia wykorzystujemy wszystkie dane,
to znaczy wszystkie wartości zarejestrowane w trakcie pomiarów.
Wariancją zmiennej X nazywamy średnią arytmetyczną kwadratów odchyleń
poszczególnych wartości zmiennej od średniej arytmetycznej całej
zbiorowości:
Wzór:
2
__
2
1
1
n
i
i
N
x x
s
10
Pierwiastek
kwadratowy
z
wariancji
zwany
jest
odchyleniem
standardowym i określony jest wzorem:
Gdzie:
- suma kwadratów odchyleń
- suma kwadratów tych pomiarów
- kwadrat sumy pomiarów
N - elementy zbioru
Współczynnik zmienności
Za pomocą tego współczynnika można porównywać zmienność pomiarów
różniących się średnią, na przykład zmienność osobników z gatunków
różniących się wymiarami.
Wzór
__
s
CV
X
2
1
x
s
N
2
2
2
X
x
X
N
2
x
2
X
2
X
11
Jeśli rozkład danej cechy jest jednomodalny i symetryczny, to średnia i
odchylenia są w zasadzie wystarczającymi charakterystykami tego
rozkładu. Jeśli natomiast nie jest on symetryczny, czyli średnia nie
pokrywa się z medianą, to nazywamy go asymetrycznym:
Lewostronnie, jeśli mediana jest większa od średniej
Prawostronnie, jeśli mediana jest mniejsza od średniej
• Miary asymetrii
Są sytuacje, w których badanie średniego poziomu zmiennej i
rozproszenia jej wartości nie wskazuje na istnienie różnic między
badanymi zbiorowościami. Obserwacja zaś rozkładów tych cech wyklucza
podobieństwo rozważanych zbiorowości.
Przykład 5
Badano czas reakcji na lek w trzech grupach 100-osobowych. W tabeli są
umieszczone dane.
Oblicz średnią arytmetyczną i wariancje.
12
Wynik: oba te parametry są jednakowe dla wszystkich grup i wynoszą:
X = 35, s
2
= 120
Mimo to występują różnice – widać to wyraźnie na histogramach.
Wnioski: w grupie 2 u większości osób czas reakcji na lek jest niższy od
przeciętnego, natomiast w grupie trzeciej u większości osób czas reakcji na
lek jest wyższy od przeciętnego. Związane jest to oczywiście z asymetrią
rozkładu.
Asymetrię można określić porównując średnią arytmetyczną z medianą i
modalną.
Można wyróżnić trzy przypadki:
X = Me = Mo – dla rozkładu symetrycznego
X > Me > Mo – dla rozkładu o asymetrii prawostronnej
X < Me < Mo – dla rozkładu o asymetrii lewostronnej
13
Dla określenia odchylenia od symetrii rozkładu stosuje się mierniki
asymetrii. Typowym przykładem jest parametr nazywany skośnością
rozkładu. Przyjmuje on wartości ujemne dla rozkładu asymetrycznego
lewostronnie, dodatnie dla rozkładu asymetrycznego prawostronnie,
natomiast dla rozkładów symetrycznych jest równa zero. Jeśli s (skośność)
< 0,3 to uważamy asymetrię za nieznaczną.
Kiedy stosować średnią a kiedy inne wskaźniki?
Istnieje prosta reguła.
Jeśli rozkład jest jednomodalny i względnie symetryczny – stosujemy
średnią;
Jeśli rozkład jest jednomodalny, ale niesymetryczny – stosujemy
medianę;
Jeśli rozkład jest wielomodalny– stosujemy modalną;
14
Błąd standardowy [standard error of the mean]
Określony jest wzorem:
Błąd standardowy (SEM) wskazuje na prawdopodobną odległość uzyskanej
średniej od rzeczywistej średniej populacyjnej.
Wielkość SEM jest zależna od liczebności badanej grupy, dlatego w dużych
grupach SEM jest zwykle mniejsze.
SEM jako taki jest trudny do interpetacji. Ze względu na mniejszą wartość od
odchylenia standardowego często jest wykorzystywany do prezentacji
wyników, które "stają się" przez to ładniejsze. Poprawia to samopoczucie
badacza i ma "wywierać" dobre wrażenie na pozostałych.
Uważa się, że jeśli obok średniej podano SEM wówczas powinna znaleźć się
również liczba przypadków, np. średnia wielkość lewej komory w rozkurczu 47
mm, SEM ± 7 mm, liczba przebadanych 9. SEM odpowiada ilorazowi SD i
pierwiastka z liczby przypadków.
Wynik W opisanym przykładzie SD jest więc równy 21 mm. O ileż mniej
"atrakcyjny" jest wynik 47 ± 21 mm (średnia±SD) niż 47±7 mm
(średnia±SEM).
Zadania do wykonania
*
N