3 Statystyka w badaniach Statystycznych opis struktury danych część 1


Statystyka w badaniach. Opis statystyczny struktury danych. część 1 Urszula Augustyńska
Opis statystyczny struktury zbiorowości
Zobrazowana tabelarycznie lub graficznie struktura zbiorowości podlega w trakcie analizy statystycznej
dalszemu syntetycznemu opisowi. Celem takiego opisu jest przedstawienie w kilku  słowach pewnych
charakterystycznych cech badanej zbiorowości. W grę wchodzą tu najczęściej pytania o przeciętne lub typowe
wartości analizowanych zmiennych dobrze charakteryzujące zbiorowość, o stopień zróżnicowania zbiorowości,
o równomierność tego zróżnicowania, itp.
Statystyczny opis struktury składa się z pewnych charakterystyk noszących nazwę parametrów
statystycznych, jeżeli opisują zbiorowość generalną (populację), bądz statystyk z próby, jeżeli odnoszą się tylko
do zbiorowości próbnych i jako takie są podstawą do wnioskowania o parametrach populacji. Podstawowymi
charakterystykami są miary takich właściwości rozkładu jak:
" Tendencja centralna
" Rozproszenie (zmienność, dyspersja)
" Asymetria
Tendencja centralna
określa pewną przeciętną wartość zmiennej,
Tendencja centralna,
dobrze charakteryzującej otrzymany rozkład danych
drogi studencie,
niezależnie od ich wewnętrznego zróżnicowania.
zbiorowość całą opisze ci chętnie
Podstawowymi miarami tendencji centralnej są:
jedną wartością trafnie dobraną:
- średnia arytmetyczna
średnią, modą lub medianą
- mediana (wartość środkowa)
- moda (dominanta, wartość najczęstsza)
Gdy podzielisz sumę na równe kawałki
arytmetyczną średnią otrzymasz, Michałku.
Średnia arytmetyczna (M) to wartość zmiennej, którą dla otrzymanego zbioru danych obliczamy w następujący
sposób:
N
1
M = xi ,
Jak to policzyć?
"
N
i= 1
gdzie N oznacza liczbę danych, Łx sumę wartości danych.
i
Średnią arytmetyczną obliczamy wówczas, gdy dane są wartościami liczbowymi oraz gdy są kompletne, tzn.
gdy wartości analizowanej zmiennej określone zostały dla każdego elementu badanej zbiorowości.
Mediana to taka dana, co w środku
szeregu stoi i na połowy go kroi
Mediana (Me) to wartość zmiennej, która dzieli uporządkowany zbiór danych na dwie równoliczne części. W
uporządkowanym rosnąco (lub malejąco) zbiorze danych mediana zajmuje pozycję środkową.
Jak to policzyć?
Statystyka w badaniach. Opis statystyczny struktury danych. część 1 Urszula Augustyńska
Moda odpowie ci sama,
jaka w zbiorze najczęściej
powtarza się dana
Moda (Mo) to wartość zmiennej, która powtarza się najczęściej w zbiorze danych.
Modę i medianę można wyznaczyć graficznie. Dla wartości równej wartości modalnej krzywa rozkładu
zmiennej ciągłej osiąga maksimum. Medianę odczytujemy z wykresu dystrybuanty, jako wartość zmiennej
odpowiadającej częstości kumulowanej 0,5 (50%).
Mo Me
Rys.24. Graficzne wyznaczanie mody i mediany
Każda z omówionych miar tendencji centralnej ma swoistą interpretację, inaczej charakteryzuje otrzymany
rozkład. Przedstawimy to na prostym przykładzie.
Przykład:
W pewnych badaniach zmierzono wzrost 11 dzieci. Pomiary wzrostu tej grupy dzieci tworzą następujący zbiór
danych (uporządkowanych w szereg statystyczny):
118cm, 118cm, 119cm, 121cm, 123cm, 125cm, 126cm, 126cm, 126cm, 127cm, 130cm
x x x x x x x x x x x
1 2 3 4 5 6 7 8 9 10 11
Obliczmy z definicji średnią arytmetyczną wzrostu:
11
1 1 1 1359
M = xi = (x1 + x2 + ...... + x11) = (118 + 118 + 119 + ..... + 130) = = 123,5
"
11 11 11 11
i= 1
Średnią arytmetyczną M = 123,5cm jako miarę tendencji centralnej rozkładu wzrostu w grupie dzieci można
zinterpretować następująco: gdyby dzieci, których sumaryczny wzrost jest równy 1359cm były wszystkie tak
samo wysokie, to każde z nich miałoby wzrost 123,5cm. Inaczej: średnia arytmetyczna jest taką wartością
zmiennej, jaką miałby każdy element zbiorowości, gdyby ta zbiorowość była idealnie jednorodna.
Aby określić medianę wzrostu należy w uporządkowanym rosnąco zbiorze danych znalezć element znajdujący
x
N + 1
się na pozycji środkowej; w zbiorze danych o nieparzystej liczbie elementów środkowym jest element ,
2
gdzie N jest liczebnością zbioru danych. W naszym przykładzie jest to wartość x =125cm. Mediana rozkładu
6
wzrostu w grupie dzieci wynosi więc Me = 125cm; oznacza to, że dzieci, których wzrost jest nie większy niż
125cm jest tyle samo, ile dzieci o wzroście nie mniejszym niż 125cm.
Statystyka w badaniach. Opis statystyczny struktury danych. część 1 Urszula Augustyńska
Modą rozkładu wzrostu jest wartość Mo = 126cm. Taki wzrost ma najwięcej dzieci w grupie.
Podjęcie decyzji, która z miar jest najbardziej odpowiednia do opisu tendencji centralnej konkretnego
rozkładu zmiennej zależy, między innymi, od typu rozkładu, kompletności danych, rodzaju zmiennej. Czasem
zasadnym jest określenie wszystkich miar. Chociaż każda z nich jest inną informacją o rozkładzie, to razem
stanowią komplementarny opis tendencji centralnej.
Należy jeszcze podkreślić, że wszystkie wskazane miary są wartościami mianowanymi (mają takie samo
miano jak wartości analizowanej zmiennej).
Rozproszenie, drogi studencie,
o zróżnicowaniu danych
opowie ci chętnie
Rozproszenie (zmienność, dyspersja)
charakteryzuje stopień zróżnicowania zbiorowości pod względem badanej właściwości.
Miary tendencji centralnej informują nas o przeciętnej wartości analizowanej zmiennej, ale nie mówią o
stopniu zróżnicowania badanej zbiorowości ze względu na tę zmienną. Zróżnicowanie to określają następujące
podstawowe miary rozproszenia rozkładu:
- rozstęp
- wariancja i odchylenie standardowe
- odchylenie ćwiartkowe
Największa minus najmniejsza dana,
to ROZSTP, kochana.
Rozstęp (R) to różnica między największą - x , a najmniejszą - x zaobserwowaną wartością
max min
analizowanej zmiennej:
R = x - x
max min
Przypuśćmy, że w dwu grupach młodzieży przeprowadzono test sprawności fizycznej i uzyskano
następujące wyniki:
grupa A: 4p, 6p, 8p, 8p, 10p, 11p, 12p, 12p, 15p
grupa B: 8p, 9p, 10p, 10p, 11p, 12p, 12p, 13p, 13p.
W grupie A rozstęp wyników wynosi: 15p  4p = 11p, a w grupie B: 13p  8p = 5p.
Grupa B, w której różnica między wynikiem najwyższym a najniższym jest mniejsza, jest mniej zróżnicowana
(bardziej jednorodna) pod względem sprawności, niż grupa A.
Rozstęp określa zakres zmienności, ale nic nie mówi o zróżnicowaniu danych wewnątrz tego zakresu.
Dokładniejszą miarą, określającą stopień rozproszenia danych względem średniej arytmetycznej, jest
wariancja lub odchylenie standardowe:
Statystyka w badaniach. Opis statystyczny struktury danych. część 1 Urszula Augustyńska
Odchylenie Standardowe
na pytanie wam odpowie,
jakie danych rozproszenie
wokół Średniej w tym terenie.
Odchylenie standardowe (S) to pierwiastek ze średniej arytmetycznej kwadratów odchyleń poszczególnych
danych od średniej arytmetycznej:
2
N
1
Jak to policzyć?
S = ( xi - M )
"
N
i= 1
Wariancja (S2) to średnia arytmetyczna kwadratów odchyleń poszczególnych danych od średniej
arytmetycznej:
N
1
2
S = (xi - M )2
,
"
N
i= 1
gdzie x to wartości zmiennej X zaobserwowane w próbie, a M jest średnią arytmetyczną.
i
Dla małych zbiorowości próbnych (N<30) wariancję oraz odchylenie standardowe rozkładu zmiennej w
próbie obliczamy jako wartości statystyk:
N 2
N
)
1 )
2
S = (xi - M )2 S = 1 xi - M
( )
"
"
N - 1
i= 1 N - 1
i= 1
Im mniejsza wartość odchylenia standardowego S, tym mniejsze jest rozproszenie danych wokół średniej,
czyli badana zbiorowość jest bardziej jednorodna.
Ponieważ odchylenie standardowe jest wielkością mianowaną (ma miano analizowanej zmiennej), nie może
być wykorzystane, gdy chcemy porównać stopień jednorodności badanej zbiorowości według różnych
zmiennych. W tym przypadku możemy sięgnąć po względną miarę zwaną współczynnikiem zmienności;
S
VS =
,
M
gdzie S  odchylenie standardowe, M  średnia arytmetyczna.
Współczynnik zmienności charakteryzuje wielkość rozproszenia względem wybranej miary tendencji
centralnej, w tym przypadku średniej arytmetycznej (o ile miara ta nie jest równa zero). Przyjmuje się, że jeżeli
współczynnik nie przekracza wartości 0,10 mamy do czynienia z jednorodną, ze względu na analizowaną
zmienną, zbiorowością1.
Przykład:
Obliczmy wymienione miary rozproszenia dla danych z poprzedniego przykładu.
Maksymalną wartością w zbiorze danych jest x = 130cm, a minimalną, x = 118cm.
max min
Rozstęp R jest zatem równy
R = 130cm  118cm = 12cm
Różnica wzrostu między najwyższym a najniższym dzieckiem w badanej grupie wynosi 12cm.
Wariancję rozkładu obliczymy jako wartość statystyki
N
)
1
2
S = (xi - M )2
"
N - 1
i= 1
Dla podanego zbioru danych mamy:
1
S.Ostasiewicz, Z.Rusnak, U.Siedlecka Statystyka. Elementy teorii i zadania, Wyd. AE, Wrocław 1999, s.68
Statystyka w badaniach. Opis statystyczny struktury danych. część 1 Urszula Augustyńska
11
1
2
2
S = ( xi - 123,5) =
"
11- 1
i= 1
1 162,75
2 2 2 2
{(130 - 123,5) + (118 - 123,5) + (119 - 123,5) + ....... + (125 - 123,5) }= = 16,275
10 10
Wariancja rozkładu równa jest S2 = 16,28cm2, zaś odchylenie standardowe
S = 16,28cm2 = 4,03cm
S
Względne rozproszenie mierzone współczynnikiem zmienności VS = wynosi:
M
4,3
Vs = = 0,033, co świadczy o dużej jednorodności badanej grupy dzieci pod względem wzrostu.
123,5
Ćwiczenia i zadania
1. Oblicz średnią oraz wariancję i odchylenie standardowe poniższych zbiorów danych. Który rozkład danych
charakteryzuje się mniejszym rozproszeniem?
Pomiary zmiennej X: 4, 4, 5, 6, 6
Pomiary zmiennej Y: 2, 2, 5, 8, 8
G.Wieczorkowska; Statystyka. Wprowadzenie do analizy danych sondażowych i eksperymentalnych. Warszawa
2003
2. Oblicz średnią arytmetyczną, medianę i modę następujących zbiorów danych:
a) 9,10, 11, 12, 13, 13, 14, 15, 16, 18, 20 [cm]
b) 8, 10, 11, 12, 13, 14, 15, 16, 18, 20 [ml]
c) 7, 8, 10, 10, 11, 13, 17, 18, 19, 21 22 [g]
d) 10, 12, 15, 20, 22, 23, 23, 24, 25, 25, 25, 28, 30 [s]
Przyjrzyj się otrzymanym miarom tendencji centralnej i zdecyduj, która miara najlepiej charakteryzuje każdy ze
zbiorów danych. Wykonaj tabelę podsumowującą względne zalety oraz wady związane z podanymi miarami
tendencji centralnej.
3. Oblicz rozstęp, wariancję i odchylenie standardowe poniższych zbiorów danych:
a) 12, 10, 8, 4, 18, 8 [cm]
b) 0, 0, 4, 5, 20, 20, 22, 19 [ml]
c) 0, 19, 21, 18, 22 [g]
d) 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6 [s]
4. W poniższym przykładzie średnia arytmetyczna wynosi 10. Znajdz modę, medianę, rozstęp i odchylenie
standardowe; omów trafność tych miar dla podanego zbioru danych:
0, 1, 2, 20, 1, 3, 51, 20, 1, 1.
5. Dla każdego z następujących zestawów statystyk opisowych naszkicuj kształt rozkładu, z którego mogą one
pochodzić:
rozkład średnia arytmetyczna mediana moda
A 50 50 50
B 10 20 30
C 30 20 10
D 60 60 20 i 80
F. Clegg; Po prostu statystyka. Kurs dla studentów nauk społecznych. Warszawa 1994


Wyszukiwarka