Statystyka w naukach społecznych IPSiR
UW
materiały dydaktyczne (2)
1
Wersja robocza
Charakterystyki rozkładu liczebności
1. Miary tendencji centralnej (MTC)
2. Miary dyspersji, zróżnicowania (MD)
3. Miary asymetrii (MA)
1. Miary tendencji centralnej (MTC)
• Średnia arytmetyczna
• Dominanta (wartość modalna, moda)
• Mediana (wartość środkowa)
•
Średnia arytmetyczna
Średnia arytmetyczna
x
jest to wartość cechy, którą
otrzymujemy dzieląc sumę wartości cechy wszystkich
jednostek zbiorowości przez liczebność zbiorowości.
Dla danych indywidualnych, zakładając, że X jest cechą
zbiorowości, która liczy n jednostek statystycznych:
x
x
n
x
x
x
n
i
i
n
n
=
=
+ + +
=
∑
1
1
2
...
(1)
Dla danych pogrupowanych - obliczamy średnią ważoną.
Zakładając, że X jest cechą zbiorowości, która liczy n jednostek
statystycznych pogrupowanych w k klas (przedziałów).
Stosujemy następujący wzór:
n
n
x
n
x
n
x
n
n
x
x
k
k
k
i
i
i
+
+
+
=
=
∑
=
...
2
2
1
1
1
, (2)
zauważmy, że n
n
i
i
k
=
=
∑
1
,
Statystyka w naukach społecznych IPSiR
UW
materiały dydaktyczne (2)
2
dla danych pogrupowanych w przedziały, w miejsce
x
i
należy
wstawić
x
i
0
(środek przedziału)
Przykład 1.
Dane o wzroście studentów (n=10) są następujące:
Ile wynosi średni wzrost?
Stosujemy wzór (1) - dla danych indywidualnych.
Suma wartości Xi wynosi 1717, podzielona przez 10 liczebność
zbiorowości) wynosi 171,7. Zatem:
x
= 171 7
,
.
Przykład 2.
Dane o wzroście n = 300 studentów są następujące:
Ile wynosi średni wzrost?
Należy obliczyć średnią ważoną (dane są pogrupowane), czyli
zastosować wzór (2).
x
=
=
50040
300
166 8
,
Przykład 3.
Dane o wieku mieszkańców pewnego „wieżowca” (n = 300) są
następujące:
Xi 160 171 161 190 171 155 180 183 189 157
xi n
i
x
i
n
i
160
50
8000
165
90
14850
168
100
16800
170
50
8500
189
10
1890
suma
300
50040
Statystyka w naukach społecznych IPSiR
UW
materiały dydaktyczne (2)
3
Ile wynosi średni wzrost?
Należy obliczyć średnią ważoną (dane są pogrupowane), czyli
zastosować wzór (2).
5
,
34
300
10350 =
=
x
Własności średniej arytmetycznej:
- może przyjąć każdą wartość z przedziału
Xmin i Xmax
- jest wartością abstrakcyjną, wypadkową
- jest wartością mianowaną
- suma odchyleń od średniej jest równa zero
- suma kwadratów odchyleń jest najmniejsza (metoda
najmniejszych kwadratów)
xi n
i
x
i
0
x
i
0
n
i
0-10 20
5
100
10-20 40
15
600
20-30 80
25
2000
30-40 60
35
2100
40-50 40
45
1800
50-60 30
55
1650
60-70 20
65
1300
70-90 10
80
800
suma 300
X
10350
Statystyka w naukach społecznych IPSiR
UW
materiały dydaktyczne (2)
4
•
Dominanta (wartość modalna, moda)
Dominanta (d) jest to wartość cechy, która występuje w
analizowanej zbiorowości najczęściej.
Dla danych indywidualnych wyznaczanie dominanty polega
na ustaleniu jaka wartość cechy występuje najczęściej czyli
pojawia się u największej liczby jednostek statystycznych.
Przykład 3
Analizą jest objęta grupa 10 studentów, X - wzrost w cm.
Dane są następujące:
X 160 170 170 168 169 162 180 168 168 169
Podaj ile wynosi dominanta. Odpowiedź: d = 168 cm
Dla danych pogrupowanych dominantę wyznacza się z
szeregu rozdzielczego.
Jeżeli pogrupowanie jest punktowe dominantą jest ta wartość
cechy, która odpowiada największej liczebności.
Przykład 4.
Dane o wzroście (X) studentów pewnego wydziału
uniwersyteckiego (n=150) są następujące:
X ni nsk
160 20 20
165 30 50
170 35 85
172
50 135
178 15 150
Suma 150 X
Obliczyć dominantę.
Statystyka w naukach społecznych IPSiR
UW
materiały dydaktyczne (2)
5
Rozwiązanie:
Wśród liczebności grupowych (ni) odnajdujemy wartość
największą (czyli: 50). Dominantą jest wartość X
odpowiadająca liczebności największej.
Odpowiedź:
d = 172 cm
Me = 170
Jeżeli dane pogrupowane są w przedziały możemy:
a) wyznaczyć przedział dominanty, a następnie przyjąć jako
przybliżoną wartość dominanty środek przedziału
b) określić przybliżoną wartość dominanty za pomocą wzoru
interpolacyjnego:
n
d
-
n
d-1
d
=
x
d
+
⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯
i
d
(n
d
- n
d-1
)
+
(n
d
-
n
d+1
)
gdzie:
x
d
- dolna granica przedziału, w którym znajduje się
dominanta,
n
d
- liczebność przedziału dominanty,
n
d-1
- liczebność przedziału poprzedzającego przedział
dominanty,
n
d+1
- liczebność przedziału następującego po przedziale
dominanty,
i
d
- szerokość (rozpiętość) przedziału dominanty.
Przykład 5:
Wyniki testu pamięciowego przeprowadzonego wśród 100
studentów są następujące:
X
ni
nsk Xi0 Xi0ni
0 - 5
5
5
11,5
5 - 10
20
25
150,0
10 - 15
30
55
375,0
15 - 20
25
80
435,5
20 - 25
20 100
450,0
Suma 100 X
X
1423,5
Statystyka w naukach społecznych IPSiR
UW
materiały dydaktyczne (2)
6
Obliczyć dominantę wykorzystując wzór interpolacyjny.
Rozwiązanie:
d = 10 + (30 - 20) / [(30 - 20) + (30 -25)] * 5 = 10 + 10 / 15 * 5 = 10
+ 3,33 ≈ 13,3
Me ≈ 12,5
x
= 14,2
• Interpretacja
• Własności
Rozkłady unimodalne (jednomodalne)
Rozkłady bimodalne (dwumodalne)
Rozkłady multimodalne (wielomodalne)
Graficzne
Dominantę z szeregu rozdzielczego można w przybliżeniu
wyznaczyć także w sposób graficzny (np. na podstawie
histogramu).
Dominanta x
n
Statystyka w naukach społecznych IPSiR
UW
materiały dydaktyczne (2)
7
•
Mediana (wartość środkowa)
Mediana jest to wartość zmiennej, która „dzieli” zbiorowość
statystyczną na dwie części - tak, że 50% jednostek
zbiorowości posiada wartość zmiennej mniejszą lub równą
medianie i 50% jednostek zbiorowości posiada wartość
zmiennej większą lub równą medianie.
Obliczanie mediany polega na wskazaniu jednostki środkowej i
odczytaniu wartości zmiennej przez nią posiadaną (zakładamy,
że jednostki zbiorowości uporządkowane są według rosnących
wartości zmiennej)
Dla wskazania, która jednostka "zajmuje środkową pozycję"
zaleca się skumulowanie liczebności (sumowanie narastające).
Należy zauważyć, że przy nieparzystej liczbie jednostek
zbiorowości "osoba" środkowa będzie miała indeks (n+1)/2.
Przy parzystej liczbie jednostek zbiorowości wskazuje się dwie
jednostki środkowe o indeksach n/2 i n/2 +1.
Dla danych indywidualnych (uporządkowanych) lub
pogrupowanych punktowo medianę oblicza się następująco:
Me =
x
(n+1)/2 dla n nieparzystych
Me = (1/2) (
x
n/2 +
x
n/2+1)
dla n parzystych
Jeżeli dane pogrupowane są w przedziały możemy:
a) wyznaczyć przedział mediany, a następnie przyjąć jako
przybliżoną wartość mediany środek przedziału
b) określić przybliżoną wartość mediany za pomocą wzoru
interpolacyjnego:
Statystyka w naukach społecznych IPSiR
UW
materiały dydaktyczne (2)
8
n/2 -
n
i
i
k
=
−
∑
1
1
Me =
x
Me + ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ i Me
n Me
gdzie:
x Me - dolna granica przedziału mediany,
n Me - liczebność przedziału mediany,
i Me - szerokość (rozpiętość) przedziału mediany
n
i
i
k
=
−
∑
1
1
- suma liczebności skumulowanych w przedziale
poprzedzającym przedział
mediany,
Przykład 6
200 losowo wybranych kierowców samochodów osobowych
zapytano ile wykroczeń drogowych popełnili w ciągu ostatnich
6 miesięcy. Uzyskano następujące odpowiedzi. Obliczyć
medianę wykorzystując wzór interpolacyjny:
X
ni
nsk
0 - 5
50
1……50
50
5 - 10
60
51 …110
110
10 - 15
40
150
15 - 20
40
190
20 - 25
10
200
Suma 200
X
Rozwiązanie
(a) z szeregu liczebności skumulowanych wynika, że wartość
mediany znajduje się w przedziale drugim czyli między 5 i 10
(przedział drugi jest przedziałem mediany).
(b) korzystamy z wzoru interpolacyjnego:
Me = 5 + [(200/2 - 50)/60] * 5 = 5+ 50/60 * 5 = 5+ 4,16 = 9,16
Statystyka w naukach społecznych IPSiR
UW
materiały dydaktyczne (2)
9
Wyznaczania mediany dla szeregu prostego (dane
indywidualne)
1. uporządkować dane w sposób rosnący,
2. zauważyć (przeliczyć) czy liczba obserwacji jest parzysta
czy nieparzysta
Jeżeli szereg jest nieparzysty wartość mediany stanowi
wartość cechy wyrazu środkowego
168, 178, 171, 185, 180, 171, 179, 183, 180, 175, 186
168, 171, 171, 175, 178,
179
, 180, 180, 183, 185, 186
Me = 179
Jeżeli szereg jest parzysty są dwa wyrazy środkowe a medianę
stanowi średnia arytmetyczna wartości badanej cechy
wyznaczona z obu wyrazów środkowych
159, 168, 171, 171, 175,
178, 179
, 180, 180, 183, 185, 186
Me = (178+179)
÷ 2 = 178,5 ≈ 179
Średnia geometryczna
jest to pierwiastek n-tego stopnia z iloczynu n liczb.
Jeśli tymi liczbami są wskaźniki dynamiki (łańcuchowe) w
okresie od 0 do n, średnia geometryczna oznacza średnie
roczne tempo zmian (wzrost lub spadek) w %.
1
/
1
−
=
Π
=
xt
xt
G
n
n
t
(
Π
-
oznacza iloczyn)
Dane czasowe: X liczba zabójstw dokonanych w latach
2000-2007
lata 2000 2001 2002 2003 2004 2005 2006 2007
Xt 809 751 690 638 616 544 480 512
n
X
2001
/X
2000 *
X
2002
/X
2001 *
X
2003
/X
2002 *
X
2004
/X
2003 *
X
2005
/X
2004 *
X
2006
/X
2005 *
X
2007
/X
2006 =
n
X
2007
/X
2000 (pierwiastek 7-mego stopnia)
Interpretacja: średnie roczne tempo wynosi X%