Statystyka w naukach społecznych
IPSiR UW
materiały dydaktyczne (2)
Charakterystyki rozkładu liczebności
I. Analiza tendencji centralnej
• Średnia arytmetyczna
• Dominanta (wartość modalna, moda)
• Mediana (wartość środkowa)
• Średnia arytmetyczna
Średnia arytmetyczna x jest to wartość cechy, którą otrzymujemy dzieląc sumę wartości cechy wszystkich jednostek zbiorowości przez liczebność zbiorowości.
Dla danych indywidualnych, zakładając, że X jest cechą zbiorowości, która liczy n jednostek statystycznych:
n
∑ xi
x
=
...
1
1 + x 2 +
+ x
x
i
n
=
=
(1)
n
n
Dla danych pogrupowanych - obliczamy średnią ważoną. Zakładając, że X jest cechą zbiorowości, która liczy n jednostek statystycznych pogrupowanych w k klas (przedziałów). Stosujemy następujący wzór:
k
∑ x n
i
i
x n
k
=
...
1
1 1 + x n
2
2 +
+ x n
x
i
k
k
=
=
, zauważmy, że
n = ∑ n (2) n
n
i
i =1
dla danych pogrupowanych w przedziały, w miejsce x należy wstawić x 0 (środek i
i
przedziału)
Przykład 1.
Dane o wzroście studentów (n=10) są następujące:
X 160 171 161 190 171 155 180 183 189 157
ile wynosi średni wzrost?
Stosujemy wzór (1) - dla danych indywidualnych.
Suma wartości X wynosi 1717, podzielona przez 10 (liczebność zbiorowości) wynosi 171,7. Zatem x = 171 7
, .
1
Statystyka w naukach społecznych
IPSiR UW
materiały dydaktyczne (2)
Przykład 3.
Dane o wzroście n = 300 studentów są następujące:
X
ni
xini
160
50
8000
165
90
14850
168
100
16800
170
50
8500
189
10
1890
suma
300
50040
ile wynosi średni wzrost?
Należy obliczyć średnią ważoną (dane są pogrupowane), czyli zastosować wzór (2).
50040
x =
= 166 8
,
300
• Dominanta (wartość modalna, moda)
Dominanta (d) jest to wartość cechy, która występuje w analizowanej zbiorowości najczęściej.
Dla danych indywidualnych wyznaczanie dominanty polega na ustaleniu jaka wartość cechy występuje najczęściej czyli pojawia się u największej liczby jednostek statystycznych.
Przykład 3
Analizą objęta jest grupa 10 studentów, a cechą X - wzrost w cm. Dane są następujące:
X
160
170
170
168
169
162
180
168
168
169
Odpowiedź:
d = 168 cm
Dla danych pogrupowanych dominantę wyznacza się z szeregu rozdzielczego.
Jeżeli pogrupowanie jest punktowe dominantą jest ta wartość cechy, która odpowiada największej liczebności.
Przykład 4.
Dane o wzroście (X) studentów pewnego wydziału uniwersyteckiego (n=150) są następujące:
X
ni
160
20
165
30
170
35
172
50
178
15
Suma
150
2
Statystyka w naukach społecznych
IPSiR UW
materiały dydaktyczne (2)
Obliczyć dominantę.
Rozwiązanie:
Wśród liczebności grupowych (ni) odnajdujemy wartość najwyższą (czyli: 50).
Dominantą jest wartość X odpowiadająca liczebności największej.
Odpowiedź:
d = 172 cm
Jeżeli dane pogrupowane są w przedziały możemy:
a) wyznaczyć przedział dominanty, a następnie przyjąć jako przybliżoną wartość dominanty środek przedziału
b) określić przybliżoną wartość dominanty za pomocą wzoru interpolacyjnego: n d - n d-1
d = x d + i d (n d - n d-1) + (n d - n d+1)
gdzie:
x d - dolna granica przedziału, w którym znajduje się dominanta, n d
- liczebność przedziału dominanty,
n d-1 - liczebność przedziału poprzedzającego przedział dominanty,
n d+1 - liczebność przedziału następującego po przedziale dominanty,
i d
- szerokość (rozpiętość) przedziału dominanty.
Przykład 5:
Wyniki testu pamięciowego przeprowadzonego wśród 100 studentów są następujące:
X
ni
0 – 5
5
5 – 10
20
10 – 15
30
15 – 20
25
20 – 25
20
Suma
100
Obliczyć dominantę wykorzystując wzór interpolacyjny.
Rozwiązanie:
d = 10 + (30 - 20) / [(30 - 20) + (30 -25)] * 5 = 10 + 10 / 15 * 5 = 10 + 3,33 = 13,33
• Mediana (wartość środkowa)
Mediana jest to wartość zmiennej, która dzieli zbiorowość statystyczną na dwie części - tak, że 50% jednostek zbiorowości posiada wartość zmiennej mniejszą lub równą medianie i 50% jednostek zbiorowości posiada wartość zmiennej większą lub równą medianie.
Obliczanie mediany polega na wskazaniu jednostki środkowej i odczytaniu wartości zmiennej przez nią posiadaną (zakładamy, że jednostki zbiorowości uporządkowane są według rosnących wartości zmiennej)
3
Statystyka w naukach społecznych
IPSiR UW
materiały dydaktyczne (2)
Dla wskazania, która jednostka "zajmuje środkową pozycję" zaleca się skumulowanie liczebności (sumowanie narastające).
Należy zauważyć, że przy nieparzystej liczbie jednostek zbiorowości "osoba"
środkowa będzie miała indeks (n+1)/2. Przy parzystej liczbie jednostek zbiorowości wskazuje się dwie jednostki środkowe o indeksach n/2 i n/2 +1.
Dla danych indywidualnych (uporządkowanych) lub pogrupowanych punktowo medianę oblicza się następująco:
Me = X (n+1)/2
dla n nieparzystych
Me = (1/2) (X n/2 + X n/2 + 1)
dla n parzystych
Jeżeli dane pogrupowane są w przedziały możemy:
a) wyznaczyć przedział mediany, a następnie przyjąć jako przybliżoną wartość mediany środek przedziału
b) określić przybliżoną wartość mediany za pomocą wzoru interpolacyjnego: k −1
n/2 - ∑ ni
i=1
Me = x Me + i Me n Me
gdzie:
x Me - dolna granica przedziału mediany,
n Me - liczebność przedziału mediany,
i Me - szerokość (rozpiętość) przedziału mediany k −1
∑ ni - suma liczebności skumulowanych w przedziale poprzedzającym przedział
i=1
mediany,
Przykład 6
200 losowo wybranych kierowców samochodów osobowych zapytano ile wykroczeń drogowych popełnili w ciągu ostatnich 6 miesięcy. Uzyskano następujące odpowiedzi. Obliczyć medianę wykorzystując wzór interpolacyjny
:
X
ni
nsk
0 – 5
50
50
5 – 10
60
110
10 – 15
40
150
15 – 20
40
190
20 – 25
10
200
Suma
200
X
Rozwiązanie
(a) z szeregu liczebności skumulowanych wynika, że wartość mediany znajduje się w przedziale drugim, czyli między 5 i 10 (przedział drugi jest przedziałem mediany).
(b) korzystamy z wzoru interpolacyjnego:
Me = 5 + [(200/2 - 50)/60] * 5 = 5+ 50/60 * 5 = 5+ 4,16 = 9,16
4