Statystyka w naukach społecznych IPSiR UW materiały dydaktyczne (2)
Wersja robocza
Charakterystyki rozkładu liczebności
Średnia arytmetyczna
Dominanta (wartość modalna, moda)
Mediana (wartość środkowa)
Średnia
arytmetyczna
jest
to wartość cechy, którą otrzymujemy dzieląc sumę wartości
cechy wszystkich jednostek zbiorowości przez liczebność
zbiorowości.
Dla danych indywidualnych, zakładając, że X jest cechą zbiorowości, która liczy n jednostek statystycznych:
(1)
Dla danych pogrupowanych - obliczamy średnią ważoną. Zakładając, że X jest cechą zbiorowości, która liczy n jednostek statystycznych pogrupowanych w k klas (przedziałów). Stosujemy następujący wzór:
,
(2)
zauważmy,
że
,
dla
danych pogrupowanych w przedziały, w miejsce
należy
wstawić
(środek przedziału)
Dane o wzroście studentów (n=10) są następujące:
Xi |
160 |
171 |
161 |
190 |
171 |
155 |
180 |
183 |
189 |
157 |
Ile wynosi średni wzrost?
Stosujemy wzór (1) - dla danych indywidualnych.
Suma
wartości Xi wynosi 1717, podzielona przez 10 liczebność
zbiorowości) wynosi 171,7. Zatem:
.
Dane o wzroście n = 300 studentów są następujące:
xi |
ni |
xini |
160 |
50 |
8000 |
165 |
90 |
14850 |
168 |
100 |
16800 |
170 |
50 |
8500 |
189 |
10 |
1890 |
suma |
300 |
50040 |
Ile wynosi średni wzrost?
Należy obliczyć średnią ważoną (dane są pogrupowane), czyli zastosować wzór (2).
Dane o wieku mieszkańców pewnego „wieżowca” (n = 300) są następujące:
xi |
ni |
|
|
0-10 |
20 |
5 |
100 |
10-20 |
40 |
15 |
600 |
20-30 |
80 |
25 |
2000 |
30-40 |
60 |
35 |
2100 |
40-50 |
40 |
45 |
1800 |
50-60 |
30 |
55 |
1650 |
60-70 |
20 |
65 |
1300 |
70-90 |
10 |
80 |
800 |
suma |
300 |
X |
10350 |
Ile wynosi średni wzrost?
Należy obliczyć średnią ważoną (dane są pogrupowane), czyli zastosować wzór (2).
Własności średniej arytmetycznej:
- może przyjąć każdą wartość z przedziału Xmin i Xmax
- jest wartością abstrakcyjną, wypadkową
- jest wartością mianowaną
- suma odchyleń od średniej
- suma kwadratów odchyleń
Dominanta (d) jest to wartość cechy, która występuje w analizowanej zbiorowości najczęściej.
Dla danych indywidualnych wyznaczanie dominanty polega na ustaleniu jaka wartość cechy występuje najczęściej czyli pojawia się u największej liczby jednostek statystycznych.
Analizą jest objęta grupa 10 studentów, X - wzrost w cm.
Dane są następujące:
X |
160 |
170 |
170 |
168 |
169 |
162 |
180 |
168 |
168 |
169 |
Podaj ile wynosi dominanta. Odpowiedź: d = 168 cm
Dla danych pogrupowanych dominantę wyznacza się z szeregu rozdzielczego.
Jeżeli pogrupowanie jest punktowe dominantą jest ta wartość cechy, która odpowiada największej liczebności.
Dane o wzroście (X) studentów pewnego wydziału uniwersyteckiego (n=150) są następujące:
X |
ni |
160 |
20 |
165 |
30 |
170 |
35 |
172 |
50 |
178 |
15 |
suma |
150 |
Obliczyć dominantę.
Wśród liczebności grupowych (ni) odnajdujemy wartość największą (czyli: 50). Dominantą jest wartość X odpowiadająca liczebności największej.
Odpowiedź: d = 172 cm
Jeżeli dane pogrupowane są w przedziały możemy:
a) wyznaczyć przedział dominanty, a następnie przyjąć jako przybliżoną wartość dominanty środek przedziału
b) określić przybliżoną wartość dominanty za pomocą wzoru interpolacyjnego:
n d - n d-1
d = x d + i d
(n d - n d-1) + (n d - n d+1)
gdzie:
x d - dolna granica przedziału, w którym znajduje się dominanta,
n d - liczebność przedziału dominanty,
n d-1 - liczebność przedziału poprzedzającego przedział dominanty,
n d+1 - liczebność przedziału następującego po przedziale dominanty,
i d - szerokość (rozpiętość) przedziału dominanty.
Wyniki testu pamięciowego przeprowadzonego wśród 100 studentów są następujące:
X |
ni |
0 - 5 |
5 |
5 - 10 |
20 |
10 - 15 |
30 |
15 - 20 |
25 |
20 - 25 |
20 |
Suma |
100 |
Obliczyć dominantę wykorzystując wzór interpolacyjny.
d = 10 + (30 - 20) / [(30 - 20) + (30 -25)] * 5 = 10 + 10 / 15 * 5 = 10 + 3,33 = 13,33
Interpretacja
Własności
Rozkłady unimodalne (jednomodalne)
Rozkłady bimodalne (dwumodalne)
Rozkłady multimodalne (wielomodalne)
Graficzne
Dominantę z szeregu rozdzielczego można w przybliżeniu wyznaczyć także w sposób graficzny (np. na podstawie histogramu).
Mediana jest to wartość zmiennej, która dzieli zbiorowość statystyczną na dwie części - tak, że 50% jednostek zbiorowości posiada wartość zmiennej mniejszą lub równą medianie i 50% jednostek zbiorowości posiada wartość zmiennej większą lub równą medianie.
Obliczanie mediany polega na wskazaniu jednostki środkowej i odczytaniu wartości zmiennej przez nią posiadaną (zakładamy, że jednostki zbiorowości uporządkowane są według rosnących wartości zmiennej)
Dla wskazania, która jednostka "zajmuje środkową pozycję" zaleca się skumulowanie liczebności (sumowanie narastające).
Należy zauważyć, że przy nieparzystej liczbie jednostek zbiorowości "osoba" środkowa będzie miała indeks (n+1)/2. Przy parzystej liczbie jednostek zbiorowości wskazuje się dwie jednostki środkowe o indeksach n/2 i n/2 +1.
Dla danych indywidualnych (uporządkowanych) lub pogrupowanych punktowo medianę oblicza się następująco:
Me = x (n+1)/2 dla n nieparzystych
Me = (1/2) (x n/2 + x n/2+1) dla n parzystych
Jeżeli dane pogrupowane są w przedziały możemy:
a) wyznaczyć przedział mediany, a następnie przyjąć jako przybliżoną wartość mediany środek przedziału
b) określić przybliżoną wartość mediany za pomocą wzoru interpolacyjnego:
n/2
-
Me = x Me + i Me
n Me
gdzie:
x Me - dolna granica przedziału mediany,
n Me - liczebność przedziału mediany,
i Me - szerokość (rozpiętość) przedziału mediany
-
suma liczebności skumulowanych w przedziale poprzedzającym
przedział
mediany,
200 losowo wybranych kierowców samochodów osobowych zapytano ile wykroczeń drogowych popełnili w ciągu ostatnich 6 miesięcy. Uzyskano następujące odpowiedzi. Obliczyć medianę wykorzystując wzór interpolacyjny:
X |
ni |
nsk |
0 - 5 |
50 |
1………50 50 |
5 - 10 |
60 |
51 …110 110 |
10 - 15 |
40 |
150 |
15 - 20 |
40 |
190 |
20 - 25 |
10 |
200 |
Suma |
200 |
X |
(a) z szeregu liczebności skumulowanych wynika, że wartość mediany znajduje się w przedziale drugim czyli między 5 i 10 (przedział drugi jest przedziałem mediany).
(b) korzystamy z wzoru interpolacyjnego:
Me = 5 + [(200/2 - 50)/60] * 5 = 5+ 50/60 * 5 = 5+ 4,16 = 9,16
uporządkować dane w sposób rosnący,
zauważyć (przeliczyć) czy liczba obserwacji jest parzysta czy nieparzysta
Jeżeli szereg jest nieparzysty wartość mediany stanowi wartość cechy wyrazu środkowego
168, 178, 171, 185, 180, 171, 179, 183, 180, 175, 186
1
68,
171, 171, 175, 178, 179,
180, 180, 183, 185, 186
Me = 179
Jeżeli szereg jest parzysty są dwa wyrazy środkowe a medianę stanowi średnia arytmetyczna wartości badanej cechy wyznaczona z obu wyrazów środkowych
159, 168, 171, 171, 175, 178, 179, 180, 180, 183, 185, 186
Me = (178+179) 2 = 178,5 179