MAS IPSiR
UW
materiały dydaktyczne (2)
1
Wersja robocza
http://wiki.stat.ucla.edu/socr/index.php/EBook
Charakterystyki rozkładu liczebności
1. Miary tendencji centralnej (MTC)
2. Miary dyspersji (zróżnicowania, rozproszenia) (MD)
3. Miary asymetrii (MA)
1. Miary tendencji centralnej (MTC)
Średnia arytmetyczna
Dominanta (wartość modalna, moda)
Mediana (wartość środkowa)
Średnia arytmetyczna
Średnia arytmetyczna
x
jest to wartość cechy, którą otrzymujemy dzieląc sumę
wartości cechy wszystkich jednostek zbiorowości przez liczebność zbiorowości.
Dla danych indywidualnych, zakładając, że X jest cechą zbiorowości, która liczy n
jednostek statystycznych:
x
x
n
x
x
x
n
i
i
n
n
1
1
2
...
(1)
Dla danych pogrupowanych - obliczamy średnią ważoną. Zakładając, że X jest
cechą zbiorowości, która liczy n jednostek statystycznych pogrupowanych w k-klas
(przedziałów). Stosujemy następujący wzór:
n
n
x
n
x
n
x
n
n
x
x
k
k
k
i
i
i
...
2
2
1
1
1
, (2)
zauważmy, że
n
n
i
i
k
1
,
dla danych pogrupowanych w przedziały, w miejsce
x
i
należy wstawić
x
i
0
(środek przedziału)
Przykład 1.
Dane o wzroście studentów (n=10) są następujące:
Ile wynosi średni wzrost?
Stosujemy wzór (1) - dla danych indywidualnych.
Suma wartości Xi wynosi 1717, podzielona przez 10 liczebność zbiorowości) wynosi
171,7. Zatem: x
171 7
, . Interpretacja: studenci mają średnio prawie 172 cm.
Xi
160 171 161 190 171 155 180 183 189 157
MAS IPSiR
UW
materiały dydaktyczne (2)
2
Przykład 2.
Dane o wzroście n = 300 studentów są następujące:
Ile wynosi średni wzrost?
Należy obliczyć średnią ważoną (dane są pogrupowane), czyli zastosować wzór (2).
x
50040
300
166 8
,
Przykład 3.
Dane o wieku mieszkańców pewnego „wieżowca” (n = 300) są następujące:
Ile wynosi średni wzrost?
Należy obliczyć średnią ważoną (dane są pogrupowane), czyli zastosować wzór (2).
5
,
34
300
10350
x
Interpretacja: Mieszkańcy wieżowca mają średnio prawie 35 lat
Własności średniej arytmetycznej:
- może przyjąć każdą wartość z przedziału Xmin i Xmax
- jest wartością abstrakcyjną, wypadkową
- jest wartością mianowaną
- suma odchyleń od średniej jest równa zero
- suma kwadratów odchyleń jest najmniejsza (metoda najmniejszych kwadratów)
Dominanta (wartość modalna, moda)
Dominanta (d) jest to wartość cechy, która występuje w analizowanej zbiorowości
najczęściej.
Dla danych indywidualnych wyznaczanie dominanty polega na ustaleniu jaka
wartość cechy występuje najczęściej czyli pojawia się u największej liczby jednostek
statystycznych.
x
i
n
i
x
i
n
i
160 50
8000
165 90
14850
168 100
16800
170 50
8500
189 10
1890
suma 300
50040
x
i
n
i
x
i
0
x
i
0
x
n
i
0-10 20
5
100
10-20 40
15
600
20-30 80
25
2000
30-40 60
35
2100
40-50 40
45
1800
50-60 30
55
1650
60-70 20
65
1300
70-90 10
80
800
suma 300
X
10350
MAS IPSiR
UW
materiały dydaktyczne (2)
3
Przykład 3
Analizą jest objęta grupa 10 studentów, X - wzrost w cm.
Dane są następujące:
X 160 170 170 168 169 162 180 168 168 169
Podaj ile wynosi dominanta: d = 168 cm.
Interpretacja: Studenci najczęściej mają wzrost 168 cm.
Dla danych pogrupowanych dominantę wyznacza się z szeregu rozdzielczego.
Jeżeli pogrupowanie jest punktowe dominantą jest ta wartość cechy, która
odpowiada największej liczebności.
Przykład 4.
Dane o wzroście (X) studentów pewnego wydziału uniwersyteckiego (n=150) są
następujące:
X ni nsk
160 20 20
165 30 50
170 35 85
172
50 135
178 15 150
Suma 150
X
Obliczyć dominantę.
Wśród liczebności grupowych (ni) odnajdujemy wartość największą (czyli: 50). Dominantą jest
wartość X odpowiadająca największej liczebności.
Odpowiedź:
d = 172 cm, interpretacja: najczęściej studenci mają 172 cm wzrostu.
Jeżeli dane pogrupowane są w przedziały możemy wyznaczyć przedział
dominanty, a następnie przyjąć jako przybliżoną wartość dominanty środek
przedziału
Przykład 5:
Wyniki testu pamięciowego przeprowadzonego wśród 100 studentów są
następujące:
X
ni
nsk X
0
i
Xi0ni
0 - 5
5
5
11,5
5 - 10
20
25
150,0
10 - 15
30
55
375,0
15 - 20
25
80
435,5
20 - 25
20
100
450,0
Suma 100
X
X
1423,5
d ≈ 12,5 (środek przedziału)
x
= 14,2;
interpretacja: najczęściej studenci mają 172 cm wzrostu.
Własności
Rozkłady unimodalne (jednomodalne)
Rozkłady bimodalne (dwumodalne)
Rozkłady multimodalne (wielomodalne)
MAS IPSiR
UW
materiały dydaktyczne (2)
4
Graficzne wyznaczanie dominanty
Dominantę z szeregu rozdzielczego można w przybliżeniu wyznaczyć także w
sposób graficzny (np. na podstawie histogramu).
Mediana (wartość środkowa)
Mediana jest to wartość zmiennej, która „dzieli” zbiorowość statystyczną na dwie
części - tak, że 50% jednostek zbiorowości posiada wartość zmiennej mniejszą lub
równą medianie i 50% jednostek zbiorowości posiada wartość zmiennej większą lub
równą medianie.
Obliczanie mediany polega na wskazaniu jednostki środkowej i odczytaniu wartości
zmiennej przez nią posiadaną (zakładamy, że jednostki zbiorowości uporządkowane
są według rosnących wartości zmiennej)
Dla wskazania, która jednostka "zajmuje środkową pozycję" zaleca się
skumulowanie liczebności (sumowanie narastające).
Należy zauważyć, że przy nieparzystej liczbie jednostek zbiorowości "osoba"
środkowa będzie miała indeks (n+1)/2. Przy parzystej liczbie jednostek zbiorowości
wskazuje się dwie jednostki środkowe o indeksach n/2 i n/2 +1.
Dla danych indywidualnych (uporządkowanych) lub pogrupowanych punktowo
medianę oblicza się następująco:
2
1
2
2
n
n
x
x
Me
dla parzystej liczby n
2
1
n
x
Me
dla nieparzystej liczby n
Jeżeli dane pogrupowane są w przedziały możemy:
a) wyznaczyć przedział mediany, a następnie przyjąć jako przybliżoną wartość
mediany środek przedziału
b) określić przybliżoną wartość mediany za pomocą wzoru interpolacyjnego.
Przykład 6
200 losowo wybranych kierowców samochodów osobowych zapytano ile wykroczeń
drogowych popełnili w ciągu ostatnich 6 miesięcy. Uzyskano następujące
odpowiedzi. Obliczyć medianę.
Dominanta
x
n
MAS IPSiR
UW
materiały dydaktyczne (2)
5
X
ni
Nsk
(numery jednostek)
0 – 5
50 50
(1……50)
6 – 11
60 110
(51 …110)
12 – 17
40 150
(111 …150)
18 – 23
40 190
(151 …190)
24 – 29
10 200
(191 …200)
Suma 200
X
Rozwiązanie
1. w pierwszym etapie obliczamy wartość odpowiadającą numerowi „środkowej”
jednostki (lub dwóm środkowym jednostkom). Ponieważ liczebność zbiorowości
n=200, czyli jest parzysta – w tej zbiorowości mamy dwie środkowe jednostki o
numerach:
I: n/2 tj. 200/2 = 100
II: (n/2) + 1 = 202/2 + 1 = 101
2. ustalamy, który przedział (o jakich wartościach cechy) jest przedziałem mediany
a) analizujemy kolumnę liczebności skumulowanych i ustalamy, w którym
przedziale (przedziałach) znajdują się jednostki nr 100 i nr 101. Widzimy, że
obie jednostki znajdują się w drugim przedziale (gdyż tam mieszczą się
jednostki o numerach od 51 do 110).
b) czyli mediana znajduje się w przedziale drugim (o wartościach 6 – 8).
3. jako wartość mediany przyjmujemy w przybliżeniu środek przedziału, a więc
wartość 8.
Me = 8
4. Interpretacja: Połowa badanych kierowców przyznała się do popełnienia poniżej 8
lub 8 wykroczeń drogowych (można też powiedzieć: co najwyżej 8).
LUB
Połowa badanych kierowców przyznała się do popełnienia 8 lub powyżej 8
wykroczeń drogowych (można też powiedzieć: co najmniej 8).
Wyznaczania mediany dla szeregu prostego (dane indywidualne)
1. należy uporządkować dane w porządku rosnącym,
2. zauważyć (przeliczyć) czy liczba obserwacji jest parzysta czy nieparzysta
a) Jeżeli szereg jest nieparzysty wartość mediany stanowi wartość cechy jednostki
środkowej
b) Jeżeli liczba jednostek jest parzysta, to znaczy, że są dwie środkowe jednostki, a
medianę stanowi średnia arytmetyczna wartości badanej cechy, która posiadaja te
dwie środkowe jednostki.
Przykład 7
168, 178, 171, 185, 180, 171, 179, 183, 180, 175, 186; n=11
- porządkujemy rosnąco
168, 171, 171, 175, 178,
179
, 180, 180, 183, 185, 186
MAS IPSiR
UW
materiały dydaktyczne (2)
6
- wyznaczamy numer środkowej jednostki: (n+1)/2=(11+1)/2=6
- jednostka nr 6 posiada wartość cechy (np. wzrost) = 179, czyli Me = 179
Interpretacja (ogólna): połowa jednostek posiada wartość cechę mniejszą niż 179
lub 179, a połowa – większą niż 179 lub 179.
Przykład 8
159, 168, 171, 171, 175,
176, 178
, 180, 180, 183, 185, 186; n=12
- wartości są uporządkowane rosnąco
- ponieważ liczba jednostek jest parzysta wyznaczamy numery dwóch środkowych:
(I): (n/2) = 6
(II): (n/2)+1 = 12/2 + 1 = 7
- jednostki o numerach 6 i 7 posiadają wartości cechy 176 i 178
Me = (176+178)
2 = 177
Interpretacja (ogólna): połowa jednostek posiada wartość cechy mniejszą niż 177, a
połowa – większą niż 177.
Średnia geometryczna
jest to pierwiastek n-tego stopnia z iloczynu n liczb.
Jeśli tymi liczbami są wskaźniki dynamiki (łańcuchowe) w okresie od 0 do n,
średnia geometryczna oznacza średnie roczne tempo zmian (wzrost lub spadek)
w %.
1
1
t
t
n
n
t
X
X
G
(
- oznacza iloczyn)
Przykład 9.
Dane czasowe: X – liczba zabójstw dokonanych w latach 2000-2007
Liczba punktów
czasowych
1 2 3 4 5 6 7 8
lata
2000 2001 2002 2003 2004 2005 2006 2007
X
t
809 751 690
638
616
544
480 512
Indeksy
łańcuchowe
Xt/X
t-1
751/809 690/751
638/690
616/638
544/616
480/544 512/480
n
X
2001
/X
2000
* X
2002
/X
2001
* X
2003
/X
2002
* X
2004
/X
2003
* X
2005
/X
2004
* X
2006
/X
2005
* X
2007
/X
2006
=
=
7
X
2007
/X
2000
(kolor żółty- składniki, które się skracają)
stopnia)
=
7
809
/
512
=
7
6329
,
0
=
0,937
Do interpretacji od 0,937 odejmujemy 1 i wynik mnożymy przez 100:
(0,937-1)*100 = – 0,063 *100 = – 6,3%
Interpretacja: średnie roczne tempo wynosi - 6,3%, czyli W latach 2000-2007, z roku
na rok liczba zabójstw zmniejszała się średnio o 6,3%, czyli o ponad 6%.