Charakterystyki liczbowe rozkładów empirycznych
Wśród charakterystyk liczbowych wyróżnić można cztery zasadnicze grupy miar:
miary położenia (średnie, przeciętne),
miary zmienności (rozproszenia, dyspersji, zróżnicowania),
miary asymetrii (skośności),
miary koncentracji (kurtozy).
Miary położenia:
średnia arytmetyczna
średnia arytmetyczna dla szeregu szczegółowego (uporządkowanego lub nieuporządkowanego)
(1)
gdzie:
- średnia arytmetyczna zmiennej X,
N - liczebność jednostek ststystycznych badanej zbiorowości
- i - ta realizacja badanej zmiennej, przy czym i = 1,2,3,...,N.
Przykład 1
Student X w ciągu semestru otrzymał ze studiowanych przedmiotów następujące oceny:
przedmiot i |
ocena xi |
1 |
2 |
2 |
2 |
3 |
3 |
4 |
3,5 |
5 |
3,5 |
6 |
3,5 |
7 |
4 |
8 |
4 |
9 |
4,5 |
10 |
5 |
1. Wyznaczyć średnią z ocen studenta X
z szeregu szczegółowego,
z szeregu rozdzielczego punktowego
2. Określić ocenę najczęstszą i wartość środkową szeregu
Rozwiązanie:
Średnia ocena studenta wynosi 3,5.
Średnia arytmetyczna z szeregu rozdzielczego punktowego:
(2)
gdzie fj jest liczebością, z jaką występowała j - ta wartość zmiennej X. Średnią arytmetyczną można również obliczyć wykorzystując częstości względne (vj).
Możemy tego dokonać transformując powyższy wzór do postaci:
(3)
gdzie
vj jest częstością względną występowania j- tej wartości zmiennej X
ocena xi |
liczebność fi |
xifi |
częstość względna vj |
xjvj |
2 |
2 |
4 |
0,2 |
0,4 |
3 |
1 |
3 |
0,1 |
0,3 |
3,5 |
3 |
10,5 |
0,3 |
1,05 |
4 |
2 |
8 |
0,2 |
0,8 |
4,5 |
1 |
4,5 |
0,1 |
0,45 |
5 |
1 |
5 |
0,1 |
0,5 |
suma |
10 |
35 |
1,00 |
3,5 |
lub
Inne miary położenia
Mediana (miara środkowa)
Wyznaczanie mediany z szeregu szczegółowego:
Szereg musi być uporządkowany (szereg pozycyjny)!!!
przedmiot i |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
ocena xi |
2 |
2 |
3 |
3,5 |
3,5 |
3,5 |
4 |
4 |
4,5 |
5 |
Ponieważ N = 10 jest liczbą parzystą, dlatego mediana jest średnią arytmetyczną z wartości x5 i x6 czyli:
.
Połowa z ocen jest mniejsza od 3,5, a druga połowa większa od 3,5.
Modalna (wartość najczęstsza)
Jest to wartość występująca w szeregu statystycznym najczęściej (wartość, dla której liczebność (fj) jest największa).
xmo = 3,5. (Najczęściej student otrzymywał ocenę 3,5.
Miary położenia wyznaczane z szeregów rozdzielczych przedziałowych.
Przykład 2
W celu zbadania jak kształtuje się średnie zużycie energii elektrycznej w 100 gospodarstwach domowych pewnego obszaru zebrano dane liczbowe, które zestawiono w poniższym szeregu.
dzienne zużycie energii w Kw. ( xd.i - xg.i ] |
liczba gospodarstw fj |
2-4 |
6 |
4-6 |
10 |
6-8 |
30 |
8-10 |
40 |
10-12 |
10 |
12-14 |
4 |
suma |
100 |
Źródło: K.Zając; Wykłady ze statystyki, Kraków 1985, s. 84
Wyznaczyć i zinterpretować średnią arytmetyczną, medianę i modalną
Średnia arytmetyczna z szeregu rozdzielczego przedziałowego:
(4)
gdzie
jest środkiem j - tego przedziału klasowego obliczonego zgodnie z regułą
, (5)
Średnią arytmetyczną można również obliczyć, korzystając z częstości względnych (vj):
(6)
Obliczenia:
dzienne zużycie energii w Kw. ( xd.i - xg.i ] |
liczba gospodarstw fj |
środek przedziału xo |
xofi |
vj |
xovj |
2-4 |
6 |
3 |
18 |
0,06 |
0,18 |
4-6 |
10 |
5 |
50 |
0,1 |
0,5 |
6-8 |
30 |
7 |
210 |
0,3 |
2,1 |
8-10 |
40 |
9 |
360 |
0,4 |
3,6 |
10-12 |
10 |
11 |
110 |
0,1 |
1,1 |
12-14 |
4 |
13 |
52 |
0,04 |
0,52 |
suma |
100 |
xxx |
800 |
1,00 |
8 |
lub
Średnie dzienne zużycie energii w badanej grupie 100 gospodarstw rodzinnych wynosi 8 Kwh.
Mediana:
W szeregu tym należy wskazać przedział w którym znajduje się mediana. Przedział ten, to pierwszy przedział klasowy dla którego suma liczebności skumulowanych jest większa od
.
W drugim kroku postępowania wartość mediany wyznacza się stosując wzór:
(7)
xd,r - dolna granica przedziału, w którym znajduje się mediana,
fr -liczebność przedziału, w którym znajduje się mediana,
l - długość przedziału, w którym znajduje się mediana,
- suma liczebności przedziałów poprzedzających przedział, w którym znajduje się mediana,
Modalna:
W pierwszym kroku określamy przedział, w którym znajduje się modalna. Jest to przedział klasowy, do którego zaliczono najwięcej obserwacji empirycznych. Następnie wyznaczamy wartość xmo :
(8)
gdzie:
xd,r - dolna granica przedziału, w którym znajduje się modalna,
fr -liczebność przedziału, w którym znajduje się modalna,
fr-1 -liczebność przedziału poprzedzającego przedział, w którym znajduje się modalna,
fr+1 -liczebność przedziału następującego po przedziale, w którym znajduje się modalna,
l - długość przedziału, w którym znajduje się modalna.
Po podstawieniu wartości otrzymamy:
Obliczenia:
dzienne zużycie energii w Kw. ( xd.i - xg.i ] |
liczba gospodarstw fj |
|
2-4 |
6 |
6 |
|
10 |
16 |
6-8 |
30 |
46 |
8-10 |
40 |
86 |
10-12 |
10 |
96 |
12-14 |
4 |
100 |
suma |
100 |
XXX |
N/2=50
Połowa spośród badanych rodzin zużywa mniej niż 8,2Kwh energii, a połowa więcej niż 8,2 Kwh.
Najwięcej obserwacji kumulowało się wokół zużycia 8,5 Kwh.
Graficzne wyznaczanie mediany
Graficzne wyznaczanie modalnej
Miary zmienności
Wariancja (
) i odchylenie standardowe (
).
Wariancja i odchylenie standardowe z szeregu szczegółowego:
, (9)
(10)
Przykład
Obliczyć i zinterpretować wariancję i odchylenie standardowe dla danych z przykładu 1
przedmiot i |
ocena xi |
|
|
1 |
2 |
-1,5 |
2,25 |
2 |
2 |
-1,5 |
2,25 |
3 |
3 |
-0,5 |
0,25 |
4 |
3,5 |
0 |
0 |
5 |
3,5 |
0 |
0 |
6 |
3,5 |
0 |
0 |
7 |
4 |
0,5 |
0,25 |
8 |
4 |
0,5 |
0,25 |
9 |
4,5 |
1 |
1 |
10 |
5 |
1,5 |
2,25 |
suma |
100 |
0,0 |
8,5 |
oraz
Oceny otrzymane przez studenta w ciągu semestru odchylają się przeciętnie od oceny średniej o
.
Wariancja i odchylenie standardowe z szeregu rozdzielczego punktowego:
, (11)
lub
(12)
Obliczyć wariancję i odchylenie standardowe na podstawie szeregu rozdzielczego punktowego z przykładu 1.
ocena xi |
liczebność fi |
|
|
|
częstość względna vj |
|
2 |
2 |
-1,5 |
2,25 |
4,5 |
0,2 |
0,45 |
3 |
1 |
-0,5 |
0,25 |
0,25 |
0,1 |
0,025 |
3,5 |
3 |
0 |
0 |
0 |
0,3 |
0 |
4 |
2 |
0,5 |
0,25 |
0,5 |
0,2 |
0,05 |
4,5 |
1 |
1 |
1 |
1 |
0,1 |
0,1 |
5 |
1 |
1,5 |
2,25 |
2,25 |
0,1 |
0,225 |
suma |
10 |
XXX |
XXX |
8,5 |
1,00 |
0,85 |
=>
lub
.
Wariancja i odchylenie standardowe z szeregu rozdzielczego przedziałowego:
(13)
lub
(14)
Wyznaczyć wariancję i odchylenie standardowe z danych z przykładu 2.
Obliczenia:
dzienne zużycie energii w Kw. ( xd.i - xg.i ] |
liczba gospodarstw fj |
środek przedziału xo |
|
|
|
vj |
|
2-4 |
6 |
3 |
-5 |
25 |
150 |
0,06 |
1,5 |
4-6 |
10 |
5 |
-3 |
9 |
90 |
0,1 |
0,9 |
6-8 |
30 |
7 |
-1 |
1 |
30 |
0,3 |
0,3 |
8-10 |
40 |
9 |
1 |
1 |
40 |
0,4 |
0,4 |
10-12 |
10 |
11 |
3 |
9 |
90 |
0,1 |
0,9 |
12-14 |
4 |
13 |
5 |
25 |
100 |
0,04 |
1 |
suma |
100 |
XXX |
XXX |
XXX |
500 |
1,00 |
5 |
lub
=>
Zużycie energii elektrycznej w badanych 100 gospodarstwach domowych odchylało się przeciętnie od zużycia średniego o
2,236 Kwh.
Miary asymetrii
Współczynnika asymetrii
(15).
Jeżeli
, to rozkład jest symetryczny.
Gdy
, to rozkład jest asymetryczny prawostronnie.
Gdy
, to rozkład jest asymetryczny lewostronnie.
Zbadać asymetrię rozkładu zużycia energii.
Rozkład charakteryzuje się umiarkowaną asymetrią lewostronną.
Miary koncentracji (kurtoza)
Do badania natężenia koncentracji (skupienia) poszczególnych obserwacji wokół średniej wykorzystuje się moment centralny rzędu czwartego (
) lub współczynnik koncentacji będący stosunkiem tegoż momentu do odchylenia standardowego podniesionego do potęgi czwartej. Wspólczynnik koncentracji (Kx) można zapisać:
. (16)
gdzie
, dla szeregu szczegółowego,
lub
, dla szeregu rozdzielczego punktowego,
lub
, dla szeregu rozdzielczego przedziałowego.
Jeżeli
, to krzywa liczebności jest zbliżona do krzywej tzw. rozkładu normalnego.
Jeżeli
, to badany rozkład zmiennej jest bardziej wysmukły niż rozkład normalny (rozkład leptokurtyczny).
W przypadku, gdy
, to rozkład jest spłaszczony w stosunku do normalnego (rozkład platokurtyczny).
Poniższy rysunek przedstawia szkic krzywej rozkładu normalnego.
Krzywa rozkładu normalnego
Zbadać kurtozę rozkładu zużycia energii.
Obliczenia:
dzienne zużycie energii w Kw. ( xd.i - xg.i ] |
liczba gospodarstw fj |
środek przedziału xo |
|
|
|
2-4 |
6 |
3 |
-5 |
625 |
3750 |
4-6 |
10 |
5 |
-3 |
81 |
810 |
6-8 |
30 |
7 |
-1 |
1 |
30 |
8-10 |
40 |
9 |
1 |
1 |
40 |
10-12 |
10 |
11 |
3 |
81 |
810 |
12-14 |
4 |
13 |
5 |
625 |
2500 |
suma |
100 |
XXX |
XXX |
XXX |
7940 |
;
;
=>
Badany rozkład zużycia energii jest leptokurtyczny (bardziej wysmukły niż rozkład normalny.
13
przedział w którym jest mediana
i modalna
fj
99,73%
95,45%
68,26%
-3S - 2S -S
+S +2S +3S xj
Rozkład asymetryczny lewostronnie
Rozkład asymetryczny prawostronnie
xj
fj
xj
fj
xj
fj
Rozkład symetryczny