3. Miary przeciętne
Szereg rozdzielczy daje wszechstronny i szczegółowy obraz struktury badanego zjawiska lub procesu, utrudnia jednak uchwycenie najistotniejszych prawidłowości zachodzących w badanej zbiorowości. Chcemy w możliwie zwięzły sposób statystycznie opisać zbiór danych i w tym celu musimy posłużyć się znanymi charakterystykami liczbowymi. Dotyczą one różnych elementów struktury, takich jak:
poziom wartości badanej cechy,
zróżnicowanie wartości cechy,
asymetria rozkładu badanej cechy,
koncentracja rozkładu cechy.
Charakterystyki liczbowe, które mierzą poziom wartości cechy
noszą nazwę miar przeciętnych albo miar średnich. Podają one za pomocą liczby charakterystykę poziomu wartości cechy, czyli tendencję centralną, stąd też są często nazywane miarami tendencji centralnej.
Ogólnie miary przeciętne można podzielić na
przeciętne miary klasyczne (średnia arytmetyczna, średnia geometryczna, średnia harmoniczna),
przeciętne miary pozycyjne (dominanta, mediana, kwartyle).
Różnica między tymi grupami polega na tym, że miary
klasyczne są obliczane jako wypadkowe wszystkich wartości cechy, podczas gdy miary pozycyjne wskazują na określoną pozycję.
3.1 Średnia arytmetyczna.
Średnia arytmetyczna jest pewną abstrakcyjną wielkością, wypadkową wszystkich zaobserwowanych wartości cechy i w związku z tym może przyjmować wartości nie występujące w próbie.
Średnią arytmetyczną wyznaczamy według wzorów:
dane indywidualne cechy skokowej:
,
dane indywidualne cechy ciągłej:
,
szereg rozdzielczy cechy skokowej:
,
szereg rozdzielczy cechy ciągłej:
.
Stosując moduł Statystyki opisowe pakietu STATISTICA 6.0 można otrzymać średnie wartości badanych cech (stażu pracy i dziennej wydajności), które są obliczane według dwóch pierwszych wzorów. Mianowicie mamy:
Aby skorzystać z wzorów opartych na szeregach rozdzielczych badanych cech, zbudujemy tabele robocze:
|
|
|
2 |
9 |
18 |
3 |
12 |
36 |
4 |
6 |
24 |
5 |
4 |
20 |
6 |
4 |
24 |
|
35 |
122 |
.
|
|
|
|
90 - 160 |
125 |
11 |
1375 |
160 - 230 |
195 |
13 |
2535 |
230 - 300 |
265 |
4 |
1060 |
300 - 370 |
335 |
5 |
1675 |
370 - 440 |
405 |
2 |
810 |
|
xxx |
35 |
7455 |
.
Średnią wartość cechy można także obliczyć korzystając z częstości według wzorów:
szereg rozdzielczy cechy skokowej:
,
szereg rozdzielczy cechy ciągłej:
.
W rozważanym przykładzie mamy
|
|
|
2 |
0,2571 |
0,5142 |
3 |
0,3429 |
1,0287 |
4 |
0,1714 |
0,6856 |
5 |
0,1143 |
0,5715 |
6 |
0,1143 |
0,6858 |
|
1,0000 |
3,4858 |
oraz
|
|
|
|
90 - 160 |
125 |
0,3143 |
39,2875 |
160 - 230 |
195 |
0,3714 |
72,4230 |
230 - 300 |
265 |
0,1143 |
30,2895 |
300 - 370 |
335 |
0,1429 |
47,8715 |
370 - 440 |
405 |
0,0571 |
23,1255 |
|
xxx |
1,0000 |
212,9970 |
3.2 Mediana.
Medianą nazywamy taką wartość cechy Me, że co najmniej połowa jednostek (elementów) badanej próby ma wartość nie większą niż Me i równocześnie co najmniej połowa ma wartość nie mniejszą niż Me. Oznacza to, że medianą Me jest wartość cechy, którą posiada środkowa jednostka w uporządkowanym niemalejąco ciągu elementów badanej próby. Jeżeli tych środkowych jednostek jest więcej, mediana jest średnią arytmetyczną z ich wartości.
Medianę wyznaczamy według wzorów:
dane indywidualne cechy skokowej:
, ustawione w ciągu niemalejącym
dane indywidualne cechy ciągłej:
, ustawione w ciągu niemalejącym
Wyznaczymy medianę korzystając z tych wzorów dla obu rozważanych cech. Wartości cechy
- staż pracy w latach ustawiamy w ciągu niemalejącym:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
.
Ponieważ w naszym przypadku
, więc
,
co oznacza, że co najmniej 50% pracowników pracuje nie więcej niż 3 lata oraz co najmniej 50% pracowników pracuje nie mniej niż 3 lata.
Analogicznie, wartości cechy
- dzienna wydajność pracy
w sztukach ustawiamy w ciągu niemalejącym:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
a więc
,
co oznacza, że dla co najmniej 50% pracowników dzienna wydajność jest nie większa niż 180 sztuk oraz dla co najmniej 50% pracowników nie mniejsza niż 180 sztuk.
Medianę można także wyznaczyć, w przypadku cechy skokowej, korzystając z szeregu rozdzielczego:
. Mediana jest to wartość cechy, dla której - jako pierwszej - liczebność skumulowana przyjmuje wartość co najmniej
, tzn.
,
albo, częstość skumulowana przyjmuje wartość co najmniej
, tzn.
.
Wobec tego, z tabeli
|
|
|
2 |
9 |
9 |
3 |
12 |
21 |
4 |
6 |
27 |
5 |
4 |
31 |
6 |
4 |
35 |
|
35 |
xxx |
albo, z tabeli
|
|
|
2 |
0,2571 |
0,2571 |
3 |
0,3429 |
0,6000 |
4 |
0,1714 |
0,7714 |
5 |
0,1143 |
0,8857 |
6 |
0,1143 |
1,0000 |
|
1,0000 |
xxx |
wynika, że
.
Korzystając z szeregu rozdzielczego cechy ciągłej:
oraz wzorów
,
albo
,
można odczytać tylko przedział, do którego należy mediana. Mianowicie, z tabeli
|
|
|
90 - 160 |
11 |
11 |
160 - 230 |
13 |
24 |
230 - 300 |
4 |
28 |
300 - 370 |
5 |
33 |
370 - 440 |
2 |
35 |
|
35 |
xxx |
oraz
|
|
|
90 - 160 |
0,3143 |
0,3143 |
160 - 230 |
0,3714 |
0,6857 |
230 - 300 |
0,1143 |
0,8000 |
300 - 370 |
0,1429 |
0,9429 |
370 - 440 |
0,0571 |
1,0000 |
|
1,0000 |
Xxx |
można stwierdzić, że
.
W celu wyznaczenia wartości mediany korzysta się z wzoru interpolacyjnego
,
gdzie:
- numer przedziału, do którego należy mediana,
- dolna granica przedziału, do którego należy mediana,
- rozpiętość przedziału, do którego należy mediana,
- liczebność przedziału, do którego należy mediana,
- suma liczebności przedziałów poprzedzających przedział, do którego należy mediana.
W naszym przykładzie mamy kolejno:
,
,
,
,
. Zatem
.
Stosując moduł Statystyki opisowe pakietu STATISTICA 6.0 można otrzymać wartości mediany badanych cech (stażu pracy i dziennej wydajności). Mianowicie mamy:
Łatwo zauważyć, że wartości mediany w przypadku cechy skokowej są takie same, niezależnie od sposobu jej wyznaczania. W przypadku cechy ciągłej, mediana wyznaczona ze wzoru interpolacyjnego różni się znacznie od wartości odczytanych z wydruku komputerowego i jako 18 kolejna wartość cechy w ustawieniu tych wartości w ciągu niemalejącym.