STATYSTYKA
Karolina Cykowska
II r. gr. V
nurt:ekonomiczno-menedżerski
TEMAT: Z najnowszego rocznika statystycznego wybrać szereg; opracować i przedstawić graficznie dane przyjęte do zadania oraz uzasadnić wybór metod przeprowadzanego badania, podać jego interpretację.
Tabela poniżej przedstawia dane statystyczne zaczerpnięte z ROCZNIKA STATYSTYCZNEGO RZECZYPOSPOLITEJ POLSKIEJ z roku 1999.
Opracowane zostały przez Główny Urząd Statystyczny a ich źródłem informacji był Zakład Ubezpieczeń Społecznych.
TABL. 15(191) str. 170
OSOBY POBIERAJĄCE RENTY Z TYTUŁU NIEZOLNOŚCI DO PRACY (PRACOWNICZE, POCHODNE I KOMBATANCKIE) WEDŁUG WIEKU I PŁCI W 1998 R.
WIEK |
OGÓŁEM |
MĘŻCZYŹNI |
KOBIETY |
w latach |
w tys. |
w tys. |
w tys. |
OGÓŁEM |
2706,6 |
1507,6 |
1199,0 |
29 lat i mniej |
62,0 |
39,2 |
22,8 |
30-39 |
188,0 |
110,1 |
77,9 |
40-49 |
711,9 |
373,9 |
338,0 |
50-59 |
509,0 |
260,8 |
248,2 |
60-64 |
417,6 |
265,3 |
152,3 |
65-69 |
315,1 |
209,6 |
105,5 |
70 i więcej |
503,0 |
248,7 |
54,3 |
OPIS DANYCH STATYSTYCZNYCH BĘDĄCYCH PRZEDMIOTEM BADANIA
Zbiorowością statystyczną objętą badaniem jest zbiór osób pobierających renty z tytułu niezdolności do pracy (pracownicze, pochodne i kombatanckie) w 1998 r. Jednostkami statystycznymi są elementy składowe badanej zbiorowości a więc poszczególne osoby korzystające z wyżej wymienionych świadczeń. Oznaczają się one pewnymi właściwościami określanymi mianem cech statystycznych. Jednostki zbiorowości podzielone są według cechy jakościowej „płeć” (dwa warianty: kobieta i mężczyzna)- jest to podział dwudzielny (dychotomiczny), a także według cechy ilościowej (mierzalnej) ciągłej „wiek” (zmienne ciągle mogą przyjmować każdą wartość z określonego przedziału).
CEL BADANIA
Celem badania jest analiza danych statystycznych a co się z tym wiąże ich odpowiednia interpretacja prowadząca do poznania struktur i zależności jakie między nimi zachodzą .
Tabela umieszczona poniżej posłuży do analizy zbiorowości statystycznej. Na jej podstawie będę dokonywała potrzebnych do właściwej interpretacji obliczeń statystycznych.
WIEK |
OGÓŁEM |
MĘŻCZYŹNI |
KOBIETY |
|||||
w latach |
|
w tysiącach |
||||||
(x0i-x1i) |
x |
n |
ni |
nisk |
wi |
ni |
nisk |
wi |
OGÓŁEM |
|
2706,6 |
1507,6 |
|
1 |
1199,0 |
|
1 |
29 lat i mniej |
|
62,0 |
39,2 |
39,2 |
0,03 |
22,8 |
22,8 |
0,02 |
30-39 |
35,0 |
188,0 |
110,1 |
149,3 |
0,07 |
77,9 |
100,7 |
0,06 |
40-49 |
45,0 |
711,9 |
379,9 |
523,2 |
0,25 |
338,0 |
438,7 |
0,28 |
50-59 |
55,0 |
509,0 |
260,8 |
784,0 |
0,18 |
248,2 |
686,9 |
0,21 |
60-64 |
62,5 |
417,6 |
265,3 |
1049,3 |
0,18 |
152,3 |
839,2 |
0,13 |
65-69 |
67,5 |
315,1 |
209,6 |
1258,9 |
0,14 |
105,5 |
944,7 |
0,09 |
70 i więcej |
|
503,0 |
248,7 |
1507,6 |
0,16 |
254,3 |
1199,0 |
0,21 |
ni -liczba jednostek o i-tym wariancie cechy
xI -wariant cechy
n -liczebność próby
xI - środek przedziału klasowego
nisk -liczebność skumulowana
MĘŻCZYŹNI KOBIETY
ni=1507,6 n=2706,6 ni=1199,0 n=2706,6
ωi= |
ni |
*100% |
|
n |
|
ωi= |
1507,6 |
*100%=56% |
|
ωi= |
1199,0 |
*100%=44% |
|
2706,6 |
|
|
|
2706,6 |
|
DOMINANTA
Dominanta (wartość najczęstsza)- nazywamy nią taką wartość zmiennej, która w danym rozkładzie empirycznym występuje najczęściej. Jest to miara tendencji centralnej. Obliczam ją by określić, która wartość w badanym rozkładzie występuje najczęściej. Dominanta jest miernikiem mianowanym- posiada taka samą jednostkę pomiarową badana cecha.
D = XD+ |
nD-nD-1 |
*hD |
|
(nD-nD-1)+(nD-nD+1) |
|
D- symbol dominanty
XD- dolna granica klasy, w której znajduje się dominanta
nD- liczebność przedziału dominanty
nD-1- liczebność przedziału poprzedzającego przedział dominanty
nD+1-liczebność przedziału następującego po przedziale dominanty
hD- - rozpiętość przedziału dominanty hD=x1i-x0i
DOMINANTA-MĘŻCZYŹNI
DM = 40+ |
373,9-110,1 |
*10 |
= 40+ |
263,8 |
*10= 47,0 lat |
|
(373,9-110,1)+(373,9-260,8) |
|
|
376,9 |
|
DOMINANTA-KOBIETY
DM = 40+ |
338,0-77,9 |
*10 |
= 40+ |
260,1 |
*10= 47,4 lat |
|
(338,0-77,9)+(338,0-248,2) |
|
|
349,9 |
|
KWANTYLE: KWARTYL I , KWARTYL II (MEDIANA) , KWARTYL III
KWANTYLE- wartości cechy badanej w zbiorowości, które dzielą ją na określone części pod względem liczby jednostek; są to wartości mianowane.
KWARTYL I (Q1 )- dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że 25% jednostek ma wartości cechy niższe, a 75% wyższe od Q1 .
Q1=XQ + |
hQ |
*(NQ -nisk-1) NQ = |
n |
|
nQ |
|
4 |
NQ1 -pozycja Q1 w zbiorowości
XQ1-dolna granica przedziału w którym znajduje się Q1
hQ1 - rozpiętość przedziału Q1
nQ1 -liczebność przedziału Q1
nisk -liczebność skumulowana przedziału poprzedzającego przedział Q1
KWARTYL I - MĘŻCZYŹNI
NQ = |
1507,6 |
=376,9 |
n=1507,6 |
25% z 1507,6=377 tys. osób |
|
4 |
|
|
75% z 1507,6=1131tys. osób |
Q1= 40 + |
10 |
*(376,9-149,3) = 40+ |
10 |
*227,6= 46,1 lat |
|
373,9 |
|
373,9 |
|
KWARTYL I - KOBIETY
NQ = |
1199,0 |
=299,75 |
n=1199,0 |
25% z 1199,0=300 tys. osób |
|
4 |
|
|
75% z 1199,0=899 tys. osób |
Q1= 40 + |
10 |
*(299,75-100,7) = 40+ |
10 |
*199,05= 45,9 lat |
|
338,0 |
|
338,0 |
|
KWARTYL II (MEDIANA -Me)-dzieli zbiorowość uporządkowaną na dwie równe części w ten sposób, że 50% jednostek ma wartości cechy niższe i 50% wyższe od mediany.
Me=XMe + |
hMe |
*(NMe -nisk-1) NMe = |
n |
|
nMe |
|
2 |
XMe -początek przedziału w którym znajduje się Me
NMe -pozycja mediany w zbiorowości
nMe -liczebność przedziału Me
hMe -rozpiętość przedziału
nisk -liczebność skumulowana przedziału poprzedzającego Me
MEDIANA - MĘŻCZYŹNI
NMe = |
1507,6 |
=753,8 |
n=1507,6 |
50% z 1507,6 =754 tys. osób |
|
2 |
|
|
|
Me= 50 + |
10 |
*(753,8-523,2) = 50+ |
10 |
*230,6= 58,8 lat |
|
260,8 |
|
260,8 |
|
MEDIANA - KOBIETY
NMe = |
1199,0 |
=599,5 |
n=1199,0 |
50% z 1199,0 =599 tys. osób |
|
2 |
|
|
|
Me= 50 + |
10 |
*(599,5-438,7) = 50+ |
10 |
*160,8= 56,5 lat |
|
248,2 |
|
248,2 |
|
KWARTYL III (Q3) -dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że 75% jednostek ma wartości cechy niższe, a 25% wyższe od Q3
Q3=XQ + |
hQ |
*(NQ -nisk-1) NQ = |
3 |
n |
|
nQ |
|
4 |
|
NQ3 -pozycja Q3 w zbiorowości
XQ3-dolna granica przedziału w którym znajduje się Q3
hQ3 - rozpiętość przedziału Q3
nQ3 -liczebność przedziału Q3
nisk -liczebność skumulowana przedziału poprzedzającego przedział Q3
KWARTYL III - MĘŻCZYŹNI
NQ = |
3 |
*1507,6= |
1130,7 |
n=1507,6 |
25% z 1507,6=1131 tys. osób |
|
4 |
|
|
|
75% z 1507,6=377 tys. osób |
Q3= 65 + |
5 |
*(1130,7-1049,3) = 65+ |
5 |
*81,4= 66,9 lat |
|
209,6 |
|
209,6 |
|
KWARTYL III - KOBIETY
NQ = |
3 |
*1199,0= |
899,25 |
n=1199,0 |
25% z 1199,0=899 tys. osób |
|
4 |
|
|
|
75% z 1199,0=300 tys. osób |
Q3= 65 + |
5 |
*(899,25-839,2) = 65+ |
5 |
*60,05=67,8 lat |
|
105,5 |
|
105,5 |
|
Do badania danych statystycznych zastosowałam KWANTYLE ponieważ ich obliczenie jest możliwe w tych szeregach, w których obliczenie średniej arytmetycznej jest nie możliwe (szeregi o różnej rozpiętości przedziałów lub o otwartych przedziałach klasowych). Kwantyle nie są wrażliwe na obserwacje nietypowe. Obliczone miary pozycyjne tendencji centralnej posłużą mi do interpretacji rozkładów wartości badanej zbiorowości oraz do dalszych obliczeń pozwalających dokładniej zanalizować badany szereg.
METODA GRAFICZNA WYZNACZANIA KWARTYLI
Dyspersja (stopień zmienności) -to zróżnicowanie jednostek zbiorowości statystycznej ze względu na wartość badanej cechy. Siłę dyspersji oceniamy za pomocą pozycyjnych i klasycznych miar zmienności. Ponieważ badana przeze mnie zbiorowość posiada przedziały o różnej rozpiętości wyklucza to możliwość obliczenia średniej arytmetycznej (miara klasyczna); otwarte klasy zbiorowości wykluczają także obliczenie obszaru zmienności. Do obliczenia siły dyspersji wykorzystuję więc miary pozycyjne i obliczam „odchylenie ćwiartkowe”.
ODCHYLENIE ĆWIARTKOWE- (opiera się na wartościach kwartyli I i III); mierzy ono poziom zróżnicowania tylko części jednostek badanej zbiorowości pozostałej po odrzuceniu 25% jednostek o wartościach najniższych oraz 25% jednostek o wartościach najwyższych. Odchylenie ćwiartkowe mierzy więc średnią rozpiętość w połowie obszaru zmienności.
ODCHYLENIE ĆWIARTKOWE (Q)
Q= |
Q3-Q1 |
|
2 |
MĘŻCZYŹNI KOBIETY
Q= |
66,9-46,1 |
= |
20,8 |
=10,4lat Q= |
67,8-45,9 |
= |
21,9 |
=10,95 lat |
|
2 |
|
2 |
|
2 |
|
2 |
|
Q3=66,9lat Q1=46,1 lat Q3=67,8 lat Q1=45,9 lat
Ponieważ do opisu tendencji centralnej w badanym szeregu użyłam- mediany a do opisu zmienności- odchylenia ćwiartkowego to mogę określić TYPOWY OBSZAR ZMIENNOŚCI (Xtyp) w następujący sposób:
Me-Q< x typ <Me+Q
MĘŻCZYŹNI KOBIETY
Q=10,4 lat Q=10,95 lat
Me=58,8 lat Me=56,5lat
58,8-10,4<x typ<55,8+10,4 56,5-10,95<x typ<56,5+10,95
48,4<x typ<66,2 (lat) 45,55<x typ<67,45 (lat)
Aby obliczyć siłę dyspersji korzystam z obliczenia współczynnika zmienności. Pozwala on między innymi na porównywanie zmienności cech o różnych miarach, można ponadto dzięki niemu porównać pod względem tej samej cechy dwie lub kilka zbiorowości będących na rożnym poziomie, określonym np. średnią arytmetyczną czy medianą.
WSÓŁCZYNNIK ZMIENNOŚCI (V)- jest ilorazem bezwzględnej miary dyspersji i odpowiednich wartości średnich. Jest on wyrażony w procentach.
VQ= |
Q |
*100% |
|
Me |
|
MĘŻCZYŹNI KOBIETY
Q=10,4 lat Q=10,95 lat
Me=58,8 lat Me=56,5 lat
VQ= |
10,4 |
*100%=18% |
|
VQ= |
10,95 |
*100%=19% |
|
58,8 |
|
|
|
56,5 |
|
Z punktu widzenia potrzeb analizy statystycznej istotny jest nie tylko poziom i wewnętrzne zróżnicowanie zbiorowości ale również to czy przeważająca liczba jednostek znajduje się powyżej czy poniżej przeciętnego poziomu badanej cechy. Problem ten wiąże się z oceną asymetrii (skośności) rozkładu.
Do określenia skośności (asymetrii) rozkładu wykorzystuję obliczone w powyższej części pracy kwartyle. WSKAŹNIK ASYMETRII (Ws) jest bezwzględną miarą asymetrii posiadającą miano badanej cechy.
Zachodzą następujące zależności:
Ws=0 (Q3-Q2)-(Q2-Q1)=0 (rozkład symetryczny)
Ws>0 (Q3-Q2)-(Q2-Q1)>0 (rozkład asymetrii prawostronnej)
Ws<0 (Q3-Q2)-(Q2-Q1)<0 (rozkład asymetrii lewostronnej)
MĘŻCZYŹNI KOBIETY
(66,9-58,8)-(58,8-46,1)=8,1-12,7= -4,6 (67,8-56,5)-(56,5-45,9)=11,3-10,6=0,7
Ws= -4,6 Ws=0,7
Ws<0 tzn. rozkład asymetrii lewostronny Ws>0 tzn. rozkład asymetrii prawostronny
Ponieważ wskaźnik skośności (Ws) określa jedynie kierunek asymetrii nie wskazując jej siły dlatego obliczam WSPOŁCZYNNIK SKOŚNOŚCI (As),
który jest miarą określającą zarówno kierunek jak i siłę asymetrii.
POZYCYJNY WSPÓŁCZYNNIK ASYMETRII (As)- jest miarą uzupełniającą, ponieważ określa kierunek i siłę asymetrii jednostek znajdujących się w II i III ćwiartce obszaru zmienności, a wiec w zawężonej przestrzeni.
As= |
Q3+Q1-2Me |
|
2Q |
MĘŻCZYŹNI KOBIETY
As= |
-4,6 |
= -0,2 |
|
As= |
0,7 |
= 0,03 |
|
20,8 |
|
|
|
21,9 |
|
Szereg, którego opracowaniem i analizą zajęłam się dotyczył objętej badaniem zbiorowości osób pobierających renty z tytułu niezdolności do pracy (pracownicze, pochodne i kombatanckie) uporządkowanych według wieku i płci w 1998 r.
Do analizy badanej zbiorowości zastosowałam miary pozycyjne ponieważ zastosowanie miar klasycznych było nie możliwe ze względu za strukturę przedziałów (różna rozpiętość, otwarte przedziały) w szeregu. Miarami wykorzystanymi przeze minie były: wskaźnik struktury, dominanta, kwantyle (kwartyl I, mediana, kwartyl III), odchylenie ćwiartkowe, typowy obszar zmienności, wskaźnik asymetrii i współczynnik asymetrii.
Po przeanalizowaniu wyników badań statystycznych jakie wykonałam w oparciu o dane z zamieszczonej powyżej tabeli doszłam do wniosku, że udział kobiet wśród ogółu korzystających z różnego rodzaju rent jest nieco mniejszy niż mężczyzn: kobiety- 44% , mężczyźni 56% .
Wiekiem w którym najwięcej osób korzysta z wymienionych świadczeń jest: u mężczyzn około 47 lat , u kobiet natomiast około 47 lat i 5 miesięcy. Jak więc widać jest to niewielka różnica wiekowa.
Badając dalej wewnętrzne zróżnicowanie zbiorowości doszłam do następujących wniosków:
25% ogółu mężczyzn a więc około 337 tys. osób korzysta z rent mając poniżej 46 lat i 1 miesiąc, natomiast 75% czyli 1131 tys. osób osiąga wyższy wiek.
-25% ogółu kobiet- około 300 tys. korzysta z rent mając mniej niż 45 lat i 11 miesięcy, a 75% - około 899 tys. jest starszych.
50% ogółu mężczyzn- około 754 tys. osób korzysta z wymienionych świadczeń nie osiągając wieku 58 lat i 10 miesięcy i tyle samo mężczyzn korzysta z nich po osiągnięciu tego wieku.
-analogicznie sytuacja przedstawia się wśród kobiet -wiekiem granicznym jest 56 lat i 6 miesięcy, a kobiet starszych i młodszych jest po 599 tys.
75% ogółu mężczyzn a więc około 1131 tys. otrzymuje renty nie osiągając wieku 66 lat i 11 miesięcy natomiast 25% czyli 377 tys. korzysta z niej po osiągnięciu podanego wieku.
-podobnie sytuacja kształtuje się wśród kobiet 75% czyli 899 tys. pobiera świadczenia nie osiągając wieku 67 lat i 10 miesięcy, a 25% czyli 300 tys. kobiet po osiągnięciu wskazanego wieku.
Reasumując odchylenia wiekowe miedzy mężczyznami i kobietami kształtują się następująco:
(25%<Q1<75%) -mężczyźni osiągając wiek graniczny są od kobiet o 2 miesiące starsi.
(50%<Q2<50%) -mężczyźni osiągając wiek graniczny są od kobiet starsi o 2 lata i 4 miesiące.
(75%<Q3<25%) -kobiety osiągając wiek graniczny są od mężczyzn starsze o 11 miesięcy.
Badając zróżnicowanie jednostek zbiorowości czyli siłę dyspersji poddałam analizie dane, które pozostały po odrzuceniu 25% jednostek najmłodszych i 25% jednostek najstarszych. Średnia rozpiętość w połowie obszaru zmienności wynosi więc:
u mężczyzn od wieku 58 lat i 10miesięcy -10 lat i 5 miesięcy
u kobiet od wieku 56 lat i 6 miesięcy -10 lat i 11 miesięcy
i tak właśnie kształtuje się średnia rozpiętość wiekowa wśród mężczyzn i kobiet korzystających ze świadczeń w części badanych jednostek.
Określanie typowego obszaru zmienności czyli w tym przypadku określenie przedziału wiekowego w którym zazwyczaj jednostki korzystały ze świadczeń rentalnych dało następujące wyniki:
wśród mężczyzn typowymi jednostkami były osoby o wieku osiąganym w przedziale od 48 lat i 5 miesięcy do 66 lat i 2 miesięcy-było ich około 1005 tys.
wśród kobiet natomiast jednostki o wieku osiąganym w przedziale od 45 lat i 7 miesięcy do 67 lat i 6 miesięcy- było ich około 799 tys.
Jak widać więc u kobiet przedział był dłuższy o 4 lata i 2 miesiące a jednostki były młodsze.
W dalszej analizie obliczyłam współczynnik zmienności, który pozwolił mi porównać stopień zmienności (niejednorodność) zbiorowości kobiet i mężczyzn pobierających renty:
współczynnik ten u mężczyzn wynosił 18% a u kobiet 19% co świadczy o większej niejednorodności wiekowej w grupie badanych kobiet i mniejszej wśród mężczyzn.
W dalszej części mojej pracy dokonałam badania rozkładu i jego siły w badanej zbiorowości. Wśród mężczyzn występuje lewostronny rozkład asymetrii (Ws= - 4,6) o sile (As= - 0,2) co oznacza, że przeważająca liczba jednostek znajduje się po prawej stronie punktu maksimum a więc powyżej przeciętnego poziomu badanego. Badania siły rozkładu i jego skośności wśród kobiet dowodzą o prawostronnym rozkładzie asymetrii (Ws= 0,7) o sile (As= 0,03) co oznacza, że przeważająca liczba jednostek znajduje się po lewej stronie maksimum a siła rozkładu jest niewielka gdyż zbliża się do wartości zerowej; tak więc przeważająca liczba jednostek znajduje się poniżej przeciętnego poziomu badanego. Reasumując stwierdzam, że kobiety pobierające renty z tytułu niezdolności do pracy wykazują się młodszym wiekiem niż mężczyźni.