Anna Malarska Katedra Statystyki Ekonomicznej i Społecznej UA
Anna Malarska Katedra Statystyki Ekonomicznej i Społecznej UA
N k do WYKAADU
Notatki d WYKAADU ze
STATYSTYKI OPISOWEJ i EKONOMICZNEJ
STATYSTYKI OPISOWEJ i EKONOMICZNEJ
część II
część II
część II
część II
II. OPISOWE MIARY JEDNOWYMIAROWYCH ROZKAADÓW CECH
Ó
2.1 Wskazniki struktury, podobieństwa struktur i natężenia
2.2 Wprowadzenie do miar opisowych struktury zbiorowości
2.3 Miary średnie
2.4 Inne miary położenia
2.5 Miary zróżnicowania
26 Miary (a)symetrii
2.6 Miary (a)symetrii
2.7 Miary skupienia, koncentracji
2.7.1 Współczynnik skupienia kurtoza
2.7.2 Współczynnik koncentracji Giniego
Wszelkie prawa zastrzeżone. Opracowanie przeznaczone jest dla studentów Informatyki
Wszelkie prawa zastrzeżone. Opracowanie przeznaczone jest dla studentów Informatyki
i Ek t ii ł h t ki kł d A M l ki j Rh i i
i Ek t ii ł h t ki kł d A M l ki j Rh i i
i Ekonometrii, słuchaczy autorskiego programu wykładu A Malarskiej Rozpowszechnianie
i Ekonometrii, słuchaczy autorskiego programu wykładu A.. Malarskiej.. Rozpowszechnianie
w jakiejkolwiek formie części lub całości opracowania wymaga zgody Autorki.
w jakiejkolwiek formie części lub całości opracowania wymaga zgody Autorki.
Polecana LITERATURA
Polecana LITERATURA
podst awowa:
podst awowa:
podst awowa:
podst awowa:
Kassyk-Rokicka H. (2001): Statystyka nie jest trudna. Mierniki statystyczne, Polskie Wydawnictwo
Ekonomiczne, Warszawa,
Panek T., Szulc A. [ ] ( ) Statystyka społeczna. Wy g , , ,
, [red.]. (2006): y y p ybrane zagadnienia, SGH, Warszawa,
Puławska-Turyna B. (2005): Statystyka dla ekonomistów, Wydawnictwo Difin, Warszawa,
Rószkiewicz M. (2002): Statystyka. Kurs podstawowy, Wydawnictwo EFEKT, Warszawa,
Starzyńska W [red.]. (2004): Podstawy statystyki, Wydawnictwo Difin, Warszawa,
uzupeł ni aj ą ca:
uzupeł ni aj ą ca:
Józwiak J., Podgórski J. (1997): Statystyka od podstaw, Polskie Wydawnictwo Ekonomiczne,
Warszawa
Warszawa,
Malarska A. (2005): Statystyczna analiza danych wspomagana programem SPSS, SPSS Polska,
Kraków,
Panek T. [red.]. (2007): Statystyka społeczna, PWE, Warszawa,
Piłatowska M. (2007): Repetytorium ze statystyki, Wydawnictwo Naukowe PWN, Warszawa,
Stanisz A. (2000): Przystępny kurs statystyki z wykorzystaniem programu STATISTCA PL na
przykładach z medycyny, Tom I i II, StatSoft Polska, Kraków,
Zeliaś A (2000): Metody statystyczne Polskie Wydawnictwo Ekonomiczne Warszawa
Zeliaś A. (2000): Metody statystyczne, Polskie Wydawnictwo Ekonomiczne, Warszawa,
Zeliaś A., Pawełek B., Wanat St. (2002): Metody statystyczne. Zadania i sprawdziany, Polskie
Wydawnictwo Ekonomiczne, Warszawa,
2
II. OPISOWE MIARY JEDNOWYMIATOWYCH ROZKAADÓW CECH
II. OPISOWE MIARY JEDNOWYMIATOWYCH ROZKAADÓW CECH
2.1 Wskazniki struktury, podobieństwa struktur, natężenia
2.1 Wskazniki struktury, podobieństwa struktur, natężenia
Najprostszymi charakterystykami (miernikami) struktury zbiorowości, mającymi
zastosowanie do wszystkich rodzajów szeregów strukturalnych, są wskazniki struktury.
Wskaznik struktury, zwany frakcją, bądz częstością względną oznaczany symbolem wi,
wyraża udział części zbiorowości (wi) w całej zbiorowości (N) i obliczany jest według
ż d i ł ś i bi ś i ( ) ł j bi ś i (N) i bli j t dł
wzoru:
przy czym:
(2.1)
Dla dwóch zbiorowości miarą oceny podobieństwa ich struktur jest wskaznik
podobieństwa struktur postaci:
(2.2)
a niepodobieństwa :
(2.3)
Jak każdy wskaznik struktury tak i wskaznik podobieństwa struktur spełnia relację:
Jak każdy wskaznik struktury tak i wskaznik podobieństwa struktur spełnia relację:
(2.4)
Szczególna użyteczność tej prostej miary statystycznej wynika z jej szerokich
zastosowań w porównaniach struktury danej zbiorowości w czasie.
Innymi, równie prostymi charakterystykami struktury zbiorowości są wskazniki
natężenia. Wskaznik natężenia jest ilorazem wartości dwóch cech mierzalnych pozostających
ze sobą w logicznym powiązaniu, jakimi są: w statystyce ludnościowej gęstość zaludnienia
b l i i i j ki i t t t l d ś i j t ść l d i i
(liczba osób/km2), w rolnictwie - wielkość plonów (q/ha) itd.
3
2.2 Wprowadzenie do miar opisowych struktury zbiorowości
2.2 Wprowadzenie do miar opisowych struktury zbiorowości
Liczbowymi charakterystykami syntetycznego opisu rozkładu cechy są cztery grupy
mierników. Należą do nich:
mierników. Należą do nich:
Pierwotny podział na miary
Pierwotny podział na miary
klasyczne i pozycyjne wynika z istoty
problemu, jakiego dotyczą, a w ślad
za tym techniki obliczeń. Miary
kl
klasyczne wyznaczane są na
podstawie wszystkich informacji o
rozkładzie cechy (wszystkich danych
o xi, bą p ) podczas
ądz parach {xi, ni}), p
i i i
gdy miary pozycyjne na
podstawie niektórych informacji.
2.3 Miary średnie
2.3 Miary średnie
y
y
Miary tendencji centralnej noszą miano miar położenia. Wynika ono z ich
lokalizacji (miejsca położenia) na osi odciętych układu współrzędnych przedstawiającego
rozkład cechy. Głównymi reprezentantkami miar położenia są miary tendencji centralnej
(średnie) informujące o przeciętnym poziomie badanej cechy mierzalnej takie jak:
(średnie) informujące o przeciętnym poziomie badanej cechy mierzalnej, takie jak:
4
jest ilorazem łącznej wartości cechy i łącznej liczebności zbiorowości.
Interpretowana jest jako wartość cechy, którą przyjęłaby każda
jednostka zbiorowości, gdyby podział sumy wartości cechy był
jednostka zbiorowości, gdyby podział sumy wartości cechy był
równomierny. W ślad za rodzajami szeregów wyróżnia się:
Średnią wyznaczaną dla szeregów rozdzielczych nazywa się ważoną dlatego że wyrażenia:
Średnią wyznaczaną dla szeregów rozdzielczych nazywa się ważoną dlatego, że wyrażenia:
(czyli wskazniki struktury) są wagami.
Nietrudno bowiem zauważyć że jeśli oraz to:
Nietrudno bowiem zauważyć, że jeśli oraz to:
(2.8)
Własności średniej arytmetycznej:
1. jest wielkością abstrakcyjną i : (2.9)
2. jest wielkością mianowaną i przyjmuje miano badanej cechy,
3. suma różnic między poszczególnymi wartościami cechy xi i obliczoną z nich średnią
ó ó ś ś
arytmetyczną równa się zero, tzn.: (2.10)
Zastosowania: średniej arytmetycznej nie można stosować, gdy:
Zastosowania: średniej arytmetycznej nie można stosować, gdy:
w zbiorowości występują jednostki nietypowe,
5
w szeregu rozdzielczym występują klasy otwarte.
,
D, (Mo) to wartość cechy najczęściej występująca w zbiorowości.
Jest wyznaczana na podstawie częstości występowania poszczególnych
odmian cechy.
y
W szeregach szczegółowych jest to wartość cechy, która powtarza się najczęściej.
W szeregach punktowych jest to wartość odpowiadająca przedziałowi, w którym występu-
35
je największa liczebność (ni).
je największa liczebność (ni).
max
max
30
25
W obydwu przypadkach wartość dominanty
20
0
jest odczytywana wprost z szeregu i nie
jest odczytywana wprost z szeregu i nie
15
wymaga dodatkowych obliczeń.
Zasadę jej wskazywania w szeregu
10
punktowym ilustruje rysunek:
punktowym ilustruje rysunek:
5
5
0
xi
W szeregu rozdzielczym o przedziałach klasowych wielostopniowych uzyskanie dominanty
W szeregu rozdzielczym o przedziałach klasowych wielostopniowych uzyskanie dominanty
wymaga jej oszacowania na podstawie wzoru interpolacyjnego postaci:
(2.11)
x0D dolna wartość przedziału dominanty,
nD 1, nD, nD 1 liczebności przedziałów odpowiednio: bezpośrednio poprzedzającego
dominantę, przedziału dominanty i następującego bezpośrednio po
d i i
dominancie,
hD rozpiętość przedziału dominanty,
6
i
częstości n
Wykorzystanie wzoru (2.11) wymaga spełnienia warunku jednakowej rozpiętości
(przedziału dominanty) i dwóch sąsiednich tzn.:
(2 12)
(2.12)
35
max
Wówczas, wzór interpolacyjny ilustruje zasada:
30
25
Ograniczenia: Dominanty nie wyznacza się,
20
gdy występuje ona w pierwszym, bądz
15
ostatnim przedziale szeregu rozdzielczego.
Dominanty nie stosuje się także wtedy, gdy w
10
szeregu występuje więcej niż jedno maksimum
5
liczebności (tzw. szeregach wielomodalnych).
0
xi
xi
Me to wartość cechy środkowej jednostki zbiorowości w uporządkowanym
szeregu strukturalnym.
Wyznaczenie mediany (bądz jej wskazanie) wymaga wykonania następujących czynności:
Wyznaczenie mediany (bądz jej wskazanie) wymaga wykonania następujących czynności:
1. uporządkowania (niemalejącego) wartości cechy,
2. wyznaczenia pozycji (miejsca lokalizacji) środkowej jednostki zbiorowości/próby poprzez
obliczenie tzw numeru mediany wg wzoru:
obliczenie tzw. numeru mediany wg wzoru:
(2.13)
3 odszukania środkowej jednostki w szeregu (najłatwiej na podstawie dodatkowej kolumny
3. odszukania środkowej jednostki w szeregu (najłatwiej na podstawie dodatkowej kolumny
szeregu ze skumulowanymi liczebnościami (ni sk)),
7
i
częstości n
4. odczytania w szeregach szczegółowych i punktowych, wartości cechy, którą posiada
środkowa jednostka zbiorowości,
j g y p y ą jest y
jeśli szereg tworzy nieparzysta liczba elementów medianą j wartość cechy
odpowiadająca numerowi mediany, tzn.
jeśli szereg tworzy parzysta liczba elementów medianą jest średnia arytmetyczna
elementów pretendujących do środka szeregu (elementów odpowiadających numerowi
mediany i następującemu po nim), tzn.
140
120
(2.14)
100
80
NrMe=70
70
60
Zasadę jej wskazywania w szeregu
40
punktowym ilustruje rysunek:
punktowym ilustruje rysunek:
20
20
0
xi
Me
5. w szeregach rozdzielczych o przedziałach klasowych wielostopniowych identyfikacji
przedziału cechy który towarzyszy środkowej jednostce zbiorowości odczytania jego
przedziału cechy, który towarzyszy środkowej jednostce zbiorowości, odczytania jego
krańcowych wartości, a następnie oszacowania wartości mediany na podstawie wzoru
interpolacyjnego postaci:
(2.15)
x0Me dolna wartość przedziału mediany, hMe rozpiętość przedziału mediany,
nMe liczebność przedziału mediany, NrMe numer mediany,
n skumulowana liczebność bezpośrednio poprzedzająca przedział mediany
ni sk1 skumulowana liczebność bezpośrednio poprzedzająca przedział mediany.
Ograniczenia: wyznaczanie mediany nie podlega żadnym formalnym ograniczeniom.
8
i
ę
m
skumulowane częstości n
Zasadność nazywania średniej arytmetycznej, mediany i dominanty miarami położenia
najlepiej obrazuje graficzna interpretacja ich lokalizacji na osi odciętych układu współrzędnych
przedstawiającego rozkłady jednej cechy o różnych poziomach średniej arytmetycznej
przedstawiającego rozkłady jednej cechy o różnych poziomach średniej arytmetycznej
(równych notabene medianie i dominancie).
rozkład 2
Przykładowe rozkłady różni poziom (czyli
Przykładowe rozkłady różni poziom (czyli
rozkład 1
rozkład 3
położenie) średnich arytmetycznych, między
którymi zachodzi relacja:
2.4 Inne miary położenia
2.4 Inne miary położenia
Każdą zbiorowość można dzielić na części. Percentyle dzielą ją na 100, decyle na 10, a
kwartyle na 4 części Wszystkie są miernikami położenia ponieważ określają procent
kwartyle na 4 części. Wszystkie są miernikami położenia, ponieważ określają procent
rozkładu liczebności poniżej lub równy wartości danej miary. Mediana należy do grupy
kwartyli, jak pokazuje schemat:
1/4 (25%) 2/4 (50%) 3/4 (75%) 1 (100%)
Q1 liczebność zbiorowości
Me Q3
9
Kwartylami są: Q1, Q2 =Me, i Q3. Kwartyl 1-szy (Q1) jest to wartość cechy, którą ma
jednostka znajdująca się na granicy pierwszej i drugiej ćwiartki zbiorowości (dzieląca
zbiorowość w proporcji ź i ), kwartyl 3-ci (Q3) to wartość cechy, którą ma jednostka
bi ść ji ź i ) k t l 3 i (Q ) t t ść h któ j d tk
znajdująca się na granicy trzeciej i czwartej ćwiartki zbiorowości (dzieląca zbiorowość w
proporcji i ź), Me zaś jest wartością, która dzieli zbiorowość na dwie równe części.
Kwartyle wyznaczane są analogicznie, j mediana (p y zachowaniu odpowiedniej p p j
y y ą g, jak (przy pj proporcji
podziału zbiorowości), przy czym wskazywanie pozycji (miejsca lokalizacji) jednostki
zbiorowości mającej wartość Q1 lub Q3 odbywa się za pomocą ich numerów wg wzorów:
(2 16)
(2.16)
W szeregu punktowym poziom cechy, którą posiada jednostka zbiorowości wskazana
przez numer odpowiedniego kwartyla jest jego wartością.
W szeregu rozdzielczym z przedziałami klasowymi kwartyle pierwszy Q i trzeci
W szeregu rozdzielczym z przedziałami klasowymi kwartyle pierwszy Q1 i trzeci
Q3 szacuje się wg wzorów interpolacyjnych postaci:
(2.17) (2.18)
x0Q1 dolna wartość przedziału zawierającego Q1, a x0Q3 Q3,
hQ1 rozpiętość przedziału zawierającego Q1, a hQ3 Q3,
n liczebność przedziału zawierającego Q a n Q
nQ1 liczebność przedziału zawierającego Q1, a nQ3 Q3,
NrQ1 numer kwartyla Q1, a NrQ3 Q3,
ni sk1 skumulowana liczebność bezpośrednio poprzedzająca przedział kwartyla Q1, bądz Q3
Wyznaczanie kwartyli, podobnie jak mediany, nie podlega żadnym formalnym
ograniczeniom.
10
2.5 Miary zróżnicowania
2.5 Miary zróżnicowania
Miary zróżnicowania (dyspersji, zmienności, rozproszenia) informują o tym, jak duża
jest przeciętna różnica (odchylenie) poszczególnych wartości cechy od poziomu średniego
jest przeciętna różnica (odchylenie) poszczególnych wartości cechy od poziomu średniego.
Bezwzględne miary zróżnicowania to wielkości mianowane, wyrażone w jednostkach
cechy. Są to miary:
1. klasyczne: a wtym:
a) odchylenie przeciętne obliczane wg:
11
b) odchylenie standardowe obliczane wg:
dla szeregu szczegółowego: (2.22)
dla szeregu punktowego (rozdzielczego o przedziałach jednostkowych):
(2.23)
dla rozdzielczego szeregu przedziałowego:
(2.24)
Między odchyleniami przeciętnym i standardowym zachodzi relacja:
(2.25)
2. pozycyjne: a wtym:
a) obszar zmienności (rozstęp) Oz to różnica pomiędzy największą i najmniejszą
) b i ś i ( ) O óż i i d j i k i j i j
wartością cechy w szeregu: Wielkość rozstępu wyznacza formuła:
Rozstęp jest miarą wrażliwą na wartości skrajne,
(2.26)
nietypowe cechy.
nietypowe cechy.
b) odchylenie ćwiartkowe Q(x) wyznaczające połowę rozpiętości przedziału, w którym
znajduje się połowa (oscylujących wokół środka) obserwacji szeregu o wartościach
najbliższych medianie (średniej pozycyjnej). Liczone jest wg:
(2.27)
(2.27)
czyli:
1/4 (25%) 2/4 (50%) 3/4 (75%) 1 (100%)
liczebność
zbiorowości
Q1
Me Q3
12
-Q +Q
Względne miary zróżnicowania to wielkości niemianowane, często wyrażone w
procentach (%). Nazywane są współczynnikami zmienności. Ich zastosowanie jest
niezbędne w porównaniach wielkości zróżnicowania:
ę
1o tej samej cechy w różnych zbiorowościach wtedy, gdy średnie poziomy cechy są różne,
2o różnych (różnoimiennych) cech w badanej zbiorowości.
Zgodnie z wprowadzonym podziałem na typy wyróżnia się nast. współczynniki zmienności:
Wartości ww. miar informują o tym, jaki jest procentowy udział bezwzględnego
odchylenia cechy w wartości miary tendencji centralnej
odchylenia cechy w wartości miary tendencji centralnej.
ni
Interpretacja graficzna: wielkość
1o
zróżnicowania cechy mierzonego odchyle-
niem standardowym przedstawiana jest
niem standardowym przedstawiana jest
rozkład 1
kł d 1
jako jednostronna rozpiętość ramion
S1
rozkładu cechy.
Porównywanie rozrzutu kilku cech
równocześnie może odbywać się przy rozkład 2
równocześnie może odbywać się przy rozkład 2
rozkład 3
dwóch alternatywnych założeniach:
S2
1o średnie arytmetyczne rozkładów cech
S3
są sobie równe:
xi
x1 = x2 = x3
13
ni
2o średnie arytmetyczne rozkładów cech
są różne:
2o
Jeśli:
Jeśli:
rozkład 1
S1
to:
rozkład 2
rozkład 3
S2
co oznacza, że względne zróżnicowanie
S3
zmiennej o rozkładzie 3 jest mniejsze
niż o rozkładzie 1 pomimo że to
niż o rozkładzie 1, pomimo, że to
x2 x1 x3 xi
2.6 Miary (a)symetrii
2.6 Miary (a)symetrii
Symetryczny szereg rozdzielczy charakteryzuje się liczebnościami (ni) rozkładającymi się
wsp y y po przedziału dominanty. Zachodzi wówczas równość:
posób identyczny p obu stronach p y
Własności tej nie posiada szereg asymetryczny, dla którego
Różne typy asymetrii (ze względu na kierunek) ilustrują następujące przykłady graficzne:
max
max
(1o)(2o)
_
+
Rozkłady: symetryczny (1o) i asymetryczne (2o) lewo- i prawostronnie
14
Elementarnym detektorem skośności rozkładu jest miernik skośności (Ms) liczony, jako
różnica między średnią a dominantą. Jeśli tylko Ms < 0 to rozkład jest asymetryczny
lewostronnie ( ), natomiast dla Ms > 0 rozkład jest asymetryczny prawostronnie (+).
Jednak w praktyce detektor ten bywa zawodny. Jego wskazania bywają niepoprawne,
ponieważ dominanta jest miarą pozycyjną wyznaczaną na podstawie niektórych informacji o
rozkładzie cechy.
rozkładzie cechy.
Trzeci moment
centralny ź3
liczony j g
y jest wg:
15
Szeregi symetryczne charakteryzują:
Oznacza to tylko tyle, że z symetrii rozkładu wynikają wartości zerowe tych miar, a
nie odwrotnie.
nie odwrotnie.
Wartości bezwzględne wskazników względnych różne od zera informują o sile skośności
rozkładu cechy (szeregu), zaś znaki (+, ) okierunku (typie) asymetrii.
Znak + oznacza asymetrię prawostronną rozkładu, w którym średnia arytmetyczna
znajduje się z j t d i t (bo ) zaś znak " oznacza t i
znajduje się z prawej strony dominanty (bo ), zaś znak " oznacza asymetrię
lewostronną rozkładu, w którym średnia arytmetyczna znajduje się z lewej strony dominanty
(bo ).
2 7 Miary skupienia koncentracji
2 7 Miary skupienia koncentracji
2.7 Miary skupienia, koncentracji
2.7 Miary skupienia, koncentracji
Nierównomierność rozdziału ogólnej sumy wartości cechy pomiędzy poszczególne
jednostki zbiorowości nazywana jest w statystyce koncentracją. Do oceny nasilenia
koncentracji można użyć dwojakiego rodzaju mierników:
koncentracji można użyć dwojakiego rodzaju mierników:
współczynnika kurtozy (skupienia), jeśli celem opisu jest pomiar skupienia wartości cechy
wokół poziomu średniego,
współczynnika koncentracji Giniego, jeśli celem opisu jest zobrazowanie (krzywą Lorenza) i
pomiar nierówności w rozkładzie badanego zjawiska
pomiar nierówności w rozkładzie badanego zjawiska.
2.7.1 Współczynnik skupienia kurtoza
2.7.1 Współczynnik skupienia kurtoza
Bezwzględna miara skupienia, koncentracji albo spłaszczenia rozkładu cechy ilościowej
oparta jest na czwartym momencie centralnym ź liczonym według:
oparta jest na czwartym momencie centralnym ź4 liczonym według:
16
Względną miarą koncentracji rozkładu cechy
(2.41)
ilościowej jest współczynnik kurtozy liczony według:
Normą współczynnika kurtozy jest rozkład normalny, dla którego K = 3. Stąd korekta
ilorazu ź4/S4 o 3. Wartość K <0 oznacza rozkład bardziej spłaszczony od normalnego, a K > 0
rozkład bardziej wysmukły od normalnego (tzn. obserwacje są bardziej skoncentrowane
wokół średniej).
Koncentracja (skupienie) jest efektem dysproporcji podziału ogólnej sumy wartości cechy
Koncentracja (skupienie) jest efektem dysproporcji podziału ogólnej sumy wartości cechy
pomiędzy poszczególne jednostki. Istnieje ścisły związek między zróżnicowaniem a
koncentracją: im wyższe rozproszenie tym niższy współczynnik kurtozy i odwrotnie.
Wyższej kurtozie towarzyszy wyższy i smuklejszy rozkład.
ILUSTRACJA EMPIRYCZNA:
40
S = 6,945; 160
S=0,239;
As= 0,002;
35
As=1,204;
, ;
140
140
K= 0 752
K=-0,752
K=1,438
30
120
25
100
20
20
80
80
15 60
40
10
20
5
0
0
40 45 50 55 60 65 70 75 80
Wsk depryw mieszkaniowej
Wsk. depryw. mieszkaniowej
Wsk obciążenia demograf
Wsk. obciążenia demograf.
UWAGA: Wartości opisowych charakterystyk struktury wSPSSliczone są przy założeniu,
17
że dane reprezentują PRÓB, a nie POPULACJ.
e
z
k
z
Częstość
Częstość
w
s
b
w
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
na 100 osób w wieku produkcyjnym
n
niowych w przeliczeniu na mieszkańca
L
Liczba dodatków (świadczeń) mieszka-
Liczba osób w wieku nieprodukchyjnym
Ze względu na wartość kurtozy rozkłady dzieli się na:
mezokurtyczne wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do
spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0),
leptokurtyczne kurtoza jest dodatnia wartości cechy bardziej skoncentrowane niż w
leptokurtyczne kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż w
rozkładzie normalnym,
platykurtyczne kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż w
rozkładzie normalnym.
ILUSTRACJA EMPIRYCZNA:
18
2.7.2 Współczynnik koncentracji Giniego
2.7.2 Współczynnik koncentracji Giniego
Nie każdy materiał statystyczny można scharakteryzować opisowymi miarami struktury
zbiorowości. Dotyczy to zjawisk o wyraznie nierównomiernym, skoncentrowanym, podziale
zbiorowości. Dotyczy to zjawisk o wyraznie nierównomiernym, skoncentrowanym, podziale
wartości cechy pomiędzy jej warianty. O koncentracji jest mowa w przypadku dochodów
ludności, kapitału, ziemi, rozmieszczeniu ludności, zanieczyszczeń środowiska, czy
industrializacji. Przykładem koncentracji jest zjawisko nierównomiernego rozmieszczenia
ludności miast wg ich wielkości:
ludności miast wg ich wielkości:
Widocznym symptomem koncentracji
ludności w dużych miastach jest z jednej
strony duża liczba małych miasteczek z
niewielką łączną liczbą mieszkańców, z
niewielką łączną liczbą mieszkańców, z
drugiej natomiast - niewielka liczba dużych
miast z dużą, dominującą, łączną liczbą
mieszkańców.
I graficznie, dla każdej z cech osobno:
8 000
8 000
300
300
XII 2006
XII 2006
XII 2006
6 000
200
4 000
100
2 000
0
0
do 5 5 10 20 50 100 200
do 5 5 10 20 50 100 200
t 99 19 9 49 9 99 9 199 9 t
tys. 9,9 19,9 49,9 99,9 199,9 tys. +
tys. 9,9 19,9 49,9 99,9 199,9 tys. +
Wielkość miast (tys.)
Wielkość miast (tys.)
19
s
ó
Liczba miast
a
Liczba mieszkańców
Do oceny nasilenia koncentracji zjawiska służy wielobok koncentracji, znany również w
literaturze przedmiotu pod nazwą krzywej Lorenza.
Podstawę do wykreślenia empirycznej krzywej koncentracji stanowią skumulowane
Podstawę do wykreślenia empirycznej krzywej koncentracji stanowią skumulowane
udziały jednostek wi sk, zamieszczane na osi odciętych, oraz skumulowane udziaływartości
cechy zi sk, zamieszczane na osi rzędnych. Im słabsza jest koncentracja zjawiska, tym
krzywa koncentracji pg j przekątnej prostokątnego.
y j przebiega bliżej p ą j układu p ą g
przy czym: 100%
80%
Wartość miary koncentracji zjawiska
60%
współczynnika koncentracji Giniego jest
ilorazem pola a zawartego pomiędzy krzywą
40%
40%
a
a
rozkładu proporcjonalnego i krzywą rozkładu
rzeczywistego i pola a + b zawartego pomiędzy
20%
b
krzywą absolutnej równości i nierówności.
0%
Współczynnik koncentracji
(2.42)
0% 20% 40% 60% 80% 100%
Giniego jest postaci:
Skumulowana liczba wi sk
i sk
i przyjmuje wartości:
(2.43)
G = 0 oznacza brak koncentracji, czyli równomierny podział wartości cechy,
G = 1 oznacza koncentrację absolutną (zupełną) wartości cechy pozostającą w dyspozycji
jednego podmiotu
20
i sk
b
Skumulowana liczba
z
Wartość współczynnika Giniego jest podwojeniem pola a pomiędzy krzywą rozkładu
proporcjonalnego i krzywą Lorenza rozkładu rzeczywistego, tzn.:
(2.44)
(2.44)
Dowód:
przy zał., że a+b= 0,5 uzyskuje się:
Do wyznaczenia wartości współczynnika Giniego niezbędna jest znajomość jednego z
pól: a, bądz b. Przejście z wartości jednego pola do drugiego jest łatwe, ponieważ:
1o a+b= 0,5 przy założeniu, że długość krawędzi kwadratowego diagramu koncentracji
wynosi 1, bądz
2o a+b= 5 000 przy założeniu, że długość krawędzi kwadratowego diagramu koncentracji
wynosi 100.
Technicznie łatwiejsze jest jednak wyznaczenie wartości pola b jako sumy pól jednego
Technicznie łatwiejsze jest jednak wyznaczenie wartości pola b, jako sumy pól jednego
trójkąta i trapezów znajdujących się pod krzywą Lorenza.
Ilustrują to diagramy:
100%
1,0
Pole przykładowego
trapezu ABCD liczone
l
80%
0,8
jest jako iloczyn jego
60%
0,6
wysokości (odcinek h osi
odciętych) i połowa sumy
odciętych) i połowa sumy
40%
40%
0,4
A
A
równoległych boków
20%
0,2
(odcinków AB i CD osi
D
D
h
h
rzędnych).
0%
0,0
0,0
B
B
B C
C
0% 20% 40% 60% 80% 100%
0,0 0,2 0,4 0,6 0,8 1,0
Skumulowana liczba wi sk
Skumulowana liczba wi sk
21
i
i sk
i sk
w
Skumulowana liczba
z
Skumulowana liczba
z
B ł t WYKAADU
B ł t WYKAADU
Były to: N t tki d WYKAADU
Były to: Notatki do WYKAADU ze
STATYSTYKI OPISOWEJ i EKONOMICZNEJ
STATYSTYKI OPISOWEJ i EKONOMICZNEJ
STATYSTYKI OPISOWEJ i EKONOMICZNEJ
STATYSTYKI OPISOWEJ i EKONOMICZNEJ
cz. 2:
cz. 2: OPISOWE MIARY JEDNOWYMIAROWYCH
ROZKAADÓW CECH
ZA UWAG DZIKUJE
ZA UWAG DZIKUJE
Anna Malarska
Anna Malarska
Katedra Statystyki Ekonomicznej i Społecznej UA
Wszelkie prawa zastrzeżone. Opracowanie przeznaczone jest dla studentów i słuchaczy
autorskiego programu wykładu A. Malarskiej. Rozpowszechnianie w jakiejkolwiek formie
części lub całości opracowania wymaga zgody Autorki.
22
Wyszukiwarka
Podobne podstrony:
WYKŁAD St Opi cz3WYKŁAD St Opi cz1WYKŁAD St Opi cz4WYKŁAD ŚT 2011aPD wyklady z ch wewnetrznych i geriatrii Elektrokardiografia stPRZ OPI wyklad 6 IIe pdfGW Wyklad cz2PRZ OPI wyklad 7 IIe pdfGW Wyklad 5 BUD cz2GW Wyklad13 cz2diagnoza wyklad cz2GW Wyklad 08 cz2GW Wyklad06 TRANSP cz2wyklady mgr stwyklad dla studentow BHP cz2Wyklad 2 Halogenki alkilowe i inne związki haloorganiczne cz2Sylabus Zab rodz w module wykład 15 h ST BZ lato 2013 14więcej podobnych podstron