Wykład 3
Charakterystyki opisowe
3.1. Uwagi ogólne
Przypomnijmy podstawowe pojęcia, które pojawiły się na wcześniejszych wykładach:
Szereg szczegółowy zbiór danych uporządkowany według wartości badanej cechy.
Szereg rozdzielczy uporządkowany i pogrupowany (według przyjętych kryteriów) zbiór
informacji dotyczących badanej cechy. Otrzymuje się go dzieląc zbiorowość statystyczną na klasy
zbiorcze według pewnej cechy i podając liczebności ka\dej z klas (tzw. liczebności klasowe ni).
szereg rozdzielczy punktowy
szereg rozdzielczy przedziałowy
Analiza danych statystycznych powinna doprowadzić do zwięzłego przedstawienia wyników badań
za pomocÄ… odpowiednich charakterystyk liczbowych zwanych parametrami statystycznymi. DajÄ… one
skrócony opis zbiorowości statystycznej. Stosowane w analizach parametry dzieli się na:
miary poło\enia
miary klasyczne (średnia arytmetyczna, średnia harmoniczna, średnia
geometryczna itp.)
miary pozycyjne (moda, kwantyle)
miary dyspersji (zmienności)
miary klasyczne (odchylenie standardowe, współczynnik zmienności)
miary pozycyjne (rozstęp, odchylenie ćwiartkowe)
miary asymetrii
miary koncentracji
Znajomość rozkładu cechy (jej przedstawienie graficzne) ułatwia dobór odpowiednich do opisu
parametrów statystycznych.
3.2. Miary poło\enia
Miary poło\enia charakteryzują średni lub typowy poziom wartości cechy.
Średnia arytmetyczna informuje o przeciętnym poziomie cechy, abstrahując od ró\nic pomiędzy
poszczególnymi wartościami cechy.
Średnia harmoniczna stosuje się ją wówczas, gdy wartości cechy podane są w przeliczeniu na
stałą jednostkę innej zmiennej, czyli w postaci wskazników natę\enia, wagi natomiast w jednostkach
liczników tych cech (dzielna wskaznika natę\enia). Przykłady cech: prędkość pojazdu w km/h (waga
km), gęstość zaludnienia w osobach/km2 (waga osoby).
Średnia geometryczna znajduje zastosowanie przy badaniu średniego tempa zmian zjawisk,
a więc gdy zjawiska są ujmowane dynamicznie.
Kwantyle wartości cechy badanej zbiorowości, przedstawionej w postaci szeregu
statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek. Części
dr Mirosława Szewczyk 1
Statystyka
te pozostają do siebie w określonych proporcjach. Do najczęściej stosowanych kwantyli nale\ą
kwartyle, a w przypadku analizy bardzo licznych zbiorowości decyle.
Mediana (kwartyl drugi, Me) dzieli zbiorowość prezentowaną w postaci szeregu na dwie
liczebnie równe części w ten sposób, \e połowa jednostek ma wartości cechy mniejsze lub równe
medianie. Dla znalezienia mediany, kwartyla dolnego, kwartyla górnego elementy zbiorowości nale\y
uporządkować od najmniejszego do największego (lub odwrotnie).
Kwartyl dolny (kwartyl pierwszy, Q1) dzieli zbiorowość na dwie części w ten sposób, \e
25% jednostek zbiorowości ma wartości cechy ni\sze bądz równe kwartylowi pierwszemu, a 75%
równe bądz wy\sze od tego kwartyla.
Kwartyl górny (kwartyl trzeci, Q3) dzieli zbiorowość na dwie części w ten sposób, \e
75% jednostek zbiorowości ma wartości cechy ni\sze bądz równe kwartylowi trzeciemu, a 25% równe
bÄ…dz wy\sze od tego kwartyla.
Moda (dominanta; Mo) wartość cechy, która w danym rozkładzie empirycznym występuje
najczęściej. W szeregach szczegółowych i rozdzielczych punktowych jest to ta wartość cechy, której
odpowiada największa liczebność.
Wzory dla szeregu szczegółowego:
n
1
Åšrednia arytmetyczna
x =
"xi
n
i=1
(1)
n
Åšrednia harmoniczna
xH =
n
1
(2)
"
n
i=1
Åšrednia geometryczna
n
n
n
xG = x1 Å" x2 Å"KÅ" xn = (3)
"xi
i=1
Mediana
xn+1 gdy n jest nieparzyste
Å„Å‚
ôÅ‚
2 (4)
Me =
òÅ‚
1
ôÅ‚2 (xn + xn +1) gdy n jest parzyste
ół 2 2
W przypadku szeregów szczegółowych kwartyle pierwszy i trzeci wyznacza się korzystając ze
wzoru na medianę. Zbiorowość dzieli się na dwie równe części (pierwszą której jednostki
przyjmują wartości nie większe od mediany, drugą zło\oną z pozostałych jednostek). Dla
ka\dej z tych części mo\na wyznaczyć medianę. Dla pierwszej części wartość jej mediany
odpowiada kwartylowi dolnemu, dla drugiej części kwartylowi górnemu.
dr Mirosława Szewczyk 2
Statystyka
Wzory dla szeregu rozdzielczego punktowego:
Åšrednia arytmetyczna wa\ona
k
1
x = xi ni
" (5)
n
i=1
k
Åšrednia harmoniczna
"ni
i=1 (6)
xH =
k
ni
"
xi
i=1
Åšrednia geometryczna
k
n 1 2 k i
n
xG = (x1)n Å" (x2 )n Å"KÅ" (xk )n = )n
(7)
"(xi
i=1
k
gdzie n =
"ni
i=1
Kwartyl dolny, mediana, kwartyl górny, moda analogicznie jak w przypadku szeregu
szczegółowego.
Wzory dla szeregu rozdzielczego przedziałowego:
k
Åšrednia arytmetyczna wa\ona
1
&i
x = x ni
"
(8)
n
i=1
Åšrednia harmoniczna
k
"ni
i=1
xH =
k
(9)
ni
"
&
xi
i=1
Åšrednia geometryczna
k
n 1 2 k i
n
& & & &
xG = (x1)n Å" (x2 )n Å"KÅ" (xk )n = )n
"(xi (10)
i=1
Kwartyl dolny
k -1
n
-
"ni
4
i=1
Q1 = xQ + h
1 (11)
nQ
1
gdzie
xQ1 dolna granica przedziału zawierającego kwartyl dolny,
h rozpiętość przedziału klasowego,
nQ1 liczebność klasy zawierającej kwartyl dolny,
dr Mirosława Szewczyk 3
Statystyka
k -1
"ni
suma liczebności klas od pierwszej do tej, która bezpośrednio poprzedza klasę
i=1
zawierajÄ…cÄ… kwartyl dolny
k -1
Mediana
n
-
"ni
(12)
2
i=1
Me = xMe + h
nMe
gdzie
xMe dolna granica przedziału zawierającego medianę,
h rozpiętość przedziału klasowego,
nMe liczebność klasy zawierającej medianę,
k -1
suma liczebności klas od pierwszej do tej, która bezpośrednio poprzedza klasę
"ni
i=1
zawierajÄ…cÄ… medianÄ™.
Kwartyl górny
k-1
3n
-
"ni
4
i=1
Q3 = xQ + h
3 (13)
nQ
3
gdzie
xQ3 dolna granica przedziału zawierającego kwartyl górny,
h rozpiętość przedziału klasowego,
nQ3 liczebność klasy zawierającej kwartyl górny,
k -1
suma liczebności klas od pierwszej do tej, która bezpośrednio poprzedza klasę
"ni
i=1
zawierającą kwartyl górny.
Moda
nMo - nMo-1
Mo = xMo + h
(14)
(nMo - nMo-1) + (nMo - nMo+1)
gdzie
xMo dolna granica przedziału zawierającego modę,
h rozpiętość przedziału klasowego,
nMo liczebność klasy zawierającej modę,
nMo-1 liczebność klasy poprzedzającej klasę zawierającą modę,
nMo+1 liczebność klasy następującej po klasie zawierającej modę.
3.3. Miary zmienności
Miary zmienności (zró\nicowania, rozproszenia, dyspersji) charakteryzują stopień zró\nicowania
jednostek zbiorowości pod względem badanej cechy. Podstawowe miary zmienności to: rozstęp,
wariancja, odchylenie standardowe, współczynnik zmienności, odchylenie ćwiartkowe.
RozstÄ™p ® charakteryzuje empiryczny obszar zmiennoÅ›ci badanej cechy.
dr Mirosława Szewczyk 4
Statystyka
Wariancja jest średnią arytmetyczną kwadratów odchyleń poszczególnych wartości cechy od ich
wartości średniej. Dla oznaczenia wariancji w próbie stosuje się s2, natomiast dla oznaczenia wariancji
w populacji generalnej Ã2 (Ã - sigma).
Współczynnik zmienności (V) jest wielkością niemianowaną. Przyjmuje się, \e jeśli V<10%, to
cechy wykazują zró\nicowanie statystycznie nieistotne. Du\e wartości współczynnika zmienności
świadczą o zró\nicowaniu, a więc niejednorodności zbiorowości.
Odchylenie ćwiartkowe mierzy poziom zró\nicowania części jednostek pozostałej po odrzuceniu
25%jednostek o wartościach najmniejszych i 25% jednostek o wartościach największych.
Rozstęp
R = x - x
max min
(15)
Wariancja
" dla szeregu szczegółowego
n
1
s2 = - x)2
"(xi
n
(16)
i=1
" dla szeregu rozdzielczego punktowego
k
1
s2 = - x)2 ni
"(xi
(17)
n
i=1
" dla szeregu rozdzielczego przedziałowego
k
1
& - x)2 ni
s2 =
"(xi
(18)
n
i=1
Odchylenie standardowe
s = s2
(19)
Typowy klasyczny obszar zmienności cechy
x - s < x < x + s (20)
Współczynnik zmienności
s
V =
(21)
x
Q3 - Q1
Odchylenie ćwiartkowe
Q =
2
(22)
Typowy pozycyjny obszar zmienności cechy
(23)
Me - Q < x < Me + Q
3.4. Miary asymetrii
Dodatkowym elementem analizy struktury jest badanie asymetrii rozkładu. Jest no wskazane
zwłaszcza wtedy, gdy dwie badane zbiorowości charakteryzują się podobnymi charakterystykami
liczbowymi (np. dominantą) i rozproszeniem, a jednak dokładniejsza obserwacja szeregu wyklucza
podobieństwo struktur rozwa\anych zbiorowości. O stopniu i kierunku asymetrii decyduje wzajemne
poło\enie względem siebie średniej arytmetycznej, mediany i dominanty.
dr Mirosława Szewczyk 5
Statystyka
Współczynnik asymetrii (A) im bli\szy zera, tym słabsza asymetria rozkładu. Znak
współczynnika mówi o kierunku asymetrii (A<0 asymetria lewostronna, A>0 asymetria
prawostronna).
m3
A =
(24)
s3
gdzie
" dla szeregu szczegółowego
n
1
m3 = - x)3 (25)
"(xi
n
i=1
" dla szeregu rozdzielczego punktowego
k
1
m3 = - x)3ni
"(xi
(26)
n
i=1
" dla szeregu rozdzielczego przedziałowego
k
1
& - x)3ni
m3 =
"(xi
(27)
n
i=1
dr Mirosława Szewczyk 6
Statystyka
Rys. 6. Rozkład symetryczny, rozkład lewostronnie asymetryczny i rozkład prawostronnie
asymetryczny
ni
Rozkład symetryczny
xi
x = Mo = Me
ni
Rozkład lewostronnie asymetryczny
x < Me < Mo
Mo
xi
ni
Rozkład prawostronnie asymetryczny
Mo < Me < x
Mo
xi
yródło: Opracowanie własne.
3.5. Miary koncentracji
Miary asymetrii pozwalają na opis kształtu struktury. Opis ten mo\na uzupełnić o miary
koncentracji. Miarą skupienia poszczególnych obserwacji wokół średniej jest współczynnik
skupienia K. Im wy\sza wartość K, tym bardziej wysmukła krzywa liczebności, czyli większa
koncentracja wartości cechy wokół średniej. Małe wartości K wskazują natomiast na spłaszczenie
rozkładu badanej cechy. Przyjmuje się, \e je\eli zbiorowość ma rozkład normalny, to K=3, bardziej
spłaszczony od normalnego ma K<3, a bardziej wysmukły od normalnego K>3.
dr Mirosława Szewczyk 7
Statystyka
m4
K =
(28)
s4
gdzie
n
" dla szeregu szczegółowego
1
m4 = - x)4
"(xi
(29)
n
i=1
" dla szeregu rozdzielczego punktowego
k
1
(30)
m4 = - x)4ni
"(xi
n
i=1
" dla szeregu rozdzielczego przedziałowego
k
1
(31)
& - x)4ni
m4 =
"(xi
n
i=1
Rys. 7. Ró\ny stopień koncentracji cechy
K>3
ni
K=3
K<3
xi
yródło: Opracowanie własne.
Zjawisko koncentracji mo\e być równie\ rozwa\ane jako nierównomierny podział ogólnej sumy
wartości cech pomiędzy poszczególne jednostki zbiorowości. W praktyce do oceny stopnia natę\enia
tak rozumianej koncentracji wykorzystuje się krzywą koncentracji Lorenza. Graficznie stopień
koncentracji przedstawia wykres koncentracji. Przebieg wieloboku koncentracji zale\y od stopnia
zró\nicowania badanej zmiennej. W przypadku równomiernego rozdziału pomiędzy jednostki
zbiorowości wszystkie punkty le\ałyby na przekątnej kwadratu o boku równym 100. Przekątna
kwadratu nosi nazwę linii równomiernego podziału. Im wielobok le\y dalej od przekątnej, tym
zró\nicowanie wartości zmiennej jest większe.
Współczynnik koncentracji Lorenza dany jest wzorem:
k
zisk + zi-1 sk
1
KL H" 1- Ö
" i
(32)
5000 2
i=1
Współczynnik KL przyjmuje wartość zero w przypadku równomiernego podziału (przy braku
koncentracji) i wartość jeden w przypadku całkowitej koncentracji.
dr Mirosława Szewczyk 8
Statystyka
Porównując dane dla lat 1990 oraz 2000 mo\na zauwa\yć postępujący proces koncentracji ziemi
w Polsce.
3.6. Uwagi końcowe
Średnia arytmetyczna jest najczęściej wykorzystywaną miarą, jednak nie zawsze jest ona dobrym
miernikiem tendencji centralnej. Średnia arytmetyczna jest wra\liwa na skrajne wartości cechy.
Wartość średniej arytmetycznej mo\e wprowadzać w błąd w przypadku, kiedy największe liczebności
skupiają się wokół najni\szych lub najwy\szych wartości cechy. Podobnie wartość średniej
arytmetycznej mo\e wprowadzać w błąd, gdy wyznacza się średnią w przypadku rozkładów
niejednorodnych (z kilkoma ośrodkami dominującymi).
Ocenę poszczególnych parametrów uzupełnia tzw. wykres pudełkowy ( pudełko z wąsami ).
Składa się on z prostokąta, którego dwa pionowe boki wskazują wartość kwartyla dolnego i górnego.
Wewnątrz prostokąta zaznacza się medianę. Wykres usytuowany jest względem poziomej osi
liczbowej ze skalą obejmującą pełny zakres wartości zbioru danych. Dodatkowo na wykresie
zaznacza się wartości ( wąsy ):
xmin (gdy xmin> Q1-3Q) albo Q1-3Q (gdy xmin< Q1-3Q)
xmax (gdy xmax< Q3+3Q) albo Q3+3Q (gdy xmax> Q3+3Q).
Obserwacje spełniające warunek xi
Q3+3Q nazywa się du\ymi błędami lub
wartościami izolowanymi lub obserwacjami odstającymi. Powinny one być obiektem szczególnego
zainteresowania, gdy\ mogą być skutkiem błędu pomiaru.
Rys. 8. Wykres pudełko z wąsami
xmin Q1 Me Q3 xmax xmin Q1 Me Q3 Q3+3Q
yródło: Opracowanie własne.
Wykres pudełkowy dostarcza informacji o tendencji centralnej rozkładu (kwartyle - usytuowanie
pudełka, a zwłaszcza dzielącej go pionowej kreski), zmienności (długość pudełka i całego wykresu),
asymetrii rozkładu (dysproporcje rozstępów pomiędzy bokami prostokąta a dzielącą go kreską oraz
pomiędzy długością wąsów ) oraz wartościach w znacznym stopniu przekraczających przedział
zmienności dla wartości typowych.
dr Mirosława Szewczyk 9
Statystyka
3.7. Zagadnienia i pytania kontrolne
Pytania kontrolne:
1. Jaki jest cel analizy struktury badanego zjawiska?
2. Jakich informacji o rozkładach zmiennej w badanej zbiorowości statystycznej dostarczają
poszczególne miary poło\enia?
3. Jakich informacji o rozkładach zmiennej w badanej zbiorowości statystycznej dostarczają
poszczególne miary dyspersji?
4. Jakich informacji o rozkładach zmiennej w badanej zbiorowości statystycznej dostarczają
poszczególne miary asymetrii?
5. Jakich informacji o rozkładach zmiennej w badanej zbiorowości statystycznej dostarczają
poszczególne miary koncentracji?
6. W jakich szeregach nie powinno się obliczać średniej arytmetycznej?
7. Jak wygląda algorytm obliczania mediany w szeregu rozdzielczym przedziałowym?
Problemy do dyskusji:
1. Zapoznaj się z graficznym sposobem wyznaczania mody oraz kwartyli. Przećwicz metodę
graficzną na poni\szym przykładzie, a następnie wyznacz modę i kwartyle za pomocą
wzorów. Czy wyniki się zgadzają?
Tabela 6. Szereg rozdzielczy przedziałowy
Nr klasy (i) Przedziały klasowe Liczebność (ni)
1 0-3 8
2 3-6 14
3 6-9 25
4 9-12 38
5 12-15 60
6 15-18 42
7 18-21 28
8 21-24 12
suma n=227
yródło: Opracowanie własne.
dr Mirosława Szewczyk 10
Statystyka
Rys.9. Graficzna metoda wyznaczania mody (histogram liczności)
70
60
50
40
30
20
10
0
0 3 6 9 12 15 18 21 24
yródło: Opracowanie własne.
Rys.10. Graficzna metoda wyznaczania kwartyli (histogram i diagram liczności skumulowanych)
250
200
150
100
50
0
0 3 6 9 12 15 18 21 24
yródło: Opracowanie własne.
2. Dla danych zawartych w tabelach 7-8 wykonaj obliczenia współczynnika koncentracji
Lorenza. Spójrz równie\ na poni\szy rysunek. Czy obliczenia i wielobok koncentracji
przedstawiony na rysunku prowadzą do tych samych wniosków?
Tabela 7. Porównanie koncentracji ziemi w indywidualnych gospodarstwach rolnych w Polsce w 1990
i 2000 r. (wskazniki struktury w odsetkach).
1990 2000
Gospodarstwa
liczba powierzchnia liczba powierzchnia
o powierzchni ogólnej
gospodarstw (Éi) gospodarstw (zi) gospodarstw (Éi) gospodarstw (zi)
1-2 ha 17,7 4,2 23,8 4,8
2-5 ha 35,1 18,7 32,6 14,7
5-10 ha 29,8 34,5 23,8 23,6
10-15 ha 11,3 22,4 9,9 16,6
15 ha i więcej 6,1 20,2 9,9 40,3
Razem 100,0 100,0 100,0 100,0
yródło: Rocznik Statystyczny Rolnictwa, GUS, Warszawa 2001, s. 27.
dr Mirosława Szewczyk 11
Statystyka
liczno
Å›
ci (n
i
)
i sk
liczno
Å›
ci skumulowane (n
)
Tabela 8. Skumulowane odsetki.
1990 2000
Gospodarstwa
liczba powierzchnia liczba powierzchnia
o powierzchni ogólnej
gospodarstw gospodarstw gospodarstw gospodarstw
(Éisk) (zisk) (Éisk) (zisk)
1-2 ha 17,7 4,2 23,8 4,8
2-5 ha 52,8 22,9 56,4 19,5
5-10 ha 82,6 57,4 80,2 43,1
10-15 ha 93,9 79,8 90,1 59,7
15 ha i więcej 100,0 100,0 100,0 100,0
yródło: obliczenia własne.
Rys.11. Wielobok koncentracji ziemi w indywidualnych gospodarstwach rolnych w Polsce w 1990
i 2000 r.
100
100 Polska 1990 r. Polska 2000 r.
80 80
60 60
40 40
20 20
0 0
0 20 40 60 80 100 0 20 40 60 80 100
Liczba gospodarstw w odsetkach Liczba gospodarstw w odsetkach
yródło: opracowanie własne na podstawie Rocznik Statystyczny Rolnictwa, GUS, Warszawa 1994, s.35, Rocznik
Statystyczny Rolnictwa, GUS, Warszawa 2001, s.31.
3. Dlaczego rozkłady charakteryzujące się brakiem tendencji centralnej nie powinny być
opisywane za pomocą wartości średnich?
dr Mirosława Szewczyk 12
Statystyka
Powierzchnia gospodarstw w odsetkach
Powierzchnia gospodarstw w odsetkach
Wyszukiwarka
Podobne podstrony:
W03 Ontologia cz02
stl w03
W03 Fizyka Haran
W03 Diody polprzewodnikowe
TPL 3 W03 v1 0
PiS15 W03 Zmienne losowe II 12
Gazownictwo w03
SIMRAlgebra W03
W03 2013 1
ti w03
MB W03 PWr v2
Aire W03
W03 Indukcja i rekurencja
W03 Matlab3
GI W03 rysunek techniczny podtsawy czII
w03 1 Proces
więcej podobnych podstron