Statystyka teoria i zadnia z rozwiązaniami (15 stron)


Analiza struktury zmierza do wydobycia na jaw charakterystycznych właściwości
zbiorowości i porównania ich z inną zbiorowością. Każde badanie, które w efekcie ma dać
wszechstronną ocenę zjawiska i doprowadzić do konstruktywnych wniosków, musi mieć
swój punkt odniesienia w czasie albo przestrzeni.
Badając np. rozwój gospodarczy w regionie X nie będziemy w stanie prawidłowo
ocenić poziomu rozwoju w tym regionie bez znajomości rozmiarów tego samego zjawiska
w innym regionie lub tym samym regionie, ale w poprzednich okresach.
W badaniach statystycznych dosyć często zachodzi konieczność przeprowadzenia
dwóch typów porównań:
1. Dwóch (lub więcej) różnych zbiorowości  pod względem tej samej cechy (np.
struktura zgonów według wieku mężczyzn w Polsce w roku 2002);
2. Rozkładu dwóch (lub więcej) cech w tej samej zbiorowości (np. struktura urodzeń
żywych według kolejności urodzenia dziecka i wieku matki w Polsce w roku 2002).
W sytuacjach, w których badanie struktury zbiorowości statystycznej prowadzone
jest z punktu widzenia cech mierzalnych, wszechstronną analizę można prowadzić przy
wykorzystaniu następujących miar statystycznych:
1. miar średnich (miar poziomu wartości zmiennej, miar położenia, przeciętnych)
służących do określania tej wartości zmiennej opisanej przez rozkład, wokół której
skupiają się wszystkie pozostałe wartości zmiennej;
2. miar rozproszenia (zmienności, zróżnicowania, dyspersji) służących do badania
stopnia zróżnicowania wartości zmiennej;
3. miar asymetrii (skośności) służących do badania kierunku zróżnicowania wartości
zmiennej;
4. miar koncentracji służących do badania stopnia nierównomierności rozkładu
ogólnej sumy wartości zmiennej pomiędzy poszczególne jednostki zbiorowości lub
analizy stopnia skupienia poszczególnych jednostek wokół średniej.
Miary średnie
Dzielą się na dwie grupy: średnie klasyczne i pozycyjne. Do średnich
klasycznych należą: średnia arytmetyczna, średnia harmoniczna oraz średnia
geometryczna. Najczęściej wykorzystywanymi średnimi pozycyjnymi są: dominanta
(wartość najczęstsza) oraz kwantyle. Wśród kwantyli wyróżniamy  kwartyle (dzielące
zbiorowość na cztery części), kwintyle (pięć części), decyle (dziesięć części) oraz centyle
[percentyle] (sto części).
Średnie klasyczne są obliczane na podstawie wszystkich wartości szeregu.
Średnie pozycyjne są wartościami konkretnych wyrazów szeregu (pozycji)
wyróżniających się pod pewnym względem. Obie grupy wzajemnie się uzupełniają, każda
opisuje poziom wartości zmiennej z innego punktu widzenia.
Średnia arytmetyczna
Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek
badanej zbiorowości podzieloną przez liczbę tych jednostek.
n
xi
_
x1 + x2 +K+ xn i=1
x = =
N N
x
- symbol średniej arytmetycznej;
xi  warianty cechy mierzalnej;
N  liczebność badanej zbirowości.
Średnią określoną powyższym wzorem nazywa się średnią arytmetyczną nieważoną.
Jeżeli warianty średniej występują z różną częstotliwością, to oblicza się średnią
arytmetyczną ważoną. Wagami są liczebności odpowiadające poszczególnym
wariantom. Z tego typu sytuacją mamy do czynienia w szeregach rozdzielczych i
przedziałowych.
Średnią arytmetyczną z szeregów przedziałowych oblicza się następująco:
k
ni1
xi
_
x1n1 + x2n2 +K+ xnnk i=1
x = =
N N
ni (n=1,2,& ,k)  liczebność jednostek odpowiadająca poszczególnym wariantom
zmiennej;
N  suma tych liczebności
(S - suma)
W szeregach rozdzielczych przedziałowych wartości zmiennej w każdej klasie
nie są jednoznacznie określone, ale mieszczą się w pewnym przedziale. Dlatego też w
celu obliczenia średniej arytmetycznej w przypadku tego typu szeregów należy wcześniej
wyznaczyć środki przedziałów. Środki przedziałów otrzymuje się jako średnią
o
x
i
arytmetyczną dolnej i górnej granicy każdej klasy. Oznacza się ją symbolem .
Wzór na średnią arytmetyczną z szeregu rozdzielczego przedziałowego:
k
0
0 0 0
i
x ni
_
x n1 + x n2 +K+ x nk i=1
1 2 n
x = =
N N
Jeżeli w obliczeniach możemy wykorzystać wyłącznie procentowe wskazniki struktury
wi
(odsetki całości) to wzór wygląda następująco:
k
0
x wi
i

_
i=1
x =
100
gdzie
ni
wi = 100
N
Ćwiczenie 1
Tab. 1 Wyniki badań testowych dotyczących wiedzy teoretycznej ze statystyki
Wiedza ze Liczba O
statystyki studentów b
(w punktach) l
ni
i
x0i - x1i
c
z
e
n
i
a
p
o
m
o
c
n
i
c
z
e
0 0 0
ni wi xi wi
x
i x
i
20-30 2 2 50 4,0 100,
30-40 10 5 35 20, 0
40-50 7 3 0 0 700,
50-60 9 5 31 14, 0
60-70 12 4 5 0 630,
70-80 10 5 49 18, 0
5 5 0 990,
5 78 24, 0
6 0 0 156
5 75 20, 0,0
7 0 0 150
5 0,0
Razem 50 x 27 10 548
40 0,0 0,0
0
x
i
- środek klasy
wi - odsetek ogółu
Oblicz średnią arytmetyczną.
Metoda 1:
 Za pomocą szeregu rozdzielczego przedziałowego
2740
x = = 54,8punktów
50
Metoda 2:
 Za pomocą procentowych wskazników struktury
5480
x = = 54,8punktów
100
Wyniki są równoważne, ponieważ wartość średniej arytmetycznej nie zależy od
liczebności poszczególnych klas, ale od proporcji między nimi.
Jeżeli znamy średnie arytmetyczne dla pewnych grup, a chcemy obliczyć średnią
arytmetyczną dla wszystkich grup łącznie korzystamy ze wzoru:
k
x ni
i

i=1
x =
N
gdzie:
x
- średnia ze średnich;
xi - średnia arytmetyczna i-tej grupy;
N
- suma liczebności grupy;
Średnia arytmetyczna jest miarą prawidłową tylko w odniesieniu do zbiorowości
jednorodnych, o niewielkim stopniu zróżnicowania wartości zmiennej. W miarę wzrostu
asymetrii i zróżnicowania rozkładu, a także w rozkładach bimodalnych i wielomodalnych
średnia arytmetyczna traci swoje znaczenie. Nie można jej obliczyć dla szeregu o
otwartych przedziałach, jeżeli przedziały te mają duże liczebności. (Przyjmuje się, że
otwarte przedziały klasowe przedziały można zamykać, jeżeli liczba jednostek w tych
przedziałach nie przekracza 5% liczebności zbiorowości.)
Jeżeli wartości zmiennej podane są w jednostkach względnych, np. km/godz,
kg/osobę, wagi zaś w jednostkach liczników tych jednostek względnych (prędkość
pojazdu  zmienna: km/godz.; waga: w km; gęstość zaludnienia  zmienna: w
osobach/km2, waga: w osobach; spożycie artykułu X na 1 osobę  zmienna: w litrach,
waga: na osobę), to stosuje się średnią harmoniczną.
Średnia harmoniczna jest odwrotnością średniej arytmetycznej z odwrotności
wartości zmiennych.
W przypadku szeregów wyliczających oblicza się ją ze wzoru:
N
H =
N
1

xi
i=1
gdzie:
H  symbol średniej harmonicznej.
Dla obliczenia średniej harmonicznej z szeregów rozdzielczych (punktowych lub
przedziałowych) zachodzi konieczność zastosowania wag (uwzględnienia liczebności).
Stosuje się wzór:
N
H =
N
1
ni

xi
i=1
Dla szeregów rozdzielczych przedziałowych średnią harmoniczną obliczamy według
powyższego wzoru, z tym, że konkretne warianty cechy (xi) zastępujemy środkami
0
x
i
przedziałów ( ).
Ćwiczenie 2
Gęstość zaludnienia w dwu 100-tysięcznych miastach wynosi odpowiednio 300 osób/km2
i 900 osób km2. Oblicz przeciętną gęstość zaludnienia.
2 2 1800
H = = = = 450osób/ km2
1 1 3+1
4
+
300 900 900
Stosując średnią arytmetyczną dla obliczenia powyższego zadania otrzymalibyśmy:
300 + 900 1200
x = = = 600osób/ km2
2 2
CO NIE JEST PRAWD!
Każde z miast zajmuje odpowiednio:
100 000 : 300 osób km2 = 333,33 km2
100 000 : 900 osób km2 = 111,11 km2
Z czego wynika, że oba miasta zajmują powierzchnię  444,44 km2.
Wobec tego średnia gęstość zaludnienia w tych miastach wynosi:
200 000 osób : 444,44 km2 = 450 osób/km2.
Ten sam rezultat uzyskamy wzór na średnią harmoniczną dla szeregów rozdzielczych
punktowych:
100000 +100000
H = = 450osób/ km2
1 1
100000 + 100000
300 900
Jeżeli zachodzi konieczność zbadania średniego tempa zmian zjawiska, stosuje się
średnią geometryczną. (Więcej na ten temat przy analizie dynamiki zjawisk).
n
n
n
xg = x1x2 Kxn =
i
Px
i=1
gdzie:
xg - symbol średniej geometrycznej;
P
- znak iloczynu
ŚREDNIE POZYCYJNE
Dominantą (modalna, wartość najczęstsza) nazywamy taką wartość zmiennej, która w
danym rozkładzie empirycznym występuje najczęściej. (Wynika z tego, że dominantę
można wyznaczyć tylko w rozkładach jednomodalnych).
W szeregach wyliczających i rozdzielczych punktowych dominanta jest wartością cechy,
której odpowiada największa liczebność.
W szeregach rozdzielczych przedziałowych bezpośrednio można określić tylko przedział,
w którym znajduje się dominanta  jest to przedział o największej liczebności. Konkretną
wartość liczbową należącą do tego przedziału, która jest dominantą wyznacza się w
następujący sposób:
nD - nD-1
D = xp + iD
(nD - nD-1) + (nD - nD+1)
gdzie:
D
- symbol dominanty;
xD - dolna granica klasy, w której znajduje się dominanta;
nD - liczebność przedziału dominanty;
nD-1 - liczebność przedziału poprzedzającego przedział dominanty;
nD+1 - liczebność przedziału następującego po przedziale dominanty;
iD - interwał, czyli rozpiętość przedziału dominanty.
Z szeregów rozdzielczych przedziałowych dominantę można wyznaczyć metodą
rachunkową (patrz wyżej) lub graficzną.
Ćwiczenie 3.
Na podstawie tabeli wyznacz dominantę danego szeregu.
Tab. Rozwody w Polsce w 1977 r. wg wieku kobiet w momencie wniesienia powództwa.
Wiek Liczba Odsetek
kobiet kobiet kobiet
(w
latach)
Do 19 314 0,7
20-24 6979 16,2
25-29 11440 26,2
30-34 6391 14,8
35-39 5412 12,5
40-49 8450 19,6
50 i 4200 9,7
więcej
11440 - 6979
D = 25 + 5 = 27,3lat
(11440 - 6979) + (11440 - 6391)
Wartość będzie identyczna, jeżeli do obliczeń wykorzystamy odsetki zamiast liczebności
absolutnych.
26,5 -16,2
D = 25 + 5 = 27,3lat
(26,5 -16,2) + (26,5 -14,8)
Metoda graficzna sprowadza się do wykonania wykresu z trzech przedziałów klasowych:
przedziału, w którym znajduje się dominanta oraz dwóch sąsiednich. Z górnej podstawy
najwyższego prostokąta wyznaczamy dwie przekątne łączące najbliżej położone punkty
górnych podstaw sąsiednich prostokątów. Następnie z punkty ich przecięcia wyznaczamy
prostopadłą do osi odciętych (x).
Jeżeli liczebności przedziałów sąsiednich są jednakowe, to dominanta jest równa środkowi
klasy dominującej.
Wyznaczanie dominanty jest możliwe wówczas, gdy szereg spełnia następujące warunki:
- rozkład empiryczny ma jeden ośrodek dominujący (rozkład jednomodalny);
- asymetria układu jest umiarkowana;
- przedział w którym występuje dominanta oraz dwa sąsiednie z nim przedziały
mają jednakowe rozpiętości.
Kwantyle, są to najogólniej rzecz ujmując wartości cechy badanej jednostki,
które definiują ją na określone części - pod względem liczby jednostek. Części te mogą
być równe lub pozostawać do siebie w określonych proporcjach. Szeregi, w których
wyznacza się kwartyle musza być uporządkowane według malejących lub rosnących
wartości cechy. Do najczęściej używanych kwantyli zaliczamy: kwartyle, a w przypadku
badania struktury zbiorowości o dużej liczbie jednostek  decyle i centyle.
Wśród kwartyli wyróżniamy: kwartyl pierwszy (dolny), drugi (mediana lub wartość
środkowa) oraz trzeci (górny). Każdy z kwartyli dzieli zbiorowość na dwie części pod
względem liczebności.
1. kwartyl pierwszy  dzieli zbiorowość uporządkowaną na dwie części w ten sposób,
że 25% jednostek na wartości cechy niższe i 75% wyższe od kwartyla pierwszego;
2. kwartyl drugi  dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że
50% jednostek na wartości cechy niższe i 50% wyższe od mediany;
3. kwartyl trzeci  dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że
75% jednostek na wartości cechy niższe i 25% wyższe od kwartyla trzeciego.
W przypadku szeregów wyliczających składających się z reguły z niewielkiej liczby
jednostek medianę oblicza się najczęściej ze wzoru:
xn+1
Me = ,
2
gdy N jest nieparzyste
1
Me = (xN + xN ),
+1
2
2 2
gdy N jest parzyste
gdzie:
M
e
- symbol mediany.
Obliczanie mediany z szeregu rozdzielczego punktowego sprowadza się do
wskazania jednostki środkowej i odczytania wariantu cechy odpowiadającego tej
jednostce. Odnalezienie środkowej jednostki ułatwia skumulowanie liczebności.
Kumulacja polega na kolejnym narastającym sumowaniu liczebności dotyczących
poszczególnych wariantów cechy.
W przypadku szeregów rozdzielczych przedziałowych kwartyle wyznacza się
metodą graficzną lub rachunkową. W metodzie rachunkowej stosuje się następujące
wzory:
Kwartyl pierwszy:
k-1
N
-
ni
4
i=1
Q1 = xq1 + iQ1
nQ1 ;
Kwartyl drugi:
k-1
N
-
ni
2
i=1
Q2 = Me = xMe + iMe
nMe
;
Kwartyl trzeci:
k-1
3N
-
ni
4
i=1
Q3 = xQ3 + iQ3
nQ3
gdzie:
Q1,Q2,Q3 - symbole kwartyli;
xQ1, xQ2, xQ3 - granice przedziałów, w których znajdują się odpowiednio: kwartyl
pierwszy, drugi (mediana) i trzeci;
N  ogólna liczebność danej zbiorowości;
k -1
ni
i=1
- suma liczebności od klasy pierwszej do tej, w której znajdują się
odpowiednio: kwartyl pierwszy, drugi (mediana) i trzeci;
nQ1, nMe, nQ3 - liczebności przedziałów, w których, w których znajdują się
odpowiednio: kwartyl pierwszy, drugi (mediana) i trzeci;
iQ1,iMe,iQ3 - interwały (rozpiętość) przedziałów, w których znajdują się
odpowiednio: kwartyl pierwszy, drugi (mediana) i trzeci;
Ćwiczenie 4
Na podstawie tabeli wyznacz kwartyle szeregu.
Tab. Wiek kobiet zawierających związek małżeński w Polsce w 1977 r.
Wiek Liczba Odsetek Skumulowane częstości
kobiet kobiet kobiet względne
(w
ni wi
latach)
do 19 68 694 21,1 21,1
20-24 184 088 56,4 77,5
25-29 43 239 13,3 90,8
30-34 10 127 3,1 93,9
35-39 4 925 1,5 95,4
40-49 7 251 2,2 97,6
50-59 4 586 1,4 99,0
60 i 3 277 1,0 100,0
więcej
Ogółem 326 277 100,0 x
yródło: M. Sobczyk, Statystyka, PWN, W-wa 1991, s.41
Pierwszą czynnością jest kumulacja liczebności (absolutnych bądz odsetków). Następnie
N N 3N
, ,
4 2 4
wyznaczamy pozycję poszczególnych kwartyli w szeregu, tzn. . Wykorzystując
skumulowane częstości względne otrzymujemy:
N 100 N 100 3N 300
= = 25, = = 50, = = 75
4 2 2 2 4 4
Na tej podstawie obliczamy wartości kwartyli:
25 - 21,1
Q1 = 20 + 5 = 20,35lat
56,4
50 - 21,1
Q2 = 20 + 5 = 22,6lat
56,4
75 - 21,1
Q3 = 20 + 5 = 24,8lat
56,4
(21,1  jest to suma liczebności od klasy pierwszej do tej, w której znajdują się
odpowiednie kwartyle)
Kwartyle są dogodnymi parametrami w analizie struktury. Mogą być wykorzystane w
przypadkach, w których nie jest możliwe obliczenie z danego szeregu średniej
arytmetycznej (otwarte przedziały klasowe, ekstremalne wartości), a także dominanty
(nierówne rozpiętości przedziałów, silna asymetria rozkładu.
Decyle i centyle (percentyle) wyznacza się podobnie jak kwartyle. Decyle dzielą
zbiorowość na 10 części  5 decyl to mediana. Centyle zaś na 100 części  50 centyl jest
medianą.
Średnia arytmetyczna, dominanta i mediana, jako miary tendencji centralnej, są
powiązane ze sobą odpowiednimi zależnościami  równość lub nierówność (w zależności
od typu rozkładu) [więcej na ten temat w dziale miary asymetrii ;-)] W przypadku
rozkładu umiarkowanie niesymetrycznego zachodzi między nimi następujący związek:
x - D = 3(x - Me )
; (wzór Pearsona)
Na postawie tego wzoru można wyznaczyć średnią znając dwie pozostałe zmienne. Po
przekształceniach możemy na jego podstawie obliczyć dominantę  znając średnią
arytmetyczną i medianę.
D = 3Me - 2x
Miary zmienności
Wartości średnie nie dają wyczerpującej charakterystyki struktury zbiorowości. Przede
wszystkim nie informują o stopniu zmienności (dyspersji) badanej cechy. Dyspersją
nazywamy zróżnicowanie jednostek zbiorowości ze względu na wartość badanej cechy.
Siłę dyspersji oceniamy za pomocą pozycyjnych i klasycznych miar zmienności. Do
miar klasycznych zaliczamy: odchylenie przeciętne, wariancję, odchylenie standardowe
oraz współczynnik zmienności (w zależności od techniki obliczania może być również
pozycyjną miarą dyspersji)
Odchylenie przeciętne określa, o ile wszystkie jednostki danej zbiorowości różnią się
średnio ze względu na wartość zmiennej od średniej arytmetycznej tej zmiennej.
Odchylenie przeciętne jest średnią arytmetyczną bezwzględnych wartość
(modułów) odchyleń wartości cechy od jej średniej arytmetycznej. Oblicza się je
wg wzoru:
dla szeregu wyliczającego:
N
1
d = xi - x

N
i=1
dla szeregu rozdzielczego punktowego:
k
1
d = xi - x ni

N
i=1
dla szeregu rozdzielczego przedziałowego:
k
0
1
d = x - x ni
i

N
i=1
Ćwiczenie 5
Oblicz odchylenie przeciętne dla podanego szeregu
Tab. Nauczyciele szkół średnich w miejscowości Z wg stażu pracy
Staż Liczba O
pracy nauczyci bli
(w eli cz
latach) e
ni
ni
e
p
o
m
oc
ni
cz
e
0 0 0 0
xi xi ni
xi ni xi ni ni
0-5 4 2, 10, 13 54,4
5-10 7 5 0 ,6 60,2
10-15 10 7, 52, 8, 36,0
15-20 15 5 5 6 21,0
20-25 8 1 12 3, 51,2
25-30 4 2, 5,0 6 45,6
30-35 2 5 26 1, 32,8
1 2,5 4
7, 18 6,
5 0,0 4
2 11 11
2, 0,0 ,4
5 65, 16
2 0 ,4
7,
5
3
2,
5
Ogółem 50 x 80 x 301,2
5,0
yródło: M. Sobczyk, Statystyka, PWN, W-wa 1991, s.45.
Najpierw należy obliczyć średni staż pracy:
805
x = =16,1lat
50
Wynik podstawiamy do wzoru:
1
d = 301,2 = 6lat
50
Otrzymany wynik oznacza, że przeciętne zróżnicowanie badanej zbiorowości nauczycieli
ą
ze względu na staż pracy wynosi 6 lat.
Wariancja jest to średnia arytmetyczna z kwadratów odchyleń poszczególnych
wartości cechy od średniej arytmetycznej całej zbiorowości.
Dla szeregu wyliczającego oblicza się ją wg wzoru:
N
1
s2 = - x)2
(xi
N
i=1
Dla szeregu rozdzielczego punktowego:
N
1
s2 = - x)2ni
(xi
N
i=1
Dla szeregu rozdzielczego przedziałowego:
N
0
1
s2 =
i
(x - x)2ni
N
i=1
Ćwiczenie 6
Oblicz wariancję z podanego szeregu.
Tab. Zgony niemowląt na wsi wg wieku w Polsce w 1977 r.
Wiek Liczba O
zmarłych zmarły bli
(dni) ch cz
x0i - x1i ni e
ni
e
p
o
m
oc
ni
cz
e
0 0 2 2
0 0
ć ć
xi xi ni xi - x i
x - x x - x ni
i

Ł ł Ł ł
0-6 3 186 3, 9 -3, 12,96 41
7-13 623 0 558 6 11,56 290,56
14-20 336 1 6 3,4 108,1 7 201,88
21-27 243 0, 230 10, 6 36
28-29 74 0 5 4 302,7 341,76
1 712 17, 6 73
7, 5 4 479,6 570,68
0 832 21, 1 35
2 2 9 491,14
4, 109
0
2
8,
5
Ogółem 4 462 x 29 x x 193
441 896,02
yródło: M. Sobczyk, Statystyka, PWN, W-wa 1991, s.47.
Najpierw należy obliczyć średnią arytmetyczną:
29441
x = = 6,6dnia
4462
Następnie podstawiamy do wzoru:
193896,02
s2 = = 43,5dni2
4462
Wariancja, jako suma kwadratów dzielona przez liczbę dodatnią jest zawsze wielkością
dodatnią i mianowaną. Mianem wariancji jest kwadrat jednostki fizycznej, w jakiej
mierzona jest badana cecha.
Im zbiorowość jest bardziej zróżnicowana tym wyższa jest wartość wariancji
Wariancja obliczona na podstawie szeregów rozdzielczych przedziałowych jest wielkością
zawyżoną. Powoduje to fakt, że do obliczeń wykorzystuje się środki przedziałów
klasowych, a nie średnie arytmetyczne z poszczególnych klas.
Wariancja jest wielkością kwadratową. Aby uzyskać miarę zróżnicowania o postaci
liniowej (o mianie zgodnym z mianem badanej cechy), wyciągamy pierwiastek
kwadratowy. W wyniku pierwiastkowania otrzymujemy tzw. odchylenie standardowe.
Odchylenie standardowe jest pierwiastkiem kwadratowym z wariancji.
s = s2
Odchylenie standardowe określa o ile wszystkie jednostki danej zbiorowości różnią się
średnio od średniej arytmetycznej badanej zmiennej. Dla poszczególnych rodzajów
szeregów korzystamy z odpowiednich wzorów na wariancję, a następnie wyciągamy
pierwiastek kwadratowy z wariancji.
Możemy je wykorzystać do konstrukcji typowego obszaru zmienności badanej cechy. W
obszarze tym mieści się około 2/3 wszystkich jednostek badanej zbiorowości
statystycznej. Typowy obszar zmienności określa wzór:
x - s < xtyp. < x + s
Pomiędzy odchyleniami: przeciętnym a standardowym obliczonym z tego samego
szeregu zachodzi relacja:
Q < d < s
Omówione powyżej miary dyspersji są miarami bezwzględnymi, gdyż wyrażamy je w
takich samych jednostkach jak wartości badanej zmiennej. Nie pozwala to na
porównywanie zmienności cech o różnych mianach. Ponadto nie można porównywać pod
względem tej samej cechy dwóch (lub kilku) zbiorowości będących na różnym poziomie,
określonym np. średnią arytmetyczną czy medianą. Z tego powodu w analizie
dyspersji stosuje się względną miarę zróżnicowania  współczynnik zmienności.
Współczynnik zmienności jest ilorazem bezwzględnej miary dyspersji i
odpowiednich wartości średnich. Jest on wyrażany w procentach. Ponieważ w analizie
rozkładu zmienności cech korzystamy z różnych miar zróżnicowania i różnych
przeciętnych, współczynnik zmienności można obliczyć kilkoma metodami:
1)
s
Vs = 100
x
;
2)
d
Vd = 100
x
Są to tzw. klasyczne współczynniki zmienności.
3)
Q
VQ = 100
Me ;
4)
Q3 - Q1
VQ Q3 =
1,
Q3 + Q1
Są to tzw. pozycyjne współczynniki zmienności.
Współczynniki zmienności informują o sile dyspersji.
Ich duże wartości liczbowe świadczą o niejednorodności zbiorowości.
Ćwiczenie 9
Zastosuj współczynnik zmienności dla analizy dyspersji dochodów w podanych niżej
hotelach A, B i C:
Średnie miesięczny wpływy:
xC =120tys.zl
xA = 600tys.zl, xB = 300tys.zl,
.
Odchylenia standardowe wartości sprzedanych usług wynosiły:
sC =120tys.zl
sA =110tys.zl, sB = 90tys.zl,
.
Z uwagi na duże różnice w średnim poziomie wpływów w poszczególnych hotelach należy
zastosować wzór 1.
Po podstawieniu danych otrzymujemy:
110
Vs = 100 =18,33%
600
Dla hotelu A: ;
90
Vs = 100 = 30,0%
300
Dla hotelu B: ;
120
Vs = 100 = 24,0%
500
Dla hotelu C: .
Z powyższego wynika, że największe względne zróżnicowanie miesięcznych wpływów
miało miejsce w hotelu B, a najmniejsze w hotelu A.
MIARY ASYMETRII
Z punktu widzenia analizy statystycznej istotny jest nie tylko przeciętny poziom i
wewnętrzne zróżnicowanie zbiorowości, ale również to, czy przeważająca liczba badanych
jednostek znajduje się powyżej czy poniżej przeciętnego poziomu badanej cechy.
Wnioskowanie o tym nosi nazwę oceny asymetrii (skośności) rozkładu.
Asymetrię rozkładu najłatwiej jest określić poprzez porównanie dominanty, mediany i
x, D,Me
średniej arytmetycznej. W rozkładach symetrycznych wszystkie średnie są
sobie równe. W rozkładach asymetrycznych wymienione średnie kształtują się na różnych
x > D > Me
poziomach. Jeżeli zachodzi nierówność: , to rozkład charakteryzuje się
x < D < Me
asymetrią prawostronną; jeżeli zaś zachodzi nierówność: , to mówimy o
asymetrii lewostronnej.
Rozkłady jednej zmiennej różnią się między sobą kierunkiem i siłą asymetrii. Najprostszą
miarą asymetrii jest wskaznik asymetrii (skośności) określony wzorem:
Ws = x - D
x = D
W przypadku rozkładu symetrycznego wskaznik skośności równa się zeru, gdyż .
x < D), a w
W przypadku asymetrii lewostronnej wskaznik skośności jest ujemny (
x > D
przypadku asymetrii prawostronnej dodatki ( ).
Wskaznik asymetrii można również obliczyć na podstawie kwartyli. Zachodzą wówczas
następujące zależności:
Przy rozkładzie symetrycznym:
(Q3 -Q2) - (Q2 -Q1) = 0
Przy rozkładzie o asymetrii prawostronnej:
(Q3 -Q2) - (Q2 -Q1) > 0
Przy rozkładzie o asymetrii lewostronnej:
(Q3 -Q2) - (Q2 -Q1) < 0
Wskaznik skośności jest bezwzględną miara asymetrii posiadającą miano badanej cechy.
Z tego powodu nie można go używać do porównywania asymetrii w zbiorowościach, w
których wartość zmiennej jest wyrażona w różnych jednostkach miary. Ponadto wskaznik
skośności określa tylko kierunek asymetrii (prawo-, lewostronna) nie wskazując na jej
siłę gdyż jest wartością nieunormowaną.
Kierunek i siłę asymetrii określa współczynnik asymetrii (skośności). Jest ot miara
niemianowana i nieunormowana, co umożliwia porównywanie skośności różnych
rozkładów. Współczynnik skośności można obliczać następującymi metodami:
x - D
As =
s
x - D
As =
d
Q3 + Q1 - 2Me
As =
(Q3 - Q2 ) - (Q2 - Q1)
Współczynniki asymetrii określone dwoma pierwszymi wzorami należy traktować jako
wzajemnie wykluczające się, gdyż odpowiadają one na podobne pytania (jaką część
odchylenia standardowego lub przeciętnego stanowi różnica między średnią arytmetyczną
i dominantą) i mają identyczny sens logiczny. Natomiast współczynnik asymetrii
określony trzecim wzorem  zwany pozycyjnym współczynnikiem asymetrii  jest miarą
uzupełniającą, ponieważ określa kierunek i siłę asymetrii jednostek znajdujących się w
drugiej i trzeciej ćwiartce obszaru zmienności, a więc w  zawężonej przestrzeni .
Pozycyjny współczynnik asymetrii wykorzystuje się zwykle wówczas, gdy rozkład
empiryczny nie spełnia warunków niezbędnych do obliczania dominanty.
Wartość współczynników asymetrii z reguły zawierają się w granicach:
-1Ł As Ł +1
Jedynie w przypadku silnej asymetrii przekraczają nieznacznie wartość ą 1.
Dla rozkładu symetrycznego As = 0, dla rozkładu o asymetrii prawostronnej As > 0, dla
rozkładu o asymetrii lewostronnej As < 0. Im większa jest wartość bezwzględna
współczynnika skośności tym silniejsza jest asymetria badanego rozkładu.
SAOWNICZEK:
x
- symbol średniej arytmetycznej;
xi  warianty cechy mierzalnej;
N  liczebność badanej zbiorowości;
N  suma liczebności (szeregi przedziałowe);
o
x
i
- środek przedziału;
wi - procentowy wskaznik udziału (odsetki);
H  symbol średniej harmonicznej;
D
- symbol dominanty;
xD - dolna granica klasy, w której znajduje się dominanta;
nD - liczebność przedziału dominanty;
nD-1 - liczebność przedziału poprzedzającego przedział dominanty;
nD+1 - liczebność przedziału następującego po przedziale dominanty;
iD - interwał, czyli rozpiętość przedziału dominanty;
M
e
- symbol mediany;
Q1,Q2,Q3 - symbole kwartyli;
xQ1, xQ2, xQ3 - granice przedziałów, w których znajdują się odpowiednio: kwartyl
pierwszy, drugi (mediana) i trzeci;
N  ogólna liczebność danej zbiorowości;
k -1
ni
i=1
- suma liczebności od klasy pierwszej do tej, w której znajdują się odpowiednio:
kwartyl pierwszy, drugi (mediana) i trzeci;
nQ1, nMe, nQ3 - liczebności przedziałów, w których, w których znajdują się odpowiednio:
kwartyl pierwszy, drugi (mediana) i trzeci;
iQ1,iMe,iQ3 - interwały (rozpiętość) przedziałów, w których znajdują się odpowiednio:
kwartyl pierwszy, drugi (mediana) i trzeci;
d  symbol odchylenia przeciętnego;
s2 - symbol wariancji;
s  symbol odchylenia standardowego;
V  symbol współczynnika zmienności.
Ws - wskaznik asymetrii;
As  współczynnik skośności.


Wyszukiwarka

Podobne podstrony:
matematyczny test gimnazjalny z 2009 roku (15 stron)
pytania testowe z finansow (15 stron)
Mobbing (15 stron)
statystyka teoria przyklady
model ekonometryczny 8 bezrobocie (15 stron)
Wydymala opracowanie pytan skrócona wersja 15 stron
Finanse Publiczne Wyklad 15 Stron
lancuch wartosci (15 stron)
mikorekonomia cwiczenia (15 stron)
Statystyka teoria
statystyka teoria
Teoria Definicje Statystyka
Statystyka zadania rozwiązania
Statystyka matematyczna i teoria estymacji
teoria rozwiązywania obwodów elektrycznych
Statystyka opisowa rozwiązane kolowkia
Egzamin Teoria Wykład 01 (10) 14 (15) v 0 12 63 BETA

więcej podobnych podstron