MATERIAŁY DO ĆWICZEŃ ZE
STATYSTYKI Z DEMOGRAFIĄ
(część III)
MIARY ZMIENNOŚCI
Miary zmienności charakteryzują stopień zróżnicowania jednostek zbiorowości pod względem badanej cechy.
Miary zmienności dzielą się na miary klasyczne
i pozycyjne:
miary klasyczne (wariancja, odchylenie standardowe, typowy obszar zmienności, współczynnik zmienności) oraz
miary pozycyjne (rozstęp, odchylenie ćwiartkowe, pozycyjny typowy obszar zmienności, współczynnik zmienności).
Miary KLASYCZNE
Wariancja, odchylenie standardowe,
typowy klasyczny obszar zmienności, współczynnik zmienności (klasyczny)
Wariancję (s2) definiuje się jako średnią arytmetyczną kwadratów odchyleń wartości cechy od średniej arytmetycznej zbiorowości. Wariancja jest wielkością mianowaną w kwadracie miana badanej cechy i nie interpretujemy jej.
Odchylenie standardowe (s) jest pierwiastkiem kwadratowym z wariancji. Jest ono wielkością mianowaną tak samo jak badana cecha. Odchylenie standardowe określa przeciętne zróżnicowanie badanej cechy od średniej arytmetycznej.
Typowy klasyczny obszar zmienności (xtyp) jest to obszar, w którym mieszczą się wartości cechy około 2/3 (68%) wszystkich jednostek badanej zbiorowości.
Współczynnik zmienności (klasyczny) (Vs) jest to iloraz odchylenia standardowego przez średnią arytmetyczną. Jest to wielkość niemianowana.
Używamy go do porównań zmienności w dwu albo więcej zbiorowościach.
Ocena rozproszenia
na podstawie obserwacji diagramów
Na rysunku pokazano dwa diagramy częstości (1) i (2).
Dla uproszczenia miary położenia (średnia, mediana i modalna) są sobie równe i identyczne dla obu zbiorowości.
Mniejsze rozproszenie wokół średniej występuje w zbiorowości (1).
Diagram jest smuklejszy i wyższy.
Większe rozproszenie wokół średniej występuje w zbiorowości (2).
Diagram jest bardziej rozłożysty i niższy.
Odchylenie standardowe w zbiorowości (1) jest mniejsze niż w zbiorowości (2)
s1 < s2
Przedział TYPOWYCH wartości cechy
(miary klasyczne)
Przedział taki ma tę własność, że około 68% jednostek badanej zbiorowości charakteryzuje się wartościami cechy należącymi do tego przedziału.
Reguła „3 sigm”
Dla szeregów szczegółowych
Wariancja
albo
Odchylenie standardowe
albo
Współczynnik zmienności (klasyczny)
Interpretacja współczynnika zmienności (klasycznego)
Współczynnik zmienności umożliwia ocenę rzetelności miary średniej:
- jeśli , to dyspersja jest bardzo mała (statystycznie nieistotna), a średnia arytmetyczna bardzo dobrze charakteryzuje średni poziom badanej cechy.
Współczynnik zmienności umożliwia ocenę rzetelności miary średniej:
- jeśli , to dyspersja jest mała,
a średnia arytmetyczna dobrze charakteryzuje średni poziom badanej cechy.
- jeśli , to dyspersja jest umiarkowana,
a średnia arytmetyczna dość dobrze charakteryzuje średni poziom badanej cechy.
- jeśli , to dyspersja jest duża, a średnia arytmetyczna ma małą wartość poznawczą.
- jeśli , to dyspersja jest bardzo duża,
a średnia arytmetyczna jest miarą źle charakteryzującą tendencję centralną.
Klasyczny współczynnik zmienności (Vs%,Vs) ułatwia porównanie stopnia rozproszenia w zakre- sie jednej cechy zmiennej w kilku zbiorowościach, albo
w zakresie kilku cech zmiennych w jednej zbiorowości.
PRZYKŁAD 1:
Weźmy następujące dane o liczbie braków:
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3,
3, 3, 3, 3, 4, 4, 4, 4, 5, 5
n = 50
Wariancja liczby braków:
Odchylenie standardowe:
s = 1,11 ≈ 1 oznacza, że liczba braków różni się od średniej liczby braków wyprodukowanych przez badanych pracowników przeciętnie o ± 1 sztukę.
Klasyczny typowy obszar zmienności
Typowy pracownik produkuje od 1 do 3 braków.
Współczynnik zmienności (klasyczny)
- ułamkowy:
- procentowy:
oznacza, że 55,5% wartości średniej stanowi odchylenie standardowe, czyli, że badani pracownicy pod względem liczby wyprodukowanych braków są umiarkowanie zróżnicowani (występuje umiarkowane rozproszenie badanej cechy).
Dla szeregów rozdzielczych punktowych
Wariancja
albo
Odchylenie standardowe
albo
W przykładzie z liczbą braków obliczenia przedstawia poniższa tabela.
liczba |
liczba |
obliczenia dla wariancji |
||
xi |
ni |
|
|
|
1 |
21 |
-0,8 |
0,64 |
19,20 |
2 |
16 |
0,2 |
0,04 |
0,32 |
3 |
7 |
1 |
1 |
7 |
4 |
4 |
2 |
4 |
16 |
5 |
2 |
3 |
9 |
18 |
Razem |
50 |
× |
× |
68,00 |
Współczynnik zmienności (klasyczny)
Dla szeregów rozdzielczych przedziałowych
Wariancja
albo
Odchylenie standardowe
albo
PRZYKŁAD 2: - czas dojazdu pracowników firmy ZAUR
czas |
środek |
liczba |
obliczenia dla wariancji |
||
xi |
|
ni |
|
|
|
5 - 15 |
10 |
10 |
-30 |
900 |
9000 |
15 - 25 |
20 |
20 |
-20 |
400 |
8000 |
25 - 35 |
30 |
30 |
-10 |
100 |
3000 |
35 - 45 |
40 |
50 |
0 |
0 |
0 |
45 - 55 |
50 |
80 |
10 |
100 |
8000 |
55 - 65 |
60 |
10 |
20 |
400 |
4000 |
Razem |
× |
200 |
× |
× |
32000 |
n = 200
Obliczone odchylenie standardowe oznacza, że czas dojazdu do pracy pracowników firmy ZAUR różni się od średniego czasu dojazdu do pracy tych pracowników przeciętnie
o ± 12,7 min.
Przedział typowych wartości cechy (klasyczny)
40 - 12,7 < xtyp < 40 + 12,7
27,3 < xtyp < 52,7
Typowy czas dojazdu do pracy pracowników firmy ZAUR zawiera się w przedziale od 27,3 min do 52,7 min. Około 68% pracowników, którzy dojeżdżają do pracy od 27,3 min do 52,7 min to pracownicy typowi ze względu na czas dojazdu do pracy.
Współczynnik zmienności (klasyczny)
Obliczony współczynnik zmienności oznacza, że 32% wartości średniej stanowi odchylenie standardowe, czyli, że pracownicy firmy ZAUR pod względem czasu dojazdu do pracy są mało zróżnicowani (rozproszenie czasu dojazdu do pracy badanych pracowników jest małe). Zatem średnia arytmetyczna dobrze charakteryzuje średni poziom badanej cechy (średni czas dojazdu).
Miary POZYCYJNE
Rozstęp, odchylenie ćwiartkowe, typowy obszar zmienności,
współczynnik zmienności (pozycyjny)
Rozstęp ( R )definiuje się jako różnicę pomiędzy największą i najmniejszą wartością cechy:
Odchylenie ćwiatkowe (Q) jest miarą rozproszenia wartości cechy od mediany. Definiuje się go jako połowę różnicy pomiędzy trzecim i pierwszym kwartylem:
Odchylenie ćwiartkowe mierzy poziom zróżnicowania połowy środkowych jednostek populacji, czyli jednostek należących do drugiej
i trzeciej ćwiartki zbiorowości. Odrzucane są jednostki o wartościach badanej cechy poniżej pierwszego kwartyla (25%) oraz powyżej trzeciego kwartyla (25%).
Typowy obszar zmienności (pozycyjny) (xQtyp) jest to obszar, w którym mieszczą się wartości cechy około 1/2 (50%) wszystkich jednostek badanej zbiorowości.
Definiujemy go podobnie jak w przypadku miar klasycznych (rolę średniej przejmuje tutaj mediana, a rolę odchylenia standardowego - odchylenie ćwiartkowe)
Przedział ten będzie węższy od przedziału dla miar klasycznych.
Współczynnik zmienności (pozycyjny) jest to iloraz odchylenia ćwiartkowego przez medianę. Jest to wielkość niemianowana. Używamy jej do porównań zmienności w dwu lub więcej zbiorowościach:
Interpretacja współczynnika zmienności (pozycyjnego)
Pozycyjny współczynnik zmienności interpretujemy tak samo jak klasyczny współczynnik zmienności,
z tym, że rolę średniej arytmetycznej pełni wtedy mediana.
Dla szeregów szczegółowych
PRZYKŁAD 3:
Weźmy dane z przykładu 1. (liczba braków):
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3,
3, 3, 3, 3, 4, 4, 4, 4, 5, 5
n = 50
Rozstęp:
Odchylenie ćwiartkowe:
QI = x13 = 1
QII (Me) = (x25 + x26)/2 = (2+2)/2 = 2
QIII = x38 = 3
Liczba braków wyprodukowanych przez 50% środkowych pracowników różni się od mediany braków średnio o ± 1 szt.
Przedział typowych wartości cechy (pozycyjny):
50% środkowych pracowników produkowało od 1 do 3 braków.
Współczynnik zmienności (pozycyjny):
Obliczony pozycyjny współczynnik zmienności oznacza, że odchylenie ćwiartkowe stanowi 50% mediany, czyli, że zróżnicowanie 50% środkowych pracowników pod względem liczby wyprodukowanych braków jest umiarkowane (rozproszenie liczby braków jest średnie).
PRZYKŁAD 4:
Weźmy dane:
10, 10, 10, 12, 12, 12, 12, 13, 13, 13,
13, 13, 14, 14, 15, 15, 15
Rozstęp:
Odchylenie ćwiartkowe:
QI = (x4 + x5)/2 = (12+12)/2 = 12
QII (Me) = x9 = 13
QIII = (x13 + x14)/2 = (14+14)/2 = 14
Warianty badanej cechy, posiadane przez 50% środkowych jednostek, różnią się od mediany średnio o ±1.
Współczynnik zmienności (pozycyjny):
Rozproszenie badanej cechy jest statystycznie nieistotne, gdyż jest mniejsze niż 10%.
Przedział typowych wartości cechy (pozycyjny):
50% środkowych jednostek przyjmuje wartości
z przedziału 12 - 14.
Dla szeregów rozdzielczych punktowych
PRZYKŁAD 5:
liczba komputerów] |
liczba |
liczebność |
xi |
ni |
ni sk |
do 10 |
10 |
10 |
11 |
45 |
40 |
12 |
65 |
120 |
13 |
50 |
170 |
14 |
20 |
190 |
15 i więcej |
10 |
200 |
Razem |
200 |
× |
Odchylenie ćwiartkowe:
QI = x2 = 11
QII (Me) = x3 = 12
QIII = x4 = 13
Liczba komputerów, w 50% środkowych zakładów, różni się od mediany średnio o ±1 komputer.
Przedział typowych wartości cechy (pozycyjny):
50% środkowych zakładów posiada od 11 do 13 komputerów. Są to typowe zakłady ze względu na liczbę posiadanych komputerów.
Współczynnik zmienności (pozycyjny):
Zróżnicowanie zakładów pod względem liczby posiadanych komputerów jest statystycznie nieistotne, gdyż odchylenie ćwiartkowe stanowi 8,3% mediany,
a mediana, jako miara centralnego skupienia, dobrze charakteryzuje przeciętny poziom badanej cechy.
Dla szeregów rozdzielczych przedziałowych
PRZYKŁAD 6:
czas (w min) xi |
liczba ni |
skumul. ni sk |
5 - 15 |
10 |
10 |
15 - 25 |
20 |
30 |
25 - 35 |
30 |
60 |
35 - 45 |
50 |
110 |
45 - 55 |
80 |
190 |
55 i więcej |
10 |
200 |
Razem |
200 |
× |
Odchylenie ćwiartkowe:
QI ≈ 31,7 min
QII (Me) = 43 min
QIII = 50 min
Czas dojazdu do pracy 50% środkowych pracowników różnił się od mediany średnio o ± 9,2 min.
Współczynnik zmienności (pozycyjny):
Obliczony pozycyjny współczynnik zmienności oznacza, że odchylenie ćwiartkowe stanowi 21,3% mediany. Rozproszenie jest małe, a mediana dobrze charakteryzuje przeciętny poziom badanej cechy.
Przedział typowych wartości cechy (pozycyjny):
50% środkowych pracowników dojeżdża do pracy w czasie z przedziału 33,8 - 52,2 min.
MIARY ASYMETRII
Miary asymetrii charakteryzują rodzaj i stopień odstępstwa od symetrii rozkładu badanej cechy.
Miary asymetrii dzielą się na miary klasyczno-pozycyjne i pozycyjne:
miary klasyczno-pozycyjne (wskaźnik asymetrii (Ws), współczynnik asymetrii (As) oraz
miary pozycyjne (wskaźnik asymetrii (WQ), współczynnik asymetrii (AQ).
Najprostszą miarą asymetrii jest wskaźnik asymetrii (Ws lub WQ):
- klasyczno-pozycyjny jest to różnica pomiędzy średnią arytmetyczną i dominantą:
- pozycyjny bada odległości obu kwartyli od mediany:
Jeżeli rozkład badanej cechy jest symetryczny,
to średnia jest równa dominancie i medianie,
a wskaźnik asymetrii jest równy zero:
Rozkłady badanych cech różnią się między sobą
kierunkiem i siłą asymetrii.
Jeżeli rozkład badanej cechy nie jest symetryczny, to mamy do czynienia z asymetrią rozkładu. Mówimy
o dwóch rodzajach (kierunkach) asymetrii: lewo-
i prawostronnej.
Dla miar klasyczno-pozycyjnych będzie to:
asymetria lewostronna gdy
oraz
asymetria prawostronna gdy
Dla miar pozycyjnych będzie to:
asymetria lewostronna gdy
oraz
asymetria prawostronna gdy
.
Poniższe rysunki ilustrują rodzaje asymetrii i wzajemne relacje pomiędzy podstawowymi miarami położenia.
Dla porównania kierunku i siły asymetrii w dwóch lub więcej zbiorowościach stosujemy współczynniki asymetrii:
- klasyczno-pozycyjny
- pozycyjny
Interpretacja rozkładu symetrycznego: 50% jednostek zbiorowości ma wartości cechy poniżej średniej arytmetycznej i 50% - powyżej.
Interpretacja prawostronnej asymetrii: więcej niż 50% jednostek zbiorowości ma wartości cechy poniżej średniej arytmetycznej tej cechy.
Interpretacja lewostronnej asymetrii: więcej niż 50% jednostek zbiorowości ma wartości cechy powyżej średniej arytmetycznej tej cechy.
Interpretacja siły asymetrii:
0 < │AS│ ≤ 0,3 - asymetria jest słaba,
0,3 < │AS│ ≤ 0,6 - asymetria jest umiarkowana,
0,6 < │AS│ - asymetria jest silna.
Analogicznie interpretujemy AQ .
PRZYKŁAD 7:
Staż pracy pracowników firm: A, B i C
Staż pracy xi |
liczba pracowników (ni) |
||
|
firma A |
firma B |
firma C |
2 - 4 4 - 6 6 - 8 8 - 10 10 - 12 |
15 30 60 30 15 |
15 105 75 75 30 |
20 50 50 70 10 |
razem |
150 |
300 |
200 |
Przykładowe obliczenia wskaźników oraz współczynnika asymetrii dla firmy C:
Obliczony klasyczno-pozycyjny wskaźnik asymetrii informuje nas, że rozkład stażu pracy charakteryzuje się asymetrią lewostronną, czyli że większość pracowników firmy C ma staż pracy większy od średniego stażu pracy.
Również pozycyjny wskaźnik asymetrii informuje nas
o lewostronnej asymetrii rozkładu.
Wartość klasyczno-pozycyjnego współczynnika asymetrii informuje nas nie tylko o lewostronnej asymetrii rozkładu, lecz także o tym, że siła tej asymetrii jest duża.
D
D
D