Wykład 3.
Opis parametryczny zbiorowości statystycznej - miary skośności i miary koncentracji
s. 55 - 67
miary skośności:
•moment trzeci standaryzowany
•współczynniki skośności
koncentracja jako kurtoza
• moment czwarty standaryzowany
koncentracja jako nierównomierność
Skośność - pozwala określić czy w zbiorowości występuje przewaga jednostek o wartościach cechy mniejszych (skośność prawostronna) czy też większych od średniej (skośność lewostronna).
Podział miar skośności
klasyczne:
|
mieszane: |
pozycyjne: |
absolutne:
względne:
- m3(t) |
absolutne:
względne:
- Ws1 |
absolutne:
względne:
- Ws2 |
Klasyczne miary skośności - obliczenia
trzeci moment centralny standaryzowany:
trzeci moment centralny:
szereg szczegółowy i surowy materiał statystyczny
szereg rozdzielczy punktowy
trzeci moment centralny standaryzowany:
interpretacja kierunku skośności:
m3(t) = 0 - brak skośności
m3(t) > 0 - skośność prawostronna
m3(t) < 0 - skośność lewostronna
pomocnicza interpretacja siły skośności:
m3(t) ∈ (0 ; 0,34) - skośność słaba
m3(t) ∈ <0,34 ; 0,67) - sk. średnia
m3(t) ∈ <0,67 ; 1> - sk. silna
m3(t) > 1 - sk. bardzo silna
Mieszane miary skośności - obliczenia
Miara skośności:
Ms = 0 - brak skośności
Ms > 0 - skośność prawostronna
Ms < 0 - skośność lewostronna
Współczynnik skośności:
interpretacja kierunku skośności:
Ws1 = 0 - brak skośności
Ws1 > 0 - skośność prawostronna
Ws1 < 0 - skośność lewostronna
pomocnicza interpretacja siły skośności:
Ws1 ∈ (0 ; 0,34)
Ws1 ∈ <0,34 ; 0,67)
Ws1 ∈ <0,67 ; 1>
Ws1 > 1
Pozycyjne miary skośności - obliczenia
Pozycyjna miara skośności:
- brak skośności
- sk. prawostronna
- sk. lewostronna
Pozycyjny współczynnik skośności:
interpretacja kierunku skośności:
Ws2 = 0 - brak skośności
Ws2 > 0 - skośność prawostronna
Ws2 < 0 - skośność lewostronna
pomocnicza interpretacja siły skośności:
Ws2 ∈ (0 ; 0,34)
Ws2 ∈ <0,34 ; 0,67)
Ws2 ∈ <0,67 ; 1>
Ws2 > 1
czwarty moment centralny standaryzowany
czwarty moment centralny
szereg szczegółowy i surowy materiał statystyczny:
szereg rozdzielczy punktowy:
MIARY ZMIENNOŚCI - zadania i odpowiedzi
1. Zbadaj zróżnicowanie czasu dojazdu do pracy (w min) pracowników pewnej firmy wykorzystując miarę klasyczną
Xi0 - Xi1 |
ni |
5-30 30-60 60 i więcej |
30 65 5 |
Razem |
100 |
Odp. można wykorzystać dwie miary: V(S) i V(d), ale częściej oblicza się V(S):
S2 = 226,31 min2 , S = 15,04 min - czas dojazdu do pracy poszczególnych pracowników różni się przeciętnie od średniego czasu o 15,04 min, V(S) = 0,39 (lub 39%)- zróżnicowanie czasu dojazdu do pracy jest średnie (wyraźne).
[d = 12,45 min, V(d) = 0,33 (lub 33%)].
Zbadano wzrost wybranej grupy modelek. Wyniki przedstawiono w szeregu przedziałowym:
Xi0 - Xi1 |
ni |
175-180 180-185 185-195 |
10 30 60 |
Razem |
100 |
Wiedząc, że dla drugiej grupy modelek otrzymano następujące parametry:: środkowy wzrost =188 cm, Q3 = 192 cm, Q1 = 178 cm - porównać zmienność wzrostu obu grup modelek.
Odp. ponieważ dla drugiej grupy modelek podane są tylko miary pozycyjne - należy porównać zmienność miarą pozycyjną (do porównań trzeba stosować tą samą miarę dla jednej i dla drugiej zbiorowości)
I grupa modelek:: V(Q) = 0,02 (lub 2%) - zmienność wzrostu jest mała [Q1 = 182,5 cm, Q 2 = 186,67 cm, Q3=190,83 cm, Q = 4,17 cm]
II grupa modelek: V(Q) = 0,04 (lub 4%) - zmienność wzrostu jest mała [Q = 7 cm]
Zmienność wzrostu dwóch grup modelek jest mała, ale w drugiej grupie nieznacznie większa niż w pierwszej.
Miarą klasyczną zbadać dyspersję wieku pracowników pewnej firmy:
23, 35, 24, 35, 35, 41, 35, 40, 35, 42
Odp. S2 = 37,25 lat2,, S = 6,1 lat - wiek poszczególnych pracowników różni się od średniego wieku przeciętnie o 6,1 (lat), V(S) = 0,18 (lub 18%)- dyspersja wieku pracowników jest mała.
[zamiast V(S) można wykorzystać V(d)].
zbadać rozproszenie czasu oczekiwania na odprawę celną wykorzystując:
miarę klasyczną,
miarę pozycyjną,
czym można wyjaśnić różnice w wynikach obu miar?
Xi |
ni |
2 3 4 5 6 |
2 5 3 2 2 |
Razem |
14 |
odp
S2 = 1,59 h2, S = 1,26 h - czas oczekiwania na poszczególnych przejściach granicznych różni się przeciętnie od średniego czasu o 1,26 h, V(S) = 0,33 (lub 33%) - rozproszenie czasu oczekiwania jest małe
V(Q) = 0,29 (lub 29%) - rozproszenie czasu oczekiwania jest małe [Q1 = 3 h, Q2 = 3,5 h, Q3 = 5 h, Q = 1 h]
miary klasyczne obliczane są na podstawie wszystkich wartości w szeregu, a pozycyjne miary zmienności badają jedynie zmienność w dwóch środkowych ćwiartkach zbiorowości - eliminują wiec wpływ wartości skrajnych (z początku i z końca szeregu). Dlatego miara pozycyjna wskazuje mniejszą zmienność.
MIARY SKOŚNOŚCI i KONCENTRACJI - zadania i odpowiedzi
1. Jakiej miary skośności nie można wykorzystać do zbadania skośności czasu dojazdu do pracy (w min) pracowników pewnej firmy:
Xi0 - Xi1 |
ni |
5-30 30-60 60 i więcej |
30 65 5 |
Razem |
100 |
Odp. nie można wykorzystać Ws (mieszana miara skośności) ponieważ nawet po sztucznym domknięciu przedziału [60-90] nie można obliczyć dominanty (przedział dominanty i przedziały z nim sąsiadujące mają różną rozpiętość).
Zbadano wzrost wybranej grupy modelek. Wyniki przedstawiono w szeregu przedziałowym:
Xi0 - Xi1 |
ni |
175-180 180-185 185-195 |
10 30 60 |
Razem |
100 |
zbadać skośność rozkładu wzrostu tej grupy modelek przy pomocy miary klasycznej,
Wiedząc, że dla drugiej grupy modelek otrzymano następujące parametry:: średni wzrost = 180 cm, środkowy wzrost =188 cm, Q3 = 192 cm, D = 189 cm, S = 7 cm, Q1 = 178 cm - porównać skośność wzrostu obu grup modelek.
Odp. A) M.3(t) = -0,73 skośność duża, prawostronna tzn, że występuje znaczna przewaga modelek o wzroście wyższym od średniego. [M3(X) = -66,38 cm3, S3 = 91,13 cm3]
B) ponieważ z parametrów podanych dla drugiej grupy modelek można obliczyć pozycyjny Ws i mieszany Ws, a dla pierwszej grupy można obliczyć M3(t) i pozycyjny Ws (mieszanego Ws nie można policzyć bo różne rozpiętości przedziałów uniemożliwiają obliczenie D) do porównania można wykorzystać jedynie pozycyjny Ws
I grupa modelek:: Ws = -0,0012 skośność lewostronna, bardzo mała
II grupa modelek: =- 0,43 skośność lewostronna, średnia
Skośność wzrostu drugiej grupy modelek (średnia) jest większa niż w pierwszej (mała), kierunek skośność w obu grupach jest lewostronny tzn., że występuje przewaga modelek o wzroście wyższym od średniego.
Porównać skośność wieku pracowników dwóch firm wiedząc, że dla I firmy otrzymano następujące wyniki:
23, 35, 24, 35, 35, 41, 35, 40, 35, 42
a dla drugiej firmy: D = 28 lat, S2 = 25 lat2, Q3 = 31 lat, Q1 = 27 lat, średni wiek = 30 lat
Odp. Skośność wieku w pierwszej firmie jest mała, lewostronna (Ws = -0,08). W drugiej firmie skośność jest większa niż w pierwszej - wyraźna i różni się również kierunkiem od pierwszej - prawostronna (Ws = 0,4).
Należało wykorzystać mieszany Ws.
zbadać skośność czasu oczekiwania na odprawę celną wykorzystując miarę pozycyjną:
Xi |
ni |
2 3 4 5 6 |
2 5 3 2 2 |
Razem |
14 |
odp. Ws = 0,5 skośność wyraźna, prawostronna [Q1 = 3 h, Q2 = 3,5 h, Q3 = 5 h]
Zbadać kurtozę rozkładu stażu pracy w pewnej firmie:
Xi0 - Xi1 |
ni |
3-5 5-7 7-9 9-11 11-13 |
3 4 16 9 8 |
Razem |
40 |
odp.M4(t) = 2,52 [M4(X) = 66,86 lat4, S4 = 26,52 lat4]- koncentracja jest mniejsza od koncentracji rozkładu normalnego tzn., że rozkład jest spłaszczony tzw. platykurtyczny.
Przykład wykorzystania poznanych parametrów statystycznych do porównania dwóch zbiorowości:
Na podstawie wyników reprezentacyjnego badania aktywności ekonomicznej ludności w listopadzie 1992 r. GUS oszacował liczbę kobiet pracujących oraz kobiet bezrobotnych (w tys.) w Polsce według grup wieku (w latach):
oszacował liczbę kobiet pracujących oraz kobiet bezrobotnych (w tys.) w Polsce według grup wieku (w latach):
wiek w latach Xi0 - Xi1 |
kobiety pracujące (w tys.) ni |
kobiety bezrobotne (w tys.) ni |
15-25 25-35 35-45 45-55 55-65 |
726 1718 2338 1246 798 |
327 385 333 136 40 |
Razem |
6826 |
1221 |
Należy dokonać analizy porównawczej dwóch zbiorowości - kobiet pracujących i bezrobotnych.
Wskazówka: w przypadku dużych wartości cechy lub dużych liczebności wygodniej jest zamienić szereg liczebności (ni) w szereg częstości (fi) lub udziałów procentowych (fi%)
Odp. Wyniki obliczeń i analiza:
kobiety pracujące |
kobiety bezrobotne |
(średnia) x = 39,52 lat D = 38,62 lat Me = 39,14 lat S2 = 132,51 lat2 S = 11,51 lat V(S) = 0,29 M3(X) = 205,72 lat3 M3(t) = 0,14 M4(X) = 40281,67 lat4 M4(t) = 2,29 |
x = 33,1 lat D = 30,27 lat Me = 32,4 lat S2 = 115,41 lat2 S = 10,74 lat V(S) = 0,33 M3(X) = 587,13 lat3 M3(t) = 0,47 M4(X) = 33277,72 lat4 M4(t) = 2,5 |
Porównując udziały procentowe w szeregach można stwierdzić wyraźne różnice w strukturze wieku obu porównywanych zbiorowości kobiet. Wśród kobiet pracujących dominują osoby w wieku 35 -45 lat, natomiast wśród bezrobotnych najwięcej jest kobiet w wieku 25 - 35 lat. W najmłodszej grupie wiekowej odsetek kobiet bezrobotnych jest ok. 2,5 raza większy od odsetka kobiet pracujących. Z kolei w grupie najstarszej sytuacja jest odwrotna. Z szeregów wynika, że bezrobocie dotyczy przede wszystkim kobiet młodszych,
Porównując parametry rozkładów można stwierdzić, że:
średni wiek kobiet pracujących jest o ok. 6 lat wyższy od średniego wieku kobiet bezrobotnych. Również pozostałe średnie są odpowiednio wyższe - mediana o ok. 7 lat, a dominanta o ponad 8 lat,
zróżnicowanie wieku jest w obu zbiorowościach małe - współczynnik zmienności jest nieco wyższy u kobiet bezrobotnych, gdzie odchylenie standardowe stanowi 33% średniej arytmetycznej,
skośność rozkładu wieku kobiet pracujących jest mała (najwięcej jest kobiet w wieku około 40 lat,a roczniki młodsze i starsze są w przybliżeniu jednakowo liczne), prawostronna, natomiast rozkład wieku kobiet bezrobotnych charakteryzuje się również skośnością prawostronną, ale jest to skośność wyraźna (występuje wyraźna przewaga kobiet młodszych - w wieku niższym niż 33,1 lat),
oba rozkłady są spłaszczone, przy czym rozkład wieku kobiet pracujących jest nieco bardziej spłaszczony (w typowym obszarze zmienności wieku w obu zbiorowościach znajduje się mniej niż ok.68% kobiet).
Przykładowe zestawy na kolokwium
ZESTAW 1
1. Ceny akcji firmy “X” (w zł) kształtowały się na kolejnych 35 sesjach giełdowych następująco:
xi |
fi |
10 11 12 13 |
0,3 0,4 0,2 0,1 |
Razem |
1,0 |
wiedząc, że dla akcji “firmy Y” otrzymano następujące wyniki:
xio - xi1 |
ni |
10 - 20 20 - 35 35 - 40 40 i więcej |
5 10 15 5 |
Razem |
35 |
[1,5 pkt.] porównać zmienność rozkładów cen akcji obu firm,
[1,5 pkt] porównać skośność rozkładów cen akcji obu firm,
[1,5 pkt.] zbadać kurtozę rozkładu cen akcji firmy “X” oraz firmy “Y”.
Wynagrodzenia netto 10 pracowników wrocławskiego oddziału pewnej firmy w miesiącu czerwcu 2001 r. były następujące: 8 pracowników otrzymało 1200 zł, księgowa 2400 zł, kierownik oddziału 7000 zł
[0,9 pkt.] obliczyć wartości poznanych parametrów położenia,
[0,6 pkt.]określić który z parametrów najlepiej opisuje średni poziom wynagrodzeń w czerwcu 2001 r.; odpowiedź uzasadnić.
3. [1 pkt.] Wykorzystanie momentów statystycznych w statystyce opisowej.
ZESTAW 2
1. [5 pkt] Struktura zarejestrowanych bezrobotnych w Polsce według płci i wieku w 1998 r. (stan w dniu 31 XII) przedstawia się następująco:
wiek |
kobiety - fi% |
mężczyźni - fi% |
25-35 35-45 45-55 55-65 |
35 30 25 10 |
30 30 25 15 |
Razem |
100 |
100 |
Wykorzystując wybrane miary klasyczne dokonać wszechstronnej analizy porównawczej rozkładów wieku kobiet i mężczyzn.
W jakim wieku jest najwięcej bezrobotnych:
[0,5 pkt.] kobiet,
[0,5 pkt.] mężczyzn?
3 [1 pkt.] Wartość środkowa - definicja, zastosowanie, przykład wyznaczania dla szeregu szczegółowego.
ZESTAW 3
Zad. 1. 24 pracowników pewnej firmy zbadano ze względu na staż pracy (w latach) oraz wydajność pracy w miesiącu marcu 2001 (w sztukach na godzinę). Informacje o stażu pracy przedstawiono w szeregu rozdzielczym.
xio - xi1 |
fi |
1-3 3-5 5-7 7-9 |
0,2 0,3 0,3 0,2 |
Razem |
1,0 |
Wiedząc, że: a) 25% pracowników ma wydajność nie wyższą niż 2,5 sz/h, b) 25% nie niższą niż 5,5 sz/h, c) kwartyl trzeci różni się od mediany o 1 sz/h, d) moment drugi centralny = 4 sz/h2, e) M3 (X) = 7 sz/h3,
f) M4(X)=25 sz/h4 g) K = 0,4,
porównać w rozkładach obu cech:
[1,5 kt] zróżnicowanie,
[1,5 pkt] skośność (miarą pozycyjną)
[1,5 pkt] skupienie wartości wokół średniej arytmetycznej.
Zad. 2. [1,5 pkt] Poniżej podane są dwa skumulowane szeregi rozdzielcze. Obliczyć przeciętną wartość cechy dla każdego z szeregów, dobierając odpowiedni parametr położenia. Uzasadnić wybór miary dla każdego szeregu.
Xi |
cum ni |
|
Yi |
cum ni |
mniej niż 5 5-10 10-15 15-20 20 i więcej Razem |
1 26 66 106 110 * |
|
mniej niż 5 5-10 10-15 15-20 20 i więcej Razem |
8 18 58 70 80 * |
Zad. 3. [1 pkt] Zwykłe momenty statystyczne - charakterystyka i wykorzystanie.
ZESTAW 4
Zad. 1. 24 pracowników pewnej firmy zbadano ze względu na wysokość ostatniej premii (w zł) oraz wydajność pracy w miesiącu marcu 2001 (w sztukach na godzinę). Otrzymano następujące wyniki:
wydajność |
ni |
|
premia |
fi% |
2-4 4-6 6-8 8-10 |
4 8 10 2 |
|
200 300 400 500 |
20 30 30 20 |
Na podstawie powyższych szeregów porównać w rozkładach obu cech:
[1,5 kt] zróżnicowanie (miarą klasyczną),
[1,5 pkt] skośność (wszystkimi miarami oprócz pozycyjnej)
[1,5 pkt] kurtozę.
Zad. 2. Poniższa tabela przedstawia zużycie wody w gospodarstwach domowych (w m3/ osobę) w 1993 r. w miastach Polskich liczących ponad 300 tys. mieszkańców:
Miasto Warszawa Bydgoszcz Gdańsk Katowice Kraków Lublin Łódź Poznań Szczecin Wrocław |
zużycie wody 60 55 55 55 55 50 50 50 48 48 |
Źródło: dane umowne
[0,9 pkt] zbudować szereg rozdzielczy liczebności na podstawie powyższych danych (uwzględnić wszystkie elementy szeregu),
[0,6 pkt] określić środkowe i najczęstsze zużycie wody.
Zad. 3. [1 pkt] Własności (wady i zalety) kwartyla drugiego.
2008-09-27 Statystyka Opisowa Wykład II
1