Opisowe charakterystyki rozkładów
W teorii statystyki wypracowano wiele charakterystyk opisowych, za pomocą których można przeprowadzić analizę struktury zjawisk masowych, czyli analizę właściwości różnych rozkładów.
Do charakterystyk najczęściej wykorzystywanych przy opisie struktury zbiorowości należą:
Miary położenia średnie - (zwane miarami poziomu wartości zmiennej, miarami położenia lub przeciętnymi) służące do określania tej wartości zmiennej opisanej przez rozkład, wokół której skupiają się wszystkie wartości zmiennej
Miary rozproszenia - (zmienności, zróżnicowania, dyspersji) służą do badania stopnia zróżnicowania wartości zmiennej
Miary asymetrii - (skośności) służą do badania kierunku zróżnicowania wartości zmiennej
Miary koncentracji
Miary średnie
Miary klasyczne są obliczane na podstawie wszystkich wartości szeregu.
Średnia klasyczna
Średnia harmoniczna
Średnia geometryczna
Miary pozycyjne są wartościami konkretnych wyrazów szeregu wyróżniających się pod pewnym względem.
Dominanta
Kwartyle, decyle, percentyle
Obie grupy średnich nawzajem się uzupełniają. Każda z nich opisuje bowiem poziom wartości zmiennej z innego punktu widzenia. Są jednak sytuacje, w których układ informacji liczbowych nie pozwala na obliczenie danej średniej.
Średnia arytmetyczna
Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek badanej zbiorowości podzieloną przez liczbę tych jednostek.
Średnia określona powyższym wzorem nazywa się średnią arytmetyczną nieważoną.
Własności średniej arytmetycznej
1.
2.
3. Nie można liczyć średniej arytmetycznej dla szeregu o otwartych przedziałach klasowych, chyba że liczebność otwartego przedziału nie przekracza 10% liczebności całej zbiorowości - wówczas domykamy przedział.
4. Średniej arytmetycznej nie można obliczać dla szeregów, w których udział liczebności w przedziałach klasowych otwartych jest duży - do obliczenia przeciętnego poziomu badanego zjawiska stosuje się wówczas miary pozycyjne.
5. Średnia arytmetyczna jest wrażliwa na skrajne wartości zmiennej (obserwacje odstające, rzadkie) - zniekształcają wynik obliczeń.
Przykład 1.
Wyznaczyć średni wynik pracy kontrolnej ze statystyki w badanej grupie studentów. Wyniki podano w tabeli.
Ocena xi |
Liczba studentów ni |
xini |
2,0 2,5 3,0 3,5 4,0 4,5 5,0 |
9 7 42 30 15 10 7 |
18 17,5 126 105 60 45 35 |
Suma |
120 |
406,5 |
Przykład 2.
Wyznaczyć średni czas pisania pracy kontrolnej ze statystyki przez studentów Wydziału Agrobiznesu. Dane podano w tabeli.
|
Liczba studentów ni |
Xi |
xXi-ni |
50-60 60-70 70-80 80-90 |
3 2 15 5 |
55 65 75 85 |
165 130 1125 425 |
Suma |
25 |
x |
1845 |
Średnia geometryczna
Średnia geometryczna jest wykorzystywana do badania średniego tempa zmian zjawisk zmiennej x (tj. w przypadku zjawisk ujmowanych dynamicznie).
Średnia geometryczna jest wykorzystywana do badania średniego tempa zmian zjawisk zmiennej x (tj. w przypadku zjawisk ujmowanych dynamicznie).
Średnia geometryczna
1. Średnia geometryczna jest zwykle mniejsza od średniej arytmetycznej
Zaletą średniej geometrycznej jest to, że na wyniki obliczeń mają niewielki wpływ wartości skrajne zmiennej.
Wadą jest uciążliwość obliczeń.
Średnia geometryczna jest równa 0 gdy przynajmniej jedna wartość zmiennej x wynosi 0.
Średnia harmoniczna
Średnią harmoniczną stosuje się do obliczania:
● przeciętnego czasu potrzebnego do wyprodukowania jednostki wyrobu,
● siły nabywczej pieniądza,
● szybkości przepływów pieniężnych,
● prędkości pojazdu (w km/godz.),
● gęstości zaludnienia (w osobach/km2),
● spożycia (w kg/osobę)
Przykład 3.
Ciężarówka pokonała 1/6 drogi z szybkością 100 km/h, 1/3 drogi z szybkością 80 km/h, ½ drogi z szybkością 50 km/h. Z jaką przeciętną prędkością ciężarówka pokonała całą drogę?
Miary pozycyjne
Dominanta (modalna, moda, wartość najczęstsza) - jest to wartość zmiennej, która w danym rozkładzie empirycznym występuje najczęściej. Oznaczamy przez D.
Wynika z tego, że dominanta występuje w szeregach jednomodalnych.
W szeregach szczegółowych i rozdzielczych punktowych dominanta jest tą wartością cechy, której odpowiada największa liczebność (bądź częstość).
Przykład 4.
Wyznaczyć dominantę z następującego szeregu
Ocena xi |
ni |
2,0 2,5 3,0 3,5 4,0 4,5 5,0 |
9 7 42 30 15 10 7 |
Suma |
120 |
gdzie:
xD - początek przedziału, w którym jest dominanta
nD - liczebność przedziału dominanty
nD-1 - liczebność przedziału poprzedzającego przedział dominanty
nD+1 - liczebność przedziału następnego po przedziale dominanty
hD - rozpiętość (szerokość) przedziału dominanty
W szeregach przedziałowych bezpośrednio można określić tylko przedział (jest to przedział o największej liczebności), w którym jest dominanta, a następnie za pomocą wzoru należy określić jej konkretną wartość.
gdzie:
xD - początek przedziału, w którym jest dominanta
wD - częstość przedziału dominanty
wD-1 - częstość przedziału poprzedzającego przedział dominanty
wD+1 - częstość przedziału następnego po przedziale dominanty
hD - rozpiętość (szerokość) przedziału dominanty
Przykład 5.
Struktura pracujących (w%) według wieku w listopadzie 1997r. przedstawiona jest w tabeli. Wyznaczyć dominantę szeregu.
Wiek w latach x0i-x1i |
Liczba pracujących
|
15-25 25-35
45-55 55-65 65 lat i więcej |
24,3 31,8 22,4 7,0 3,0 |
|
100 % |
Odp. Otrzymany wynik oznacza, że wśród pracujących dominowali pracownicy w wieku 39,4 roku.
Przykład 6.
Na podstawie danych z Przykładu 4 wyznaczyć graficznie przybliżoną wartość dominanty.
Aby dominantę wyznaczyć graficznie należy narysować histogram przedziału dominanty i dwóch przedziałów sąsiadujących. Punkt przecięcia odcinków łączących wierzchołki sąsiadujących prostokątów należy zrzutować na oś odciętych i odczytać wartość dominanty.
Warunki wyznaczania modalnej
Jest dostatecznie dużo obserwacji;
Rozkład liczebności (częstości) jest rozkładem jednomodalnym;
3. Przedziały klasowe, w której występuje moda i przedziały sąsiednie mają taką samą rozpiętość;
4. Wyznaczenie dominanty nie jest możliwe gdy znajduje się ona w pierwszym lub ostatnim przedziale klasowym;
5. Na jej wartość nie mają wpływu wartości skrajne xmin i xmax.
Przykład 7.
W Brukseli na sali obrad w Europarlamencie znajdowali się:
Wyznaczyć dominantę tego szeregu.
Deputowani xi |
Liczba deputowanych ni |
Francuzi Anglicy Niemcy Belgowie Polacy Grecy Włosi Węgrzy Hiszpanie Portugalczycy Cypryjczycy |
78 78 99 24 54 24 78 24 54 24 6 |
Kwartyle
Kwartyl pierwszy Q1 (dolny) dzieli uporządkowaną zbiorowość na dwie części w ten sposób, że 25% jednostek zbiorowości ma wartości zmiennej mniejsze lub równe kwartylowi pierwszemu, a 75% równe lub większe od Q1.
Kwartyl drugi Q2 zwany medianą Me (mediana, wartość środkowa) dzieli uporządkowaną zbiorowość na dwie części w ten sposób, że połowa jednostek ma wartości zmiennej mniejsze lub równe medianie, a połowa - wartości większe lub równe Me.
Kwartyl trzeci Q3 (górny) dzieli uporządkowaną zbiorowość na dwie części w ten sposób, że 75% jednostek zbiorowości ma wartości zmiennej mniejsze lub równe kwartylowi trzeciemu, a 25% równe lub większe od Q3.
W szeregach wyliczających uporządkowanych rosnąco Me wyznacza się na podstawie wzoru
Gdy liczba obserwacji jest nieparzysta, to Me jest wartością środkową, gdy n jest parzyste, to Me jest średnią arytmetyczną dwóch środkowych wartości zmiennej.
W szeregu punktowym wyznaczenie wartości środkowej polega na wskazaniu jednostki środkowej i odczytania wariantu zmiennej
(wskazanie Me ułatwia kumulacja liczebności).
Przykład 8.
Liczba koni xi |
Liczba Gospodarstw ni |
Liczebność skumulowana |
0 1 2 3 4 5 6 7 8 |
8 10 9 7 6 3 2 3 2 |
8 18 27 34 40 43 45 48 50 |
Suma |
50 |
X |
W szeregach przedziałowych do wyznaczenia kwartyli służą wzory:
Przykład 9.
Wyznaczyć Q1, Me, Q3 na podstawie danych dotyczących czasu dojazdu do pracy
Czas dojazdu do pracy x0i-x1i |
Liczba Pracowników ni |
Liczebność skumulowana |
5-15 15-25
35-45 45-55 55-65 |
3 5 25 15 5 2 |
3 8 33 48 53 55 |
Suma |
55 |
X |
Wyznaczamy Q1
Wyznaczamy Me
Wyznaczamy Q3
Miary zmienności
Znajomość miar średnich nie wystarcza do scharakteryzowania struktury zbiorowości statystycznej.
Przykład
W ciągu tygodnia w morze wypływały 3 kutry rybackie. Ich dzienne połowy były następujące:
7, 7, 7, 7
8,6,7,6,6,9,7
2,7,12,0,14
Miary zmienności bezwzględne (absolutne)
- rozstęp R
- odchylenie ćwiartkowe Q
- wariancja S2
- odchylenie standardowe S
- typowy obszar zmienności xtyp
Miary zmienności względne (relatywne)
- współczynnik zmienności V
Rozstęp
Rozstęp jest różnicą pomiędzy największą a najmniejszą wartością zmiennej w analizowanej zbiorowości.
Rozstęp jest stosowany głównie w tych przypadkach, gdy jest konieczne szybkie określenie obszaru zmienności badanej zmiennej. Znajduje zastosowanie w kontroli jakości, gdzie jest utrzymywana ciągła obserwacja procesu produkcyjnego.
Wartość miary R zależy jedynie od dwóch wartości skrajnych (najmniejszej i największej), nie dostarczając tym samym wyczerpującej informacji o pozostałych wartościach cechy wszystkich jednostek należących do zbiorowości.
Odchylenie ćwiartkowe
Odchylenie ćwiartkowe mierzy poziom zróżnicowania tylko części jednostek należących do badanej zbiorowości.
Na wartość odchylenia ćwiartkowego nie mają wpływu wartości jednostek mniejszych od Q1 oraz większych od Q3. Miara ta nie jest więc wrażliwa na skrajne (nietypowe) wartości i z tego powodu zaleca się jej stosowanie w praktyce.
Wariancja
Odchylenie standardowe
Odchylenie standardowe określa, jaka jest średnia wartość odchyleń - o ile średnio jednostki zbiorowości różnią się od średniej arytmetycznej badanej zmiennej.
Przykład 10.
Wyznaczyć odchylenie standardowe czasu dojazdu do pracy na podstawie danych zawartych w tabeli.
Czas dojazdu do pracy x0i-x1i |
Liczba Pracowników ni |
Środki Przedziałów X0 |
|
|
5-15 15-25 25-35 35-45 45-55 55-65 |
3 5 25 15 5 2 |
10 20 30 40 50 60 |
30 100 750 600 250 120 |
300 2000 22500 24000 12500 7200 |
Suma |
55 |
X |
1850 |
68500 |
Średni czas dojazdu do pracy pracownika wynosi 33,64 min, a średnie odchylenie od średniego czasu dojazdu wynosiło 10,67 min.
Współczynnik zmienności
Współczynnik zmienności
Współczynnik V umożliwia ocenę zróżnicowania kilku zbiorowości pod względem tej samej cechy oraz tej samej zbiorowości pod względem kilku różnych analizowanych cech.
Jeżeli V nie przekracza 10%, to cechy wykazują zróżnicowanie statystycznie nieistotne.
Zadanie 11.
Średnie miesięczne wpływy za świadczenie usług noclegowych w trzech losowo wybranych hotelach A, B i C były równe:
Odchylenia standardowe wartości sprzedanych usług wynosiły: SA=110 tys. zł, SB=90 tys. zł,
S C =120 tys. zł. W którym hotelu występuje największe zróżnicowanie (dyspersja) miesięcznych wpływów za świadczenie usług hotelowych?
Dla hotelu A:
Dla hotelu B:
Dla hotelu C:
Największe względne zróżnicowanie miesięcznych wpływów miało miejsce w hotelu B.
Typowy obszar zmienności
W obszarze typowym mieszczą się jednostki o typowych wartościach cechy. W obszarze tym mieści się około 2/3 wszystkich jednostek badanej zbiorowości statystycznej..
Zadanie 12.
Instytut Meteorologii i Gospodarki Wodnej zanotował (o godz 12.00 każdego dnia) temperaturę w ciągu kolejnych dni kwietnia 1999r. w Warszawie
oC |
0 |
2 |
6 |
8 |
13 |
15 |
17 |
20 |
23 |
25 |
27 |
Liczba dni |
2 |
3 |
3 |
4 |
5 |
6 |
2 |
2 |
1 |
1 |
1 |
1. Obliczyć odchylenie standardowe temperatury w kolejnych dniach kwietnia,
2. Obliczyć odchylenie ćwiartkowe temperatury w kolejnych dniach kwietnia,
3. Jakie było zróżnicowanie temperatury w kwietniu?
4. Wyznaczyć typowy obszar zmienności temperatury dziennej,
5. Ile dni kwietnia miało temperatury typowe?
Zadanie 13.
Lekkoatleta A uzyskał w skoku w dal następujące wyniki na zawodach (w metrach): 6,82; 6,96; 7,23; 7,05; 7,80; 7,75. Lekkoatleta B startujący na tych samych zawodach uzyskał takie wyniki, że ich średnia arytmetyczna wyniosła 7,5 m a suma ich kwadratów 450,2592m2.
Który z tych lekkoatletów osiągnął regularniejsze wyniki?
Zadanie 14.
Po dokonaniu analizy wyników z egzaminu dla 50 kandydatów na maklerów ustalono, że łączna liczba punktów uzyskanych przez nich na egzaminie wyniosła 6508, a suma kwadratów liczby punktów uzyskanych przez poszczególnych kandydatów była równa 871460.
Wiedząc dodatkowo, że współczynnik zmienności czasu przygotowania kandydatów do egzaminu wynosił 30,7% ustalić, która z badanych cech (czas przygotowania czy wynik) wykazała większe zróżnicowanie.
Zadanie 15.
W przedsiębiorstwie A przeciętna wydajność na jednego pracownika wynosi 20 szt/h, odchylenie standardowe wynosi 40% średniej arytmetycznej. Dla przedsiębiorstwa B uzyskano następujące dane:
Wydajność pracy (w szt.) |
Liczba pracowników |
0-10 10-20 20-30 powyżej 30 |
25 55 15 5 |
Porównać zróżnicowanie wydajności pracy w obu przedsiębiorstwach.
Miary asymetrii
Z punkty widzenia analizy statystycznej istotny jest nie tylko przeciętny poziom i wewnętrzne zróżnicowanie zbiorowości ale również to, czy przeważająca liczba jednostek znajduje się powyżej czy poniżej średniej.
Miarą określającą zarówno kierunek jak i siłę asymetrii jest współczynnik asymetrii (skośności)
Asymetria
Zadanie 16.
Zbadano grupę osób pod względem liczby osób w gospodarstwie i otrzymano następujące wyniki. Ocenić siłę i kierunek tego rozkładu.
Liczba osób w gospodarstwie xi |
Liczba gospodarstw ni |
xini |
xi2ni |
1 2 3 4 5 6 |
8 15 27 41 36 17 |
8 30 81 164 180 102 |
8 60 243 656 900 612 |
Suma |
144 |
565 |
2479 |
Mała asymetria lewostronna.
Występuje niewielka przewaga gospodarstw o liczbie osób większej od przeciętnej.
Koncentracja
Koncentracja - nierównomierność rozkładu ogólnej sumy wartości cechy pomiędzy poszczególne jednostki zbiorowości.
W sytuacji skrajnej, gdyby np. jedno przedsiębiorstwo skupiło całą wartość produkcji danego dobra - mówilibyśmy o koncentracji całkowitej.
Gdyby cała wartość produkcji danego dobra była rozłożona równomiernie na wszystkie jednostki produkcyjne - byłby całkowity brak koncentracji.
Najczęściej mamy do czynienia z różnym natężeniem koncentracji.
Współczynnik koncentracji Lorenza
0 - brak koncentracji
0-0,1 - b. słaba
0,1-0,3 - słaba
0,3-0,5 - umiarkowana
0,5-0,7 - silna
0,7-1 - b.silna
1 - całkowita
Zadanie 17.
Na podstawie danych zbadać siłę koncentracji ludności w miastach w Polsce
Miasta o liczbie ludności (w tys.) |
Liczba miast |
Łączna liczba ludności w miastach |
Do 5 5-20 20-100 100-200 200 i więcej |
302 371 138 13 12 |
937 3 827 5 454 1 995 5 935 |
Suma |
836 |
18 148 |
Rozwiązanie
Liczba miast |
Łączna liczba ludnosci |
Odsetek |
Odsetek skumulowany |
||
|
|
Liczby miast |
Łącznej liczby ludności |
Liczby miast |
Łącznej liczby ludności |
302 371 138 13 12 |
937 3 827 5 454 1 995 5 935 |
36,12 44,38 16,51 1,56 1,43 |
5,16 21,09 30,05 10,99 32,71 |
36,12 80,5 97,01 98,57 100 |
5,16 26,25 56,3 67,29 100 |
836 |
18 148 |
100 |
100 |
X |
X |
STATYSTYKA 2
14
Q3
Q1
25%
25%