Statystyka opisowa
Autor: dr inż. Małgorzata Rabiej
Opis statystyczny
" Opis statystyczny to obliczenie pewnych
charakterystyk liczbowych (zwanych
parametrami) badanych cech.
" Parametry tak charakteryzują zbiorowość, że
porównywanie różnych zbiorowości
statystycznych można sprowadzić do
porównań tych parametrów.
Dr inż. Małgorzata Rabiej
Opisowe charakterystyki
rozkładów.
Wszystkie miary opisu rozkładu cechy można
podzielić na:
" miary położenia,
" miary zróżnicowania,
" miary asymetrii,
" miary koncentracji.
Miary położenia
" Miary położenia służą do określenia tej
wartości zmiennej opisanej przez rozkład,
wokół której skupiają się wszystkie pozostałe
wartości zmiennej.
Dr inż. Małgorzata Rabiej
Miary położenia
Średnia arytmetyczna określona jest wzorem:
n
x1 + x2 +...+ xn 1
x = =
x
i
n n
i=1
Średnia arytmetyczna ważona określona jest wzorem:
k
x1 n1 + x2 n2 + ...+ xk nk 1
x = =
x ni
i
n n
i=1
n = n1 + n2 +...+ nk
Wartość średnia
Sprawdzono 20 stron maszynopisu znajdując na
nich następujące liczby błędów:
0 3 1 1 2 2 0 0 3 5 0 1 2 2 1 1 0 1 1 1
n
1
x =
i
x
n
i=1
1
(0 +3+ 1+ 1+ 2+ 2+ 0+ 0+ 3+ 5+ 0+ 1+ 2+
x = *
20
2+ 1+ 1+ 0+ 1+ 1+ 1)= 1,35
Dr inż. Małgorzata Rabiej
Średnia arytmetyczna ważona
i
Liczba błędów xi ni x ni
k
1
0 5 5
x =
i
x ni
n
i=1
1 8 8
2 4 8
3 2 6
1
4 0 0
27 = 1,35
x = *
20
5 1 5
Razem 27
Średnia geometryczna
" Średnią geometryczną gśr liczb x1, x2, ... , xn
n
n
gśr =
x
i
i=1
n
n
n
x = x1 x2 x3 K xn =
G
xi
i=1
Średnia harmoniczna
" Średnią harmoniczną hśr różnych od zera
liczb x1, x2, ... , xn, nazywamy odwrotność
średniej arytmetycznej odwrotności tych
liczb.
-1
n
ć
1 1
hśr =
n xi
i=1
Ł ł
Dr inż. Małgorzata Rabiej
Średnia harmoniczna
n
x =
H
n
1
dla szeregu szczegółowego
xi
i=1
k 1szt./min ; 1km/h
ni
i=1
dla szeregu rozdzielczego
x =
H
k
ni
xi
i=1
1szt./min ; 1km/h
Moda, dominanta
" Dominantą, wartością modalną D0
próbki x1, x2, ... , xn o powtarzających się
wartościach nazywamy najczęściej
powtarzającą się wartość, o ile istnieje i
nie jest wartością pierwszą ani ostatnią.
Wartość modalna, dominanta
nm - nm-1 13- 9
Do = xi min + hm = 5 + *1,5 = 5,44
(nm - nm-1) + (nm - nm+1) (13- 9) + (13- 8)
Kwantyle.
" Kwantyle - wartości cechy badanej w
zbiorowości, które dzielą ją na określone
części pod względem liczby jednostek.
" Do najczęściej używanych kwantyli
należy
mediana - kwartyl drugi
kwartyle: pierwszy i trzeci.
Mediana.
Medianą lub wartością środkową me (Me lub
Q2, QMe) próbki x1, x2, ... , xn nazywamy
środkową liczbę w uporządkowanej
niemalejąco próbie, gdy n jest liczbą
nieparzystą, albo średnią arytmetyczną
dwóch środkowych liczb, gdy n jest liczbą
parzystą.
Wyznaczanie mediany
x gdy n jest nieparzyst
e
n+1
2
Q2 = Me =
1
(x + x ) gdy n jest parzyste
n n
+1
2 2
2
Me=Q1 Me=Q2 Me=Q3
Dr inż. Małgorzata Rabiej
Mediana
Kwartyl drugi Q2 (mediana Me, me) dzieli
zbiorowość na dwie równe części w taki sposób, że
50% jednostek danej zbiorowości ma wartości cech
niższe lub równe kwartylowi drugiemu i 50% cech ma
wartości wyższe lub równe temu kwartylowi.
50%
50%
xn
Q2
Mediana dla cechy ciągłej
k-1
n
-
n
i
2
i=1
QMe = xMe + hMe
nMe
" xMe dolne granica przedziału, w którym znajdują się
mediana
" hMe, - rozpiętość przedziału mediany.
Kwartyl pierwszy- dolny
Kwartyl pierwszy dzieli uporządkowaną niemalejącą
zbiorowość statystyczną na dwie części w taki sposób, że
25% zbiorowości ma wartości cechy mniejsze lub równe
kwartylowi pierwszemu, a 75% - równe lub większe od
tego kwartyla
75%
25%
xn
Q1
Dr inż. Małgorzata Rabiej
Kwartyl dolny - pierwszy
" Aby wyznaczyć kwartyl pierwszy należy w
uporządkowanym zbiorze obserwacji znalezć
wartość x(n+1)/4. Jeśli uzyskany numer nie jest
liczbą całkowitą należy go zaokrąglić w górę.
Kwartyl trzeci - górny
Kwartyl trzeci dzieli uporządkowaną niemalejącą
zbiorowość statystyczną na dwie części w taki sposób, że
75% zbiorowości ma wartości cechy mniejsze lub równe
kwartylowi trzeciemu, a 25% - równe lub większe od
tego kwartyla
xn
75% 25%
Q3
Kwartyl trzeci - górny
" Aby wyznaczyć kwartyl trzeci należy znalezć wartość o
numerze x3*(n+1)/4 i jeśli nie jest liczbą całkowitą zaokrąglić
w dół.
Przykład.
Kwartyle obliczone w EXCEL-u
1 2 3 4 5 6 7 8 9 10 3.25
1 2 3 4 5 6 7 8 9 10 11 3.50
1 2 3 4 5 6 7 8 9 10 11 12 3.75
1 2 3 4 5 6 7 8 9 10 11 12 13 4.00
" X14/4 x4 = 4
" X14*3/4 x11= 11
Kwartyle dla cechy ciągłej
k -1
n
-
n
i
kwartyl pierwszy
4
i=1
Q1 = xQ1 + hQ1
nQ1
k -1
3n
-
n
i
4
i=1
kwartyl trzeci
Q3 = xQ3 + hQ3
nQ3
xQ 1,xQ 3 dolne granica przedziałów, w których znajdują się
,
kwartyle
hQ1 , hQ3 - rozpiętość przedziału kwartyla pierwszego i trzeciego
Dr inż. Małgorzata Rabiej
Rozstęp kwartylowy
Rozstęp kwartylowy (odchylenie ćwiartkowe) określa
"długość" tej części przedziału zmienności cechy, w
której znajduje się 50% "środkowych" obserwacji.
Jest to różnica pomiędzy kwartylem trzecim i pierwszym
(Q3-Q1)
Kwantyle - przykład
Wartości zaobserwowane:
5, 6 , 6, 6, 4, 7, 5, 6, 4, 6, 8, 6, 7, 5, 6
Po uporządkowaniu
4, 4, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 7, 7, 8
n = 15
Mediana = 6
Kwartyl pierwszy = x(n+1)/4 =5
Kwartyl trzeci = x 3*(n+1)/4 = 6
Kwartyle
Przykład: 11 danych.
Kraje OPEC Dzienne wydobycie
w ml. baryłek
Katar 0,63
Algieria 0,79
Q1 = x12/4=x3
Indonezja 1,28
Libia 1,34
Kuwejt 1,74
Q2=Me
Nigeria 2,02
ZEA 2,20
Irak 2,39
Wenezuela 2,97
Q3=x3*12/4 = x9
Iran 3,55
Arabia Saudyjska 7,82
Dr inż. Małgorzata Rabiej
Wykres pudełkowy
Wykres ramka-wąsy
Pozycyjne miary położenia
Wykres ramka-w ąsy (Arkusz1 1v*11c)
9
Q3 - Q1
Q =
8
2
7
Q
VQ =
6
Me
5
4
3
Mediana = 2,02
25%-75%
2
= (1,28, 2,97)
Zakres nieodstających
1
= (0,63, 3,55)
Odstające
Ekstremalne
0
Zmn1
Dzienne wydobycie
Miary rozproszenia
" Miary rozproszenia (zmienności,
zróżnicowania, dyspersji) służą do badania
stopnia zróżnicowania wartości zmiennej.
Miary rozproszenia
" rozstęp,
" wariancja,
" odchylenie standardowe,
" współczynnik zmienności.
Wariancja i odchylenie standardowe
" Wariancja jest średnią arytmetyczną kwadratów
odchyleń (różnic) poszczególnych wartości cechy od
wartości oczekiwanej.
" Pierwiastek z wariancji = odchylenie standardowe.
" Odchylenie standardowe mówi, jak szeroko
wartości badanej cechy są rozrzucone wokół jej
średniej. Im mniejsza wartość odchylenia tym
obserwacje są bardziej skupione wokół średniej.
Wariancja i odchylenie standardowe
Dla danych empirycznych, zapisanych w
postaci ciągu liczb
n
1
" wariancja
s2 =
i
(x - x)2
n
i=1
n
1
" odchylenie
s =
i
(x - x)2
n
standardowe i=1
n
1
x =
i
x
n
i=1
gdzie
Dr inż. Małgorzata Rabiej
Wariancja
Dla cechy dyskretnej zapisanej w postaci
szeregu rozdzielczego
k
1
s2 =
i
(x - x)2 ni
n
i=1
k
1
x =
i
x ni
n
i=1
Wariancja
Dla cechy ciągłej zapisanej w postaci
szeregu rozdzielczego
k
o
o
1
s2 =
x - Środek przedziału
i
(x - x)2 ni
n
i=1
k
o
1
x =
i
x ni
n
i=1
Współczynnik zmienności
Współczynnik zmienności określa jaki procent wartości
średniej stanowi odchylenie standardowe.
Jest miarą względną zróżnicowania rozkładu cechy.
s
V = 100%
x
Współczynnik zmienności jest stosowany najczęściej przy
porównywaniu zróżnicowania cechy w dwóch różnych
rozkładach.
Przykład. Należy porównać zróżnicowanie wagi
niemowląt i dorosłych.
Przykład.
" W firmie zarejestrowano liczbę wyrobów
wyprodukowanych w ciągu dnia przez 1 pracownika.
" Wyniki zapisano w tabeli
cd.
" Średnia wydajność pracy przypadająca na 1
pracownika jest średnią ważoną.
k
k
1 720
n =
n = 60
x = xini = = 12 i
i=1
n 60
i1
cd.
" Aby obliczyć, o ile średnio, wszyscy pracownicy
różnią się od tej średniej, należy obliczyć
odchylenie standardowe:
k
1 66
s =
(x - x)2 ni = 60 1.05
i
n
i=1
Zadanie
Pantera śnieżna rozmnaża się w ZOO i rodzi od 1
do 5 kociąt. W pewnym ogrodzie zoologicznym
obserwowano następujące liczby kociąt w miocie
( n = 25):
1 4 2 3 2 1 2 1 5 3 2 2 4 2 3 2 1 2 1 2 3
3 1 1 2 .
Oblicz: medianę, dominantę, kwartyl 1, kwartyl 3,
wartość średnią, odchylenie standardowe.
Miary asymetrii
" Miary asymetrii (skośności) służą do
badania kierunku zróżnicowania wartości
zmiennej.
Miary asymetrii
" współczynnik asymetrii
" współczynnik skośności
" trzeci moment centralny
Moment zwykły
Moment zwykły rzędu 1 wartość średnia
Moment zwykły rzędu k
n
1
k
M = xi kni
n
i=1
Moment centralny
Moment centralny rzędu 1 - nie istnieje
Moment centralny rzędu 2 - wariancja
n
1
s2 =
i
(x - x)2
n
i=1
Moment centralny rzędu k
n
1
Mk =
(x - x)k
i
n
i=1
Trzeci moment centralny
n
1
'
M3 =
j
(x - x)3
n -1
j=1
k
1
'
M3 =
i
(x - x)3 ni
n -1
i=1
" ujemny - asymetria lewostronna
" dodatni - asymetria prawostronna
" zero dla rozkładu symetrycznego
Współczynnik asymetrii
'
A = M3 / s3
Wartość bezwzględna tego współczynnika
jest mniejsza od 2.
Ujemna wartość oznacza asymetrię
lewostronną
Dodatnia asymetrię prawostronną.
Dr inż. Małgorzata Rabiej
Współczynnik skośności
" Obliczany wg wzoru
x - d0
A1 =
s
Miary koncentracji
" Służą do badania stopnia nierównomierności
rozkładu ogólnej sumy wartości zmiennej
pomiędzy poszczególne jednostki zbiorowości
lub do analizy stopnia skupienia
poszczególnych jednostek wokół średniej.
Koncentracja wartości cechy
" Ze zjawiskiem koncentracji pierwszego rodzaju
mamy do czynienia, gdy występuje nierównomierny
rozdział łącznego funduszu cechy (np. dochodu,
produkcji, zysku) pomiędzy poszczególne jednostki
zbiorowości.
Dr inż. Małgorzata Rabiej
Miary koncentracji
" Dwa skrajne przypadki to brak koncentracji oraz
koncentracja całkowita.
" Brak koncentracji występuje wówczas, gdy na każdą
jednostkę zbiorowości przypada taka sama część
ogólnej sumy wartości np. każdy pracownik w
przedsiębiorstwie otrzymuje taką samą część
łącznego funduszu płac.
" W przypadku koncentracji zupełnej łączny fundusz
cechy przypada na daną jednostkę zbiorowości (np.
łączny areał ziemi w województwie należy do
jednego gospodarstwa rolnego).
Koncentracja wokół średniej
M'
Kurtoza, współczynnik skupienia
4
a4 = - 3
s4
gdzie M 4 moment centralny czwartego rzędu
n
1
M' =
4 j
(x - x)4
n -1
j=1
Jeżeli kurtoza (miara smukłości rozkładu) jest
wyraznie różna od zera, wówczas rozkład jest albo
bardziej spłaszczony niż rozkład normalny, albo
bardziej wysmukły (kurtoza rozkładu normalnego
wynosi dokładnie 0).
Stopień koncentracji
" można ocenić przez porównanie częstości
występowania cechy jednostek w różnych
przedziałach z udziałami łącznej wartości cechy w
poszczególnych przedziałach.
Przykład.
" Badając staż pracy pracowników dwóch zakładów
wchodzących w skład tego samego przedsiębiorstwa
ustalono, że w I zakładzie najliczniej byli reprezentowani
pracownicy, których staż pracy wynosił 5,5 roku, połowa
pracowników osiągnęła staż mniejszy lub równy 6 lat.
Średni staż pracy wynosił 6 lat. Współczynnik zmienności
liczony na podstawie odchylenia standardowego wyniósł 30
%.
" Dla II zakładu zebrano informacje przedstawione w tabeli:
Przykład
Od - do ni
2 4 10
4 6 20
6 8 25
8 10 35
10 - 12 10
Ogółem 100
" Na podstawie powyższych danych dokonać analizy
porównawczej obu zakładów z punktu widzenia
stażu pracy.
" Zinterpretować otrzymane wyniki.
P
Zakład I Zakład II
x śr
6 lat 7,3 lat
m e
6 lat 7,6 lat
d 0
5,5 lat 8,57 lat
s
1,8 lat 2,3 lat
V
30% 31,5 %
A
=(xsr d0 )/s =0,26 -0,552
Dr inż. Małgorzata Rabiej
Porównanie
xsr 1 < xśr 2
me1 < me2
d01 < d02
-
V1 < V2
|A1| < |A2|
Wyszukiwarka
Podobne podstrony:
1 wprowadzenie do statystyki statystyka opisowa2 Statystyka opisowa SStatystyka opisowaStatystyki opisoweStatystyka opisowa rozwiązane kolowkiaStatystyka opisowa4 Statystyka opisowa i rozkład normalnySTATYSTYKA OPISOWAStatystyka opisowa i ekonomiczna Wykład 1statystyka opisowa 11Tworzenie statystyk opisowych w ExceluWykład 2 statystyka opisowawięcej podobnych podstron