Statystyka Opisowa
Piotr Peternek
piotr.peternek@wsb.wroclaw.pl
Organizacja
Wykład 18 h. ćwiczeń 18 h.
Egzamin pisemny- 4-5 zadań - szczegóły na
ostatnim wykładzie, promocja dla osób które
zdobędą co najmniej 4,5 z ćwiczeń
Wykłady i listy na Moodle, hasło: statystykafir
Literatura podstawowa
Ostasiewicz S., Rusnak Z., Siedlecka U. Statystyka
Teoria i zadania. Wydawnictwo AE we Wrocławiu
Literatura uzupełniająca
Każda pozycja ze statystyką w nazwie
Podstawowe pojęcia
Statystyka ilościowe metody badania prawidłowości w
zjawiskach masowych
Zjawisko (proces) masowy zjawisko którego wyniki
można wielokrotnie obserwować w porównywalnych
warunkach w określonym czasie
Prawo wielkich liczb - przy dostatecznie dużej próbie
skutki przyczyn ubocznych działających na dane zjawisko
redukują się, natomiast ujawniają się przyczyny główne
(prawidłowości)
Czas dojazdu do pracy
Liczba pozytywnych ocen ze statystyki
Podstawowe pojęcia
Zbiorowość statystyczna, populacja generalna
(populacja) - zbiór (na ogół duży) jednostek
statystycznych mających przynajmniej jedną cechę
stałą oraz pewną liczbę cech zmiennych
Próba, populacja próbna wyodrębniona przy
pomocy odpowiedniej metody statystycznej część
(na ogół nie duża) populacji generalnej
Jednostka statystyczna obiekt wyodrębniony na
potrzeby badania statystycznego
Cecha statystyczna właściwość jednostek
statystycznych podlegająca badaniu
Podstawowe pojęcia
Określenie wyników z zaliczenia ze statystyki dla
studentów WSB:
Populacja studenci WSB, którzy mieli
statystykę (wszyscy J)
Próba studenci, których numer indeksu jest
liczbą parzystą, nazwisko na L i W
Cecha stała = bycie studentem WSB
Cecha badana = ocena z zaliczenia
Podstawowe pojęcia
Cecha niemierzalna, jakościowa, opisowa
przedstawiona wyłącznie za pomocą określenia
słownego (kolor, płeć, zawód)
Cecha mierzalna, ilościowa przedstawiona za
pomocą liczby pochodzącej z pomiaru lub
obliczeń
Skokowa przyjmuje wartości z pewnego
skończonego lub przeliczalnego zbioru wartości
(liczba usterek, dzieci)
Ciągła przyjmuje dowolną wartość z pewnego
zbioru nieprzeliczalnego - przedziału liczbowego,
(waga, wiek)
Podstawowe pojęcia
Badanie całkowite (wyczerpujące)
Bardzo wiele lub nieskończenie jednostek
Ograniczone zasoby finansowe lub czasowe
Badanie niszczące
Badanie częściowe
Badanie reprezentacyjne
Losowanie ze zwracaniem
Losowanie bez zwracania
Losowanie warstwowe
Losowanie etapowe
Losowanie systematyczne
Badanie ankietowe
Badanie monograficzne
Szeregi statystyczne
porządkowanie i grupowanie
Badanie statystyczne:
Populacja: studenci wsb
Próbka: rząd 3 ??
Badana cecha: ilość pokoi (izb) w mieszkaniu
(domu); płeć
Oznaczenia
n wielkość próby
xi wariant (wartość) cechy
ni liczba jednostek o i - tym wariancie cechy
k liczba klas (wariantów) cechy
Szeregi statystyczne
porządkowanie i grupowanie
Surowy materiał statystyczny
zebrane dane
Szereg szczegółowy
uporządkowane dane
Szereg rozdzielczy punktowy
pogrupowane dane w tabeli ile obserwacji
przyjmowało ustaloną wartość
Szereg rozdzielczy przedziałowy
ile obserwacji przyjmowało wartości z ustalonego
przedziału
Szereg szczegółowy - przykład
Zebrano dane dotyczące wieku 11
pracowników dziekanatu
19, 20, 22, 23, 25, 28 ,28 ,29, 30, 33, 48
Szereg szczegółowy można używać zawsze niewygodny
przy dużej liczbie danych (komputer?)
Szereg rozdzielczy punktowy
Zebrano dane dotyczące wieku 140 pracowników MPK
Wiek w latach
xi 22 23 28 35 36 38 42 45
Liczba pracowników
ni 5 6 15 25 27 28 23 11
30
Szereg rozdzielczy
25
punktowy przede
20
wszystkim dla cech
15
skokowych (duża liczba
10
powtarzających się
wartości),
5
0
20 22 24 26 28 30 32 34 36 38 40 42 44 46 48
Szereg rozdzielczy
przedziałowy
Zebrano dane dotyczące wagi 160 pracowników MPK
xi
<60-65) <65-70) <70-75) <75-80) <80-85) <85-90) <90-95) <95-100)
ni
8 15 17 20 26 28 30 16
35
30
Szereg rozdzielczy
25
przedziałowy dla cech
20
ciągłych lub dużej liczby
15 obserwacji cechy skokowej
10
5
0
<60-65) <65-70) <70-75) <75-80) <80-85) <85-90) <90-95) <95-100)
Rodzaje szeregów
rozdzielczych
Liczebności ni (prezentowane wcześniej) zliczają
liczbę obserwacji
Liczebności skumulowanej nsk zliczają liczbę
obserwacji występującą do danej klasy włącznie
Częstości stanowią odsetek
v
i
ni
obserwacji występujący w danej klasie
v =
i
(stosunek liczby jednostek o danej
n
wartości cechy do liczebności próby)
Częstości skumulowanej sk zliczają
v
nsk
odsetek obserwacji występującą do
v =
sk
danej klasy włącznie
n
Szeregi cd.
v
v
xi
sk
ni nsk
i
<60-65) 8 8 0,05 0,05
<65-70) 15 23 0,09375 0,14375
<70-75) 17 40 0,10625 0,25
<75-80) 20 60 0,125 0,375
<80-85) 26 86 0,1625 0,5375
<85-90) 28 114 0,175 0,7125
<90-95) 30 144 0,1875 0,9
<95-100) 16 160 0,1 1
n=160 1
Szeregi rozdzielcze prezentacje
graficzne
Histogram i diagram liczebności
35
30
25
20
15
10
5
0
<60-65) <65-70) <70-75) <75-80) <80-85) <85-90) <90-95) <95-100)
Zasady konstrukcji szeregów
rozdzielczych przedziałowych
Zasady nie są ścisłą regułą
Ustalić liczbę klas:
k 5ln n
k 1+ 3,322log n
k n
Ustalić szerokość przedziałów klasowych
R = xmax-xmin
R
h >
k
Zasady konstrukcji szeregów
rozdzielczych przedziałowych - przykład
Zbadano 100 gospodarstw domowych, które w
tym roku nabyły sprzęt gospodarstwa
domowego. Wydatek na ten cel mieścił się w
granicach od 625 zł do 1362 zł. Zaproponować
granicę 7 klas dla szeregu rozdzielczego
wydatków na ten zakup
Zasady konstrukcji szeregów
rozdzielczych przedziałowych - przykład
Zbadano dzienną liczbę produktów nie
spełniających założonej normy. Dane te
przedstawiają się następująco:
14; 16; 16; 22; 23; 23; 24; 26; 27; 27; 27; 28; 30;
30; 31;31; 32; 32; 34; 34; 36; 36; 37; 37; 38
Powyższe dane przedstawić w postaci szeregu
rozdzielczego:
punktowego
przedziałowego
Charakterystyki liczbowe
Parametry statystyczne służą do
syntetycznego opisu struktury zbiorowości
Miary położenia
Miary zmienności
Miary asymetrii
Miary koncentracji
vKlasyczne i pozycyjne
Miary położenia
Miary tendencji centralnej (miary
przeciętne) wskazują średni (typowy)
poziom wartości cechy
Kwantyle - wartości cechy badanej
jednostki, które dzielą ją na określone
części - pod względem liczby jednostek
Miary położenia cd.
Klasyczne (wyznaczane na podstawie wszystkich
obserwacji, nie trzeba porządkować obserwacji):
Średnia arytmetyczna
Średnia harmoniczna
Średnia geometryczna
Pozycyjne (wyznaczane na podstawie wartości
jednostek zajmujących szczególne pozycji w
uporządkowanym szeregu)
Modalna, Dominanta
Kwantyle (np. mediana, kwartyl pierwszy, kwartyl trzeci,
percentyle)
Miary położenia szereg
szczegółowy
Średnia arytmetyczna - suma wartości cechy
podzielona przez liczbę jednostek
n
1
x1 + x2 + ...+ xn
x = x = xi
n
n
i=1
Wybrane własności średniej arytmetycznej
n
!!!!!!!!
xmin < x < xmax
(x - x)= 0
i
i=1
Miary położenia szereg
szczegółowy
Modalna, moda, dominanta wartość
występująca najczęściej
Mo=D
Mediana (kwartyl drugi, wartość środkowa)
wartość dzieląca zbiorowość na dwie równe
n+1
ć
części
xŁ 2 ł dla n nieparzyst ych
n n
ć ć
Me =
+1
xŁ 2 ł + xŁ 2 ł
dla n parzystych
2
Miary położenia szereg
szczegółowy - przykład
Zebrano dane dotyczące wieku 11 pracowników dziekanatu
19, 20, 22, 23, 25, 28 ,28 ,29, 30, 33, 48
n
1 1
x = xi = (19 + 20 + 22 + 23 + 25 + 28 + 28 + 29 + 30 + 33 + 48) =
n 11
i=1
1
= 305 = 27,72
11
D = 28
n+1 11+1 12
ć ć ć
Me = xŁ 2 ł = xŁ 2 ł = xŁ 2 ł = x(6) = 28
Wybór miar położenia
W pewnym małym zakładzie kamieniarskim pracuje 7 osób
ich zarobki netto prezentują się następująco:
1000, 2000, 2000, 2000, 2000, 4000, 27000
Obliczyć odpowiednią miarę położenia
Były sobie 4 krasnoludki o wzroście 30, 30, 90, 90 cm. Co by
było gdyby krawiec uszył im ubranie wykorzystując do tego
jedną z miar tendencji centralnej?
Wybór miar położenia
Warunki stosowania średniej arytmetycznej:
znajomość wszystkich wartości badanej cechy
niewielkie zróżnicowanie
słaba asymetria
brak otwartych przedziałów klasowych: (domknąć gdy mniej
niż 5% obserwacji lub pominąć gdy mniej niż 1%)
Wady średniej arytmetycznej:
Nieodporna na wartości skrajne (odstające)
Średnia harmoniczna i geometryczna
Średnia geometryczna
n
stosowana przy badaniu xG = x1 x2 K xn
średniego tempa zmian
zjawisk a więc przy ujęciu
dynamicznym (indeksy)
n
Średnia harmoniczna
xH =
n
stosowana gdy wartości cechy
1
podane są w przeliczeniu na
xi
i=1
stałą jednostkę innej cechy
(km/h; kg/osobę, min/szt)
Inne średnie (zad. domowe)
Trzech studentów na wykonanie zadania ze
statystyki potrzebują odpowiednio 4 min, 6 min
oraz 12 min. Ile czasu zużywają średnio studenci
na wykonanie zadania jeżeli mają po 24 minuty.
Jaką średnią prędkością jechał samochód który
pokonał 100 km z prędkością 150 km/h oraz 100
km z prędkością 100 km/h
Średnie zaludnienie w San Marino to & & a
średnie zaludnienie we Francji to & & Jakie jest
średnie zaludnienie na obszarze obu tych państw
łącznie.
Miary położenia szereg rozdzielczy
punktowy
k
x1n1 + x2n2 + ...+ xknk 1
x = =
x ni
i
n n
i=1
Mo=D z definicji
n+1
ć
xŁ 2 ł dla n nieparzyst ych
n n
ć ć
Me =
+1
xŁ 2 ł + xŁ 2 ł
dla n parzystych
2
Szereg rozdzielczy punktowy - przykład
xi 22 23 28 35 36 38 42 45
ni 5 6 15 25 27 28 23 11
Miary położenia szereg rozdzielczy
przedziałowy
k
& & &
x1n1 + x2n2 + ...+ xknk 1
&i
x = =
x ni
n n
i=1
nD - nD-1
D = xD +
(nD - nD-1)+ (nD - nD+1) h
n
- K2
2
Me = xMe + h
nMe
Szereg rozdzielczy przedziałowy -
przykład
xi <60-65) <65-70) <70-75) <75-80) <80-85) <85-90) <90-95) <95-100)
ni 8 15 17 20 26 28 30 16
Kwantyle
n
- K1
4
Q1 = xQ + h
1
nQ
1
n p - KQ
p
Qp = xQ + h
p
nQ
p
3n
- K3
4
Q3 = xQ + h
3
nQ
3
Kwantyle -
zastosowania
Miary zmienności
Klasyczne miary zmienności
Wariancja i odchylenie standardowe
Odchylenie przeciętne
Współczynnik zmienności
Typowy przedział zmienności
Pozycyjne miary zmienności
Odchylenie ćwiartkowe
Rozstęp
Pozycyjny współczynnik zmienności
Pozycyjny przedział zmienności
Klasyczne miary zmienności
Wariancja miara zróżnicowania cechy,
(średnia arytmetyczna kwadratów odchyleń
poszczególnych wartości cechy od średniej
arytmetycznej) wielkość nieinterpretowalna
ze względu na kwadrat (zawsze dodatnia)
Odchylenie standardowe określa o ile
wszystkie jednostki danej zbiorowości różnią
się średnio od średniej arytmetycznej
(liczone jako pierwiastek z wariancji)
Klasyczne miary zmienności
wariancja i odchylenie standardowe
n
1
Szereg
s2 =
(x - x)2
i
n
szczegółowy i=1
Szereg rozdzielczy
k
1
s2 =
punktowy
(x - x)2ni
i
n
i=1
Szereg rozdzielczy
k
1
&i
s2 =
(x - x)2ni
przedziałowy
n
i=1
s = s2
Odchylenie standardowe w
szeregu szczegółowym
n n n n
1
2 2
s2 = -
(x - x)2 = 1 (x - 2xix + x2) = ć 1 x 2x 1 x + 1 n x2 =
i i i i
n n n n n
i=1 i=1 Ł i=1 ł i=1
n n
ć 1
2 2
- -
x 2xx + x2 = ć 1 x x2
i i
n n
Ł i=1 ł Ł i=1 ł
n n
1
2
s2 = -
(x - x)2 = ć 1 x x2
i i
n n
i=1 Ł i=1 ł
19, 20, 22, 23, 25, 28 ,28 ,29, 30, 33, 48
Odchylenie standardowe w
szeregu rozdzielczym punktowym
k k
1
2
s2 = -
(x - x)2ni = ć 1 x ni x2
i i
n n
i=1 Ł i=1 ł
xi 22 23 28 35 36 38 42 45
ni 5 6 15 25 27 28 23 11
PORADY
Wygodnie zastosować metodę tabelkową
Drugi ze wzorów wygodniej stosować w przypadku gdy
średnia nie jest liczbą całkowitą
Nauczyć się korzystać z 1 ze wzorów
Odchylenie standardowe w
szeregu rozdzielczym
przedziałowym
k k
1
&i &i2
s2 = -
(x - x)2ni = ć 1 x ni x2
n n
i=1 Ł i=1 ł
xi <60-65) <65-70) <70-75) <75-80) <80-85) <85-90) <90-95) <95-100)
ni 8 15 17 20 26 28 30 16
Klasyczne miary zmienności
odchylenie przeciętne
n
1
d = xi - x
Szereg szczegółowy
n
i=1
k
1
Szereg rozdzielczy
d = xi - x ni
n
i=1
punktowy
k
1
&
d = xi - x ni
Szereg rozdzielczy
n
i=1
przedziałowy
Pozycyjne miary zmienności
rozstęp i odchylenie ćwiartkowe
Rozstęp różnica między największą a
najmniejszą wartością cechy
R = xmax xmin
Odchylenie ćwiartkowe połowa różnicy
między trzecim a pierwszym kwartylem
Q3 - Q1
Q =
2
Współczynniki zmienności
Współczynnik zmienności iloraz
bezwzględnej miary zmienności cechy i jej
średniej wartości
Klasyczne współczynniki zmienności
s
d
Vs = 100
Vd = 100
x x
Pozycyjne współczynniki zmienności
Q
Q3 - Q1
VQ = 100 VQ Q3 =
1,
Q3 + Q1
Me
Współczynnik zmienności cd.
Współczynniki zmienności są wielkościami
niemianowanymi. Przyjmuje się że jeżeli
współczynnik zmienności jest poniżej 10%
to cechy wykazują zróżnicowanie
nieistotne
Współczynniki zmienności służą przede
wszystkim do porównywania zmienności
różnych cech lub różnych zbiorowości
Współczynnik zmienności cd.
Zbadano przychody trzech hoteli A, B i C . Obliczono
średnie arytmetyczne oraz odchylenia standardowe.
Dochody którego hotelu należy uznać za stabilniejsze?
xA = 600 xB = 800 xC = 400
sA =160 sB = 200 sC =100
Przedziały zmienności cechy
Typowy przedział zmienności (przedział 1-
sigmowy) znajduje się w nim około 2/3
wszystkich obserwacji
Klasyczny
x - s < xtyp < x + s
pozycyjny
Me - Q < xtyp < Me + Q
Miary asymetrii
Asymetria (skośność) wskazuje czy
większość obserwacji znajduje się
powyżej czy poniżej przeciętnego poziomu
badanej cechy
Jest niezbędnym uzupełnieniem miar
położenia i asymetrii
Znaczna asymetria może determinować
używanie miar pozycyjnych
Miary asymetrii po co liczyć?
Zarobki firma A firma B firma C
0-2000 5 10 30
2000-4000 10 70 75
4000-6000 20 50 75
6000-8000 10 50 105
8000-10000 5 20 15
5000 5000 5000
2190,9 2190,9 2190,9
25
20
Miary asymetrii cd.
15
10
5
0
0-2000 2000-4000 4000-6000 6000-8000 8000-10000
80
120
70
100
60
80
50
40
60
30
40
20
20
10
0
0
0-2000 2000-4000 4000-6000 6000-8000 8000-10000
0-2000 2000-4000 4000-6000 6000-8000 8000-10000
Miary asymetrii
Dla szeregów symetrycznych:
x = Me = D
Dla prawostronnej asymetrii (górka po lewej
stronie)
x > Me > D
Dla lewostronnej asymetrii (górka po prawej
x < Me < D
stronie)
Współczynniki skośności
x - D
As =
s
x - D Q3 + Q1 - 2Me
Ad = AQ =
d 2Q
A = 0 symetria
A > 0 asymetria prawostronna
A < 0 asymetria lewostronn a
Miary asymetrii cd.
25
20 80
120
70
100
15
60
80
50
10
40
60
30
40
5
20
20
10
0
0
0-2000 2000-4000 4000-6000 6000-8000 8000-10000
0
0-2000 2000-4000 4000-6000 6000-8000 8000-10000
0-2000 2000-4000 4000-6000 6000-8000 8000-10000
5000 - 2750
5000 - 6250
As = 0
As =
As =
2190,89
2190,89
As =1,027
As = -0,57
Miary spłaszczenia i
koncentracji - informacje
Miary spłaszczenie (współczynnik skupienia
kurtoza) stosujemy wyłącznie przy rozkładach
symetrycznych
Porównuje się z rozkładem normalnym
Im większe zróżnicowanie tym większe spłaszczenie,
im bardziej wysmukły tym mniejsza zmienność
(wartości występują w pobliżu średniej
Miary koncentracji (krzywa koncentracji
Lorenza) nierównomierny rozkład wartości
cechy pomiędzy poszczególne wartości cechy
Koncentracje wyznacza się przy skrajnej asymetrii
Wyszukiwarka
Podobne podstrony:
STATYSTYKA MATEMATYCZNA w1statystyka w1statystyka w1STATYSTYKA DLA FiR UMCSKEM w1arm fir init q15?Analiza zależności dwóch cech statystycznych ilościowychMN w1 Minimum funkcjiw1arm fir lattice init q31? sourceSD przykłady do w1 131 wprowadzenie do statystyki statystyka opisowaarm fir ?cimate ?st q15? sourceSozański Statystyczne miary zmienności a kwantyfikacja nierówności społecznejFIR Readmewięcej podobnych podstron