Statystyka opisowa



ZASTOSOWANIA
INŻYNIERSKIE
STATYSTYKI MATEMATYCZNEJ
Statystyka Opisowa
POJCIA STATYSTYKI
zbiór danych liczbowych
pokazujących kształtowanie się
określonych zjawisk i procesów
(roczniki statystyczne).
nazwy charakterystyk liczbowych
obliczanych na podstawie
zbiorowości próbnych (średnia
arytmetyczna z próby, odchylenie
standardowe).
PRZEDMIOT, ZADANIA I CELE
STATYSTYKI
Statystyka to dyscyplina naukowa,
której przedmiotem są metody
pozyskiwania i prezentacji,
a przede wszystkim analizy danych
opisujÄ…cych zjawiska masowe w celu
uzyskania uogólnionych informacji na
temat zjawisk, których te dane dotyczą.
Statystyka stosowana
Biometria
Demografia
Ekonometria
Fizyka statystyczna
Termodynamika statystyczna
Teoria eksperymentu
Zastosowania inżynierskie
qðW zastosowaniach inżynierskich dla
poznania zjawiska lub potwierdzenia
teorii posługujemy się
eksperymentem.
qðInżynierowi potrzebny jest wtedy
zestaw narzędzi oraz metod, które
umożliwią mu pozyskiwanie zbiorów
danych oraz operowanie na nich, w
celu sformułowania odpowiednich
wniosków.
Pozyskiwanie danych
Badanie statystyczne (proces)
Obserwacja statystyczna (pomiar,
zliczenie)
Zbiór (skończony lub nie)
Elementy zbioru (materialne lub nie)
Cechy (właściwości mierzalne lub nie)
Badania (pełne lub częściowe)
Losowy dobór prób
Metody analiz danych.
analiza wariancji
analiza korelacji
analiza regresji
analiza czynnikowa
analiza dyskryminacyjna
analiza szeregów czasowych
PODSTAWOWE POJCIA
STATYSTYCZNE
Zbiorowość (populacja) statystyczna.
Są to zbiory dowolnych elementów
materialnych lub zjawisk podobnych
pod względem określonych
właściwości.
Jeżeli przedmiotem badania są
wszystkie jednostki zbiorowości to
zbiorowość nazywamy zbiorowością
generalnÄ….
Przykłady obiektów
materialnych.
zbiorowość mieszkańców Polski,
miasta, akademika, tej sali,
zbiorowość budynków, mieszkań,
gospodarstw, rodzin,
zbiorowość przewodów w sieci
wodociÄ…gowej, kanalizacyjnej,
ciepłowniczej.
Przykłady obiektów
niematerialnych
zjawiska:
- zapotrzebowania na wodÄ™,
- zanieczyszczenia powietrza,
- skażenia gleby,
- stężenia ścieków,
- przepływu wody w rzekach,
- wytrzymałości materiałów,
- rzutu kostkÄ…,
- rzutu monetÄ….
Jednostki statystyczne
Elementy składowe zbiorowości to
jednostki statystyczne lub jednostki
badania.
Zbiorowości statystyczne powinny być
ściśle określone pod względem:
rzeczowym, kto lub co jest przedmiotem
badania,
przestrzennym, lokalizacja zbiorowości,
czasowym, jakiego momentu lub okresu
dotyczÄ… badania
Próba losowa
Podzbiór populacji generalnej
obejmujący część jej elementów
wybranych (wylosowanych) wg
określonego schematu nosi nazwę
zbiorowości próbnej (próby).
Jeżeli pobrana w sposób losowy
próba jest dostatecznie liczna to jest
to próba reprezentatywna.
Cechy statystyczne.
Badaniu statystycznemu podlegajÄ…
właściwości jednostek statystycznych
zwane cechami.
BiorÄ…c pod uwagÄ™ liczbÄ™ cech
poddanych badaniu zbiorowości
statystyczne dzielimy na jedno- i
wielowymiarowe.
Przykłady cech statystycznych
zbiorowość tej sali różni się pod
względem płci, wzrostu, koloru oczu,
miejsc zamieszkania, średniej za
ostatni semestr.
zbiorowość stężeń ścieków
dopływających do oczyszczalni różni
się pod względem natężenia dopływy,
BZT5, CHZT, mętności, ładunku
zanieczyszczeń, stężenia metali
ciężkich.
Statystyka opisowa.
Problemami zorganizowania badań
statystycznych, opracowania i
prezentacji materiału statystycznego
oraz sumarycznym opisem danych
statystycznych zajmuje siÄ™ statystyka
opisowa.
Opracowanie materiału
statystycznego
Obejmuje czynność grupowania i
zliczania.
Pogrupowany lub zliczony materiał
statystyczny jest prezentowany w
postaci szeregów, tablic lub wykresów
statystycznych.
SZEREGI STATYSTYCZNE
SZEREGI STATYSTYCZNE
Szczegółowe Rozdzielcze Przestrzenne Czasowe
cech
cech mierzalnych momentów
okresów
niemierzalnych
punktowe
przedziałowe
Szeregi szczegółowe
1. Szczegółowe (wyliczające)  przy
niewielkiej liczbie jednostek
uporządkowany ciąg wartości
badanej cechy tworzy szereg
szczegółowy.
Np. x1>=x2>=x3>=& .>=xn.
Szeregi rozdzielcze 1
Zbiór wartości liczbowych
uporządkowanych wg wariantów
badanej cechy, przy czym
poszczególnym wariantom
przyporzÄ…dkowuje siÄ™ odpowiadajÄ…ce
im liczebności.
BudujÄ…c szeregi dla cechy skokowej
(dyskretnej) warianty możemy podać
punktowo (np. liczba awarii na
rurociągu) lub przedziałowo.
Szeregi rozdzielcze 2
Dla cech ciągłych buduje się szeregi
rozdzielcze przedziałowe (zużycie
wody na mieszkańca).
Zestawienie wyników w postaci
szeregu rozdzielczego nazywamy
rozkładem empirycznym.
Liczba przedziałów
Liczba przedziałów (klas) w szeregu
zależna jest od obszaru zmienności
cechy, od liczebności zbiorowości i
od celu badania.
W praktyce proponuje siÄ™, aby
liczba klas mieściła się w granicach
5-30.
Rozpiętość przedziału
Rozpiętość przedziału (interwał)
i = (xmax-xmin)/k.
Interwały klasowe powinny być
jednakowe.
Wskazniki struktury
W szeregach rozdzielczych dla
określenia rozkładu, czyli struktury
badanej zbiorowości, stosuje się obok
liczebności bezwzględnych, wskazniki
struktury zwane częstością,
liczebnością względną lub frakcją).
wi = ni/N, 0<=wi<=1
S wi=1; S ni=N.
Przykład 1
W ciÄ…gu roku na 20 wybranych
rurociągach wystąpiła następująca
liczba awarii:
0,3,1,1,2,2,0,0,3,5,0,1,2,2,1,1,0,1,1,1
Przykład 1
Zbiorowością jest tu 20 wybranych
rurociągów, a badaną cechą liczba
awarii w ciÄ…gu roku.
Cecha ta może przyjmować
następujące wartości (warianty):
0,1,2,3,4,5& .
Cecha tego typu (przyjmujÄ…ca
wartości ze zbioru przeliczalnego) jest
cechÄ… dyskretnÄ… (skokowÄ…).
Przykład 1. Szereg rozdzielczy
Liczba
awarii Liczba rur Częstość
0 5 0,25
1 8 0,4
2 4 0,2
3 2 0,1
4 0 0
5 1 0,05
Przykład 1. Szereg
skumulowany
Liczba Częstość
Liczba skumulowana skumulow
awarii rur ana
0 5 0,25
1 13 0,65
2 17 0,85
3 19 0,95
4 19 0,95
5 20 1
Przykład 2.
Badając wskaznik zużycia wody na
mieszkańca na dobę przebadano
1393 gospodarstwa domowe.
Zarejestrowano zmienność zużycia w
granicach od 10 do 70 l/mk/dobÄ™.
Wyniki zestawiono w postaci
szeregów rozdzielczych.
Przykład 2. Szereg rozdzielczy
ciągły.
Zużycie Liczba Wskaznik
wody gospodarstw struktury
10-20 204 14,64
20-30 264 18,95
30-40 356 25,56
40-50 320 22,97
50-60 201 14,43
60-70 48 3,45
Przykład 2. Szereg rozdzielczy
ciągły skumulowany.
Zużycie Liczba Wskaznik
wody gospodarstw struktury
10-20 204 14,64
20-30 468 33,60
30-40 824 59,15
40-50 1144 82,12
50-60 1345 96,55
60-70 1393 100,00
Dystrybuanta empiryczna
PrzyporzÄ…dkowanie kolejnym
wartościom cechy statystycznej
odpowiadających im częstości
skumulowanych nazywamy
dystrybuantÄ… empirycznÄ….
GRAFICZNA PREZENTACJA
ROZKAADU EMPIRYCZNEGO
Do prezentacji materiału
statystycznego wykorzystywane sÄ…
również wykresy statystyczne.
Rodzaje wykresów :
histogramów (wykresów słupkowych),
diagramów (wieloboków liczebności),
krzywych liczebności (częstości).
Wykresy statystyczne
Jeśli przy sporządzaniu wykresów
korzysta się z układu współrzędnych
to na osi odciętych x odkłada się
zazwyczaj wartości cechy, a na osi
rzędnych y liczebności występowania
wariantów cech lub ich częstości.
Histogram 1
Histogram rozkładu awarii rurociągów
9
8
8
7
6
5
5
4
4
3
2
2
1
1
0
0
1 2 3 4 5 6
Liczba awarii
Liczba rur
Histogram 2
Dystrybuanta empiryczna liczby
awarii rurociągów
1,2
1
0,95 0,95
1
0,85
0,8
0,65
0,6
Series1
0,4
0,25
0,2
0
1 2 3 4 5 6
Liczba awarii
F
Histogram 3
Histogram z równymi przedziałami
400
350
300
250
200
Series1
356
320
150
264
204
100 201
50
48
0
10-20 20-30 30-40 40-50 50-60 60-70
Klasy zużycia wody
Liczba gospodarstw
Wielobok liczebności
Wielobok liczebności
400
356
350
320
300
264
250
204
200 201 Series1
150
100
50
48
0
15 25 35 45 55 65
Zużycie wody
Liczba gospodarstw
Krzywa liczebności
Krzywa liczebności
400
356
350
320
300
264
250
204
200 201 Series1
150
100
50
48
0
0 20 40 60 80
Zużycie wody
Liczba gospodarstw
Szeregi zużycia wody
10-20 204 14,64 10-20 204 14,64
10 10
20-30 264 18,95 20-30 264 18,95 10
10
30-40 356 25,56 30-40 356 25,56 10
10
40-50 320 22,97 40-50 320 22,97 10
10
50-60 201 14,43 50-70 249 17,88 20
10
60-70 48 3,45
10
Histogram 4
Histogram przy nierównych przedziałach
400
356
320
350
264
300
249
250
204
200 Series1
150
100
50
0
10-20 20-30 30-40 40-50 50-70
Klasy zużycia wody
Liczba gospodarstw
Standaryzacja wykresu
Standaryza
rozpiętość cja
ni wi % i ni/i wi/i Pole
10-20 204 14,64
10 20,40 0,0146 0,1464
20-30 264 18,95 10
26,40 0,0190 0,1895
30-40 356 25,56 10
35,60 0,0256 0,2556
40-50 320 22,97 10
32,00 0,0230 0,2297
50-70 249 17,88 20
12,45 0,0089 0,1788
1393 100,00 1,0000
Histogram standaryzowany
0,0300
0,0256
0,0230
0,0250
0,0190
0,0200
0,0146
0,0150 Series5
0,0089
0,0100
0,0050
0,0000
10-20 20-30 30-40 40-50 50-70
Charakterystyki rozkładu cechy
Do opisu rozkładu badanej cechy
wykorzystuje siÄ™:
miary położenia,
miary zróżnicowania (zmienności,
rozproszenia, dyspersji),
miary asymetrii (skośności),
miary koncentracji (w analizach
ekonomicznych).
MIARY POAOŻENIA
Åšrednia arytmetyczna
Średnia ważona
Dominanta
Kwantyle
Mediana
Decyle
Centyle
Åšrednia arytmetyczna
Najbardziej znaną miarą położenia
jest średnia arytmetyczna.

gdzie:
n- liczba obserwacji,
xi- indywidualne obserwacje (warianty
cechy).
Średnia ważona 1
Przy wyznaczaniu średniej arytmetycznej w
rozkładzie empirycznym cechy ciągłej
dysponujemy szeregiem rozdzielczym i nie
mamy informacji o konkretnych
wartościach cechy, lecz jedynie o
przedziałach jej wartości (zużycie wody od-
do).
W tej sytuacji średnią wyznacza się w
sposób przybliżony wychodząc z założenia,
że średnia wartość cechy w każdym z
przedziałów jest równa środkowi przedziału
Średnia ważona 2
Liczona jest ze wzoru:
k
1
x =ð i
åðx * ni
n
i=ð1
lub, gdy warianty zmiennej opisane
są częstotliwością (wskaznikiem
struktury), to obliczamy wówczas
średnią ważoną wzorem:
k
x =ð i
åðx * wi
i=ð1
Własności średniej 1
x
1. xmin 2. suma odchyleń poszczególnych
wartości zmiennej od średniej
arytmetycznej jest równa zeru, czyli:
n
i
dla szeregu wyliczajÄ…cego,
åð(x -ð x) =ð 0
i=ð1
k
dla szeregu rozdzielczego
i
åð(x -ð x)ni =ð 0
i=ð1
dyskretnego,
k
Ć
i
åð(x -ð x)ni =ð 0 dla szeregu rozdzielczego
i=ð1
przedziałowego,
Własności średniej 2
średnia arytmetyczna sumy (różnicy)
zmiennych równa się sumie (różnicy)
ich średnich arytmetycznych,
jeżeli wszystkie wartości zmiennej
powiększymy (pomniejszymy,
pomnożymy, podzielimy) o pewną
stałą, to średnia arytmetyczna będzie
równa sumie (różnicy, iloczynowi,
ilorazowi) średniej arytmetycznej
wyjściowych zmiennych i tej stałej,
Åšrednia harmoniczna
ÅšredniÄ… harmonicznÄ… n liczb
x1,x2,...,xn (w jednostkach względnych)
nazywamy liczbÄ™ H, gdzie ni to wagi
n
H =
1 1 1
+ð +ð ... +ð
x1 x2 xn
n1 +ð n2 +ð ... +ð nn
H =
n1 n2 nn
+ð +ð ... +ð
x1 x2 xn
Åšrednia geometryczna
ÅšredniÄ… geometrycznÄ… n dodatnich
liczb x1,x2,...,xn nazywamy liczbÄ™
n
G =ð x1* x2*...* xn
Dominanta
żð Dominanta (modalna, wartość
najczęstsza) jest to taka wartość
cechy, która w danym rozkładzie
empirycznym występuje najczęściej.
żð W szeregach rozdzielczych
przedziałowych bezpośrednio można
określić tylko przedział, w którym
występuje dominanta (jest to
przedział o największej liczebności).
Dominanta
x od  dolna granica klasy, w której
znajduje siÄ™ dominanta,
n d  liczebność przedziału dominanty,
n d-1  liczebność przedziału
poprzedzającego przedział dominanty,
n d+1 liczebność przedziału następującego
po przedziale dominanty,
h d  rozpiętość przedziału dominanty,
Graficzna metoda wyznaczania
dominanty
Graficzna metoda wyznaczania
dominanty sprowadza siÄ™ do
wykreślenia histogramu liczebności z
trzech przedziałów klasowych.
Warunki wyznaczania
dominanty
Wyznaczanie dominanty jest
uzasadnione wówczas, gdy szereg
spełnia następujące warunki:
rozkład posiada jeden ośrodek
dominujÄ…cy (jednomodalny),
asymetria rozkładu jest umiarkowana,
przedział klasowy zawierający
dominantę i przedziały sąsiednie
posiadają jednakowe rozpiętości.
Kwantyle
Każdy kwantyl dzieli dzieli zbiorowość
uporządkowaną na dwie części pod
względem liczebności.
Wyróżniamy:
" Kwartyle,
" 1
" 2
" 3
" Decyle,
" Centyle.
Mediana
Medianą rozkładu empirycznego Me
nazywamy taką wartość cechy w
szeregu uporządkowanym, która dzieli
ogólną liczbę jednostek zbiorowości
na połowy.
x (N+1)/2, gdy N jest nieparzyste
Me =
(x + x (N/2+1))/2 , gdy N jest parzyste
N/2
Wyznaczanie mediany
Do wyznaczenia mediany można użyć
szeregu skumulowanego lub
dystrybuanty empirycznej.
Mianowicie, medianę można określić
jako taką pierwszą wartość cechy, dla
której zachodzi
n(x)>=n/2, czyli skumulowana
liczebność rozkładu osiąga wartość
n/2 lub
F(Me)>=1/2, czyli dystrybuanta
empiryczna przyjmuje wartość ½.
Mediana cechy ciągłej
W przypadku cechy ciągłej niezbędna jest
interpolacja do wyznaczenia wartości
mediany :

xom - dolna granica przedziału, w którym
znajduje się wartość mediany,
n(xom)  liczebność skumulowana dla
dolnej granicy przedziału mediany,
hm /nm  rozpiętość i liczebność przedziału
mediany,
n  liczebność całkowita.
Miary zróżnicowania
Zróżnicowanie (dyspersja)
wartości cechy w zbiorze jest
następną ważną charakterystyką
rozkładu.
Miarami klasycznymi sÄ… :
Wariancja
Odchylenie standardowe
Wariancja
WariancjÄ… dla zbioru danych
nazywamy wyrażenie :
k
1
s2 =ð
åð(x -ð x)2 n j
j
n
j=ð1
k
1
Ć
s2 =ð
åð(x -ð x)2 n
j j
n
j=ð1
Własności wariancji
Wariancja jest różnicą pomiędzy
średnią arytmetyczną kwadratów
wartości cechy i kwadratem średniej
arytmetycznej tej cechy.
n
2
2
1
s2 =ð
åðx -ð x
i
n
i=ð1
Równość wariancyjna
Jeżeli zbiorowość podzielimy na k grup, to
wariancja dla całej zbiorowości będzie sumą
dwóch składników:
k k
1
2
s2 =ð
i
åðs ni +ð 1 åð(x -ð x)2 ni
i
n n
i=ð1 i=ð1
średniej arytmetycznej z wariancji obliczonych dla
populacji czÄ…stkowych (wariancji
wewnÄ…trzgrupowej) oraz
wariancji średnich grupowych (wariancji
międzygrupowej)
Odchylenie standardowe
Wariancja jest wielkością
kwadratową. Aby uzyskać miarę
zróżnicowania w jednostkach
zgodnych z jednostkami badanej
cechy należy obliczyć pierwiastek
kwadratowy z wariancji. W wyniku
pierwiastkowania uzyskamy miarÄ™
zwanÄ… odchyleniem standardowym.
S = sqr(s2 )
Przykład 1
Dokonano pomiaru długości rur
kanalizacyjnych produkowanych przez
producentów A i B.
Na podstawie pomiarów
rozstrzygnąć, który producent
powinien być dostawcą rur.
Przykład 2
Wykonano odczyty zużycia wody w trzech
kolejnych dniach z różnych liczników.
W dniu 1 odczytano 150 liczników otrzymując
średnią wartość odczytu = 172 litry z odchyleniem
standardowym 7 litrów.
W dniu 2 odczytano 100 liczników otrzymując
średnią wartość odczytu = 170 litry z odchyleniem
standardowym 4 litrów.
W dniu 3 odczytano 50 liczników otrzymując
średnią wartość odczytu = 168 litry z odchyleniem
standardowym 8 litrów.
Należy przy wykorzystaniu równości wariancyjnej
zbadać zróżnicowanie wskazań liczników we
wszystkich 3 dniach Å‚Ä…cznie.
Standaryzacja zmiennych
Cechy mogą być przekształcone, z użyciem
średniej arytmetycznej i odchylenia
standardowego do postaci standardowej.
Niech x będzie obserwacją należącą do
zbioru danych o średniej i odchyleniu
x
standardowym s . Wartością
standaryzowanÄ… odpowiadajÄ…cÄ… obserwacji
xi jest wartość ui otrzymana z
przekształcenia
ui =ð (xi -ð x) / s
Parametry zmiennych
unormowanych
Dla każdego zbioru danych xi zbiór
odpowiadających im wartości
unormowanych ui spełnia warunki
uśr = 0
su = 1
Współczynnik zmienności
Współczynnik zmienności wyrażony
procentowo mówi jaki procent poziomu
średniej stanowi odchylenie standardowe.
s
V =ð
x
Współczynnik zmienności jest stosowany
najczęściej przy porównywaniu
zróżnicowania cechy w dwóch różnych
próbach (rozkładach).
V>20% świadczy o dużym zróżnicowaniu
zbiorowości pod względem badanej cechy.
MIARY ASYMETRII
Z punktu widzenia potrzeb analizy
statystycznej istotny jest nie tylko
przeciętny poziom i wewnętrzne
zróżnicowanie zbiorowości, ale
również fakt, czy przeważająca liczba
jednostek znajduje się powyżej czy
poniżej przeciętnego poziomu
badanej cechy. Problem ten wiąże się
z oceną asymetrii rozkładu.
Asymetria rozkładu
Asymetrię rozkładu określamy na drodze
porównywania dominanty, mediany i
średniej arytmetycznej.
W rozkładach symetrycznych wszystkie
miary położenia (xśr, D, Me) są sobie
równe.
xśr> Me > D, to rozkład charakteryzuje się
asymetriÄ… prawostronnÄ…,
xśr < Me < D, to rozkład charakteryzuje
siÄ™ asymetriÄ… lewostronnÄ….
Miary asymetrii 1
NajprostszÄ… miarÄ… asymetrii jest
wskaznik skośności określony
wzorem:
Ws = xśr  D.
W przypadku asymetrii lewostronnej
wskaznik skośności jest ujemny, a
prawostronnej dodatni. Określa on
kierunek asymetrii.
Miary asymetrii 2
Miarą określającą zarówno kierunek
jak i siłę asymetrii jest współczynnik
asymetrii.
As = (xśr  D)/s
Współczynnik asymetrii zawiera się w
granicach <-1,1>.
Miary asymetrii 3
Współczynnik asymetrii można
również obliczyć jako iloraz momentu
centralnego 3 rzędu i sześcianu
odchylenia standardowego.
As = m3/s3
Momenty centralne
Moment centralny l-tego rzędu jest
średnią arytmetyczną l-tych potęg
odchyleń zmiennych od wartości
średniej
n l
1
ml =ð
åð(x -ð x)
i
n
i=ð1
k l
1
ml =ð
åð(x -ð x) ni
i
n
i=ð1
k l
1
Ći
ml =ð
åð(x -ð x) ni
n
i=ð1
Miara koncentracji
Współczynnik koncentracji można
obliczyć jako iloraz momentu
centralnego 4 rzędu i potęgi 4
odchylenia standardowego.
K = m4/s4
Przykład
Przykład pokazujący wykorzystanie
momentów do opisu różnic w rozkładach
cech..
Liczebność
Szereg 1 Szereg 2 Szereg 3 Szereg 4
Åšrodki klas
1 0 2 0 2
2 6 2 2 4
3 12 10 20 10
4 14 22 12 12
5 12 10 10 20
6 6 2 4 2
7 0 2 2 0
50 50 50 50


Wyszukiwarka

Podobne podstrony:
1 wprowadzenie do statystyki statystyka opisowa
2 Statystyka opisowa S
Statystyki opisowe
Statystyka opisowa rozwiÄ…zane kolowkia
Statystyka opisowa
4 Statystyka opisowa i rozkład normalny
Statystyka opisowa
STATYSTYKA OPISOWA
Statystyka opisowa i ekonomiczna Wykład 1
statystyka opisowa 11
Tworzenie statystyk opisowych w Excelu
Wykład 2 statystyka opisowa

więcej podobnych podstron