Analiza danych1

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Jednowymiarowa i

wielowymiarowa

analiza danych

Dr inż. Wiesław Błażejczyk
156/25 tel. 813490
w.blazejczyk@aon.edu.pl

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Zbiorowość statystyczna (populacja):
zbiór dowolnych obiektów objętych
badaniem statystycznym.
Jednostka badania (jednostka
statystyczna): element zbiorowości
statystycznej (populacji).

PODSTAWOWE POJĘCIA

Rozróżnia się zbiorowość statystyczną
generalna –(obejmująca badaniem wszystkie elementy
będące przedmiotem badania
próbną – jest to pewnie podzbiór zbiorowości generalnej
odpowiednio (tzn. losowo) wybrany
(Na ogół badania prowadzi
się na zbiorowości próbnej i i uogólnia wnioski na cała populację.

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Cecha statystyczna: właściwość jaką odznaczają się
jednostki wchodzące w skład badanej populacji.

- cecha statystyczna jakościowa (niemierzalna): cecha
określana słownie (np. płeć, zawód), w tym: cecha
dychotomiczna
(podział dwudzielny);
- cecha statystyczna ilościowa (wzrost, czas pracy,
dochód), w tym: cechy ciągłe (czas do uszkodzenia),
cechy skokowe
(liczba uszkodzeń);
- cecha statystyczna quasi-ilościowa (porządkowa), np.
stopnie w szkole.

Cechy mierzalne dzielimy na :

skokowe ( dyskretne) (jeśli wszystkich wartości jest stosunkowo
niewiele.
np. liczba rodzeństwa, oceny studentów (przyjmują tylko
niektóre wartości)

ciągłe mogą przyjmować, każdą wartość z określonego
przedziału,
przy czym, ilość miejsc po przecinku uzależniona jest od
dokładności prowadzonych pomiarów.

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Prezentacja materiału statystycznego
Szereg statystyczny - zbiór wyników obserwacji jednostek
według pewnej cechy uporządkowanych wg określonego
kryterium.
Szereg szczegółowy - uporządkowany ciąg wartości badanej
cechy statystycznej, stosowany, gdy przedmiotem badania jest
niewielka liczba jednostek,
Szereg rozdzielczy: stanowi zbiorowość statystyczną,
podzieloną na części (klasy) według określonej cechy jakościowej
lub ilościowej z podaniem liczebności lub częstości każdej z
wyodrębnionych klas.
Szereg czasowy: wartości badanej cechy zmierzone w kolejnych
momentach.
Szereg rozdzielczy skumulowany - uzyskuje się poprzez
przyporządkowanie kolejnym wariantom cechy odpowiadających
im liczebności (częstości) skumulowanych, informuje, dla ilu
jednostek badanej zbiorowości cecha przyjmuje wartości nie
większe od górnej granicy poszczególnego przedziału klasowego.

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Stosowanie szeregów statystycznych:
szereg rozdzielczy z przedziałami klasowymi -

dla cech ciągłych

szeregi rozdzielcze bez przedziałów klasowych lub z przedziałami
klasowymi - dla cech mierzalnych skokowych - zależnie od możliwości
wartości (wariantów) cech: dla niewielkiej liczby wariantów - szereg
rozdzielczy punktowy, dla dużej szereg rozdzielczy z przedziałami
klasowymi. 

szereg rozdzielczy z cechą niemierzalną -

szereg geograficzny

(terytorialny) - przedstawia rozmieszczenie pewnych zjawisk w
przestrzeni (np. zestawienie liczby gmin w Polsce).

szereg czasowy -

(dynamiczny chronologiczny) powstaje w wyniku

grupowania typologicznego i wariacyjnego, gdy podstawą
grupowania jest zmiana badanego zjawiska w czasie

:

- szereg czasowy okresów -

zawiera informację o rozmiarach

zjawiska w krótszych lub dłuższych okresach

.

- szereg czasowy momentów -

ujmuje wielkość zjawiska w danym

momencie, najczęściej na początku lub końcu np. miesiąca

.

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

SZEREGI STATYSTYCZNE

Szereg prosty:

Szereg rozdzielczy: punktowy

przedziałowy

i

x

i

 

i

x

i

n

i

 

i

x

id

-x

ig

n

i

1

x

1

 

1

x

1

n

1

 

1

x

1d

-x

1g

n

1

2

x

2

 

2

x

2

n

2

 

2

x

2d

-x

2g

n

2

..

.

...

 

...

...

...

 

...

 

...

n

x

n

 

k

x

k

n

k

 

k

x

kd

-x

kg

n

k

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Miary opisowe w syntetyczny sposób
charakteryzują struktury danych statystycznych:
•poziom cechy,
•zróżnicowanie wartości
•oraz kształt rozkładu.

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Rodzaje miar:
położenia (inne nazwy- miary tendencji centralnej,
przeciętnego poziomu): średnia arytmetyczna, dominanta,
kwantyle, kwartyle,
mediana
rozproszenia (inne nazwy – miary zróżnicowania,
zmienności, rozrzutu, dyspersji): rozstęp, wariancja,
odchylenie standardowe,
typowy obszar zmienności, klasyczny współczynnik
zmienności
, odchylenie ćwiartkowe (kwartylowe)
kształtu rozkładu: współczynnik skośności Pearsona,
klasyczny współczynnik zmienności, pozycyjny
współczynnik
asymetrii,

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Średnie:
Średnia arytmetyczna:
a) średnia zwykła

b) średnia ważona

Miary położenia (przeciętne)

N

x

N

x

x

x

x

N

i

i

N

1

2

1

N

n

x

N

n

x

n

x

n

x

x

k

i

i

i

k

k

1

2

2

1

1

k

n

n

n

N

2

1

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

c) średnia z szeregu rozdzielczego
przedziałowego

N

n

x

N

n

x

n

x

n

x

x

k

i

i

i

k

k

1

2

2

1

1

k

n

n

n

N

2

1

W przypadku, gdy przedziały klasowe (pierwszy i ostatni) są otwarte, a
ich liczebności są stosunkowo małe, można dokonać umownego ich
zamknięcia ustalić wartości środków przedziałów. Nie można jednak tak
postąpić w przypadku, gdy udział liczebności otwartych przedziałów w
ogólnej sumie liczebności jest znaczny, czyli w tej sytuacji nie da się
wyznaczyć średniej arytmetycznej.

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Średnia harmoniczna:
a) średnia harmoniczna zwykła

Zastosowanie średniej harmonicznej: w
analizie indeksów statystycznych
wyrażanych w jednostkach względnych,
tzn. takich które możemy przedstawić jako
stosunek (iloraz) dwu
innych wielkości. Na przykład:

Przykład: Dwa portfele inwestycyjne przyniosły zysk po 10000
złotych każdy. W pierwszym portfelu zysk z każdej zainwestowanej
złotówki wynosił 10 groszy, zaś w drugim 14 groszy. Jaka jest
średnia stopa zysku z obu portfeli.
Stopa zysku z pierwszego portfela - 10%
Stopa zysku z drugiego portfela - 14%

Dlaczego 11,66 % a nie 12%?
Jaki zainwestowano kapitał? Jaka jest stopa zysku z całego
kapitału?

N

i

i

x

N

H

1

1

netto

sprzeda

ż

netto

zysk

sprzeda

żp

rentowno

śe

3

2

11

6

70

14

1

10

1

2

H

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

b) średnia harmoniczna ważona

k

i

i

i

x

n

N

H

1

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Średnia geometryczna:.

Zastosowanie średniej geometrycznej: w analizie szeregów
czasowych
Przykład: Miesięczne wskaźniki inflacji w trzech miesiącach
pierwszego kwartału 1998 roku wynosiły odpowiednio: 3,2%, 1,7%
oraz 0,6%. Jaka była średnia miesięczna inflacja w pierwszym
kwartale?

N

N

i

i

N

N

g

x

x

x

x

x

x

1

2

1

~

83

,

101

6

,

100

7

,

101

2

,

103

~

3

g

x

x

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Wartość modalna (dominanta): wartość zmiennej, która
w danym rozkładzie empirycznym występuje
najczęściej.

Przeciętne pozycyjne

Liczba dzieci w

małżeństwie

0

1

2

3

4

Liczba małżeństw

6

18 34 14

9

Wartość modalna ?

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Kwantyle: wartości cechy, które dzielą badaną
zbiorowość
na określone części.
Kwartyle (Q1, Q2 (Me), Q3): oddzielają ćwiartki.
Mediana (Me): dzieli badaną zbiorowość na połowę;
Dane dokładne:

2

1

N

x

1

2

1

2

2

N

N

x

x

Me
=

Gdy N jest nieparzyste

Gdy N jest parzyste

Mediana jest miarą pozycyjną, która rozdziela całą populację na dwie liczebnie
równe części. Wynika z tego, że dla znalezienia mediany trzeba najpierw
uporządkować zbiorowość niemalejąco według wartości badanej cechy. W
szeregu przedziałowym przedziały skrajne mogą pozostać otwarte, gdyż nie mają
one bezpośredniego wpływu na wartość mediany. W szeregach, dla których nie
można się średnią arytmetyczną, do liczbowej charakterystyki przeciętnego
poziomu zjawiska należy wykorzystywać medianę.

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Dane przedziałowe (grupowane)

N - liczba obserwacji
k - liczba (przedziałów) klas od pierwszej do tej, w której
znajduje się mediana,
i

Me

- rozpiętość (klasy) przedziału, w którym znajduje się

mediana,
n

Me

- liczność klasy, w której znajduje się mediana,

x

Me

- dolna granica klasy, w której znajduje się mediana

Me

Me

k

i

i

N

Me

i

n

n

x

Me

1

1

2

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Zestawienie miar opisu struktury dla szeregu rozdzielczego przedziałowego:

 

   

258,7

Me

248,0

Do

238,7

S

146,1

Q

111,2

V

S

56,5%

V

Q

44,8%

A

s

0,05

W

s

0,14

x

i

 

          

n

i

                    

   

 

                 

           

 

                   

                    

 

                         

                        

<0;100)

50

30

1500

-208,7

43553,

9

1306616,

3

<100;20

0)

150

38

5700

-108,7

11814,

7

448960,3

<200;30

0)

250

50

12500

-8,7

75,6

3780,7

<300;40

0)

350

31

10850

91,3

8336,5

258431,0

<400;50

0)

450

22

9900

191,3

36597,

4

805141,8

<500;60

0)

550

13

7150

291,3

84858,

2

1103156,

9

 

Suma

184

47600

 

 

3926087,

0

i

x

i

i

n

x

x

x

i

2

)

(

x

x

i

i

i

n

x

x

2

)

(

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Miary zmienności

a) Wariancja
Dane dokładne:

Dane przedziałowe
(grupowane):

N

i

i

N

x

x

s

1

2

1

2

i

m

i

i

N

n

x

x

s

1

2

1

2

i

m

i

i

N

n

x

x

s

1

2

1

2

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Alternatywny sposób obliczania:

b) Odchylenie standardowe

2

2

2

x

x

s

i

2

s

s

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

c) Odchylenie przeciętne

d) Odchylenie
ćwiartkowe

Q < d < s

N

i

i

N

x

x

d

1

1

i

k

i

i

N

n

x

x

d

1

1

2

1

3

Q

Q

Q

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Współczynnik zmienności

x

s

V

s

x

d

V

d

Me

Q

V

Q

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Rozstęp
Całkowita zmienność w wartości cechy w próbie
(wstępna ocena dyspersji, miara pozycyjna)

R= x

max

– x

min

x

max

– najwyższa wartość cechy

x

min

– najniższa wartość cechy.

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Typowy obszar zmienności wartości cechy w
doświadczeniu

Przykład. Komunikat: Średnia temperatura lipca wynosi 17

0

+- 2

0

Typowy obszar zmienności to przedział [15

0

, 19

0

]

s

x

x

s

x

typ

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Miary asymetrii

Współczynnik asymetrii
(skośności)

s

D

x

A

s

Q

Me

Q

Q

A

s

2

2

1

3

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Wskaźnik asymetrii (zwany również miernikiem skośności) dla szeregu
symetrycznego jest równy zero. W szeregach asymetrycznych miernik
skośności może być większy lub mniejszy od zera, mówimy wówczas o
asymetrii prawostronnej (dodatniej) lub asymetrii lewostronnej (ujemnej).
W szeregu o skośności prawostronnej wartości skrajne położone są z prawej
strony średniej. Powoduje to przesunięcie średniej arytmetycznej w
kierunku prawym w stosunku do dominanty i mediany. W szeregu o
skośności lewostronnej występuje sytuacja odwrotna.

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Metody analizy współzależności

Współczynnik korelacji liniowej Pearsona -
współczynnik określający poziom zależności liniowej
między zmiennymi losowymi.

Obserwujemy n par liczb (x

i

,y

i

), i=1,2...,n.

Wyznaczamy oszacowanie kowariancji zmiennych X i Y:

y

x

xy

y

y

x

x

x

y

Cov

y

x

Cov

i

n

i

i

n

)

)(

(

)

,

(

)

,

(

1

1

i

n

i

i

n

y

x

xy

1

1

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

)

(

)

(

)

,

cov(

)

,

(

)

,

(

Y

S

X

S

Y

X

X

Y

r

Y

X

r

N

i

i

N

x

x

X

S

1

2

1

)

(

)

(

N

i

i

N

y

y

Y

S

1

2

1

)

(

)

(

)

)(

(

)

,

cov(

1

1

y

y

x

x

Y

X

i

N

i

i

N

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Wyznaczamy empiryczne odchylenia standardowe
s(x) oraz s(y)

Interpretacja:
r = 0 - brak zależności liniowej;
r = 1 - dodatnia zależność liniowa;
r = -1 - ujemna zależność liniowa.

)

(

)

(

)

,

(

y

s

x

s

y

x

Cov

r

r

r

yx

xy

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Analiza regresji

Badanie zależności dla przypadku gdy wartości jednej
zmiennej zależą od wartości innej zmiennej (zmiennych).
W wielu przypadkach spotykanych w praktyce interesuje nas
zależność obserwowanej zmiennej (zmiennej zależnej) Y od
wartości jakie przyjmuje inna zmienna, zwana zmienną niezależną
X
. Zmienną zależną Y nazywamy czasami zmienną objaśnianą, a
zmienną niezależną X nazywamy wówczas zmienną objaśniającą.
Interesują nas zazwyczaj przypadki gdy zależność ta ma postać
liniową

gdzie ε jest zmienną (zakłóceniem) o zerowej wartości średniej i stałej
wariancji.

0

1

x

Y

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Wartości parametrów modelu β

0

oraz β

1

wyznaczamy na

podstawie obserwacji par (X,Y).
Wykorzystujemy do tego celu tzw. metodę najmniejszej sumy
kwadratów błędów
(nazywaną często potocznie metodą
najmniejszych kwadratów).
Na podstawie obserwacji n par (X

i

,Y

i

), i=1,...,n poszukujemy

takich wartości b0, b1 nieznanych parametrów modelu β

0

oraz β

1

, by zminimalizować wartość sumy:

Uzyskujemy w ten sposób taką prostą Y=b

1

X+b

0

, że zostanie

zminimalizowana suma kwadratów odległości pomiędzy
zaobserwowanymi punktami (X

i

,Y

i

), a wyznaczoną prostą.

2

1

0

1

)

(

i

n

i

i

X

b

b

Y

S

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Oszacowane równanie regresji zmiennej Y
względem
zmiennej X przyjmuje teraz postać

n

i

i

n

i

i

i

n

i

n

i

i

i

n

i

i

n

i

i

n

i

i

i

X

X

Y

Y

X

X

n

X

X

n

Y

X

Y

X

b

1

2

1

1

2

1

2

1

1

1

1

)

(

)

)(

(

/

/

X

b

Y

b

1

0

0

1

ˆ

b

X

b

Y

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Przykład
W pewnej firmie analizowano wydajność n=20 pracowników. Celem
badania było ustalenie zależności pomiędzy wartością zawartych
przez danego pracownika w ciągu ostatniego roku transakcji a jego
stażem pracy. Wyniki badania przedstawiają się następująco:

Lp. Staż(X) Obrót(Y) Lp. Staż(X) Obrót(Y)
1 1.250 172.000 11 3.000 215.000
2 1.000 158.000 12 3.500 222.000
3 1.000 184.000 13 4.000 219.000
4 2.000 175.000 14 4.750 225.000
5 2.500 185.000 15 4.000 228.000
6 2.000 201.000 16 4.500 240.000
7 2.000 197.000 17 4.000 210.000
8 2.750 209.000 18 5.000 226.000
9 3.000 200.000 19 5.500 238.000
10 3.250 189.000 20 5.000 243.000

Po podstawieniu do wzorów na b

0

oraz b

1

uzyskujemy:
b

1

=15.6941 oraz b

0

=156.5789

Tak więc oszacowanie równania liniowej funkcji regresji Y względem X ma
postać:
Y = 15.6941·X  + 156.5789
Równanie to możemy wykorzystać do predykcji (przewidywania)
nieznanej
wartości obrotu Y dla znanej wartości stażu pracy X.

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Analiza zależności w przypadku liczby
zmiennych większej od dwu

Współczynniki korelacji cząstkowej i wielokrotnej
(wielorakiej)
Przyjmijmy, że analizie poddane zostaje m zmiennych X

1

,X

2

...,X

m

opisujących dany obiekt. W szczególnym przypadku możemy wśród
nich wyróżnić jedną zmienną zależną (objaśnianą) Y=X

1

i m-1

zmiennych niezależnych (objaśniających) X

2

,X

3

...,X

m

.

Załóżmy, że wzajemne zależności pomiędzy obserwowanymi
zmiennymi opisane są macierzą R, której elementami są
współczynniki korelacji pomiędzy poszczególnymi zmiennymi

1

1

1

3

2

1

2

23

21

1

13

12

m

m

m

m

m

r

r

r

r

r

r

r

r

r

R

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

W pewnych przypadkach może nas interesować związek
pomiędzy dwiema zmiennymi (np. zmienną X

i

oraz zmienną X

j

)

z
wyłączeniem wpływu pozostałych zmiennych. Do opisu
zależności tego typu wykorzystujemy współczynnik korelacji
cząstkowej

gdzie R

ij

jest dopełnieniem algebraicznym macierzy R.

Przypomnienie:
Dopełnienie algebraiczne R

ij

wyznacza się wykreślając w macierzy

R i-ty wiersz oraz j-tą kolumnę. Następnie oblicza się wyznacznik
tak uzyskanej macierzy i mnoży się go przez współczynnik (-1)

i+j

.

jj

ii

ij

kcz

ij

R

R

R

r

.

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

w przypadku trzech zmiennych X

1

,X

2

,X

3

, gdy interesuje nas

związek pomiędzy zmiennymi X

1

oraz X

2

przy wyłączeniu

wpływu zmiennej X

3

uzyskujemy:

)

1

)(

1

(

1

1

1

1

1

2

13

2

23

13

23

12

31

13

32

23

31

23

21

22

11

12

3

.

12

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

r

background image

Metody ilościowe w zarządzaniu bezpieczeństwem

Gdy interesuje nas związek pomiędzy jedną zmienną objaśnianą (np.
X

1

) a pozostałymi zmiennymi objaśniającymi X

2

,X

3

...,X

m

wykorzystujemy współczynnik korelacji wielokrotnej
(wielorakiej)
wyznaczany ze wzoru:

gdzie symbol det oznacza wyznacznik macierzy, macierz R jest
macierzą współczynników korelacji pomiędzy wszystkimi zmiennymi
(zmienną objaśnianą i zmiennymi objaśniającymi), zaś D jest macierzą
współczynników korelacji pomiędzy zmiennymi objaśniającymi
(powstaje przez skreślenie pierwszego wiersza i pierwszej kolumny
macierzy R)
.

D

R

r

m

det

det

1

..

23

.

1


Document Outline


Wyszukiwarka

Podobne podstrony:
SPSS paca domowa 1 odpowiedzi, Studia, Kognitywistyka UMK, I Semestr, Statystyczna analiza danych
Analiza danych wyjściowych
Metody analizy danych
Sciaga3, Cyfrowa Analiza Danych
07 Analiza danych
17 Rejestracja i analiza danych dotyczących z k
Analiza danych w Systemach Informacji Przestrzennej
Materiał na egzamin, Analiza danych (Program R)
Materiały zastane wtórna analiza danych
Analiza danych, ocena stanu zdrowia[1]
Analiza danych eksperymantalnych
Interaktywny system regułowej analizy danych marketingowych dotyczących satysfakcji klienta
Metody analizy danych
Baza danych upraszcza i przyspiesza analizę danych, Dokumenty do szkoły, przedszkola; inne, Metody,
Braki danych, Informatyka SGGW, Semestr 4, Metody analizy danych
lab5 Analiza danych sprzedazowych

więcej podobnych podstron