wykład 2 z poprawkami

STATYSTYKA - WYKŁADY

27.03.2010 r.

II ANALIZA STRUKTURY

Badając zmienność wartości cechy statystycznej obserwujemy odległości wartości badanej cechy

od wartości przeciętnej. Im mniejsze te odległości tym mniejsza zmienność wartości badanej cechy.

Miary zmienności :

1. Klasyczne

(wymagają wyznaczenia średniej arytmetycznej)

2. Pozycyjne

Rozproszenie bądź zróżnicowanie wartości statystycznej

Porównaj zróżnicowane wartości w próbach:

1;2;3;4;5 1;3;3;3;5
Średnia arytmetyczna =3 Średnia arytmetyczna =3
Me=3 Me=3
Xi - $\overline{x}$ -2; -1; 0; 1; 2

Xi - $\overline{x}$ -2; 0; 0; 0; 2

(występuje mniejsza zmienność,

mniejsze zróżnicowanie)

sI 2(x) = $\frac{4 + 1 + 0 + 1 + 4}{5}$ = 2 sI 2(x) =$\frac{4 + 0 + 0 + 0 + 4}{5}$ =1,6

Wariancja to średnia ( ważona) kwadratów odchyleń wartości cechy od wartości przeciętnej.

Wariancja w szeregu wyliczającym


$$s^{2}(x)\ = \ \frac{1}{n}\sum_{i = 1}^{n}{(x_{i}\ - \ \overline{x})\ }$$

n- wielkość próby

xi – wartość badanej cechy w próbie

Własność : Im mniejsza wartość wariancji tym mniejsza zmienność.

Wariancja w szeregu rozdzielczym punktowym


$$s^{2}(x)\ = \ \frac{1}{n}\sum_{i = 1}^{k}{(\ x_{i} - \ \overline{x})\ \bullet \ ni}$$

n- suma liczebności ni

k- liczba wartości cechy w szeregu

ni – liczebność i-tej wartości cechy

$w_{i}\ = \ \frac{n_{i}}{n}$ czyli
$s^{2}(x)\ = \ \sum_{i = 1}^{k}{(\ x_{i}\ - \ \overline{x})\ \bullet \ }\frac{n_{i}}{n}$ = $\sum_{i = 1}^{k}{(\ x_{i} - \ \overline{x})\ \bullet \ }w_{i}$

Wariancja w szeregu rozdzielczym przedziałowym

Dla szeregu rozdzielczego przedziałowego ${\hat{x}}_{i}$, reszta to samo., tzn.


$$s^{2}(x)\ = \ \frac{1}{n}\sum_{i = 1}^{k}{({\hat{x}}_{i}\ - \ \overline{x})\ \bullet \ n_{i}}$$

Zawsze są to liczby dodatnie , ewentualnie równe ) gdy nie ma zmienności.

Dla celów interpretacji poziomu zmienności wyznaczmy dodatkowo odchylenie standardowe.

$s(x)\ = \ \sqrt{s^{2}(x)\ }$

Odchylenie przeciętne to średnia ( ważona) bezwzględnych odchyleń wartości cechy od wartości przeciętnej.

W przypadku , gdy w próbie występują wartości oddalone obliczamy odchylenie przeciętne.

... ... ... .. .. . .

Odchylenie przeciętne w szeregu rozdzielczym przedziałowym

d = $\frac{1}{n}\sum_{i = 1}^{k}{\left| {\hat{x}}_{i}\ - \ \overline{x} \right|\ \bullet \ n_{i}}$

d(x) = $\sum_{i = 1}^{k}{\left| {\hat{x}}_{i}\ - \ \overline{x} \right|\ \bullet \ \frac{n_{i}}{n}}\ = \sum_{i = 1}^{k}{\left| {\hat{x}}_{i}\ - \ \overline{x} \right|\ \bullet \ w_{i}}$

ni – w zależności od rodzaju szeregu i ${\hat{x}}_{i}$ również.

n – suma liczebności n

k- liczba klas (wierszy w szeregu)

${\hat{x}}_{i}$ – środek i – tego przedziału

ni – liczebność i – tego przedziału.

Celem porównania poziomu zmienności cech statystycznych o różnych jednostkach wyznaczamy współczynnik zmienności

V (x) = $\frac{s(x)}{\overline{\times}}$ wynik interpretujemy w procentach.

Przykład: Scharakteryzować zużycie energii w 168 gospodarstwach na podstawie informacji

Zużycie energii kWh

Liczba gospo-

darstw

<xi; xii+1)

1

ni

2


$${\hat{x}}_{i}$$

3


$${\hat{x}}_{i}n_{i}$$

4

${\hat{x}}_{i} - \ x$

5


$${\hat{(x}}_{i} - \ x)$$

6


$${\hat{(x}}_{i} - \ x)n_{i}$$

7


$${\hat{(x}}_{i} - \ x)n_{i}$$

Kolumna 5 i 7 pomnożona

0-2 3 0-2 3 1 3 -6,8 46,24 138,72 -943,30
2-4 12 2-4 12 3 36 -4,8 23,04 276,48 -132,10
4-6 22 4-6 22 5 110 -2,8 7,84 172,48 -482,94
6-8 48 6-8 48 7 336 -0,8 0,64 30,72 -24,58
8-10 52 8-10 52 9 368 1,2 1,44 74,88 89,86
10-12 24 10-12 24 11 264 3,2 10,24 245,76 786,43
12-14 7 12-14 7 13 91 5,2 27,04 189,28 984,26
168 1308 1128,32 -917,37

1. średnia arytmetyczna


$$\overset{\overline{}}{\text{x\ }} = \ \frac{1}{n}\ \bullet \ \sum_{i = 1}^{k}{{\hat{x}}_{i} \bullet}n_{i}$$

n=168

$\overset{\overline{}}{\text{x\ }}$ = $\frac{1308}{168\ }$ = 7,8

W badanej próbie przeciętne zużycie energii wyniosło 7,8 kWh.

*Na egz.musi być komentarz! B.ważne!

2. Wariancja


$$s^{2}(x)\ = \ \frac{1}{n}\sum_{i = 1}^{k}{({\hat{x}}_{i}\ - \ \overline{x})\ \bullet \ n_{i}}$$

s2(x= $\frac{1128,32}{168} \cong$ 6,7

3.Odchylenie standardowe

$s(x)\ = \ \sqrt{s^{2}(x)\ }$

$s(x)\ = \ \sqrt{6,7\ }$ =2,6 kWh jednostka taka jak badana cecha

W badanej próbie przeciętne zużycie energii wyniosło 7,8 kWh z odchyleniem 2,6 kWh , co oznacza , że typowe zużycie energii w badanej próbie mieściło się w przedziale

$\overset{\overline{}}{\text{x\ }}\ - s(x) < xtyp < \overset{\overline{}}{\text{x\ }} + s(x)$ czyli ( 5,2 kWh ; 10,4 kWh)

4. Typowy obszar zmienności

Pozycyjne miary zmienności :

5. Rozstęp wartości

R=xmax – xmin

Jest to odstęp pomiędzy największą , a najmniejszą wartością w próbie.

R= 14

6. Odchylenie ćwiartkowe

Q $= \frac{\ Q_{3\ }\ - \ Q_{1}}{2}$

7.Współczynnik zmienności - miary pozycyjne

VQ = $\frac{Q}{\text{Me}}$ ∙ 100%

8.Pozycyjny obszar typowej zmienności

Me – Q < xtyp < Me + Q

W grupie miar zmienności zachodzi

Q < d < S

Tzn. odchylenie ćwiartkowe jest mniejsze od odchylenia przeciętnego i mniejsze od odchylenia standardowego.

Dla porównań różnych prób trzeba zdecydować , które wyznaczy się do porównań np. przeciętne , gdy są oddalone wyniki.

Miary asymetrii


xi

ni
0-5 2
5-10 4
10-15 10
15-20 4
20-25 2

Histogram

ni

10

8

6

4

2

5 10 D 15 20 25 xi

D=Me

$\overset{\overline{}}{\text{x\ }}\ = \frac{2,5 \bullet 2 + 7,5 \bullet 4 + 12,5 \bullet 10 + 17,5 \bullet 4 + 27,5 \bullet 2}{22}$ = 12,5

Dla rozkładów symetrycznych badanej cechy statystycznej wartości miar przeciętnych są identyczne.


$$\overset{\overline{}}{\text{x\ }} = M_{e}\ = \ D = \ 12,5$$

Miary asymetrii :

- zestandaryzowany moment centralny rzędu trzeciego

- współczynnik skośności

- współczynnik asymetrii

W opisie asymetrii cechy statystycznej należy określić rodzaj asymetrii (powyżej lub poniżej),

oraz siłę asymetrii (natężenie tego zjawiska)

ni

częstość

względna

D xi

Asymetria prawostronna $\overset{\overline{}}{\text{x\ }}$>D

ni

częstość

względna

D xi

Asymetria lewostronna $\overset{\overline{}}{\text{x\ }} < D$

Rodzaj asymetrii możemy ustalić obserwując wzajemne położenie średniej i dominanty.

Współczynnik skośności Pearsona

As = $\ \frac{\overline{\times}\ - \ D}{s\left( x \right)}$ dla symetrii licznik = 0

Własność As

As  ∈  [−1; 1]

$\overset{\overline{}}{\text{x\ }}$ = Me  =  D As  = 0 symetria

$\overset{\overline{}}{\text{x\ }}$ > D ⇒ $\overset{\overline{}}{\text{x\ }}\ - D\ > 0$As > 0 asymetria prawostronna

$\overset{\overline{}}{\text{x\ }}$ < D ⇒ $\overset{\overline{}}{\text{x\ }}\ - D < 0$As < 0 asymetria lewostronna

Np. -0,3 słaba asymetria lewostronna,

0,6 średnia asymetria prawostronna, (bo jest +)

- 0,8 silna asymetria lewostronna.

Współczynnik asymetrii ma analogiczne własności.

ni

xi

Q1 Q2 Q3

*Na egz. Kwartyl 1 nie może być większy od kwartyla 3

Współczynnik Yulle’a – Kendall’a

AQ = $\frac{{(Q}_{3\ }\ - \ Q_{2}\ )\ (\ Q_{2\ - \ Q_{1}}\ )}{{(Q}_{3\ }\ - \ Q_{2}\ ) + \ (\ Q_{2\ - \ Q_{1}}\ )}\ $

Moment zwykły rzędu r ( dla szeregu rozdzielczego punktowego)


$$m_{r}\ (x) = \frac{\mathrm{1}}{\mathrm{n}}\sum_{\mathrm{i = 1}}^{\mathrm{k}}{\overset{\text{\ \ \ \ \ \ \ \ \ r}}{\text{xi\ }}n_{i}}$$

gdy r = 1 to mamy średnią arytmetyczną


$$\overset{\overline{}}{\text{x\ }}\ = m_{1}$$

gdy r=2 to mamy wariancję

Moment centralny rzędu r


$$M_{r}\ (x) = \frac{\mathrm{1}}{\mathrm{n}}\sum_{\mathrm{i = 1}}^{\mathrm{k}}{(\overset{\text{\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ r}}{xi - \overline{x)}\ }n_{i}}$$


$$s^{2}(x)\ = m_{2}\ = \frac{1}{n}\sum_{i = 1}^{k}{(x_{i}\ - \ \overline{x})\ \bullet \ n_{i}}$$

( a-b)²

Zestandaryzowany moment centralny rzędu trzeciego


$$\gamma_{3}\ (x)\ = \ \frac{m_{3\ }(x)}{s^{3}\ (x)}\ $$

Interpretacja γ3

Zakres wartości γ3  ∈  [−2; 2]

s 3 (x) = [ s (x)] 3

Dalej do przykładu o prądzie

Kolumnę 5 i 7 mnożymy

m3 (x) = $\frac{- 917,37}{168}$ ≅  − 5, 5

$\overset{\overline{}}{\text{x\ }}\ = \ \frac{1308}{168}$ 7,8

γ3 = $\frac{- 5,5}{(2,6)}$ = -0,31

W badanej próbie zużycie energii charakteryzowało się słabą lewostronną asymetrią , co oznacza , że mamy nieznaczną przewagę gospodarstw domowych o zużyciu energii powyżej średniej.

Koncentracja wartości badanej cechy to zjawisko odwrotne do zmienności wartości badanej cechy.

(duża zmienność – mała koncentracja, duża koncentracja – brak zmienności)

Absolutna miara natężenia koncentracji zbiorowości wokół średniej
$m_{4}(x) = \frac{1}{n}\sum_{i = 1}^{k}{(x_{i}\ - \ \overline{x})4 \bullet \ n_{i}}$ ( 4 moment koncentracji)

Względna miara natężenia koncentracji zbiorowości wokół średniej


$$\gamma_{4}\ (x)\ = \ \frac{m_{4\ }(x)}{s^{4}\ (x)}\ $$

***

Analiza zależności pomiędzy cechami statystycznymi

Dwie cechy statystyczne ilościowe

Rodzaje zależności między dwoma zmiennymi:

1/ Zależność funkcyjna

2/ Zależność stochastyczna

3/ Zależność korelacyjna

Ad 1/ Zależność funkcyjna zachodzi , gdy wraz ze zmianą wartości jednej zmiennej następuje ściśle

określona zmiana wartości drugiej zmiennej.

γi = f(xi)


xi

γi

x1

γ1

x2

γ2

x3

γ3
... ...

xn

γn

Ad.2/ Zależność stochastyczna wraz ze zmianą wartości jednej zmiennej następuje zmiana rozkładu

prawdopodobieństwa drugiej zmiennej

Ad.3/ Zależność korelacyjna wraz ze zmianą wartości jednej zmiennej następuje zmiana wartości

średnich drugiej zmiennej.

Trzeba ustalić rodzaj zależności korelacyjnej , należy ocenić siłę związku korelacyjnego.

Rodzaj zależności korelacyjnej ustalamy wykonując wykres rozrzutu wartości badanych cech

Współrzędne punktu ( pary obserwacji)

y

yi

x

xi

Rodzaj zależności korelacyjnej

y

r >0

x

zależność liniowa dodatnia

y

r<0

x

zależność liniowa ujemna

y

nie wyznaczamy

współczynnika

korelacji (r)

x

zależność nieliniowa

y

r bliskie 0

x

brak zależności ( powinny być rzadsze i różnorodnie położone)

y y=ax+b a>0

0 x

y

y=ax+b a<0

0 x

A to przykłady z matematyki

Zależność korelacyjna liniowa dodatnia.

Wraz ze wzrostem wartości jednej cechy następuje wzrost wartości drugiej cechy.

Zależność korelacyjna liniowa ujemna.

Wraz ze wzrostem wartości jednej cechy następuje spadek wartości drugiej cechy.

Dla opisu siły zależności liniowej wyznaczamy współczynnik korelacji liniowej Pearsona.

r = $\frac{\text{cov}(x;y)}{s(x) \bullet s(y)}$ = $\frac{\text{\ \ }\frac{1}{n}\sum_{i = 1}^{n}{(x_{i}\ - \ \overline{x}) \bullet}(y_{i}\ - \ \overline{y})\ }{s(x)\ \bullet s(y)}\ $ r ∈[−1, 1]

odchylenie standardowe cechy x

cov-kowariancja między cechami x i y

rxy = ryx

cov(x,x) = s²(x)

rxx = $\frac{s^{2}(x)\ }{s^{2}(x)\ }$ = 1

R = $\begin{bmatrix} r_{\text{xx}} & r_{\text{xy}} \\ r_{\text{yx}} & r_{\text{yy}} \\ \end{bmatrix}$

Gdyby były 3 zmienne

R = $\begin{bmatrix} 1 & r \\ r & 1 \\ \end{bmatrix}$

R= $\begin{bmatrix} r_{11} & r_{12} & r_{13} \\ r_{21} & r_{22} & r_{23} \\ r_{31} & r_{32} & r_{33} \\ \end{bmatrix}$

R = $\begin{bmatrix} 1 & r_{12} & r_{13} \\ r_{21} & 1 & r_{23} \\ r_{31} & r_{32} & 1 \\ \end{bmatrix}$

To macierz kwadratowa , na głównej przekątnej są jedynki , jest symetryczna i dodatnio określona.

Przykład

Zbadać zbieżność korelacyjną wielkości dziennych obrotów i wysokości zapasów w wybranych hurtowniach.

x Obroty dzienne w mln zł. 10 12 14 15 17 18 19 21 22 23 171
y Zapasy w mln zł. 41 40 38 37 35 33 31 34 32 30 351
${(x}_{\text{i\ \ \ }} - \overset{\overline{}}{x}$) -7,1 -5,1 -3,1 -2,1 -0,1 0,9 1,9 3,9 4,9 5,9 x
(yi $\overset{\overline{}}{y}$) 5,9 4,9 2,9 1,9 -0,1 -2,1 -4,1 -1,1 -3,1 -5,1 y
${(x}_{\text{i\ \ \ }} - \overset{\overline{}}{x}$ 50,41 26,01 9,61 4,41 0,01 0,81 3,61 15,21 24,01 34,81 168,90
(yi $\overset{\overline{}}{y}$ 34,81 24,01 8,41 3,61 0,01 4,41 16,81 1,21 9,61 26,01 128,90

${(x}_{\text{i\ \ \ }} - \overset{\overline{}}{x}$)

(yi $\overset{\overline{}}{y}$)

-41,89 -24,99 -8,99 -3,99 0.01 -1,89 -7,79 -4,29 -15,19 -30,09 -139,01

Wykres korelacyjny wielkości obrotów i wielkości zapasów n=10 (tyle jest obserwacji)

zapasy

44

42

38

34

30

4 8 12 16 20 24 28 32 34 48 obroty

Jest to zależność liniowa ujemna (elipsa ujemna)

Jeżeli zależność jest liniowa to wyznaczamy współczynnik korelacji

r = $\frac{\text{cov}(x;y)}{s(x) \bullet s(y)}$

1. rozpoczynamy od wartości średnich, n=10


$$\overline{\times} = \frac{\mathrm{1}}{\mathrm{n}}\sum_{\mathrm{i = 1}}^{\mathrm{n}}\mathrm{\text{xi\ }}$$

$\overset{\overline{}}{\text{x\ }}$ = $\frac{171}{10}$ = 17,1 mln zł.


$$\overline{y} = \frac{\mathrm{1}}{\mathrm{n}}\sum_{\mathrm{i = 1}}^{\mathrm{n}}\mathrm{\text{yi\ }}$$

$\overline{y}$ = $\frac{351}{10}$ =35,1 mln zł.

2. wyznaczamy współczynnik korelacji

3. obliczamy wariancję


$$s^{2}(x)\ = \ \frac{1}{n}\sum_{i = 1}^{n}{(x_{i}\ - \ \overline{x})\ } = \frac{1}{10}\ \bullet \ 168,90\ = 16,89$$


$$s^{2}(y)\ = \ \frac{1}{n}\sum_{i = 1}^{n}{(y_{i}\ - \ \overline{y})\ } = \frac{1}{10} \bullet \ 128,90 = 12,89$$

4. obliczamy odchylenie standardowe

$s(x)\ = \ \sqrt{s^{2}(x)\ } = \sqrt{16,89}$ =4,11

$s(y)\ = \ \sqrt{s^{2}(y)\ }$ =$\sqrt{12,89\ }$= 3,59

5. Kowariancja


$$cov(x,y) = \frac{1}{\text{\ n}}\sum_{i = 1}^{n}{(x_{i}\ - \ \overline{x})(y_{i}\ - \ \overset{\overline{}}{y})\ }$$

Mnożymy kolumny ${(x}_{\text{i\ \ \ }} - \overset{\overline{}}{x}$)•(yi $\overset{\overline{}}{y}$)

6. Współczynnik korelacji

r = $\frac{\text{cov}(x;y)}{s(x) \bullet s(y)}$= $\frac{\frac{1}{\ n}\sum_{i = 1}^{n}{(x_{i}\ - \ \overline{x})(y_{i}\ - \ \overset{\overline{}}{y})\ }}{s(x) \bullet s(y)}$ = $\frac{\frac{1}{10}\ \bullet \ ( - 139,10)\ }{4,11 \bullet 3,59}$ = (-0,943)

Etapy obliczania :

!!Najpierw trzeba zrobić wykres ,aby sprawdzić czy jest liniowa zależność.

Dalsze czynności to :

1. średnia

2. odchylenie od średnich

3.wariancja

4.odchylenie

5.kowariancja

6. współczynnik korelacji

To ważny miernik

Współczynnik determinacji r² informuje jaka część zmienności badanej cechy y jest wyjaśniony zmiennością badanej cechy x

d= r² 100% = ( -0,943)² 100% = 88,90 %

W badanej próbce zachodzi silna liniowa zależność korelacyjna pomiędzy wartością dziennych obrotów , a wartością zapasów, czyli wraz ze wzrostem wielkości obrotów maleje wielkość zapasów. Wielkość dziennych zapasów 88,90 % zależy od wysokości obrotów.


$$s^{2}(x)\ = \frac{1}{n}\sum_{i = 1}^{n}{(x_{i}\ - \ \overline{x})\ }$$

( a-b)²

czyli


$$\mathbf{s}^{\mathbf{2}}\mathbf{(x)\ =}\frac{\mathbf{1}}{\mathbf{n}}\sum_{\mathbf{i = 1}}^{\mathbf{n}}{\mathbf{x}_{\mathbf{i}}\mathbf{\ -}\mathbf{\ }\mathbf{(}\overline{\mathbf{x}}\mathbf{)\ }}$$

Znać i pamiętać

Wariancja

s2(x)= m2m1²

r = $\frac{\text{cov}(x;y)}{s(x) \bullet s(y)}$= $\frac{\sum_{i = 1}^{n}{(x_{i}\ - \ \overline{x})(y_{i}\ - \ \overset{\overline{}}{y})\ }}{\sqrt{\sum_{i = 1}^{n}{(x_{i}\ - \ \overline{x})\ }}\sqrt{\sum_{i = 1}^{n}{(y_{i}\ - \ \overset{\overline{}}{y})\ }}}$= $\frac{\frac{1}{n}\sum_{i = 1}^{n}{(x_{i}y_{i}\ - \ \overline{x}\ \overset{\overline{}}{y})\ }}{\sqrt{\frac{1}{n}\sum_{i = 1}^{n}{x_{i}\ - \ \overline{x}\ }}\sqrt{\frac{1}{n}\sum_{i = 1}^{n}{y_{i}\ - \ \overset{\overline{}}{y}\ }}}$

Aby wyliczyć trzeba zrobić tabelę.


xi

yi
xi²
yi

xiyi

Σ

Σ

Σ

Σ

Σ

Wyszukiwarka

Podobne podstrony:
przemysłowa wykład 3 poprawiony
WYKLADY?RMA POPRAWIONE
biomechanika - wykłady poprawiona, AWF, biomechanika ruchu, 1
skrypt - wykłady - poprawione, Wykład 1
Patologie spoleczne - wyklady poprawione calosc, Patologie społeczne (skrzacik 211)
wyklad 1 d popraw
Zakażenia w chirurgii wykład poprawiony
MSP [wykład] poprawione
OCHRONA SRODOWISKA wyklady poprawione, ZIP SGGW, Ekologia i zarządzanie środowiskiem
HZ a dochód narodowy wykład poprawiony II
Wykład 5 Sektor finansów publicznych poprawiony
Egzamin poprawkowy Wyklad Monograficzny
Wykład 1 psychologia poprawiona
Systemy bankowe wyklad z 29[1].03.2008 (poprawione), pliki zamawiane, edukacja
Rachunkowość - wykłady - 11, Błędy księgowe muszą być poprawione, tak aby nie została naruszona moc
20 (poprawka) Wykład - Prawo Handlowe, ● STUDIA EKONOMICZNO-MENEDŻERSKIE (SGH i UW), prawo handlowe

więcej podobnych podstron