STATYSTYKA - WYKŁADY
27.03.2010 r.
II ANALIZA STRUKTURY
Badając zmienność wartości cechy statystycznej obserwujemy odległości wartości badanej cechy
od wartości przeciętnej. Im mniejsze te odległości tym mniejsza zmienność wartości badanej cechy.
Miary zmienności :
1. Klasyczne
wariancja
odchylenie standardowe
odchylenie przeciętne
współczynnik zmienności
(wymagają wyznaczenia średniej arytmetycznej)
2. Pozycyjne
rozstęp wartości
odchylenie ćwiartkowe
współczynnik zmienności
Rozproszenie bądź zróżnicowanie wartości statystycznej
Porównaj zróżnicowane wartości w próbach:
1;2;3;4;5 | 1;3;3;3;5 |
---|---|
Średnia arytmetyczna =3 | Średnia arytmetyczna =3 |
Me=3 | Me=3 |
Xi - $\overline{x}$ -2; -1; 0; 1; 2 | Xi - $\overline{x}$ -2; 0; 0; 0; 2 (występuje mniejsza zmienność, mniejsze zróżnicowanie) |
sI 2(x) = $\frac{4 + 1 + 0 + 1 + 4}{5}$ = 2 | sI 2(x) =$\frac{4 + 0 + 0 + 0 + 4}{5}$ =1,6 |
Wariancja to średnia ( ważona) kwadratów odchyleń wartości cechy od wartości przeciętnej.
Wariancja w szeregu wyliczającym
$$s^{2}(x)\ = \ \frac{1}{n}\sum_{i = 1}^{n}{(x_{i}\ - \ \overline{x})\ }$$
n- wielkość próby
xi – wartość badanej cechy w próbie
Własność : Im mniejsza wartość wariancji tym mniejsza zmienność.
Wariancja w szeregu rozdzielczym punktowym
$$s^{2}(x)\ = \ \frac{1}{n}\sum_{i = 1}^{k}{(\ x_{i} - \ \overline{x})\ \bullet \ ni}$$
n- suma liczebności ni
k- liczba wartości cechy w szeregu
ni – liczebność i-tej wartości cechy
$w_{i}\ = \ \frac{n_{i}}{n}$ czyli
$s^{2}(x)\ = \ \sum_{i = 1}^{k}{(\ x_{i}\ - \ \overline{x})\ \bullet \ }\frac{n_{i}}{n}$ = $\sum_{i = 1}^{k}{(\ x_{i} - \ \overline{x})\ \bullet \ }w_{i}$
Wariancja w szeregu rozdzielczym przedziałowym
Dla szeregu rozdzielczego przedziałowego ${\hat{x}}_{i}$, reszta to samo., tzn.
$$s^{2}(x)\ = \ \frac{1}{n}\sum_{i = 1}^{k}{({\hat{x}}_{i}\ - \ \overline{x})\ \bullet \ n_{i}}$$
Zawsze są to liczby dodatnie , ewentualnie równe ) gdy nie ma zmienności.
Dla celów interpretacji poziomu zmienności wyznaczmy dodatkowo odchylenie standardowe.
$s(x)\ = \ \sqrt{s^{2}(x)\ }$
Odchylenie przeciętne to średnia ( ważona) bezwzględnych odchyleń wartości cechy od wartości przeciętnej.
W przypadku , gdy w próbie występują wartości oddalone obliczamy odchylenie przeciętne.
... ... ... .. .. . .
Odchylenie przeciętne w szeregu rozdzielczym przedziałowym
d = $\frac{1}{n}\sum_{i = 1}^{k}{\left| {\hat{x}}_{i}\ - \ \overline{x} \right|\ \bullet \ n_{i}}$
d(x) = $\sum_{i = 1}^{k}{\left| {\hat{x}}_{i}\ - \ \overline{x} \right|\ \bullet \ \frac{n_{i}}{n}}\ = \sum_{i = 1}^{k}{\left| {\hat{x}}_{i}\ - \ \overline{x} \right|\ \bullet \ w_{i}}$
ni – w zależności od rodzaju szeregu i ${\hat{x}}_{i}$ również.
n – suma liczebności n
k- liczba klas (wierszy w szeregu)
${\hat{x}}_{i}$ – środek i – tego przedziału
ni – liczebność i – tego przedziału.
Celem porównania poziomu zmienności cech statystycznych o różnych jednostkach wyznaczamy współczynnik zmienności
V (x) = $\frac{s(x)}{\overline{\times}}$ wynik interpretujemy w procentach.
Przykład: Scharakteryzować zużycie energii w 168 gospodarstwach na podstawie informacji
Zużycie energii kWh | Liczba gospo- darstw |
<xi; xii+1) 1 |
ni 2 |
3 |
4 |
${\hat{x}}_{i} - \ x$ 5 |
6 |
7 |
Kolumna 5 i 7 pomnożona |
---|---|---|---|---|---|---|---|---|---|
0-2 | 3 | 0-2 | 3 | 1 | 3 | -6,8 | 46,24 | 138,72 | -943,30 |
2-4 | 12 | 2-4 | 12 | 3 | 36 | -4,8 | 23,04 | 276,48 | -132,10 |
4-6 | 22 | 4-6 | 22 | 5 | 110 | -2,8 | 7,84 | 172,48 | -482,94 |
6-8 | 48 | 6-8 | 48 | 7 | 336 | -0,8 | 0,64 | 30,72 | -24,58 |
8-10 | 52 | 8-10 | 52 | 9 | 368 | 1,2 | 1,44 | 74,88 | 89,86 |
10-12 | 24 | 10-12 | 24 | 11 | 264 | 3,2 | 10,24 | 245,76 | 786,43 |
12-14 | 7 | 12-14 | 7 | 13 | 91 | 5,2 | 27,04 | 189,28 | 984,26 |
168 | 1308 | 1128,32 | -917,37 |
1. średnia arytmetyczna
$$\overset{\overline{}}{\text{x\ }} = \ \frac{1}{n}\ \bullet \ \sum_{i = 1}^{k}{{\hat{x}}_{i} \bullet}n_{i}$$
n=168
$\overset{\overline{}}{\text{x\ }}$ = $\frac{1308}{168\ }$ = 7,8
W badanej próbie przeciętne zużycie energii wyniosło 7,8 kWh.
*Na egz.musi być komentarz! B.ważne!
2. Wariancja
$$s^{2}(x)\ = \ \frac{1}{n}\sum_{i = 1}^{k}{({\hat{x}}_{i}\ - \ \overline{x})\ \bullet \ n_{i}}$$
s2(x) = $\frac{1128,32}{168} \cong$ 6,7
3.Odchylenie standardowe
$s(x)\ = \ \sqrt{s^{2}(x)\ }$
$s(x)\ = \ \sqrt{6,7\ }$ =2,6 kWh jednostka taka jak badana cecha
W badanej próbie przeciętne zużycie energii wyniosło 7,8 kWh z odchyleniem 2,6 kWh , co oznacza , że typowe zużycie energii w badanej próbie mieściło się w przedziale
$\overset{\overline{}}{\text{x\ }}\ - s(x) < xtyp < \overset{\overline{}}{\text{x\ }} + s(x)$ czyli ( 5,2 kWh ; 10,4 kWh)
4. Typowy obszar zmienności
Pozycyjne miary zmienności :
5. Rozstęp wartości
R=xmax – xmin
Jest to odstęp pomiędzy największą , a najmniejszą wartością w próbie.
R= 14
6. Odchylenie ćwiartkowe
Q $= \frac{\ Q_{3\ }\ - \ Q_{1}}{2}$
7.Współczynnik zmienności - miary pozycyjne
VQ = $\frac{Q}{\text{Me}}$ ∙ 100%
8.Pozycyjny obszar typowej zmienności
Me – Q < xtyp < Me + Q
W grupie miar zmienności zachodzi
Q < d < S
Tzn. odchylenie ćwiartkowe jest mniejsze od odchylenia przeciętnego i mniejsze od odchylenia standardowego.
Dla porównań różnych prób trzeba zdecydować , które wyznaczy się do porównań np. przeciętne , gdy są oddalone wyniki.
Miary asymetrii
xi |
ni |
---|---|
0-5 | 2 |
5-10 | 4 |
10-15 | 10 |
15-20 | 4 |
20-25 | 2 |
Histogram
ni
10
8
6
4
2
5 10 D 15 20 25 xi
D=Me
$\overset{\overline{}}{\text{x\ }}\ = \frac{2,5 \bullet 2 + 7,5 \bullet 4 + 12,5 \bullet 10 + 17,5 \bullet 4 + 27,5 \bullet 2}{22}$ = 12,5
Dla rozkładów symetrycznych badanej cechy statystycznej wartości miar przeciętnych są identyczne.
$$\overset{\overline{}}{\text{x\ }} = M_{e}\ = \ D = \ 12,5$$
Miary asymetrii :
- zestandaryzowany moment centralny rzędu trzeciego
- współczynnik skośności
- współczynnik asymetrii
W opisie asymetrii cechy statystycznej należy określić rodzaj asymetrii (powyżej lub poniżej),
oraz siłę asymetrii (natężenie tego zjawiska)
ni
częstość
względna
D xi
Asymetria prawostronna $\overset{\overline{}}{\text{x\ }}$>D
ni
częstość
względna
D xi
Asymetria lewostronna $\overset{\overline{}}{\text{x\ }} < D$
Rodzaj asymetrii możemy ustalić obserwując wzajemne położenie średniej i dominanty.
Współczynnik skośności Pearsona
As = $\ \frac{\overline{\times}\ - \ D}{s\left( x \right)}$ dla symetrii licznik = 0
Własność As
As ∈ [−1; 1]
$\overset{\overline{}}{\text{x\ }}$ = Me = D As = 0 symetria
$\overset{\overline{}}{\text{x\ }}$ > D ⇒ $\overset{\overline{}}{\text{x\ }}\ - D\ > 0$ ⇒ As > 0 asymetria prawostronna
$\overset{\overline{}}{\text{x\ }}$ < D ⇒ $\overset{\overline{}}{\text{x\ }}\ - D < 0$ ⇒ As < 0 asymetria lewostronna
Np. -0,3 słaba asymetria lewostronna,
0,6 średnia asymetria prawostronna, (bo jest +)
- 0,8 silna asymetria lewostronna.
Współczynnik asymetrii ma analogiczne własności.
ni
xi
Q1 Q2 Q3
*Na egz. Kwartyl 1 nie może być większy od kwartyla 3
Współczynnik Yulle’a – Kendall’a
AQ = $\frac{{(Q}_{3\ }\ - \ Q_{2}\ )\ (\ Q_{2\ - \ Q_{1}}\ )}{{(Q}_{3\ }\ - \ Q_{2}\ ) + \ (\ Q_{2\ - \ Q_{1}}\ )}\ $
Moment zwykły rzędu r ( dla szeregu rozdzielczego punktowego)
$$m_{r}\ (x) = \frac{\mathrm{1}}{\mathrm{n}}\sum_{\mathrm{i = 1}}^{\mathrm{k}}{\overset{\text{\ \ \ \ \ \ \ \ \ r}}{\text{xi\ }}n_{i}}$$
gdy r = 1 to mamy średnią arytmetyczną
$$\overset{\overline{}}{\text{x\ }}\ = m_{1}$$
gdy r=2 to mamy wariancję
Moment centralny rzędu r
$$M_{r}\ (x) = \frac{\mathrm{1}}{\mathrm{n}}\sum_{\mathrm{i = 1}}^{\mathrm{k}}{(\overset{\text{\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ r}}{xi - \overline{x)}\ }n_{i}}$$
$$s^{2}(x)\ = m_{2}\ = \frac{1}{n}\sum_{i = 1}^{k}{(x_{i}\ - \ \overline{x})\ \bullet \ n_{i}}$$
( a-b)²
Zestandaryzowany moment centralny rzędu trzeciego
$$\gamma_{3}\ (x)\ = \ \frac{m_{3\ }(x)}{s^{3}\ (x)}\ $$
Interpretacja γ3
Zakres wartości γ3 ∈ [−2; 2]
s 3 (x) = [ s (x)] 3
Dalej do przykładu o prądzie
Kolumnę 5 i 7 mnożymy
m3 (x) = $\frac{- 917,37}{168}$ ≅ − 5, 5
$\overset{\overline{}}{\text{x\ }}\ = \ \frac{1308}{168}$ 7,8
γ3 = $\frac{- 5,5}{(2,6)}$ = -0,31
W badanej próbie zużycie energii charakteryzowało się słabą lewostronną asymetrią , co oznacza , że mamy nieznaczną przewagę gospodarstw domowych o zużyciu energii powyżej średniej.
Koncentracja wartości badanej cechy to zjawisko odwrotne do zmienności wartości badanej cechy.
(duża zmienność – mała koncentracja, duża koncentracja – brak zmienności)
Absolutna miara natężenia koncentracji zbiorowości wokół średniej
$m_{4}(x) = \frac{1}{n}\sum_{i = 1}^{k}{(x_{i}\ - \ \overline{x})4 \bullet \ n_{i}}$ ( 4 moment koncentracji)
Względna miara natężenia koncentracji zbiorowości wokół średniej
$$\gamma_{4}\ (x)\ = \ \frac{m_{4\ }(x)}{s^{4}\ (x)}\ $$
***
Analiza zależności pomiędzy cechami statystycznymi
Dwie cechy statystyczne ilościowe
Rodzaje zależności między dwoma zmiennymi:
1/ Zależność funkcyjna
2/ Zależność stochastyczna
3/ Zależność korelacyjna
Ad 1/ Zależność funkcyjna zachodzi , gdy wraz ze zmianą wartości jednej zmiennej następuje ściśle
określona zmiana wartości drugiej zmiennej.
γi = f(xi)
xi |
γi |
---|---|
x1 |
γ1 |
x2 |
γ2 |
x3 |
γ3 |
... | ... |
xn |
γn |
Ad.2/ Zależność stochastyczna wraz ze zmianą wartości jednej zmiennej następuje zmiana rozkładu
prawdopodobieństwa drugiej zmiennej
Ad.3/ Zależność korelacyjna wraz ze zmianą wartości jednej zmiennej następuje zmiana wartości
średnich drugiej zmiennej.
Trzeba ustalić rodzaj zależności korelacyjnej , należy ocenić siłę związku korelacyjnego.
Rodzaj zależności korelacyjnej ustalamy wykonując wykres rozrzutu wartości badanych cech
Współrzędne punktu ( pary obserwacji)
y
yi
x
xi
Rodzaj zależności korelacyjnej
y
r >0
x
zależność liniowa dodatnia
y
r<0
x
zależność liniowa ujemna
y
nie wyznaczamy
współczynnika
korelacji (r)
x
zależność nieliniowa
y
r bliskie 0
x
brak zależności ( powinny być rzadsze i różnorodnie położone)
y y=ax+b a>0
0 x
y
y=ax+b a<0
0 x
A to przykłady z matematyki
Zależność korelacyjna liniowa dodatnia.
Wraz ze wzrostem wartości jednej cechy następuje wzrost wartości drugiej cechy.
Zależność korelacyjna liniowa ujemna.
Wraz ze wzrostem wartości jednej cechy następuje spadek wartości drugiej cechy.
Dla opisu siły zależności liniowej wyznaczamy współczynnik korelacji liniowej Pearsona.
r = $\frac{\text{cov}(x;y)}{s(x) \bullet s(y)}$ = $\frac{\text{\ \ }\frac{1}{n}\sum_{i = 1}^{n}{(x_{i}\ - \ \overline{x}) \bullet}(y_{i}\ - \ \overline{y})\ }{s(x)\ \bullet s(y)}\ $ r ∈[−1, 1]
odchylenie standardowe cechy x
cov-kowariancja między cechami x i y
rxy = ryx
cov(x,x) = s²(x)
rxx = $\frac{s^{2}(x)\ }{s^{2}(x)\ }$ = 1
R = $\begin{bmatrix} r_{\text{xx}} & r_{\text{xy}} \\ r_{\text{yx}} & r_{\text{yy}} \\ \end{bmatrix}$
Gdyby były 3 zmienne
R = $\begin{bmatrix} 1 & r \\ r & 1 \\ \end{bmatrix}$
R= $\begin{bmatrix} r_{11} & r_{12} & r_{13} \\ r_{21} & r_{22} & r_{23} \\ r_{31} & r_{32} & r_{33} \\ \end{bmatrix}$
R = $\begin{bmatrix} 1 & r_{12} & r_{13} \\ r_{21} & 1 & r_{23} \\ r_{31} & r_{32} & 1 \\ \end{bmatrix}$
To macierz kwadratowa , na głównej przekątnej są jedynki , jest symetryczna i dodatnio określona.
Przykład
Zbadać zbieżność korelacyjną wielkości dziennych obrotów i wysokości zapasów w wybranych hurtowniach.
x | Obroty dzienne w mln zł. | 10 | 12 | 14 | 15 | 17 | 18 | 19 | 21 | 22 | 23 | 171 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
y | Zapasy w mln zł. | 41 | 40 | 38 | 37 | 35 | 33 | 31 | 34 | 32 | 30 | 351 |
${(x}_{\text{i\ \ \ }} - \overset{\overline{}}{x}$) | -7,1 | -5,1 | -3,1 | -2,1 | -0,1 | 0,9 | 1,9 | 3,9 | 4,9 | 5,9 | x | |
(yi − $\overset{\overline{}}{y}$) | 5,9 | 4,9 | 2,9 | 1,9 | -0,1 | -2,1 | -4,1 | -1,1 | -3,1 | -5,1 | y | |
${(x}_{\text{i\ \ \ }} - \overset{\overline{}}{x}$)² | 50,41 | 26,01 | 9,61 | 4,41 | 0,01 | 0,81 | 3,61 | 15,21 | 24,01 | 34,81 | 168,90 | |
(yi − $\overset{\overline{}}{y}$)² | 34,81 | 24,01 | 8,41 | 3,61 | 0,01 | 4,41 | 16,81 | 1,21 | 9,61 | 26,01 | 128,90 | |
${(x}_{\text{i\ \ \ }} - \overset{\overline{}}{x}$) (yi − $\overset{\overline{}}{y}$) |
-41,89 | -24,99 | -8,99 | -3,99 | 0.01 | -1,89 | -7,79 | -4,29 | -15,19 | -30,09 | -139,01 |
Wykres korelacyjny wielkości obrotów i wielkości zapasów n=10 (tyle jest obserwacji)
zapasy
44
42
38
34
30
4 8 12 16 20 24 28 32 34 48 obroty
Jest to zależność liniowa ujemna (elipsa ujemna)
Jeżeli zależność jest liniowa to wyznaczamy współczynnik korelacji
r = $\frac{\text{cov}(x;y)}{s(x) \bullet s(y)}$
1. rozpoczynamy od wartości średnich, n=10
$$\overline{\times} = \frac{\mathrm{1}}{\mathrm{n}}\sum_{\mathrm{i = 1}}^{\mathrm{n}}\mathrm{\text{xi\ }}$$
$\overset{\overline{}}{\text{x\ }}$ = $\frac{171}{10}$ = 17,1 mln zł.
$$\overline{y} = \frac{\mathrm{1}}{\mathrm{n}}\sum_{\mathrm{i = 1}}^{\mathrm{n}}\mathrm{\text{yi\ }}$$
$\overline{y}$ = $\frac{351}{10}$ =35,1 mln zł.
2. wyznaczamy współczynnik korelacji
3. obliczamy wariancję
$$s^{2}(x)\ = \ \frac{1}{n}\sum_{i = 1}^{n}{(x_{i}\ - \ \overline{x})\ } = \frac{1}{10}\ \bullet \ 168,90\ = 16,89$$
$$s^{2}(y)\ = \ \frac{1}{n}\sum_{i = 1}^{n}{(y_{i}\ - \ \overline{y})\ } = \frac{1}{10} \bullet \ 128,90 = 12,89$$
4. obliczamy odchylenie standardowe
$s(x)\ = \ \sqrt{s^{2}(x)\ } = \sqrt{16,89}$ =4,11
$s(y)\ = \ \sqrt{s^{2}(y)\ }$ =$\sqrt{12,89\ }$= 3,59
5. Kowariancja
$$cov(x,y) = \frac{1}{\text{\ n}}\sum_{i = 1}^{n}{(x_{i}\ - \ \overline{x})(y_{i}\ - \ \overset{\overline{}}{y})\ }$$
Mnożymy kolumny ${(x}_{\text{i\ \ \ }} - \overset{\overline{}}{x}$)•(yi − $\overset{\overline{}}{y}$)
6. Współczynnik korelacji
r = $\frac{\text{cov}(x;y)}{s(x) \bullet s(y)}$= $\frac{\frac{1}{\ n}\sum_{i = 1}^{n}{(x_{i}\ - \ \overline{x})(y_{i}\ - \ \overset{\overline{}}{y})\ }}{s(x) \bullet s(y)}$ = $\frac{\frac{1}{10}\ \bullet \ ( - 139,10)\ }{4,11 \bullet 3,59}$ = (-0,943)
Etapy obliczania :
!!Najpierw trzeba zrobić wykres ,aby sprawdzić czy jest liniowa zależność.
Dalsze czynności to :
1. średnia
2. odchylenie od średnich
3.wariancja
4.odchylenie
5.kowariancja
6. współczynnik korelacji
To ważny miernik
Współczynnik determinacji r² informuje jaka część zmienności badanej cechy y jest wyjaśniony zmiennością badanej cechy x
d= r² 100% = ( -0,943)² 100% = 88,90 %
W badanej próbce zachodzi silna liniowa zależność korelacyjna pomiędzy wartością dziennych obrotów , a wartością zapasów, czyli wraz ze wzrostem wielkości obrotów maleje wielkość zapasów. Wielkość dziennych zapasów 88,90 % zależy od wysokości obrotów.
$$s^{2}(x)\ = \frac{1}{n}\sum_{i = 1}^{n}{(x_{i}\ - \ \overline{x})\ }$$
( a-b)²
czyli
$$\mathbf{s}^{\mathbf{2}}\mathbf{(x)\ =}\frac{\mathbf{1}}{\mathbf{n}}\sum_{\mathbf{i = 1}}^{\mathbf{n}}{\mathbf{x}_{\mathbf{i}}\mathbf{\ -}\mathbf{\ }\mathbf{(}\overline{\mathbf{x}}\mathbf{)\ }}$$
Znać i pamiętać
Wariancja
s2(x)= m2m1²
r = $\frac{\text{cov}(x;y)}{s(x) \bullet s(y)}$= $\frac{\sum_{i = 1}^{n}{(x_{i}\ - \ \overline{x})(y_{i}\ - \ \overset{\overline{}}{y})\ }}{\sqrt{\sum_{i = 1}^{n}{(x_{i}\ - \ \overline{x})\ }}\sqrt{\sum_{i = 1}^{n}{(y_{i}\ - \ \overset{\overline{}}{y})\ }}}$= $\frac{\frac{1}{n}\sum_{i = 1}^{n}{(x_{i}y_{i}\ - \ \overline{x}\ \overset{\overline{}}{y})\ }}{\sqrt{\frac{1}{n}\sum_{i = 1}^{n}{x_{i}\ - \ \overline{x}\ }}\sqrt{\frac{1}{n}\sum_{i = 1}^{n}{y_{i}\ - \ \overset{\overline{}}{y}\ }}}$
Aby wyliczyć trzeba zrobić tabelę.
xi |
yi |
xi² | yi |
xiyi |
---|---|---|---|---|
Σ |
Σ |
Σ |
Σ |
Σ |