ELEMENTY STATYSTYKI - WYKŁAD 2 22.10.2011
MIARY ZRÓŻNICOWANIA- służą do oceny w jakim stopniu wartości badanej zmiennej odchylają się od wartości przeciętnej tej zmiennej
X – płace w tys. zł.
A | 1 2 3 4 5 |
---|---|
B | 1 3 3 3 3 |
C | 3 3 3 3 3 |
$$\overset{\overline{}}{x} = 3$$
$$\overset{\overline{}}{x} = 3$$
$$\overset{\overline{}}{x} = 3$$
1.ROZSTĘP – jedna z miar zróżnicowania. Miara charakteryzująca empiryczny obszar zmienności badanej cechy
R = X max – X min
2.WARIANCJA
SZEREG SZCZEGÓŁOWY:
$$s^{2}\left( x \right) = \frac{\sum_{i = 1}^{k}\left( x_{i} - \ \overset{\overline{}}{x} \right)^{2}}{N}$$
SZEREG ROZDZIELCZY:
$$s^{2}\left( x \right) = \frac{\sum_{i = 1}^{k}{\left( x_{i} - \ \overset{\overline{}}{x} \right)^{2}*n_{i}}}{N}$$
Własności miary wariancji
1.Wariancja jest zawsze liczbą nieujemną s2(x) ≥ 0
2. Wariancja jest liczbą mianowaną, której jednostka jest wyrażona w kwadratach
3. ODCHYLENIE STANDARDOWE – wariancja jest miarą, której się nie interpretuje. Stanowi ona podstawę do obliczania ODCHYLENIA STANDARDOWEGO.
$$\text{s\ }\left( x \right) = \sqrt{s^{2}}(x)$$
S(x) – informuje o ile przeciętne rzecz biorąc wartości badanej zmiennej odchylają się od średniej arytmetycznej.
ZADANIE:
Zbadaj zróżnicowanie tego rozkładu (szereg przedziałowy).
Wiek w latach
|
Liczba studentów
|
xi | xi * ni | $x_{i} - \overset{\overline{}}{x}$ | ${(\ x_{i} - \overset{\overline{}}{x})}^{2}$ | ${(\ x_{i} - \overset{\overline{}}{x})}^{2}*n_{i}$ |
---|---|---|---|---|---|---|
20-24 | 10 | 22 | 220 | -8 | 64 | 640 |
24-28 | 20 | 26 | 520 | -4 | 16 | 320 |
28-32 | 40 | 30 | 1200 | 0 | 0 | 0 |
32-36 | 20 | 34 | 680 | 4 | 16 | 320 |
36-40 | 10 | 38 | 380 | 8 | 64 | 640 |
OGÓŁEM | 100 | - | 3000 | - | - | 1920 |
A/. Oceń zróżnicowanie tego rozkładu - czyli oblicz i zinterpretuj wartość odchylenia standardowego.
$$\text{s\ }\left( x \right) = \sqrt{s^{2}}(x)$$
$$s^{2}\left( x \right) = \frac{\sum_{i = 1}^{k}{\left( x_{i} - \ \overset{\overline{}}{x} \right)^{2}*n_{i}}}{N}$$
$\overset{\overline{}}{x\ } = \frac{\sum_{}^{}{x_{i}*n_{i}}}{N} = \frac{3000}{100} = 30$
$s^{2}\left( x \right) = \frac{1920}{100} = 19,2\ $to są lata do kwadratu – nie interpretujemy tej miary!!!
$$s\left( x \right) = \sqrt{19,2} = 4,4\ lata$$
ODP. Wiek studentów odchyla się od średniego wieku przeciętnie rzecz biorąc o 4,4 lat.
LUB:
Przeciętne odchylenie od średniej arytmetycznej (np.: płacy, liczby punktów, itd.) wieku wynosi 4,4 lat.
4.ODCHYLENIE PRZECIĘTNE :
SZEREG SZCZEGÓŁOWY:
$$d\left( x \right) = \frac{\sum_{i = 1}^{N}\left| x_{i} - \overset{\overline{}}{x} \right|}{N}$$
SZEREG ROZDZIELCZY:
$$d\left( x \right) = \frac{\sum_{i = 1}^{N}\left| x_{i} - \overset{\overline{}}{x} \right|*n_{i}}{N}$$
5.WSPÓŁCZYNNIK ZMIENNOŚCI – względna miara zróżnicowania.
JEŚLI W ZADANIU JEST OCEŃ ZRÓŻNICOWANIE TO MOŻEMY SOBIE WYBRAĆ CZY OBLICZYĆ TO ODCHYLENIEM PRZECIĘTNYM , CZY STANDARDOWYM!!!
$V_{z} = \frac{s(x)}{\overset{\overline{}}{x}}$*100
$V_{z} = \frac{d(x)}{\overset{\overline{}}{x}}$*100
ZASTOSOWANIE:
1.Gdy chcemy ocenić zróżnicowanie TEJ SAMEJ zbiorowości pod względem kilku różnych cech (np. badamy pracowników ze względu na płacę, staż pracy i wydajność).
2. Gdy chcemy ocenić zróżnicowanie KILKU ZBIOROWOŚCI pod względem tych samych cech.
KOBIETY | MĘŻCZYŹNI |
---|---|
$$\overset{\overline{}}{X} = 11\ SZTUK$$ |
$$\overset{\overline{}}{X} = 15\ SZTUK$$ |
S(x)=5 sztuk | S(x)=5 sztuk |
$$V_{z} = \frac{5}{11}*100 = 45\ \ \ \ \ > \ \ \ \ \ \ V_{z} = \frac{5}{15}*100 = 33$$
Odp. Kobiety wykazują większe zróżnicowanie w wypalaniu papierosów dziennie.
xi |
ni |
$${\hat{x}}_{i}$$ |
$${\hat{x}}_{i} - \overset{\overline{}}{x}$$ |
$$\left| {\hat{x}}_{i} - \overset{\overline{}}{x} \right|$$ |
$$\left| {\hat{x}}_{i} - \overset{\overline{}}{x} \right|*n_{i}$$ |
---|---|---|---|---|---|
20-24 | 10 | 22 | -8 | 8 | 80 |
24-28 | 20 | 26 | -4 | 4 | 80 |
28-32 | 40 | 30 | 0 | 0 | 0 |
32-36 | 20 | 34 | 4 | 4 | 80 |
36-40 | 10 | 38 | 8 | 8 | 80 |
Σ | 100 | - | - | - | 320 |
$$d\left( x \right) = \frac{\sum_{i = 1}^{N}\left| x_{i} - \overset{\overline{}}{x} \right|*n_{i}}{N} = \frac{320}{100} = 3,2\ lat$$
Odp. Przeciętne odchylenie odchyla się od średniej arytmetycznej o 3,2 lat.
$V_{z} = \frac{s(x)}{\overset{\overline{}}{x}}$*100 $V_{z} = \frac{d(x)}{\overset{\overline{}}{x}}$*100
$V_{z} = \frac{4,4}{30}*100 = 14,7\%$ $V_{z} = \frac{3,2}{30}*100 = 10,7\%$
Pyt. Jaki procent średniej arytmetycznej stanowi odchylenie standardowe?
Odp. 14,7% średniej arytmetycznej wieku stanowi odchylenie standardowe. Zróżnicowanie w rozkładzie jest małe.
Vz (%) |
ZRÓŻNICOWANIE |
---|---|
Do 20% | Małe |
20 – 40% | Średnie |
40-60% | Duże |
Powyżej 60% | Bardzo duże |
MIARY ASYMETRII – służą do oceny kierunku i stopnia odchylania się rozkładu badanej zmiennej od rozkładu symetrycznego.
1.ROZKŁAD SYMETRYCZNY:
$\overset{\overline{}}{x} = Me = D$
$$\text{\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ }\overset{\overline{}}{x} - D = 0$$
$\text{\ \ \ \ \ \ \ \ \ \ \ \ \ }\overset{\overline{}}{x} = Me = D$
2.ROZKŁAD LEWOSTRONNIE ASYMETRYCZNY:
$\overset{\overline{}}{x}\ < Me < D$
$\overset{\overline{}}{x} - D < 0$
$$\text{\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ }\overset{\overline{}}{x}\text{\ \ \ \ \ \ \ Me\ \ \ \ \ \ D\ \ \ }$$
3. ROZKŁAD PRAWOSTRONNIE ASYMETRYCZNY:
$\overset{\overline{}}{X} > Me > D$
$\overset{\overline{}}{x} - D > 0$
$$\text{\ \ \ \ \ \ \ \ \ \ \ D\ \ \ \ \ \ \ \ Me\ \ \ \ \ \ \ }\overset{\overline{}}{x}\text{\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ }$$
1.WSPÓŁCZYNNIK SKOŚNOŚCI PEARSONA:
$A_{s} = \frac{\overset{\overline{}}{x} - D}{S(x)}$ As ∈ < − 1, 1>
As | KORELACJA |
---|---|
Do 0,2 | Bardzo słaba |
0,2 – 0,4 | Słaba |
0,4 – 0,8 | Umiarkowana |
|
Silna |
ZADANIE:
X – płace z złotówkach
$\overset{\overline{}}{x}$ = 3600
D= 3000
S(x)= 1000
Ocenić kierunek i siłę asymetrii, zinterpretować wszystkie wyniki.
Odp. Średnia płaca wynosi 3600 zł, najczęstsze płaca wynosi 3000zł, przeciętne odchylenie od średniej arytmetycznej płac wynosi 1000 zł.
$A_{s} = \frac{\overset{\overline{}}{x} - D}{S(x)} = \ \frac{3600 - 3000}{1000} = 0,6$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ D\ \ \ \ \ \ \ \ < \ \ \ \ \ \ \ \overset{\overline{}}{x}\text{\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ }$
Odp. Rozkład płac charakteryzuje się umiarkowaną asymetrią prawostronną. Większość pracowników ma płacę poniżej średniej arytmetycznej.
OPISOWE METODY ANALIZY WSPÓŁZALEŻNOŚCI ZJAWISK:
1. ZALEŻNOŚĆ FUNKCYJNA – kiedy określonej wartości jednej zmiennej (zmienna niezależna x) odpowiada ściśle określona jedna i tylko jedna wartość drugiej zmiennej (zmienna zależna y)
y = f(x)
2.ZALEŻNOŚĆ STOCHASTYCZNA-konkretnym wartościom zmiennej niezależnej x odpowiadają różne wartości zmiennej zależnej y.
y = f(x)+ε gdzie ε to składnik losowy
3.ZALEŻNOŚĆ KORELACYJNA (statystyczna) – określonym wartościom jednej zmiennej przyporządkowane są średnie z kilku wartości drugiej zmiennej.
$$\overset{\overline{}}{y} = f\left( x \right) + \varepsilon$$
RODZAJE ZALEŻNOŚCI KORELACYJNYCH:
1.ZE WZGLĘDU NA LICZBE BADANYCH ZMIENNYCH:
- związki pomiędzy dwoma zmiennymi,
-związki między więcej niż dwoma zmiennymi.
2.ZE WZGLĘDU NA KSZTAŁT ZWIĄZKU KORELACYJNEGO:
-związki prostoliniowe, które dzielimy na
-dodatnie, tzn.: X↑ i Y↓ lub X↓ i Y↑
-ujemne, tzn.: X↑ i Y↓ lub X↓ i Y↑
-związki krzywoliniowe
3.ZE WZGLĘDU NA CHARAKTER POWIĄZAŃ MIĘDZY ZMIENNYMI WYRÓŻNIAMY:
-związki jednostronne X → Y lub X ←Y
-związki dwustronne X ↔Y
SPOSOBY PRZEDSTAWIANIA MATERIAŁU STATYSTYCZNEGO:
1.LICZBA OBSERWACJI MAŁA N ≤ 30
xi |
x1 |
x2 |
… | xN |
---|---|---|---|---|
yi |
y1 |
y2 |
… | yN |
Np.: 7 uczniów rozwiązywało dwa testy psychologiczne. Ilość punktów była następująca:
Test x | 20 | 19 | 18 | 18 | 17 | 16 | 15 |
---|---|---|---|---|---|---|---|
Test y | 19 | 20 | 20 | 18 | 17 | 15 | 15 |
2.LICZBA OBSERWACJI DUŻA N > 30 ( tablica korelacyjna)
yi
|
y1 |
y2 |
….. | y5 |
ni. |
---|---|---|---|---|---|
x1 |
n11 |
n12 |
….. | n1s |
n1. |
x2 |
n21 |
n22 |
…. | n2s |
n2. |
….. | ….. | ….. | ….. | …. | …. |
….. | ….. | ….. | ….. | …. | …. |
….. | ….. | ….. | ….. | ….. | …. |
xr |
nr1 |
nr2 |
….. | nrs |
nr. |
n.j | n. 1 |
n.2 |
….. | n.s |
N |
n.j – liczebności brzegowe występowania wartości zmiennej Y
n1.- liczebności brzegowe występowania wartości zmiennej X
j= 1,2, . . . , y
j= 1,2, . . ., s
PRZYKŁAD:
Studentów trzeciego semestru studiów podyplomowych z informatyki szkolnej poddano oddzielnym badaniom dotyczącym wiedzy teoretycznej z metodyki prowadzenia zajęć z technologii informacyjnej (TI( w szkole podstawowej oraz umiejętności praktycznego prowadzenia lekcji z TI w klasie piątej.
X – wiedza teoretyczna Y – umiejętności
yi
|
0-10 | 10-15 | 15-20 | 20-25 | ni. |
---|---|---|---|---|---|
20-40 | 3 | 3 | |||
40-60 | 2 | 4 | 6 | ||
60-80 | 9 | 10 | 19 | ||
80-100 | 3 | 7 | 10 | ||
n.j | 5 | 13 | 13 | 7 | 38 |
OKREŚLENIE KSZTAŁTU ZWIĄZKU KORELACYJNEGO:
1.WYKRES ROZRZUTU – SZEREGI SZCZEGÓŁOWE (Xi, yi)
A.KORELACJA LINIOWA DODATNIA- jeśli da się objąć elipsą lub przeprowadzić prostą najbliżej tych punktów, to jest prostoliniowe, jak rośnie w górę, to jest dodatnia:
Y
X
B.KORELACJA LINIOWA UJEMNA:
Y
X
C.KORELACJA KRZYWOLINIOWA:
Y
X
D.BRAK KORELACJI (ZALEŻNOŚCI):
Y
X
MIARY KORELACJI:
1.WSPÓŁCZYNNIK KARELACJI PEARSONA – służy do badania wyłącznie związków prostoliniowych:
$$r_{\text{xy}} = \frac{cov\ (x,y)}{S\left( x \right)*S(y)}$$
cov (x,y) – kowariancja między zmiennymi X i Y.
A.DLA SZEREGU SZCZEGÓŁOWEGO:
$$r_{\text{xy}} = \frac{\frac{1}{N}\sum_{i = 1}^{N}\left( x_{i} - \overset{\overline{}}{x} \right)*\left( y_{i} - \overset{\overline{}}{y} \right)}{\sqrt{\frac{1}{N}\sum_{i = 1}^{N}{\left( x_{i} - \overset{\overline{}}{x} \right)^{2}*}\sqrt{\frac{1}{N}\sum_{i = 1}^{N}\left( y_{i} - \overset{\overline{}}{y} \right)^{2}}}}$$
WŁASNOŚCI rxy:
1.MIARA NIEMIANOWANA < − 1, + 1>
2.DO INTERPRETACJI UŻYWA SIĘ tzw. WSPÓŁCZYNNIKA DETERMINACJI. d = rxy2 * 100
STOPIEŃ ZALEŻNOŚCI:
Poniżej 0,2 | Słaba |
---|---|
0,2-0,4 | Niska |
0,4-0,7 | Umiarkowana |
0,7-0,9 | Silna |
Powyżej 0,9 | Bardzo silna |