STATYSTYKA – wykład 03.12.2011
12.01.2012, GODZINA 1730 – SALA C1 LUB C2 – WPISY.
Przykład:
Badano 7 krakowskich uczelni ze względu na liczbę studentów i powierzchnię sal dydaktycznych. Sporządzić wykres rozrzutu i ocenić siłę związku między badanymi cechami.
y – liczba studentów (tys. Osób);
x – powierzchnia sal dydaktycznych (tys. m2).
UCZELNIA | yi | xi | $$y_{i} - \overset{\overline{}}{y}$$ |
$$x_{i} - \overset{\overline{}}{x}$$ |
$${(\ x_{i} - \overset{\overline{}}{x})}^{2}$$ |
$${(\ y_{i} - \overset{\overline{}}{x})}^{2}$$ |
$$({x_{i} - \overset{\overline{}}{x})*(y}_{i} - \overset{\overline{}}{y})$$ |
---|---|---|---|---|---|---|---|
UR | 4 | 4,5 | -4 | -1,9 | 3,61 | 16 | 7,6 |
UE | 12 | 8,8 | 4 | 2,4 | 5,76 | 16 | 9,6 |
WSP | 6 | 4,2 | -2 | -2,2 | 4,84 | 4 | 4,4 |
UJ | 21 | 17 | 13 | 10,6 | 112,36 | 169 | 137,8 |
PK | 9 | 6 | 1 | -0,4 | 0,16 | 1 | -0,4 |
ASP | 1 | 1,8 | -7 | -4,6 | 21,16 | 49 | 32,2 |
AWF | 3 | 2,5 | -5 | -3,9 | 15,21 | 25 | 19,5 |
RAZEM (N=7) Bo jest 7 uczelni |
56 | 44,8 | 0– żeby się sprawdzić, to musi wyjść, ale nie podstawiamy tego zera do wzoru |
0 – żeby się sprawdzić, to musi wyjść, ale nie podstawiamy tego zera do wzoru |
163,1 | 280 | 210,7 |
Odp. Na powyższym wykresie widzimy korelację liniową dodatnią.
1 MIARA:
$$r_{\text{xy}} = \frac{\frac{1}{N}\sum_{i = 1}^{N}\left( x_{i} - \overset{\overline{}}{x} \right)*\left( y_{i} - \overset{\overline{}}{y} \right)}{\sqrt{\frac{1}{N}\sum_{i = 1}^{N}{\left( x_{i} - \overset{\overline{}}{x} \right)^{2}*}\sqrt{\frac{1}{N}\sum_{i = 1}^{N}\left( y_{i} - \overset{\overline{}}{y} \right)^{2}}}}$$
$\overset{\overline{}}{x} = 44,8 : 7 = 6,4$ rxy ∈ < −1, + 1>
$\overset{\overline{}}{y}$ = 56 ∶ 7 = 8
$$r_{\text{xy}} = \frac{\frac{1}{7}\ *210,7\ }{\sqrt{\frac{163,1}{7}*\ \sqrt{\frac{280}{7}}}} = \ \frac{30,1}{6,32*4,83} = 0,986$$
Odp. Pomiędzy badanymi cechami występuje bardzo silna korelacja dodatnia.
2 MIARA:
Współczynnik korelacji rang Spearmana – służy do badania korelacji cech gdy:
Cechy są mierzalne a badana zbiorowość jest nieliczna;
Cechy maja charakter jakościowy i istnieje możliwość uporządkowania obserwacji empirycznych w określonej kolejności.
$$r_{s} = 1 - \ \frac{6*\ \sum_{i = 1}^{N}{({t_{\text{xi}} - t_{\text{yi}}\ )}^{2}}}{N*\ \left( N^{2} - \ 1 \right)}$$
rs ∈ < −1, + 1>
txi, tyi – rangi nadane zaobserwowanym wartościom zmiennych x i y.
ZADANIE:
Określić ścisłość związku między zaangażowaniem w pracy organizacji studenckich a średnią ocen w nauce w badanej zbiorowości studenckiej.
student | Stopień zaangażowania x |
Średnia Ocen y |
Rangi x txi |
Rangi y tyi |
txi − tyi |
(txi − tyi )2 |
---|---|---|---|---|---|---|
A | Mniej niż przeciętny | 5,0 | 3 | 7 | -4 | 16 |
B | Niski | 3,5 | 2 | 4 | -2 | 4 |
C | Wysoki | 2,5 | 6 | 1,5 | 4,5 | 20,25 |
D | Przeciętny | 4,0 | 4,5 | 5,5 | -1 | 1 |
E | Bardzo wysoki | 2,5 | 7 | 1,5 | 5,5 | 30,25 |
H | Bardzo niski | 3,0 | 1 | 3 | -2 | 4 |
G | Przeciętny | 4,0 | 4,5 | 5,5 | -1 | 1 |
Σ | - | - | 28 | 28 | x | 76,5 |
Aby się upewnić, że w tabelce policzyliśmy dobrze rangi, to korzystamy z następującego wzoru:
$$\frac{N\ (N = 1)}{2} = \ \frac{7*(7 + 1)}{2} = 28$$
Wiemy wtedy jaka ma być suma rang, suma txi oraz tyi musi być taka sama!!!
$r_{s} = 1 - \ \frac{6*76,5}{7*(7^{2} - 1)}$ = 1 – 1,366 = - 0,366
Odp. Przeciętnie rzecz biorąc wraz ze wzrostem zaangażowania maleje średnia ocen.
ZADANIE DOMOWE:
Uczniów klasy drugiej poddano testowi na umiejętności czytania. W badaniach poszukiwano związku pomiędzy ilością błędów a absencją uczniów w szkole.
NUMER UCZNIA W DZIENNIKU |
NIEOBECNOŚĆ W godzinach x |
ILOŚĆ POMYŁEK W TEŚCIE y |
---|---|---|
1 | 5 | 1 |
2 | 21 | 6 |
3 | 17 | 5 |
4 | 11 | 4 |
5 | 26 | 7 |
6 | 40 | 9 |
7 | 33 | 8 |
8 | 32 | 9 |
9 | 2 | 2 |
Σ | - | - |
3 MIARA:
Związek cech niemierzalnych, np. czy wynik zaliczenia jest zależny od płci studenta – współczynnik V Cramera.
WSPÓŁCZYNNIK CRAMERA:
Trzeci krok: $V = \ \sqrt{\frac{\chi}{N*min\left\{ \left( r - 1 \right);\left( s - 1 \right) \right\}}}$ Vϵ < 0, 1>
Drugi krok: $\chi^{2} = \ \sum_{i = 1}^{r}{\sum_{j = 1}^{s}\frac{{(n_{\text{ij}}{- \ n^{*}}_{\text{ij}})}^{2}}{{n^{*}}_{\text{ij}}}}$
Pierwszy krok: ${n^{*}}_{\text{ij}} = \ \frac{n_{\text{i.}}\ *n_{\text{.j}}}{N}$
nij − liczebnosci empiryczne
n*ij − liczebnosci teoretyczne
χ2 − (chi kwadrat) − pamietaj, to nie jest zwykle x!
r – liczba wierszy w tablicy kontyngencji
s – liczba kolumn w tablicy kontyngencji
Jeżeli V = 0 to cechy X i Y są niezależne;
Im bliższa 1 jest wartość V tym silniejsze jest powiązanie pomiędzy cechami X i Y.
PRZYKŁAD:
W grupie 750 mężczyzn w wieku 50 – 60 lat zbadano zależność między ilością wypalanych dziennie papierosów a wystąpieniem pewnych niekorzystnych zmian w płucach. Zebrane dane przedstawiono w poniższej tablicy wielodzielczej:
x | y | ni. |
---|---|---|
niepalący | Palący mało | |
Zmiany występują | 121,3 26 |
132,2 125 |
Zmiany nie występują | 89,7 185 |
97,8 105 |
n.j | 211 | 230 |
Krok pierwszy:
$${n^{*}}_{\text{ij}} = \ \frac{n_{\text{i.}}\ *n_{\text{.j}}}{N}$$
$${n^{*}}_{11} = \frac{n_{1.}\ *n_{.1}}{N} = \ \frac{431*211}{750} = 121,3$$
$${n^{*}}_{12} = \frac{n_{1.}\ *n_{.2}}{N} = \ \frac{431*230}{750} = 132,2$$
$${n^{*}}_{23} = \frac{n_{2.}\ *n_{.3}}{N} = \frac{319*309}{750} = 131,4$$
n*23 = 2 − gi wiersz, 3 − cia kolumna
Krok drugi:
$\chi^{2} = \ \sum_{i = 1}^{r}{\sum_{j = 1}^{s}{\frac{{(n_{\text{ij}}{- \ n^{*}}_{\text{ij}})}^{2}}{{n^{*}}_{\text{ij}}} = \ \frac{{(26 - 121,3)}^{2}}{121,3}}} + \frac{{(125 - 132,2)}^{2}}{132,2} + \frac{{(280 - 177,6)}^{2}}{177,6} + \frac{{(185 - 89,7)}^{2}}{89,7} + + \frac{{(105 - 97,8)}^{2}}{97,8} + \frac{{(29 - 131,4)}^{2}}{131,4} = 315,886$
Krok trzeci:
$$V = \ \sqrt{\frac{\chi}{N*min\left\{ \left( r - 1 \right);\left( s - 1 \right) \right\}}} = \sqrt{\frac{315,886}{750*1}} = 0,649$$
r=2, czyli r – 1 = 1
s = 3, czyli s – 1 = 3 – 1= 2
bierzemy ta mniejszą liczbę, czyli 1.
Odp. Zależność jest wyraźna.
ZADANIE DOMOWE:
Dla sprawdzenia przypuszczenia, że stosunek uczuciowy matki do dziecka ma znaczny wpływ na występowanie zaburzeń nerwowych, wybrano losowo 100 dzieci i uzyskano dane:
WYSTĘPOWANIE ZABURZEŃ NERWOWYCH |
STOSUNEK UCZUCIOWY MATKI DO DZIECKA | ni. |
---|---|---|
SERDECZNY | RZECZOWY | |
TAK | 10 | 9 |
NIE | 40 | 21 |
n.j | 50 | 30 |
Stosując odpowiednią miarę sprawdź, czy wyniki uzyskane w próbie potwierdzają postawioną tezę.