STATYSTYKA OPISOWA – WYKŁADY
22.04.2013
1. Zależność korelacyjna (korelacja) polega na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej.
2. Korelacja dodatnia – wzrostowi wartości jednej cechy odpowiada wzrost średnich wartości drugiej cechy.
3. Korelacja ujemna – wzrostowi wartości jednej cechy odpowiada spadek średnich wartości drugiej cechy.
4. Wzrokowa ocena korelacyjnego wykresu rozrzutu punktów empirycznych:
- Korelacja liniowa dodatnia,
- Korelacja liniowa ujemna,
- Brak korelacji,
- Korelacja krzywoliniowa.
5. Współczynnik korelacji liniowej Pearsona:
Miara siły związku liniowego między cechami
Symetryczny $r_{\text{xy}} = \frac{cov(xy)}{s_{x}*s_{y}}$
cov(xy) = srednia x * y − srednia x * srednia y
a) Dla szeregu szczegółowego:
$$r_{\text{xy}} = \ \frac{\sum_{i = 1}^{n}{\left( x_{i} - srednia\ x \right)(y_{i} - srednia\ y)}}{\sqrt{\sum_{i = 1}^{n}{{(x_{i} - srednia\ x)}^{2}\sum_{i = 1}^{n}{(y_{i} - srednia\ y)}^{2}}}}$$
$$\text{cov}\left( \text{xy} \right) = \frac{1}{n}\sum_{i = 1}^{n}{\left( x_{i} - srednia\ x \right)\left( y_{i} - srednia\ y \right)}$$
b) Dla tablicy korelacyjnej:
$$r_{\text{xy}} = \frac{\sum_{i = 1}^{k}{\sum_{j = 1}^{s}{(x_{i}}} - srednia\ x)(y_{i} - srednia\ y)n_{\text{ij}}}{\sqrt{\sum_{i = 1}^{k}{{(x_{i} - srednia\ x)}^{2}n_{i}\sum_{j = 1}^{s}{{(y_{i} - srednia\ y)}^{2}n_{j}}}}}$$
$$\text{cov}\left( \text{xy} \right) = \frac{1}{n}\sum_{i = 1}^{k}{\sum_{j = 1}^{s}{\left( x_{i} - srednia\ x \right)(y_{i} - srednia\ y)n_{\text{ij}}}}$$
6. Wartość współczynnika korelacji liniowej Pearsona:
−1 ≤ rxy ≤ 1
- |rxy| < 0, 2 - brak związku liniowego,
- 0, 2 ≤ |rxy| < 0, 4 - słaba zależność liniowa,
- 0, 4 ≤ |rxy|<0, 7 - umiarkowana zależność liniowa,
- 0, 7 ≤ |rxy|<0, 9 - znacząca zależność liniowa,
- 0, 9 ≤ |rxy| - bardzo silna zależność liniowa.
7. Stosunki (wskaźniki) korelacyjne Pearsona:
- Niesymetryczne,
- Niezależne od kształtu zależności,
- <0; 1>
- exy=0 nieskorelowane
- exy=1 zależność funkcyjna
sy2 = syw2 + sym2 sx2 = sxw2 + sxm2
$$s_{\text{yw}}^{2} = \frac{1}{n}\sum_{i = 1}^{k}s_{\text{yi}}^{2}*n_{\text{i\ .}}\text{\ \ \ \ \ \ \ \ \ \ \ }\text{\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ }s_{\text{xw}}^{2} = \frac{1}{n}\sum_{j = 1}^{s}s_{\text{xj}}^{2}*n_{\text{.\ j}}\text{\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ }\ $$
$s_{\text{ym}}^{2} = \frac{1}{n}\sum_{i = 1}^{k}{(sred\ y_{i} - srednia\ sredniej\ y)}^{2}n_{\text{i\ .}}\text{\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ }s_{\text{xm}}^{2} = \frac{1}{n}{\sum_{j = 1}^{s}{(sred\ x_{j}} - srednia\ sredniej\ x)}^{2}n_{\text{.j}}$
a) Stosunek korelacyjny zmiennej Y względem zmiennej X:
$e_{\text{yx}} = \sqrt{\frac{s_{\text{ym}}^{2}}{s_{y}^{2}} =}\ \sqrt{1 - \frac{s_{\text{yw}}^{2}}{s_{y}^{2}}}$
b) Stosunek korelacyjny zmiennej X względem zmiennej Y:
$$e_{\text{xy}} = \sqrt{\frac{s_{\text{xm}}^{2}}{s_{x}^{2}} =}\ \sqrt{1 - \frac{s_{\text{xw}}^{2}}{s_{x}^{2}}}$$
8. Kwadraty wskaźników korelacyjnych nazywane są współczynnikami determinacji, które informują w ilu procentach zmiany zmiennej zależnej są spowodowane (zdeterminowane) zmianami zmiennej niezależnej.
- Oceny kwadratów wskaźników korelacyjnych wyrażone w procentach:
* 100 * eyx2
* 100 * exy2
9. Stopień krzywoliniowości – Różnica między kwadratami wskaźnika korelacji oraz współczynnika korelacji.
- Wartości z przedziału <0;1>
- m>0,2 krzywoliniowość związku jest istotna,
- W przeciwnym wypadku jeśli wartość rxy pozwala, można uznać związek liniowy,
* mxy = exy2 − rxy2
* myx = eyx2 − ryx2
10. Współczynnik korelacji rang Spearmana – Służy do opisu siły korelacji dwóch cech, w sytuacji, gdy istnieje możliwość uporządkowania obserwacji empirycznych w określonej kolejności.
- di oznacza różnicę między rangami odpowiadających sobie i-tych obserwacji (wartości) cechy X oraz Y,
- Stosowany zwykle dla cech jakościowych lub ilościowych z niewielką liczbą obserwacji,
- Przyjmuje wartości z przedziału <-1;1>,
- Interpretacja wartości identyczna jak współczynnika korelacji Pearsona:
$$r_{s} = 1 - \frac{6*\sum_{i = 1}^{n}d_{i}^{2}}{n\left( n^{2} - 1 \right)}$$
11. Funkcja regresji – to analityczny wyraz przyporządkowania średnich wartości zmiennej objaśnianej (zależnej) konkretnym wartościom zmiennych objaśniających (niezależnych).
- Empiryczna linii regresji zmiennej Y względem X jest linią łamaną powstałą przez połączenie punktów o wspołrzędnych (xi, srednia y|xi),
- Empiryczna linii regresji zmiennej X względem Y jest linią łamaną powstałą przez połączenie punktów o współrzędnych (srednia x|yj, yj).
13. Funkcja regresji:
- Na podstawie empirycznych linii regresji można postawić hipotezę odnośnie typu funkcji matematycznej (liniowa, wykładnicza, parabola, itd.) opisującej mechanizm powiązań
między badanymi zmiennymi,
- Funkcja regresji II rodzaju jest przybliżeniem empirycznych linii regresji. Wybór postaci analitycznej funkcji regresji II rodzaju należy dokonywać również na podstawie źródeł pozastatystycznych (teorii ekonomii, opinii ekspertów, doświadczeń wynikających z poprzednich badań, etc).
14. Liniowa funkcja regresji:
- Funkcja regresji II rodzaju Y względem X:
Y = f(x) = α0 + α1X
$$\alpha_{1} = \frac{cov(xy)}{s_{x}^{2}},\ \alpha_{0} = srednia\ y - \alpha_{1}srednia\ x$$
- Funkcja regresji II rodzaju X względem Y:
X=g(y) = β0 + β1Y
$$\beta_{1} = \frac{cov(xy)}{s_{y}^{2}},\ \beta_{0} = srednia\ x - \beta_{1}srednia\ y$$
- Związki między współczynnikiem korelacji oraz parametrami strukturalnymi liniowej funkcji regresji:
* $r_{\text{xy}} = \sqrt{\alpha_{1},\beta_{1}}$
* $\alpha_{1} = r_{\text{xy}}\frac{s_{y}}{s_{x}}$
* $\beta_{1} = r_{\text{xy}}\frac{s_{x}}{s_{y}}$
15. Badanie dokładności oszacowanej funkcji regresji:
- Reszty zbudowanego modelu:
* ei = yi − yi
* $z_{i} = x_{i} - {x\hat{}}_{i}$
- Wariancja resztowa:
* $s_{e}^{2} = \frac{\sum_{i = 1}^{n}\left( y_{i} - y_{i} \right)^{2}}{n - 2}$
* $s_{z}^{2} = \frac{\sum_{i = 1}^{n}{(x_{i} - {x\hat{}}_{i})}^{2}}{n - 2}$
- Współczynnik zbieżności:
$$\varphi_{\text{yx}}^{2} = \frac{\sum_{i = 1}^{n}\left( y_{i} - y_{i} \right)^{2}}{\sum_{i = 1}^{n}\left( y_{i} - srednia\ y \right)^{2}}$$
Ryx2 + φyx2=1
$$R_{\text{yx}}^{2} = \frac{\sum_{i = 1}^{n}\left( y_{i} - srednia\ y_{i} \right)^{2}}{\sum_{i = 1}^{n}\left( y_{i} - srednia\ y \right)^{2}}$$