49
Statystyka matematyczna
W statystyce opisowej możemy obliczyć odpowiedni estymator kowariancji, zwany czasami kowariancją empiryczną, przy pomocy formuły
(3.126)
Cov(Xiy) = - (i, - i) (jij - y)
gdzie n jest liczbą par obserwacji, a (*1,3/1), (*2>S/2)>• ■ •, jest szeregiem
statystycznym obserwacji dla zmiennych (X, Y). Należy podkreślić, że w przypadku badania zależności zmiennych istotne są pary zmiennych, a nie pojedyncze zmienne. Pary zawierają bowiem niezbędną informację o strukturze zależności pomiędzy zmiennymi. Wzór (3.126) można przedstawić także w postaci
gdzie
XiVi •
(3.128)
Niestety, interpretacja współczynnika kowariancji nie jest zbyt łatwa, podobnie jak np. wariancji. Ciężko jest bowiem określić, czy duża jego wartość wynika z wysokiego stopnia zależności pomiędzy zmiennymi, czy dużej zmienności jednej albo obu zmiennych. Dlatego wykorzystuje się współczynnik korelacji liniowej Pearsona
r = T(xy) = r(Y,x) =
(3.129)
gdzie $x i $y są znanymi nam ze statystykami opisowej odchyleniami standardowymi odpowiednio zmiennej X i zmiennej Y. Jak łatwo zauważyć
r(X,Y) =
(3.130)
Jeśli wartość r^x.Y) jest bliska 1, to pomiędzy zmiennymi istnieje dodatnia zależność liniowa (wraz ze wzrostem wartości jednej zmiennej, w „liniowy sposób” rosną wartości drugiej zmiennej). Gdy zaś wartość r^x.Y) jest bliska -1, to istnieje ujemna zależność liniowa (wraz ze wrzrostem wartości jednej zmiennej, w „liniowy sposób” maleją wartości drugiej zmiennej). Jeśli zaś wartość ryt y) jest bliska 0, świadczy to o braku liniowej zależności liniowej pomiędzy zmiennymi. Należy pamiętać jednak, że nie świadczy to o o braku zależności w ogóle - być może istnieje jakaś zależność, opisana w bardziej „skomplikowany sposób”, np. poprzez funkcję kwradratowrą, czy wykładniczą. Z tego powodu mówimy wtedy jedynie o braku korelacji pomiędzy zmiennymi, a nie o braku zależności.
Współczynnikowi korelacji liniowej Pearsona, czyli pewnej wielkości opartej na obserwacjach, odpowiada współczynnik teoretyczny, znany z rachunku prawdopodobieństwa - korelacja zdefiniowana wzorem
Corr(X, Y) =
Cov(X,Y)
v/VarX-Var Y
(3.131)
(porównaj z (3.129)).