Wykład 8: Zmienna losowa dwuwymiarowa (X,Y)
Zależność statystyczna zmiennych losowych (korelacja) - związek pomiędzy dwiema zmiennymi losowymi X i Y.
Intuicyjnie: zależność dwóch zmiennych losowych oznacza, że znając wartość jednej z nich, dałoby się (przynajmniej w niektórych sytuacjach) dokładniej przewidzieć wartość drugiej zmiennej, niż bez tej informacji.
Przykład: pełna (ścisła) zależność
Y = aX + b (liniowa), Y = X2
Definicje:
Kowariancja
cov(X,Y) =def E[(X-EX)⋅(Y-EY)]
cov(X,Y) = E(X⋅Y) - EX⋅EY
Współczynnik korelacji (Pearson)
,
Wartość współczynnika korelacji mieści się w przedziale domkniętym <-1; 1>. Im większa jego wartość bezwzględna, tym silniejsza jest zależność liniowa między zmiennymi:
rxy = 0 oznacza brak liniowej zależności między cechami;
rxy = 1 oznacza dokładną dodatnią liniową zależność między cechami;
rxy = -1 oznacza dokładną ujemną liniową zależność między cechami, tzn. jeżeli zmienna x rośnie, to y maleje i na odwrót.
Współczynnik korelacji liniowej można traktować jako znormalizowaną kowariancję. Korelacja przyjmuje zawsze wartości w zakresie [-1, 1], co pozwala uniezależnić analizę zjawiska losowego od dziedziny badanych zmiennych.
Wykresy rozrzutu pokazujące przykładowe zależności między zmiennymi wraz z odpowiadającymi im wartościami współczynnika korelacji
Niezależność statystyczna
Mówimy, że zmienne losowe X i Y są niezależne, gdy dla każdych liczb rzeczywistych a, b zachodzi równość
,
F1(x)⋅F2(y) = F(x,y).
Powyższy wzór jest uogólniany na dowolną liczbę zmiennych losowych:
dla każdych liczb rzeczywistych
, tzn. dystrybuanta wielowymiarowa wektora losowego
jest iloczynem dystrybuant odpowiednich zmiennych losowych (dystrybuanty brzegowe).
W szczególności niezależność każdej pary zmiennych (Xi,Xj) nie oznacza niezależności wszystkich zmiennych
.
Ponadto: jeżeli zmienne losowe
mają rozkłady ciągłe, a
są ich gęstościami (gęstości brzegowe), to zmienne losowe są niezależne jeżeli:
gdzie g gęstością wektora losowego
.
Dla n = 2: f(x,y) = f1(x)⋅f2(y).
Zależność statystyczna
Mówimy, że zmienne losowe X i Y są zależne, gdy nie są one niezależne - to znaczy, dla pewnych liczb rzeczywistych a, b:
.
.
F1(x)⋅F2(y) ≠ F(x,y)
oraz dla gęstości
f1(x)⋅f2(y) ≠ f(x,y).
Popularne błędy: zależność a współczynnik korelacji
Często błędnie zakłada się, że zależność statystyczna jest równoważna niezerowemu współczynnikowi korelacji. Nie jest to prawda. Na przykład zmienne X i Y mogą być związane zależnością:
.
Jest to przykład ścisłej zależności. Jednak współczynnik korelacji jest równy zero, gdyż zależność ta nie jest monotoniczna, ani tym bardziej liniowa.
Macierz korelacji to macierz, której elementy stanowią wartości współczynników korelacji dla odpowiednich par zmiennych losowych.
Macierz ta spełnia pięć kryteriów:
jest macierzą kwadratową ;
wartości wszystkich elementów macierzy należą do przedziału <-1,1> (ponieważ są współczynnikami korelacji) ;
wszystkie elementy leżące na głównej przekątnej tej macierzy równe są 1 (określa to stopień skorelowania zmiennej Xi z nią samą) ;
jest to macierz symetryczna ;
wyznacznik tej macierzy należy do przedziału <0,1>.
Przykład: Mamy zbiór zmiennych losowych X1, X2, ..., Xn. Przykładowa macierz korelacji dla trójelementowego zbioru zmiennych może wyglądać następująco:
|
X1 |
X2 |
X3 |
X1 |
1,00 |
0,65 |
0,36 |
X2 |
0,65 |
1,00 |
0,41 |
X3 |
0,36 |
0,41 |
1,00 |
Z elementu leżącego na przecięciu wiersza i kolumny odpowiadających zmiennym X2 i X3 odczytujemy, że współczynnik korelacji zmiennych X2 i X3 wynosi 0,41.
Macierz kowariancji jest uogólnieniem pojęcia wariancji na przypadek wielowymiarowy. Macierz taka dla wektora losowego (X1,X2,...,Xn) ma postać:
gdzie:
Własności macierzy kowariancji