Wykład 8: Zmienna losowa dwuwymiarowa (X,Y)

Zależność statystyczna zmiennych losowych (korelacja) - związek pomiędzy dwiema zmiennymi losowymi X i Y.

Intuicyjnie: zależność dwóch zmiennych losowych oznacza, że znając wartość jednej z nich, dałoby się (przynajmniej w niektórych sytuacjach) dokładniej przewidzieć wartość drugiej zmiennej, niż bez tej informacji.

Przykład: pełna (ścisła) zależność

Y = aX + b (liniowa), Y = X2

Definicje:

  1. Kowariancja

cov(X,Y) =def E[(X-EX)(Y-EY)]

cov(X,Y) = E(XY) - EXEY

  1. Współczynnik korelacji (Pearson)

0x01 graphic
, 0x01 graphic

Wartość współczynnika korelacji mieści się w przedziale domkniętym <-1; 1>. Im większa jego wartość bezwzględna, tym silniejsza jest zależność liniowa między zmiennymi:

rxy = 0 oznacza brak liniowej zależności między cechami;

rxy = 1 oznacza dokładną dodatnią liniową zależność między cechami;

rxy = -1 oznacza dokładną ujemną liniową zależność między cechami, tzn. jeżeli zmienna x rośnie, to y maleje i na odwrót.

Współczynnik korelacji liniowej można traktować jako znormalizowaną kowariancję. Korelacja przyjmuje zawsze wartości w zakresie [-1, 1], co pozwala uniezależnić analizę zjawiska losowego od dziedziny badanych zmiennych.

Wykresy rozrzutu pokazujące przykładowe zależności między zmiennymi wraz z odpowiadającymi im wartościami współczynnika korelacji

Niezależność statystyczna

Mówimy, że zmienne losowe X i Yniezależne, gdy dla każdych liczb rzeczywistych a, b zachodzi równość

0x01 graphic
,

F1(x)F2(y) = F(x,y).

Powyższy wzór jest uogólniany na dowolną liczbę zmiennych losowych:

0x01 graphic

dla każdych liczb rzeczywistych 0x01 graphic
, tzn. dystrybuanta wielowymiarowa wektora losowego 0x01 graphic
jest iloczynem dystrybuant odpowiednich zmiennych losowych (dystrybuanty brzegowe).

W szczególności niezależność każdej pary zmiennych (Xi,Xj) nie oznacza niezależności wszystkich zmiennych 0x01 graphic
.

Ponadto: jeżeli zmienne losowe 0x01 graphic
mają rozkłady ciągłe, a 0x01 graphic
są ich gęstościami (gęstości brzegowe), to zmienne losowe są niezależne jeżeli:

0x01 graphic

gdzie g gęstością wektora losowego 0x01 graphic
.

Dla n = 2: f(x,y) = f1(x)f2(y).

Zależność statystyczna

Mówimy, że zmienne losowe X i Yzależne, gdy nie są one niezależne - to znaczy, dla pewnych liczb rzeczywistych a, b:

0x01 graphic
.

Lub innymi słowy dla dystrybuant zachodzi:

0x01 graphic
.

F1(x)F2(y) ≠ F(x,y)

oraz dla gęstości

f1(x)f2(y) ≠ f(x,y).

Popularne błędy: zależność a współczynnik korelacji

Często błędnie zakłada się, że zależność statystyczna jest równoważna niezerowemu współczynnikowi korelacji. Nie jest to prawda. Na przykład zmienne X i Y mogą być związane zależnością:

0x01 graphic
.

Jest to przykład ścisłej zależności. Jednak współczynnik korelacji jest równy zero, gdyż zależność ta nie jest monotoniczna, ani tym bardziej liniowa.

Macierz korelacji to macierz, której elementy stanowią wartości współczynników korelacji dla odpowiednich par zmiennych losowych.

Macierz ta spełnia pięć kryteriów:

Przykład: Mamy zbiór zmiennych losowych X1, X2, ..., Xn. Przykładowa macierz korelacji dla trójelementowego zbioru zmiennych może wyglądać następująco:

 

X1

X2

X3

X1

1,00

0,65

0,36

X2

0,65

1,00

0,41

X3

0,36

0,41

1,00

Z elementu leżącego na przecięciu wiersza i kolumny odpowiadających zmiennym X2 i X3 odczytujemy, że współczynnik korelacji zmiennych X2 i X3 wynosi 0,41.

Macierz kowariancji jest uogólnieniem pojęcia wariancji na przypadek wielowymiarowy. Macierz taka dla wektora losowego (X1,X2,...,Xn) ma postać:

0x01 graphic

gdzie:

Własności macierzy kowariancji