Analiza współzależności

Analiza współzależności ma na celu odkrycie i opisanie zależności jakie zachodzą pomiędzy cechami w pobranej próbie oraz w populacji.

Korelacja

Korelacja Pearsona

Korelacja Pearsona to miara współzależności, która może być stosowana wyłącznie dla danych ilościowych (cech ilościowych).

Kowariancja

Dla szeregów szczegółowych:

0x01 graphic

gdzie n to ilość badanych obserwacji, xi i yi - i-te wartości badanych cech, x i y z kreską - średnie arytmetyczne cechy X i Y.

Dla szeregów rozdzielczych (zapisanych w postaci tablicy korelacyjnej):

0x01 graphic

gdzie nij jest ilością obserwacji odpowiadającą i-tej wartości cechy X i j-tej wartości cechy Y.

Kowariancja zawsze znajduje się w przedziale:

0x01 graphic

Interpretacja: Wartości dodatnie kowariancji oznaczają zależność dodatnią (jednoczesny wzrost lub spadek wartości obydwu cech), wartości ujemne oznaczają zależność ujemną (jednoczesny wzrost wartości jednej z cech i spadek wartości drugiej).

Korelacja

0x01 graphic

gdzie sX i sY są odchyleniami standardowymi cechy X i cechy Y.

Korelacja znajduje się zawsze w przedziale:

0x01 graphic

Interpretacja: Wartości korelacji blisko 0 oznaczają brak zależności, wartości bliskie 1 lub -1 oznaczają występowanie silnej liniowej lub prawie liniowej zależności. Wartości dodatnie oznaczają zależność dodatnią (jednoczesny wzrost lub spadek wartości obydwu cech), wartości ujemne oznaczają zależność ujemną (jednoczesny wzrost wartości jednej z cech i spadek wartości drugiej).

Korelacja rang Spearmana

Korelacja rang Spearmana jest miarą współzależności, którą stosuje się dla danych porządkowych, tzn. danych ilościowych oraz danych jakościowych zawierających naturalny porządek.

Ranga to kolejny numer w uporządkowanym szeregu wartości cechy.

0x01 graphic

gdzie n jest ilością obserwacji, di - różnicą pomiędzy rangami obliczanymi oddzielnie dla obydwu cech.

Interpretacja: Interpretacja jest taka sama jak w przypadku korelacji Pearsona.

Dla cech jakościowych nie posiadających naturalnego porządku do badania współzależności stosuje się testy nieparametryczne, np. test niezależności 2.

Regresja

Regresja to prosta, krzywa lub łamana opisująca w sposób najdokładniejszy zależność korelacyjną pomiędzy cechami.

Regresja I rodzaju

Funkcja regresji I rodzaju zmiennej losowej X względem zmiennej losowej Y.

0x01 graphic

Funkcja regresji I rodzaju zmiennej losowej Y względem zmiennej losowej X.

0x01 graphic

gdzie w jest odpowiednią częstością obserwacji.

Regresja I rodzaju jest łamaną łączącą punkty o współrzędnych (m1(yj), yj) lub (xi, m2(xi)).

Regresja II rodzaju

Regresja II rodzaju to prosta najlepiej wpasowana pomiędzy punkty na wykresie korelacyjnym. Jest prostą najlepiej opisującą zależność korelacyjną.

Zależność zmiennej od zmiennej X opisana jest wzorem:

0x01 graphic

gdzie

0x01 graphic