W celu stwierdzenia występowania współzależności między dwiema cechami wykorzystujemy analizę korelacyjną, oceniając siłę i kierunek zależności.
Dane w formie szeregu korelacyjnego Szereg korelacyjny (inaczej prosty) zawiera uporządkowane parami warianty dwóch cech jednocześnie, stanowiąc zestawienie dwóch szeregów szczegółowych o tej samej liczebności.
Przykładowa tabela korelacyjna jest pokazana poniżej Szereg korelacyjny danych
Numer pary (niekonieczny)
1
2
3
4
5
6
...
n
Wartości zmiennej niezależnej x
x1
x2
x3
x4
x5
x6
...
xn
Wartości zmiennej niezależnej y
y1
y2
y3
y4
y5
y6
...
yn
Dane w formie tabeli korelacyjnej Tabela korelacyjna jest tworzona dla uproszczenia, gdy szereg korelacyjny zawiera zbyt dużo danych. Aby ją utworzyć dzieli się szeregi zmiennej x i zmiennej y na taką samą ilość przedziałów o równej szerokości. Na przecięciu przedziałów zmiennych x i y wpisuje się liczebność cech pasujących do odpowiednich przedziałów obu zmiennych. Czyli n3,2 oznacza ilość par danych, w których zmienna x mieści się w przedziale 3 a zmienna y mieści się w przedziale 2.
Tabela korelacyjna danych
przedział numer i dla zmiennej x
i=1
i=2
i=3
...
k
granice przedziałów
X1,min-X1,max
X2,min-X2,max
X3,min-X3,max
...
Xn,min-Xn,max
Y1,min-Y1,max
n1,1
n2,1
n3,1
...
nk,1
j=2
Y
iennej y
j=1
2,min-Y2,max
n1,2
n2,2
n3,2
...
nk,2
j=3
Y3,min-Y3,max
n1,3
n2,3
n3,3
...
nk,3
...
...
...
...
...
...
...
r
granice przedziałów
Yr,min-Yr,max
n1,r
n2,r
n3,r
...
nk,r
przedziały dla zm
Współczynnik korelacji Pearsona Współczynnik korelacji rxy mieści się z zakresie <-1, 1>. Wartość 0 oznacza brak korelacji, natomiast im bardziej współczynnik zbliża się do wartości -1 lub 1, tym silniejsza jest korelacja.
Orientacyjnie przyjmuje się, że siła korelacji między dwoma cechami jest: nie istnieje
|ryx| = 0
niewyraźna:
|ryx| < 0.2
wyraźna ale niska
0.2 < |ryx| < 0.4
umiarkowana
0.4 < |ryx| < 0.7
znacząca
0.7 < |ryx| < 0.9
bardzo silna
|ryx| > 0.9
Do obliczenia współczynnika korelacji Pearsona używa się wzoru r = r =
xy
yx
S x ⋅ S y
gdzie:
rxy
korelacja zmiennej x względem zmiennej y ryx
korelacja zmiennej y względem zmiennej x cov(x,y) kowariancja między zmiennymi x i y S(x)
odchylenie standardowe zmiennej x
S(y)
odchylenie standardowe zmiennej y
Kowariancja jest liczbą określającą zależność liniową między zmiennymi losowymi X i Y. Dodatnia wartość kowariancji cov(X,Y) > 0 oznacza, że przy wzroście wartości X wartości Y na ogół także rosną (co oznacza, że X i Y są skorelowane dodatnio/pozytywnie). Ujemna wartość kowariancji cov(X,Y) < 0 oznacza, że przy wzroście X wartości Y na ogół maleją (co oznacza, że zmienne X i Y
są skorelowane ujemnie/negatywnie).
Kowariancję wylicza się z wzoru cov x , y= x⋅ y− x⋅ y gdzie:
cov(x,y) kowariancja między zmiennymi x i y S(y)
odchylenie standardowe zmiennej y
x
średnia cechy x
y
średnia cechy y
xy
średnia iloczynu cech x i y (zależna od formy danych, opisana poniżej)
Pozostałe elementy obu powyższych wzorów oblicza się nieco inaczej w zależności od tego, czy dane są przedstawione w formie szeregu korelacyjnego czy w formie tabeli korelacyjnej.
n
Dla szeregu korelacyjnego używa się następujących wzorów:
xi− x 2
S x =
n
n
n
∑ i=1 n
n
y
∑ x
∑ y
∑ x⋅ y
i− y 2
i
i
i
i
S
i=1
i=1
i=1
y =∑ i=1
x=
y=
x⋅ y=
n
n
n
n
gdzie:
S(x)
odchylenie standardowe zmiennej x
S(y)
odchylenie standardowe zmiennej y
xi
kolejne wartości cechy x
yi
kolejne wartości cechy y
x
średnia cechy x
y
średnia cechy y
xy
średnia iloczynu cech x i y
n
liczebność zbioru
k
Dla tablicy korelacyjnej używa się następujących wzorów:
xi− x 2⋅ ni
S x =
k
k
∑ i=1 n
k
k
r
y
∑ x⋅ n
∑ y⋅ n
∑ ∑ x⋅ y ⋅ n
j− y2⋅ n j
i
i
i
j
i
j
ij
S
i=1
j=1
i=1 i =1
y =∑ j=1
x=
y=
x⋅ y=
n
n
n
n
gdzie:
S(x)
odchylenie standardowe zmiennej x
S(y)
odchylenie standardowe zmiennej y
xi
wartość średnia przedziału numer i cechy x yj
wartość średnia przedziału numer j cechy y
średnia z wartości przedziałów cechy x y
średnia z wartości przedziałów cechy y xy
średnia iloczynu cech x i y
ni
liczebność zbioru w przedziale numer i nj
liczebność zbioru w przedziale numer j n
liczebność zbioru w przedziale numer i liczebność zbioru
nij
zmiennej x oraz przedziale numer j zmiennej y nie używać na razie
1 n
cov x , y= ∑ x − x y − y
n
i
i
i=1