Analiza współzależności zmiennych mierzalnych
Korelacja i regresja
Część I
Celem analizy współzależności jest badanie związków między zmiennymi
mierzalnymi i prognozowanie jednych zmiennych za pomocą innych zmiennych.
Analiza współzależności między zmiennymi to badanie zbiorowości statystycznej ze
względu na dwie lub więcej zmiennych jednocześnie. Zakładamy, że wszystkie
zmienne są mierzalne.
Warto podkreślić, że terminy współzależność lub współwystępowanie są tu bardzo
zasadne. Należy wyraźnie odróżniać współzależność od zależności, która kojarzy się z
zależnością przyczynowo-skutkową. Statystyka koncentruje się na badaniu liczbowym
związku między zmiennymi, natomiast natura związku, jej przyczynowo-skutkowy
charakter należy ustalać w oparciu o wiedzę, teorię w danej dziedzinie wiedzy
socjologii, psychologii, kryminologii itp.
Umownie, dla ułatwienia będziemy mówić o zmiennej Y – zależna, a o zmiennej X
jako niezależna, ale nie w rozumieniu zależności przyczynowo-skutkowej. Lepszym,
„zgrabniejszym” określeniem dla zmiennej Y jest – zmienna objaśniana, a dla
zmiennej X – objaśniająca.
O współzależności w uproszczeniu mówimy zależność, lecz nie oznacza to związku
przyczynowo-skutkowego.
Korelacja pozorna – oznacza przypadkowe współwystępowanie zmiennych Y i X,
które nie ma potwierdzenia w naturze związku. Przykład: Y – liczba urodzeń i X –
liczba przylatujących bocianów. W interpretacjach związków należy uważać, aby nie
wpaść w pułapkę korelacji pozornych.
Zależność funkcyjna i zależność statystyczna
Zależność funkcyjna, funkcja matematyczna jest to jednoznaczne przyporządkowanie
wartościom jednego zbioru wartości drugiego zbioru [według pewnego przepisu f].
Zależność funkcyjna przedstawia się następująco: y = f(x)
Np. y=2x+4 (funkcja liniowa) oznacza, że gdy x=4 to y=12, a gdy x=10 to y=24.
Zależność (współzależność) statystyczna nie jest jednoznaczna. Dotyczy zmiennych
empirycznych i związku empirycznego. Mówimy o prawidłowościach (najczęściej
występujących tendencjach), i mogą pojawić się wyjątki (stąd zależność nie
jednoznaczna).
Zależność statystyczną między zmiennymi Y i X przedstawiamy jako:
Y= f (X, e)
gdzie:
Y - zmienna objaśniana,
X - zmienna objaśniająca,
e – składnik losowy, który reprezentuje wpływ na Y czynników losowych oraz innych
zmiennych objaśniających, nie uwzględnionych w modelu.
Y – może być np. wynik testu z logiki (musi być mierzalne), a X – liczba godzin nauki.
W ogólnym podejściu możemy przyjąć, że zmienna Y (objaśniająca) jest współzależna
z wieloma zmiennymi objaśniającymi: X1, X2, ….Xk, co możemy zapisać jako:
Y= f (X1, X2, …., Xk, e)
Uwzględnienie wielu zmiennych jest domeną analizy wielowymiarowej, w której
obserwujemy wpływ zmiennych objaśniających na zmienną objaśnianą, a także
wzajemną zależność zmiennych objaśniających.
W analizie związków empirycznych (statystycznych) wskazujemy na prawidłowości
współwystępowania zmiennych np. Y i X (przeciętny trend) oraz rozbieżności od
prawidłowości (rozrzut punktów empirycznych).
Współwystępowanie tych dwóch zmiennych Y i X przedstawiamy na wykresie
zwanym diagramem korelacyjnym, w którym na osi X – poziomej (odciętych)
przedstawiamy zmienną niezależną (objaśniającą), a na osi rzędnych Y – pionowej
(rzędnych) zmienną zależną (objaśnianą).
Przykład 1. Związek między dwiema zmiennymi: Y – szybkość czytania i X – iloraz
inteligencji (IQ):
Diagram korelacyjny:
Diagram korelacyjny
(Y - szybkość czytania; X - IQ)
0
50
100
150
200
250
300
0
20
40
60
80
100
120
140
Elementy korelacji i regresji
Korelacja
• Mówi o tym jaki jest kierunek związku Y i X
• Mówi o tym jaka jest siła związku Y i X
Warto podkreślić, że siła związku jest domeną wyłącznie związków statystycznych.
Ta charakterystyka – siła nie występuję w przypadku związków matematycznych, które
są jednoznaczne.
Regresja
• Mówi o tym jaki jest kierunek związku
• Mówi o tym jaki jest kształt
Kierunek związku może być dodatni lub ujemny.
Związek między Y i X jest dodatni, jeśli rosnącym wartością zmiennej X odpowiadają
rosnące wartości zmiennej Y.
Współzależność dodatnia
0
50
100
150
200
250
300
0
50
100
150
Związek między Y i X jest ujemny jeśli rosnącym wartością zmiennej X odpowiadają
malejące wartości zmiennej Y.
Współzależność ujemna
0
50
100
150
200
250
300
0
50
100
150
Siła współzależności może być duża i mała.
Jeśli punkty skupione są np. blisko linii – oznacza to silną współzależność. Jeśli punkty
empiryczne są bardzo rozproszone – związek określamy jako słaby.
Przykład związku silnego i ujemnego:
Współzależność silna (ujemna)
0
50
100
150
200
250
300
0
20
40
60
80
100
120
140
160
Przykład związku słabego i ujemnego:
Współzależność słaba (ujemna)
0
50
100
150
200
250
300
0
20
40
60
80
100
120
140
160
Kształt związku: współzależność może mieć kształt liniowy lub nieliniowy
(logarytmiczny, wykładniczy itp.).
Współczynnik korelacji liniowej Pearsona
Do określenia siły korelacji stosuje się współczynnik korelacji liniowej Pearsona r,
który oblicza się według wzoru:
∑
∑
∑
−
−
−
−
=
2
2
)
(
)
(
)
)(
(
y
y
x
x
y
y
x
x
r
i
i
i
i
Współczynnik korelacji Pearsona mierzy siłę zależności tylko w przypadku
współzależności liniowej.
Właściwości współczynnika r Pearsona.
1. Współczynnik r przyjmuje wartości od -1 do +1,
czyli: -1 ≤ r ≤ 1
2. Wartość współczynnika korelacji określa siłę i kierunek współzależności
a) moduł r (
I
r
I
) – określa siłę współzależności
b) znak (+ –) – określa kierunek związku
3. Interpretacja siły współzalezności:
a) r=0: brak związku między zmiennymi YX
b) r= –1 lub r=+1: związek funkcyjny („najsilniejszy”)
c)
I
r
I
bliskie 1: związek między YX silny
d)
I
r
I
bliskie 0: związek słaby
4. Współczynnik korelacji r Pearsona ma własność symetryczności,
czyli:
r
yx
= r
xy
oznacza to, że siła zależności między Y i X jest taka sama jak między X i Y.
5. Kwadrat r (r
2
) określa się mianem współczynnika determinacji i oznacza %
zmienności Y wyjaśniony zmiennością X.
Np.
r
2
=0,67 oznacza, że zróżnicowanie Y można w 67% wyjaśnić
zróżnicowaniem X.
Przykład 1.
Obliczyć współczynnik korelacji między Y i X (Y – szybkość czytania i X – iloraz
inteligencji (IQ).
lp
x
i
y
i
x
i
- x
y
i
- y (x
i
- x )*( y
i
- y )
(x
i
- x )
2
( y
i
- y )
2
1 80
120
-27
-55
1485
729 3025
2 92
140
-15
-35
525
225 1225
3 90
100
-17
-75
1275
289 5625
4 109
170
2
-5
-10
4 25
5 100
130
-7
-45
315
49 2025
6 105
190
-2
15
-30
4 225
7 110
220
3
45
135
9 2025
8 110
140
3
-35
-105
9 1225
9 115
180
8
5
40
64 25
10 120
240
13
65
845
169 4225
11 123
200
16
25
400
256 625
12 130
270
23
95
2185
529 9025
Suma
1284 2100
X X
7060
2336
29300
Średnia X= 107
Średnia Y= 175
85
,
0
*
)
(
)
(
)
)(
(
29300
2336
7060
.
..........
..........
..........
.
..........
..........
.
..........
..........
2
2
=
=
−
−
−
−
=
∑
∑
∑
y
y
x
x
y
y
x
x
r
i
i
i
i
r
2
= 0,73
Interpretacja:
Związek między Y i X jest silny i dodatni, co oznacza, że osoby o wyższym IQ szybciej
czytają. Współczynnik determinacji 0,73 oznacza, że zróżnicowanie szybkości czytania
można w 73% wyjaśnić zróżnicowaniem IQ.