Korelacja to pojęcie związane
matematyczną techniką określenia
stopnia, w jakim dwie zmienne statystyczne są ze sobą powiązane.
Jeśli elementy populacji obdarzone są co najmniej dwiema cechami statystycznymi, istotnym zagadnieniem badań statystycznych jest odpowiedź na pytanie, czy między zmiennymi (cechami) zachodzi jakiś związek (zależność) i czy ten związek jest bardziej czy mniej ścisły.
Związek statystyczny polega na tym, że określonym wartościom jednej zmiennej (cecha) odpowiadają określone wartości średnie drugiej zmiennej.
Z punktu widzenia właściwej metodyki badawczej, najpierw należy uzasadnić logiczne występowanie związku między zmiennymi, a dopiero potem przystąpić do określenia siły i kierunku zależności. Liczbowe stwierdzenie występowania współzależności między zmiennymi nie zawsze oznacza występowanie związku przyczynowo-skutkowego między badanymi zmiennymi. Np. podobno znane są w literaturze przykłady badania, nawet istotnej statystycznie – zależności między liczbą zajętych gniazd bocianich a liczbą urodzeń na danym obszarze terytorialnym!!!
Wracając jednak do rzeczywistości, współwystępowanie dwóch zjawisk (o wykrytej zależności) może również wynikać z bezpośredniego oddziaływania na nie jeszcze jednego zjawiska (trzeciego), które nie zostało uwzględnione w analizie (oddziaływanie pośrednie).
Dwuwymiarowy rozkład empiryczny (każdemu elementowi populacji przypisane zostały cechy X i Y o pewnych rozkładach losowych) przedstawia się w postaci tablicy korelacyjnej (też zwanej tablicą wielodzielczą) lub tabeli wartości indywidualnych (szereg statystyczny): Tabela korelacyjna
Tabela wartości
indywidualnych
Klasy cechy Y y
y
...
y
1
2
l
l
∑ n = n
Wart.
Wart.
ij
i .
Klasy cechy X
j 1
=
cechy
cechy
x
n
n
...
n
n
1
11
12
1l
1 .
X
Y
x
n
n
...
n
n
x
y
2
21
22
2l
2 .
1
1
.
.
.
...
.
.
x
y
2
2
.
.
.
...
.
.
.
.
.
.
.
...
.
.
.
.
x
n
n
...
n
n
y
k
k1
k2
kl
k .
x k
n
k
∑ n = n
n
n
...
n
n
ij
. j
. 1
. 2
. l
i 1
=
Rozkłady brzegowe
Prostym sposobem wykrywania związku korelacyjnego między badanymi cechami X i Y jest obserwacja tzw. szeregów statystycznych, które zawierają informacje o tych cechach. Wykresy, reprezentujące graficznie związek między zmiennymi, nazywane są wykresami rozrzutu. Analizę zależności rozpoczyna się od wykreślenia takich wykresów. Zakładamy, że próba statystyczna pobrana n elementowa z populacji składa się z par wartości cechy X i Y (wspólnych dla danego elementu populacji) i i
i
przedstawiona w postaci szeregu szczegółowego 2-elementowego {(X ,Y ), i=1,..., n}
i
i
(albo równowaznego szeregu rozdzielczego).
Wykresy rozrzutu:
10
18
16
8
14
6
Y
Y
12
4
10
2
8
0
6
0
2
4
6
8
10
0
2
4
6
8
10
X
X
Brak korelacji zmiennych X i Y
Korelacja nieliniowa zmiennych X i Y
10
8
8
6
6
Y
Y
4
4
2
2
0
0
0
2
4
6
8
10
0
2
4
6
8
10
X
X
Korelacja liniowa dodatnia X i Y
Korelacja liniowa ujemna X i Y
Siłę współzależności dwóch zmiennych X i Y można wyrazić liczbowo za pomocą wielu mierników. Podstawowym syntetycznym miernikiem jest parametr zwany kowariancją
dane w tabeli korelacyjnej
dane w tabeli wart. indywidualnych
l
k
n
1
1
cov( X , Y ) =
∑∑( x − x y − y n
i
)( j
) ij
cov( X , Y ) =
∑( x − x y − y
i
)( i
)
n − 1 j=1 i=1
n − 1 i=1
Tak obliczona kowariancja z próby n-elemetowej jest estymatorem kowariancji w populacji. Dla korelacji dodatniej kowariancja jest dodatnia, dla korelacji ujemnej jest ujemna. Jeśli kowariancja jest równa zeru mamy do czynienia z brakiem zależności między zmiennymi. Wadą kowariancji, jako miary współzależności, jest to iż jej wartość zależy od jednostek pomiaru cech X i Y ( czyli nie jest znormalizowana)
Uniwersalną miarą powiązania cech X i Y (niezależną od doboru jednostek pomiaru X i Y) jest współczynnik korelacji liniowej Pearsona, który zawsze przyjmuje wartości z przedziału [-1;1]. Jest on miernikiem prostoliniowego związku między X i Y: l
k
∑∑( x − x y − y n
i
)( j
) ij
j =1 i=1
cov( X , Y )
r
=
=
- dla danych w tabeli korelacyjnej
XY
k
l
2
2
s s
X Y
n
∑( x − x n . ∑ y − y n i
) i
( j
) . j
∑( x − x y − y
i
)( i
)
i=1
j =1
cov( X , Y )
i
r
=
=
1
=
XY
n
n
zaś dla danych w tabeli wart. indyw.:
2
2
s s
∑( x − x ) ∑( y − y )
X
Y
i
i
i=1
i=1
Zachodzi oczywiście równość r
= r
.
XY
YX
Przy interpretacji współczynnika korelacji należy pamiętać o tym, że:
- najważniejsza jest istotność współczynnika korelacji (Nie szukamy wysokiej korelacji o ile jest ona nieistotna! Zawsze należy sprawdzić testem istotności.)
- wartość wsp.korelacji bliska zeru nie zawsze oznacza brak zależności, może oznaczać tylko brak zależności liniowej!!!
- wartość wsp.korelacji może ulegać wpływom wartości skrajnych i odstających.
Stopnie heurystyczne zależności dwóch cech na podstawie wsp. korelacji liniowej: r
=0
- brak korelacji; 0 < r
<0.3 - korelacja słaba
XY
XY
0.3 ≤ r
<0.5
- korelacja przeci
<0.7 - korelacja wysoka
XY
ętna; 0.5 ≤ r XY
0.7 ≤ r
<0.9
- korelacja bardzo wysoka; 0.9 ≤ r
<1.0 - korelacja prawie pełna
XY
XY
Ponieważ współczynnik korelacji liniowej Spearmana nie jest adekwatną miarą korelacji w przypadku zależności nieliniowej między zmiennymi, wprowadza się dodatkowe miary siły związku. Posługujemy się tu techniką poznaną przy analizie wariancji (ANOVA), drogą podziału całkowitej sumy kwadratów odchyleń od średniej na składnik miedzy-klasowy i wewnątrz-klasowy.
k
l
l
k
2
2
2
QX = ∑( x − x n =
.
∑ x − x n +
.
∑∑ x − x
n = QXB + QXE
i
) i
( j
) j
( i
j )
ij
i=1
j =1
j =1 i=1
l
k
k
l
2
2
2
QY = ∑( y − y n =
.
∑ y − y n +
.
∑∑ y − y n = QYB + QYE
j
) j
( i
) i
( j
i )
ij
j =1
i=1
i=1 j =1
QXB, QYB –sumy kwadratów odchyleń średnich klasowych od średniej ogólnej, reprezentujące
tę
część
zróżnicowania
badanej
cechy
jako
zróżnicowanie
wyjaśnione relacją regresyjną (współzależności zmiennych), QXE,QYE - sumy kwadratów odchyleń wewnątrz klas –tzw. zróżnicowanie cechy NIE
wyjaśnione relacją regresyjną.
k
l
∑(
2
x − x
n
∑
2
y − y
n
i
)
Dzieląc obustronnie oba równania przez i .
( j
)
oraz
.
=
1
j
j
i=1
otrzymujemy stosunki QXB/QX oraz QYB/QY, które pozwalają na ocenę intensywności związku korelacyjnego.
Miarę zależności zwaną wskaźnikiem korelacyjnym definiujemy tak: l
k
k
l
k
l
2
2
e = 1 − ∑ ∑ x − x
n
∑ x − x n
n =
.
.
∑ n
i = 1
k
n = ∑ ∑ n
xy
( i
j )
/
ij
( i
)
;
dla
,...,
;
i
i
ij
ij
j =1 i=1
i=1
j =1
i=1 j =1
k
l
l
k
2
2
e = 1 − ∑ ∑ y − y
n
∑ y − y n
n =
.
.
∑ n
= 1
n
yx
( j
i )
/
ij
( j
)
;
dla j
,...,
j
j
ij
i=1 j =1
j =1
i=1
gdzie zakłada się iż cecha x przyjmuje k wartości a cecha y przyjmuje l wartości, zaś n oznacza liczebno
, y , oraz n jest liczebno
ij
ść takich par x i j
ścią próby.
Kwadraty stosunków korelacyjnych przyjmują wartości z przedziału
[0,1] i informują o tym, jaka część całkowitej zmienności cechy zależnej może być przypisana wpływowi drugiej cechy (niezależnej).
Test statystyczny istotności wskaźnika korelacyjnego Możemy teraz sformułować test statystyczny dla zbadania niezależności zmiennej X
od zmiennej Y.
Jest to równoważne postawieniu tezy, iż stosunek korelacyjny zmiennej X względem zmiennej Y jest w populacji generalnej równy zeru. Zatem hipoteza zerowa testu ma postać
H : e
=0 wobec hipotezy alternatywnej H : e
>0
0
XY
1
XY
e2 /( l − )
1
Dla weryfikacji testu stosuje się statystykę:
XY
F = (1− e2 )/( n− l) XY
Jeśli prawdziwa jest H to statystyka F ma rozkład F Snedecora o ( l-1) i ( n- l) stopniach 0
swobody (i nie powinna przyjmować dużych wartości). Obszar krytyczny wyznacza równanie P{F≥F
(α, l-1, n- l)}= α .
kryt
Gdyby testowano zależność Y od X ( przeciwnie zestawione zmienna zależna i niezależna), testowanie przebiega tak:
H : e
=0 wobec hipotezy alternatywnej H : e
>0
0
YX
1
YX
e2 /( k − )
1
YX
F =
Dla weryfikacji testu stosuje się statystykę:
(1 − e2 ) /( n − k)
YX
względem rozkładu F Snedecora o ( k-1) i ( n- k) stopniach swobody.
Zależności nieliniowe między zmiennymi
Wspominałem wcześniej, że przy interpretacji współczynnika korelacji należy pamiętać o tym, że: wartość wsp.korelacji bliska zeru nie zawsze oznacza brak zależności, może oznaczać tylko brak zależności liniowej!!!
Wartość r jest zatem w przypadku relacji nieliniowej zaniżona w stosunku do wartości rzeczywistej.
Miarą właściwą w takiej sytuacji są stosunki korelacyjne, zaś relacja między współczynnikiem korelacji a stosunkami korelacyjnymi jest przybliżoną miarą krzywo-liniowości związku między zmiennymi:
2
2
2
2
M
= ( e ) − ( r )
;
M
= e
− r
XY
XY
XY
YX
( YX )
( YX )
które przyjmują wartości w [0,1]. Są równe zeru, gdy zależność cech jest dokładnie liniowa (lub gdy cechy nie są wcale skorelowane).
Im bliższe jedności wskaźniki M tym bardziej związek odchyla się od liniowości.
Formalne testy nieliniowości można sformułować inaczej (np. przez testowanie istotności współczynników występujących w równaniu regresji).
Testowanie istotności współczynnika korelacji liniowej Załóżmy, ze rozkład zmiennych losowych X i Y w populacji generalnej jest normalny.
Na podstawie n-elementowej próby losowej z pobranej populacji należy sprawdzić przypuszczenie, że te zmienne są liniowo skorelowane.
To oznacza, ze należy zweryfikować hipotezę, że współczynnik korelacji ρ w populacji generalnej jest równy zeru:
H : ρ
: ρ≠0
0 ρ=0 wobec
H1
≠
ρ
Jeśli prawdziwa jest hipoteza zerowa, to statystyka z próby ( r –estymata współczynnika korelacji na podstawie próby n-elementowej)
r
t =
n − 2
1 − r2
ma rozkład t-Studenta o n-2 stopniach swobody. Wartość statystyki nie powinna się znacznie różnić od zera jeśli hipoteza jest prawdziwa. Obszar krytyczny jest określony relacją
P{ | t | ≥ t
(α, n-2) } = α.
kryt
Można także zdefiniować test jednostronny.
Jeżeli liczba elementów próby jest duża (n>100) to statystykę testową możemy r
wyznaczać jako:
z =
n
− r2
1
i konfrontować z wartościami krytycznymi rozkładu normalnego N(0,1).
Przykład. Ktoś postawił tezę, że spożycie ziemniaków jest tym mniejsze im wyższe są dochody konsumenta. Aby to sprawdzić wylosowano 10 gospodarstw domowych, dla których określono roczny dochód na osobę (zmienna niezależna X) oraz roczne spożycie ziemniaków na osobę ( zmienna zależna Y). Wyniki badań przedstawia tabela: Przychód na osobę:
78 35
96
52 110 80 98
96
40
85
Spożycie ziemniaków: 200 280 130 230 150 150 120 120 240 150
Dokonaj sprawdzenia postawionej tezy.
Rozwiązanie.
Obliczenia prowadzą do wyznaczenia estymaty współczynnika korelacji r = −0.93
r
− .
0 93
Wartość statystyki t:
t =
n − 2 =
10 − 2 = − .
7 156
1 − r2
1 − (− .
0 9 )2
3
Hipoteza H : ρ
: ρ
0
ρ=0
wobec
H1
<0
Ponieważ hipoteza alternatywna powoduje że test jest jednostronny, obszar krytyczny też jest jednostronny, a wtedy jest on określony przez P{t ≤ −t (2α
kryt
, n-2)} = α.
Przyjmując α=0.01 mamy 2α=0.02 z tablic otrzymamy t
(2α,8)=2.986. Wniosek:
kryt
ponieważ t= −7.156 < −2.986 znajdujemy się w obszarze krytycznym, zatem odrzucam H , i przyjmujemy
0
że wsp. korelacji różni się istotnie od zera (mniejszy od 0) z 1 %
ryzykiem popełnienia błędu.
Dla zagadnienia korelacji wielo-wymiarowej, definiuje się współczynnik korelacji cząstkowej (pomiędzy wyizolowanymi parami zmiennych). Np. dla zespołu 3
zmiennych X , X , X , współczynnik korelacji cz
a X zapisujemy
1
2
3
ąstkowej między X1
2
tak ( jak przy wyłączeniu wpływu zmiennej X ):
3
r − r r
r
=
12
13 23
X X , ( X )
1
2
3
(1 − r2 )(1 − r2 ) 13
23
gdzie r jest korelacj
a X . Taki wsp. korelacji cz
ij
ą między Xi
j
ąstkowej jest również z
zakresu [-1,1] , i można go interpretować jak wsp. korelacji Pearsona.