STAT 2010 W11


Korelacja
Korelacja to pojęcie związane matematyczną techniką określenia
stopnia, w jakim dwie zmienne statystyczne sÄ… ze sobÄ… powiÄ…zane.
Jeśli elementy populacji obdarzone są co najmniej dwiema cechami statystycznymi,
istotnym zagadnieniem badań statystycznych jest odpowiedz na pytanie, czy między
zmiennymi (cechami) zachodzi jakiś związek (zależność) i czy ten związek jest bardziej
czy mniej ścisły.
Związek statystyczny polega na tym, że określonym wartościom jednej
zmiennej (cecha) odpowiadają określone wartości średnie drugiej
zmiennej.
Z punktu widzenia właściwej metodyki badawczej, najpierw należy uzasadnić
logiczne występowanie związku między zmiennymi, a dopiero potem przystąpić do
określenia siły i kierunku zależności. Liczbowe stwierdzenie występowania
współzależności między zmiennymi nie zawsze oznacza występowanie związku
przyczynowo-skutkowego między badanymi zmiennymi. Np. podobno znane są w
literaturze przykłady badania, nawet istotnej statystycznie  zależności między liczbą
zajętych gniazd bocianich a liczbą urodzeń na danym obszarze terytorialnym!!!
Wracając jednak do rzeczywistości, współwystępowanie dwóch zjawisk (o wykrytej
zależności) może również wynikać z bezpośredniego oddziaływania na nie jeszcze
jednego zjawiska (trzeciego), które nie zostało uwzględnione w analizie (oddziaływanie
pośrednie).
Dwuwymiarowy rozkład empiryczny (każdemu elementowi populacji przypisane
zostały cechy X i Y o pewnych rozkładach losowych) przedstawia się w postaci tablicy
korelacyjnej (też zwanej tablicą wielodzielczą) lub tabeli wartości indywidualnych
(szereg statystyczny):
Tabela korelacyjna
Tabela wartości
indywidualnych
Klasy cechy Y y1 y2 ... yl l
Wart. Wart.
"n = n
ij i .
Klasy cechy X
j=1
cechy cechy
x1 n11 n12 ... n1l n1 .
X Y
x1
y1
x2 n21 n22 ... n2l n2 .
y2
. . . ... . .
x2
. . . ... . .
.
.
. . . ... . .
.
.
xk nk1 nk2 ... nkl nk .
yn
xk
k
n n ... n n
"n = n
ij . j . 1 . 2 . l
i=1
Rozkłady brzegowe
Prostym sposobem wykrywania związku korelacyjnego między badanymi cechami X i
Y jest obserwacja tzw. szeregów statystycznych, które zawierają informacje o tych
cechach. Wykresy, reprezentujące graficznie związek między zmiennymi, nazywane są
wykresami rozrzutu. Analizę zależności rozpoczyna się od wykreślenia takich
wykresów. Zakładamy, że próba statystyczna pobrana n elementowa z populacji składa
się z par wartości cechy Xi i Yi (wspólnych dla danego elementu populacji) i
przedstawiona w postaci szeregu szczegółowego 2-elementowego {(Xi,Yi), i=1,...,n}
(albo równowaznego szeregu rozdzielczego).
Wykresy rozrzutu:
10 18
16
8
14
6
12
4
10
2
8
6
0
0 2 4 6 8 10
0 2 4 6 8 10
X
X
Brak korelacji zmiennych X i Y Korelacja nieliniowa zmiennych X i Y
Y
Y
10 10
8 8
6 6
4 4
2 2
0 0
0 2 4 6 8 10 0 2 4 6 8 10
X X
Korelacja liniowa dodatnia X i Y Korelacja liniowa ujemna X i Y
Siłę współzależności dwóch zmiennych X i Y można wyrazić liczbowo za pomocą
wielu mierników. Podstawowym syntetycznym miernikiem jest parametr zwany
kowariancjÄ…
dane w tabeli korelacyjnej dane w tabeli wart. indywidualnych
l k
n
1
1
cov(X ,Y ) = xi - x yj - y nij
( )
( )
""
cov(X ,Y ) = xi - x yi - y
( )( )
"
n -1
j=1 i=1
n -1
i=1
Tak obliczona kowariancja z próby n-elemetowej jest estymatorem kowariancji w
populacji. Dla korelacji dodatniej kowariancja jest dodatnia, dla korelacji ujemnej jest
ujemna. Jeśli kowariancja jest równa zeru mamy do czynienia z brakiem
zależności między zmiennymi. Wadą kowariancji, jako miary współzależności, jest to
iż jej wartość zależy od jednostek pomiaru cech X i Y ( czyli nie jest znormalizowana)
Y
Y
Uniwersalną miarą powiązania cech X i Y (niezależną od doboru jednostek pomiaru X i
Y) jest współczynnik korelacji liniowej Pearsona, który zawsze przyjmuje wartości
z przedziału [-1;1]. Jest on miernikiem prostoliniowego związku między X i Y:
l k
xi - x yj - y nij
( )
( )
""
cov(X ,Y )
j=1 i=1
- dla danych w tabeli korelacyjnej
rXY = =
k l
sX sY
2
2
n
xi - x ni. yj - y n
( )
( )
" " .j
xi - x yi - y
( )( )
"
i=1 j=1
cov(X ,Y )
i=1
rXY = =
n n
zaÅ› dla danych w tabeli wart. indyw.: sX sY
2 2
xi - x yi - y
( ) ( )
" "
i=1 i=1
Zachodzi oczywiście równość rXY = rYX .
Przy interpretacji współczynnika korelacji należy pamiętać o tym, że:
- najważniejsza jest istotność współczynnika korelacji (Nie szukamy wysokiej
korelacji o ile jest ona nieistotna! Zawsze należy sprawdzić testem istotności.)
- wartość wsp.korelacji bliska zeru nie zawsze oznacza brak zależności, może
oznaczać tylko brak zależności liniowej!!!
- wartość wsp.korelacji może ulegać wpływom wartości skrajnych i odstających.
Stopnie heurystyczne zależności dwóch cech na podstawie wsp. korelacji liniowej:
rXY=0 - brak korelacji; 0 < rXY<0.3 - korelacja słaba
0.3 d" rXY<0.5 - korelacja przeciętna; 0.5 d" rXY<0.7 - korelacja wysoka
0.7 d" rXY<0.9 - korelacja bardzo wysoka; 0.9 d" rXY<1.0 - korelacja prawie pełna
Ponieważ współczynnik korelacji liniowej Spearmana nie jest adekwatną miarą
korelacji w przypadku zależności nieliniowej między zmiennymi, wprowadza się
dodatkowe miary siły związku. Posługujemy się tu techniką poznaną przy analizie
wariancji (ANOVA), drogą podziału całkowitej sumy kwadratów odchyleń od średniej
na składnik miedzy-klasowy i wewnątrz-klasowy.
k l l k
2 2
2
QX = xi - x ni. = xj - x n + xi - xj nij = QXB + QXE
( )
( ) ( )
" " ""
. j
i=1 j=1 j=1 i=1
l k k l
2 2
2
QY = yj - y n = yi - y ni. + yj - yi nij = QYB + QYE
( )
( ) ( )
" " ""
. j
j=1 i=1 i=1 j=1
QXB,QYB  sumy kwadratów odchyleń średnich klasowych od średniej ogólnej,
reprezentujące tę część zróżnicowania badanej cechy jako zróżnicowanie
wyjaśnione relacją regresyjną (współzależności zmiennych),
QXE,QYE - sumy kwadratów odchyleń wewnątrz klas  tzw. zróżnicowanie cechy NIE
wyjaśnione relacją regresyjną.
k
l
2
2
yj - y n
( )
"(x - x) ni.
i " . j
Dzieląc obustronnie oba równania przez oraz
j=1
i=1
otrzymujemy stosunki QXB/QX oraz QYB/QY, które pozwalają na ocenę
intensywności związku korelacyjnego.
Miarę zależności zwaną wskaznikiem korelacyjnym definiujemy tak:
l k k l k l
2
2
exy = 1 - xi - xj nij / xi - x ni. ; ni. =
( )
( )
"" " "n dla i = 1,..., k ; n = ""n
ij ij
j=1 i=1 i=1 j=1 i=1 j=1
k l l k
2 2
eyx = 1 - yj - yi nij / yj - y n ; n =
( ) ( )
"" " "n dla j = 1,..., n
. j . j ij
i=1 j=1 j=1 i=1
gdzie zakłada się iż cecha x przyjmuje k wartości a cecha y przyjmuje l wartości, zaś
nij oznacza liczebność takich par xi,yj , oraz n jest liczebnością próby.
Kwadraty stosunków korelacyjnych przyjmują wartości z przedziału
[0,1] i informują o tym, jaka część całkowitej zmienności cechy
zależnej może być przypisana wpływowi drugiej cechy (niezależnej).
Test statystyczny istotności wskaznika korelacyjnego
Możemy teraz sformułować test statystyczny dla zbadania niezależności zmiennej X
od zmiennej Y.
Jest to równoważne postawieniu tezy, iż stosunek korelacyjny zmiennej X względem
zmiennej Y jest w populacji generalnej równy zeru. Zatem hipoteza zerowa testu ma
postać
H0: eXY=0 wobec hipotezy alternatywnej H1: eXY>0
2
eXY /(l -1)
F =
Dla weryfikacji testu stosuje siÄ™ statystykÄ™:
2
(1 - eXY ) /(n - l)
Jeśli prawdziwa jest H0 to statystyka F ma rozkład F Snedecora o (l-1) i (n-l) stopniach
swobody (i nie powinna przyjmować dużych wartości). Obszar krytyczny wyznacza
równanie P{Fe"Fkryt(ą,l-1,n-l)}= ą .
Gdyby testowano zależność Y od X ( przeciwnie zestawione zmienna zależna i
niezależna), testowanie przebiega tak:
2
H0: eYX=0 wobec hipotezy alternatywnej H1: eYX>0
eYX /(k -1)
F =
2
(1 - eYX ) /(n - k)
Dla weryfikacji testu stosuje siÄ™ statystykÄ™:
względem rozkładu F Snedecora o (k-1) i (n-k) stopniach swobody.
Zależności nieliniowe między zmiennymi
Wspominałem wcześniej, że przy interpretacji współczynnika korelacji należy pamiętać
o tym, że: wartość wsp.korelacji bliska zeru nie zawsze oznacza brak zależności, może
oznaczać tylko brak zależności liniowej!!!
Wartość r jest zatem w przypadku relacji nieliniowej zaniżona w stosunku do wartości
rzeczywistej.
Miarą właściwą w takiej sytuacji są stosunki korelacyjne, zaś relacja między
współczynnikiem korelacji a stosunkami korelacyjnymi jest przybliżoną miarą
krzywo-liniowości związku między zmiennymi:
2 2 2 2
M = eXY - rXY ; MYX = eYX - rYX
( ) ( ) ( ) ( )
XY
które przyjmują wartości w [0,1]. Są równe zeru, gdy zależność cech jest dokładnie
liniowa (lub gdy cechy nie sÄ… wcale skorelowane).
Im bliższe jedności wskazniki M tym bardziej związek odchyla się od liniowości.
Formalne testy nieliniowości można sformułować inaczej (np. przez testowanie
istotności współczynników występujących w równaniu regresji).
Testowanie istotności współczynnika korelacji liniowej
Załóżmy, ze rozkład zmiennych losowych X i Y w populacji generalnej jest normalny.
Na podstawie n-elementowej próby losowej z pobranej populacji należy sprawdzić
przypuszczenie, że te zmienne są liniowo skorelowane.
To oznacza, ze należy zweryfikować hipotezÄ™, że współczynnik korelacji Á w populacji
Á
Á
Á
generalnej jest równy zeru:
H0: Á=0 wobec H1: Á`"0
Á Á`"
Á Á`"
Á Á`"
Jeśli prawdziwa jest hipoteza zerowa, to statystyka z próby (r  estymata współczynnika
korelacji na podstawie próby n-elementowej)
r
t = n - 2
1- r2
ma rozkład t-Studenta o n-2 stopniach swobody. Wartość statystyki nie powinna się
znacznie różnić od zera jeśli hipoteza jest prawdziwa. Obszar krytyczny jest określony
relacjÄ… P{ | t | e" tkryt(Ä…,n-2) } = Ä….
Można także zdefiniować test jednostronny.
Jeżeli liczba elementów próby jest duża (n>100) to statystykę testową możemy
r
wyznaczać jako:
z = n
1- r2
i konfrontować z wartościami krytycznymi rozkładu normalnego N(0,1).
Przykład. Ktoś postawił tezę, że spożycie ziemniaków jest tym mniejsze im wyższe są
dochody konsumenta. Aby to sprawdzić wylosowano 10 gospodarstw domowych, dla
których określono roczny dochód na osobę (zmienna niezależna X) oraz roczne
spożycie ziemniaków na osobę ( zmienna zależna Y). Wyniki badań przedstawia tabela:
Przychód na osobę: 78 35 96 52 110 80 98 96 40 85
Spożycie ziemniaków: 200 280 130 230 150 150 120 120 240 150
Dokonaj sprawdzenia postawionej tezy.
RozwiÄ…zanie.
Obliczenia prowadzą do wyznaczenia estymaty współczynnika korelacji r = -0.93
r -0.93
Wartość statystyki t:
t = n - 2 = 10 - 2 = -7.156
1- r2 1- (-0.93)2
Hipoteza H0 : Á=0 wobec H1: Á<0
Á Á
Á Á
Á Á
Ponieważ hipoteza alternatywna powoduje że test jest jednostronny, obszar krytyczny
też jest jednostronny, a wtedy jest on określony przez P{t d" -tkryt(2ą ą
d" - Ä… Ä…
d" - Ä…,n-2)} = Ä….
d" - Ä… Ä…
PrzyjmujÄ…c Ä…=0.01 mamy 2Ä…=0.02 z tablic otrzymamy tkryt(2Ä…,8)=2.986. Wniosek:
ponieważ t= -7.156 < -2.986 znajdujemy się w obszarze krytycznym, zatem odrzucam
H0, i przyjmujemy że wsp. korelacji różni się istotnie od zera (mniejszy od 0) z 1 %
ryzykiem popełnienia błędu.
Zagadnienia wielowymiarowe
Dla zagadnienia korelacji wielo-wymiarowej, definiuje się współczynnik korelacji
cząstkowej (pomiędzy wyizolowanymi parami zmiennych). Np. dla zespołu 3
zmiennych X1, X2, X3, współczynnik korelacji cząstkowej między X1 a X2 zapisujemy
tak ( jak przy wyłączeniu wpływu zmiennej X3):
r12 - r13r23
rX X2 , ( X3 ) =
1
2 2
(1- r13)(1- r23)
gdzie rij jest korelacją między Xi a Xj . Taki wsp. korelacji cząstkowej jest również z
zakresu [-1,1] , i można go interpretować jak wsp. korelacji Pearsona.


Wyszukiwarka

Podobne podstrony:
STAT 10 W3
STAT 10 W12
STAT 10 W8
STAT 10 W5
STAT 10 W2
stat zadania1 10
WSM 10 52 pl(1)
VA US Top 40 Singles Chart 2015 10 10 Debuts Top 100
10 35
Analiza stat ścianki szczelnej

więcej podobnych podstron