Analiza współzależności zmiennych mierzalnych
Korelacja i regresja
Część I
Celem analizy współzależności jest badanie związków między zmiennymi
mierzalnymi i prognozowanie jednych zmiennych za pomocÄ… innych zmiennych.
Analiza współzależności między zmiennymi to badanie zbiorowości statystycznej ze
względu na dwie lub więcej zmiennych jednocześnie. Zakładamy, że wszystkie
zmienne sÄ… mierzalne.
Warto podkreślić, że terminy współzależność lub współwystępowanie są tu bardzo
zasadne. Należy wyraznie odróżniać współzależność od zależności, która kojarzy się z
zależnością przyczynowo-skutkową. Statystyka koncentruje się na badaniu liczbowym
związku między zmiennymi, natomiast natura związku, jej przyczynowo-skutkowy
charakter należy ustalać w oparciu o wiedzę, teorię w danej dziedzinie wiedzy
socjologii, psychologii, kryminologii itp.
Umownie, dla ułatwienia będziemy mówić o zmiennej Y zależna, a o zmiennej X
jako niezależna, ale nie w rozumieniu zależności przyczynowo-skutkowej. Lepszym,
zgrabniejszym określeniem dla zmiennej Y jest zmienna objaśniana, a dla
zmiennej X objaśniająca.
O współzależności w uproszczeniu mówimy zależność, lecz nie oznacza to związku
przyczynowo-skutkowego.
Korelacja pozorna oznacza przypadkowe współwystępowanie zmiennych Y i X,
które nie ma potwierdzenia w naturze związku. Przykład: Y liczba urodzeń i X
liczba przylatujących bocianów. W interpretacjach związków należy uważać, aby nie
wpaść w pułapkę korelacji pozornych.
Zależność funkcyjna i zależność statystyczna
Zależność funkcyjna, funkcja matematyczna jest to jednoznaczne przyporządkowanie
wartościom jednego zbioru wartości drugiego zbioru [według pewnego przepisu f].
Zależność funkcyjna przedstawia się następująco: y = f(x)
Np. y=2x+4 (funkcja liniowa) oznacza, że gdy x=4 to y=12, a gdy x=10 to y=24.
Zależność (współzależność) statystyczna nie jest jednoznaczna. Dotyczy zmiennych
empirycznych i związku empirycznego. Mówimy o prawidłowościach (najczęściej
występujących tendencjach), i mogą pojawić się wyjątki (stąd zależność nie
jednoznaczna).
MateriaÅ‚y dydaktyczne dla studentów IPSiR UW © Beata GruszczyÅ„ska
Zależność statystyczną między zmiennymi Y i X przedstawiamy jako:
Y= f (X, e)
gdzie:
Y - zmienna objaśniana,
X - zmienna objaśniająca,
e składnik losowy, który reprezentuje wpływ na Y czynników losowych oraz innych
zmiennych objaśniających, nie uwzględnionych w modelu.
Y może być np. wynik testu z logiki (musi być mierzalne), a X liczba godzin nauki.
W ogólnym podejściu możemy przyjąć, że zmienna Y (objaśniająca) jest współzależna
z wieloma zmiennymi objaśniającymi: X1, X2, & .Xk, co możemy zapisać jako:
Y= f (X1, X2, & ., Xk, e)
Uwzględnienie wielu zmiennych jest domeną analizy wielowymiarowej, w której
obserwujemy wpływ zmiennych objaśniających na zmienną objaśnianą, a także
wzajemną zależność zmiennych objaśniających.
W analizie związków empirycznych (statystycznych) wskazujemy na prawidłowości
współwystępowania zmiennych np. Y i X (przeciętny trend) oraz rozbieżności od
prawidłowości (rozrzut punktów empirycznych).
Współwystępowanie tych dwóch zmiennych Y i X przedstawiamy na wykresie
zwanym diagramem korelacyjnym, w którym na osi X poziomej (odciętych)
przedstawiamy zmienną niezależną (objaśniającą), a na osi rzędnych Y pionowej
(rzędnych) zmienną zależną (objaśnianą).
Przykład 1. Związek między dwiema zmiennymi: Y szybkość czytania i X iloraz
inteligencji (IQ):
Inne przykłady
Diagram korelacyjny:
współzależności:
Diagram korelacyjny
1) X cena produktu A;
(Y - szybkość czytania; X - IQ)
Y popyt na produkt A
300
250
2) X ilość spożywanych
200 kalorii; Y waga
150
3) X liczba godzin treningu;
100
Y sprawność
50
0
0 20 40 60 80 100 120 140
MateriaÅ‚y dydaktyczne dla studentów IPSiR UW © Beata GruszczyÅ„ska
Elementy korelacji i regresji
Korelacja
" Mówi o tym jaki jest kierunek związku Y i X
" Mówi o tym jaka jest siła związku Y i X
Warto podkreślić, że siła związku jest domeną wyłącznie związków statystycznych.
Ta charakterystyka siła nie występuję w przypadku związków matematycznych, które
sÄ… jednoznaczne.
Regresja
" Mówi o tym jaki jest kierunek związku
" Mówi o tym jaki jest kształt
Kierunek związku może być dodatni lub ujemny.
Związek między Y i X jest dodatni, jeśli rosnącym wartością zmiennej X odpowiadają
rosnące wartości zmiennej Y.
UWAGA: proszę podać
Współzależność dodatnia
przykłady zmiennych,
300
między którymi zachodzi
250
współzależność dodatnia
200
Y zmienna objaśniana:
150
100
& & & & & & & & & & ..
50
X zmienna objaśniająca
0
0 50 100 150
Związek między Y i X jest ujemny jeśli rosnącym wartością zmiennej X odpowiadają
malejące wartości zmiennej Y.
UWAGA: proszę podać
Współzależność ujemna
przykłady zmiennych,
300
między którymi zachodzi
współzależność ujemna
250
200
Y zmienna objaśniana:
150
& & & & & & & & & & ..
100
50
X zmienna objaśniająca
0
0 50 100 150
& & & & & & & & & & &
MateriaÅ‚y dydaktyczne dla studentów IPSiR UW © Beata GruszczyÅ„ska
Siła współzależności może być duża i mała.
Jeśli punkty skupione są np. blisko linii oznacza to silną współzależność. Jeśli punkty
empiryczne są bardzo rozproszone związek określamy jako słaby.
Przykład związku silnego i ujemnego:
Współzależność silna (ujemna)
300
250
200
150
100
50
0
0 20 40 60 80 100 120 140 160
Przykład związku słabego i ujemnego:
Współzależność słaba (ujemna)
300
250
200
150
100
50
0
0 20 40 60 80 100 120 140 160
Kształt związku: współzależność może mieć kształt liniowy lub nieliniowy
(logarytmiczny, wykładniczy itp.).
MateriaÅ‚y dydaktyczne dla studentów IPSiR UW © Beata GruszczyÅ„ska
Współczynnik korelacji liniowej Pearsona
Do określenia siły korelacji stosuje się współczynnik korelacji liniowej Pearsona r,
który oblicza się według wzoru:
"(x - x)( yi - y)
i
r =
"(x - x)2"( yi - y)2
i
Współczynnik korelacji Pearsona mierzy siłę zależności tylko w przypadku
współzależności liniowej.
Właściwości współczynnika r Pearsona.
1. Współczynnik r przyjmuje wartości od -1 do +1,
czyli: -1 d" r d" 1
2. Wartość współczynnika korelacji określa siłę i kierunek współzależności
a) moduł r (IrI) określa siłę współzależności
b) znak (+ ) określa kierunek związku
3. Interpretacja siły współzależności:
a) r=0: brak związku między zmiennymi YX
b) r= 1 lub r=+1: zwiÄ…zek funkcyjny ( najsilniejszy )
c) IrI bliskie 1: związek między YX silny
d) IrI bliskie 0: związek słaby
4. Współczynnik korelacji r Pearsona ma własność symetryczności,
czyli: ryx = rxy
oznacza to, że siła zależności między Y i X jest taka sama jak między X i Y.
5. Kwadrat r (r2) określa się mianem współczynnika determinacji i oznacza %
zmienności Y wyjaśniony zmiennością X.
Np. r2=0,67 oznacza, że zróżnicowanie Y można w 67% wyjaśnić
zróżnicowaniem X.
MateriaÅ‚y dydaktyczne dla studentów IPSiR UW © Beata GruszczyÅ„ska
Przykład 1.
Obliczyć współczynnik korelacji między Y i X (Y szybkość czytania i X iloraz
inteligencji (IQ).
xi yi xi - x yi - y (xi - x )*( yi - y ) (xi - x )2 ( yi - y )2
lp
1 80 120 -27 -55 1485 729 3025
2 92 140 -15 -35 525 225 1225
3 90 100 -17 -75 1275 289 5625
4 109 170 2 -5 -10 4 25
5 100 130 -7 -45 315 49 2025
6 105 190 -2 15 -30 4 225
7 110 220 3 45 135 9 2025
8 110 140 3 -35 -105 9 1225
9 115 180 8 5 40 64 25
10 120 240 13 65 845 169 4225
11 123 200 16 25 400 256 625
12 130 270 23 95 2185 529 9025
Suma
1284 2100 X X 7060 2336 29300
Åšrednia X= 107 Åšrednia Y= 175
UWAGA: Proszę uzupełnić pola zacienione w tabeli!
7060
"(x - x)( yi - y)
i
.....................
r = = = 0,85
"(x - x)2"( yi - y)2 2336* 29300
i
..................... ...............................
r2 = 0,73 Współczynnik determinacji
Interpretacja:
Związek między Y i X jest silny i dodatni, co oznacza, że osoby o wyższym IQ szybciej
czytają. Współczynnik determinacji 0,73 oznacza, że zróżnicowanie szybkości czytania
można w 73% wyjaśnić zróżnicowaniem IQ.
Wykres diagram korelacyjny
Diagram korelacyjny
(Y - szybkość czytania; X - IQ)
OÅ› X IQ
Oś Y Szybkość czytania
300
250
200
150
100
50
0
0 20 40 60 80 100 120 140
MateriaÅ‚y dydaktyczne dla studentów IPSiR UW © Beata GruszczyÅ„ska
Wyszukiwarka
Podobne podstrony:
STATYSTYKA korelacja rangowa09Tablice statystyczne wartości krytyczne współczynnika korelacji Pearsona20151019 MichalTrzesiok Statystyka wyklad3 analiza korelacji handoutTablice statystyczne rozkład współczynnika korelacjiAnaliza zależności dwóch cech statystycznych ilościowych1 wprowadzenie do statystyki statystyka opisowaSozański Statystyczne miary zmienności a kwantyfikacja nierówności społecznejstatystyka w matlabieTeoria Definicje Statystyka06 Wspolczynniki korelacji rangowej i liniowejWyniki2 korelacja2statystykaTeoria C 1B1bTablice statystyczne Wartości krytyczne dla testu Shapiro Wilkawięcej podobnych podstron