5 STATYSTYKA korelacja 1a id 40 Nieznany (2)

background image

Analiza współzależności zmiennych mierzalnych

Korelacja i regresja


Część I

Celem analizy współzależności jest badanie związków między zmiennymi
mierzalnymi i prognozowanie jednych zmiennych za pomocą innych zmiennych.

Analiza współzależności między zmiennymi to badanie zbiorowości statystycznej ze
względu na dwie lub więcej zmiennych jednocześnie. Zakładamy, że wszystkie
zmienne są mierzalne.

Warto podkreślić, że terminy współzależność lub współwystępowanie są tu bardzo
zasadne. Należy wyraźnie odróżniać współzależność od zależności, która kojarzy się z
zależnością przyczynowo-skutkową. Statystyka koncentruje się na badaniu liczbowym
związku między zmiennymi, natomiast natura związku, jej przyczynowo-skutkowy
charakter należy ustalać w oparciu o wiedzę, teorię w danej dziedzinie wiedzy
socjologii, psychologii, kryminologii itp.

Umownie, dla ułatwienia będziemy mówić o zmiennej Y – zależna, a o zmiennej X
jako niezależna, ale nie w rozumieniu zależności przyczynowo-skutkowej. Lepszym,
„zgrabniejszym” określeniem dla zmiennej Y jest – zmienna objaśniana, a dla
zmiennej X – objaśniająca.

O współzależności w uproszczeniu mówimy zależność, lecz nie oznacza to związku
przyczynowo-skutkowego.

Korelacja pozorna – oznacza przypadkowe współwystępowanie zmiennych Y i X,
które nie ma potwierdzenia w naturze związku. Przykład: Y – liczba urodzeń i X –
liczba przylatujących bocianów. W interpretacjach związków należy uważać, aby nie
wpaść w pułapkę korelacji pozornych.

Zależność funkcyjna i zależność statystyczna

Zależność funkcyjna, funkcja matematyczna jest to jednoznaczne przyporządkowanie
wartościom jednego zbioru wartości drugiego zbioru [według pewnego przepisu f].

Zależność funkcyjna przedstawia się następująco: y = f(x)

Np. y=2x+4 (funkcja liniowa) oznacza, że gdy x=4 to y=12, a gdy x=10 to y=24.

Zależność (współzależność) statystyczna nie jest jednoznaczna. Dotyczy zmiennych
empirycznych i związku empirycznego. Mówimy o prawidłowościach (najczęściej
występujących tendencjach), i mogą pojawić się wyjątki (stąd zależność nie
jednoznaczna).

Zależność statystyczną między zmiennymi Y i X przedstawiamy jako:

Y= f (X, e)

background image

gdzie:

Y - zmienna objaśniana,
X - zmienna objaśniająca,
e – składnik losowy, który reprezentuje wpływ na Y czynników losowych oraz innych
zmiennych objaśniających, nie uwzględnionych w modelu.

Y – może być np. wynik testu z logiki (musi być mierzalne), a X – liczba godzin nauki.

W ogólnym podejściu możemy przyjąć, że zmienna Y (objaśniająca) jest współzależna
z wieloma zmiennymi objaśniającymi: X1, X2, ….Xk, co możemy zapisać jako:

Y= f (X1, X2, …., Xk, e)

Uwzględnienie wielu zmiennych jest domeną analizy wielowymiarowej, w której
obserwujemy wpływ zmiennych objaśniających na zmienną objaśnianą, a także
wzajemną zależność zmiennych objaśniających.

W analizie związków empirycznych (statystycznych) wskazujemy na prawidłowości
współwystępowania zmiennych np. Y i X (przeciętny trend) oraz rozbieżności od
prawidłowości (rozrzut punktów empirycznych).

Współwystępowanie tych dwóch zmiennych Y i X przedstawiamy na wykresie
zwanym diagramem korelacyjnym, w którym na osi X – poziomej (odciętych)
przedstawiamy zmienną niezależną (objaśniającą), a na osi rzędnych Y – pionowej
(rzędnych) zmienną zależną (objaśnianą).

Przykład 1. Związek między dwiema zmiennymi: Y – szybkość czytania i X – iloraz
inteligencji (IQ):

Diagram korelacyjny:

Diagram korelacyjny

(Y - szybkość czytania; X - IQ)

0

50

100

150

200

250

300

0

20

40

60

80

100

120

140

background image

Elementy korelacji i regresji

Korelacja

• Mówi o tym jaki jest kierunek związku Y i X

• Mówi o tym jaka jest siła związku Y i X


Warto podkreślić, że siła związku jest domeną wyłącznie związków statystycznych.
Ta charakterystyka – siła nie występuję w przypadku związków matematycznych, które
są jednoznaczne.

Regresja

• Mówi o tym jaki jest kierunek związku

• Mówi o tym jaki jest kształt


Kierunek związku może być dodatni lub ujemny.

Związek między Y i X jest dodatni, jeśli rosnącym wartością zmiennej X odpowiadają
rosnące wartości zmiennej Y.

Współzależność dodatnia

0

50

100

150

200

250

300

0

50

100

150

Związek między Y i X jest ujemny jeśli rosnącym wartością zmiennej X odpowiadają
malejące wartości zmiennej Y.

Współzależność ujemna

0

50

100

150

200

250

300

0

50

100

150

background image

Siła współzależności może być duża i mała.

Jeśli punkty skupione są np. blisko linii – oznacza to silną współzależność. Jeśli punkty
empiryczne są bardzo rozproszone – związek określamy jako słaby.


Przykład związku silnego i ujemnego:

Współzależność silna (ujemna)

0

50

100

150

200

250

300

0

20

40

60

80

100

120

140

160


Przykład związku słabego i ujemnego:

Współzależność słaba (ujemna)

0

50

100

150

200

250

300

0

20

40

60

80

100

120

140

160



Kształt związku: współzależność może mieć kształt liniowy lub nieliniowy
(logarytmiczny, wykładniczy itp.).

background image

Współczynnik korelacji liniowej Pearsona


Do określenia siły korelacji stosuje się współczynnik korelacji liniowej Pearsona r,
który oblicza się według wzoru:

=

2

2

)

(

)

(

)

)(

(

y

y

x

x

y

y

x

x

r

i

i

i

i

Współczynnik korelacji Pearsona mierzy siłę zależności tylko w przypadku
współzależności liniowej.

Właściwości współczynnika r Pearsona.

1. Współczynnik r przyjmuje wartości od -1 do +1,

czyli: -1 ≤ r ≤ 1


2. Wartość współczynnika korelacji określa siłę i kierunek współzależności


a) moduł r (

I

r

I

) – określa siłę współzależności

b) znak (+ –) – określa kierunek związku


3. Interpretacja siły współzalezności:

a) r=0: brak związku między zmiennymi YX
b) r= –1 lub r=+1: związek funkcyjny („najsilniejszy”)
c)

I

r

I

bliskie 1: związek między YX silny

d)

I

r

I

bliskie 0: związek słaby


4. Współczynnik korelacji r Pearsona ma własność symetryczności,

czyli:

r

yx

= r

xy

oznacza to, że siła zależności między Y i X jest taka sama jak między X i Y.

5. Kwadrat r (r

2

) określa się mianem współczynnika determinacji i oznacza %

zmienności Y wyjaśniony zmiennością X.
Np.

r

2

=0,67 oznacza, że zróżnicowanie Y można w 67% wyjaśnić

zróżnicowaniem X.



background image

Przykład 1.

Obliczyć współczynnik korelacji między Y i X (Y – szybkość czytania i X – iloraz
inteligencji (IQ).

lp

x

i

y

i

x

i

- x

y

i

- y (x

i

- x )*( y

i

- y )

(x

i

- x )

2

( y

i

- y )

2

1 80

120

-27

-55

1485

729 3025

2 92

140

-15

-35

525

225 1225

3 90

100

-17

-75

1275

289 5625

4 109

170

2

-5

-10

4 25

5 100

130

-7

-45

315

49 2025

6 105

190

-2

15

-30

4 225

7 110

220

3

45

135

9 2025

8 110

140

3

-35

-105

9 1225

9 115

180

8

5

40

64 25

10 120

240

13

65

845

169 4225

11 123

200

16

25

400

256 625

12 130

270

23

95

2185

529 9025

Suma

1284 2100

X X

7060

2336

29300

Średnia X= 107
Średnia Y= 175

85

,

0

*

)

(

)

(

)

)(

(

29300

2336

7060

.

..........

..........

..........

.

..........

..........

.

..........

..........

2

2

=

=

=

y

y

x

x

y

y

x

x

r

i

i

i

i



r

2

= 0,73


Interpretacja:
Związek między Y i X jest silny i dodatni, co oznacza, że osoby o wyższym IQ szybciej

czytają. Współczynnik determinacji 0,73 oznacza, że zróżnicowanie szybkości czytania

można w 73% wyjaśnić zróżnicowaniem IQ.


Wyszukiwarka

Podobne podstrony:
BLOK 1a 2 3 id 90304 Nieznany
projekty gry planszowe FD id 40 Nieznany
Korelacja ZIP6 id 248036 Nieznany
5 6 3 Lab Registry Backup id 40 Nieznany (2)
mech 1a id 290411 Nieznany
Projektowanie przekladnie id 40 Nieznany
Promethidion Opracowanie id 40 Nieznany
korelacja stud id 248034 Nieznany
9900 1a id 48832 Nieznany (2)
Kadlubek 1a id 229956 Nieznany
5 Schemat przylacza (Iza) id 40 Nieznany (2)
Promocja sprzedazy promos id 40 Nieznany
PRZEMIESZCZENIA W BELKACH id 40 Nieznany
5 Laczenie gazociagow A B id 40 Nieznany (2)
Konspekt 1a id 245441 Nieznany
am1 1a id 58722 Nieznany (2)
Projektowanie filtrow FIR id 40 Nieznany
ProjektRys KKa Wrzesinski id 40 Nieznany
Przekladnia zebata gotowa id 40 Nieznany

więcej podobnych podstron