background image

#9 Regresja i korelacja

 

STATYSTYKA - ĆWICZENIA

Prowadzący: Rafał Styła 
(rstyla@psych.uw.edu.pl) 

background image

Podstawowe pojęcia

Regresja

Przewidywania jednej 

zmienne na podstawie 

znajomości drugiej

Np. przewidywania 

średniej ze studiów na 

podstawie testu 

inteligencji

Francis Galton

1885 – przewidywanie 

wzrostu dzieci na 

podstawie wzrostu 

rodziców

Korelacja

Siła związku między 

dwoma zmiennymi

Np. siła związku między 

testem inteligencji a 

wynikami na studiach

Współczynnik korelacji

Współczynnik Pearsona 

według momentu 

iloczynowego

Statystyka typu 

przedziałowo-

stosunkowego, czyli dla 

danych ilościowych 

Inne dla zmiennych 

nominalnych i 

porządkowych

background image

Jaki test wybrać, kiedy mierzymy siłę związku 
między zmiennymi?

Ile jest zmiennych?

dwie zmienne

więcej niż dwie

Jaka jest skala 
pomiarowa

nominalna porządkow

a

ilościowa

porządkowa

ilościow
a

V-Cramera

rho-
Spearmana

lub

tau-
Kendalla

r-Pearsona

współczynnik 
wielokrotnej 
korelacji 
rangowej-
Kendalla

współczynnik 
korelacji 
wielokrotnej  
   r-Pearsona

Źródło: Brzeziński J. (2004). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN.

 

background image

Prosta regresji 

a – miejsce przecięcia z osią Y
b – kąt nachylenia prostej względem osi X

a i b to współczynniki regresji

Prosta regresji wyznaczana jest metodą najmniejszych 
kwadratów.

Metoda najmniejszych kwadratów oznacza wyznaczanie w 

równaniu                    takich współczynników a i b, dla 
których 

jest najmniejsza.  

a

bx

Y

'

Równanie regresji

a

bx

Y

'

2

)

'

(

Y

Y

background image

Metoda najmniejszych kwadratów

Dopasowanie linii metodą 
najmniejszych kwadratów

1

Y

1

'

Y

2

'

Y

2

Y

2

)

'

(

Y

Y

jest najmniejsza  

background image

Zadanie

Równanie regresji – przewidywanie pensji na podstawie lat 
kształcenia

Y’=100x+1500

Ile przewidywalnie będzie zarabiać osoba, która uczyła się 

8 lat

15 lat

23 lat

background image

Równanie regresji dla zmiennych 
wystandaryzowanych

Równanie regresji dla zmiennych wystandaryzowanych

(beta) – standaryzowany współczynnik regresji

beta=0,5 oznacza, że wzrost X o jedno odchylenie standardowe 

związane jest ze Y o pół odchylenia standardowego

X

Y

Z

Z

'

background image

Korelacja

r – współczynnik korelacji z próby 

Nie można mówić o przyczynowości

Stopnie swobody = n (liczba par)-2

Między -1 a 1; 0 oznacza brak związku

ρ (ro) – parametr populacji

Wzór na współczynnik korelacji 

Współczynnik determinacji 

R2 – korelacja podniesiona do kwadratu

Interpretacja: procent wariancji jednej zmiennej wyjaśniony 
zmiennością drugiej zmiennej

n

i

n

i

i

i

n

i

n

i

i

i

n

i

n

i

i

n

i

i

i

i

y

y

n

x

x

n

y

x

y

x

n

r

1

1

2

2

1

1

2

2

1

1

1

)

(

*

)

(

*

)

)(

(

*

background image

Diagram rozproszenia wyników 

background image

Przykład 

n

i

n

i

i

i

n

i

n

i

i

i

n

i

n

i

i

n

i

i

i

i

y

y

n

x

x

n

y

x

y

x

n

r

1

1

2

2

1

1

2

2

1

1

1

)

(

*

)

(

*

)

)(

(

*

background image

Przykład 

r=0,844

background image

Testowanie istotności współczynnika 
korelacji

Sprawdzanie wartości krytycznych współczynnika korelacji 
(Ferguson, tablica D, s. 582)

Df=n-2

background image

Bardzo ważna jest analiza wykresu 
rozrzutu

W przypadku liniowej analizy regresji oraz analizy korelacji 
istotnym założeniem jest liniowa zależność między danymi. 
Dlatego b. ważna jest wzrokowa inspekcja danych.

Kwartet Anscombe’a – dla każdego z podanych rozkładów 
korelacja jest taka sama, mimo, ze jedynie w przykładzie 
pierwszym analiza korelacji nadaje się do tego typu analizy 

background image

Zapis statystyczny

Aby sprawdzić zależność między poziomem agresji a 
intensywnością wysiłku, przeprowadzono analizę korelacji, 
r(98)=-0,78; p<0,001. Korelacja okazała się istotna. Istnieje 
silny, ujemny związek między obiema zmiennymi. Wysokim 
wartościom jednej zmiennej towarzyszą niskie wartości drugiej. 

background image

Wzory do zapamiętania na kolokwium

2

1

2

1

x

x

S

x

x

t

Wszystkie wzory na stopnie swobody
Wzór na wyznaczanie przedziału ufności dla małych 

prób (czyli przy zastosowaniu rozkładu t)

N

S

S

x

x

S

x

t

2

1

x

x

d

2

1

x

x

d

a

bx

Y

'

X

Y

Z

Z

'

d

s

d

Błąd standardowy

Test t różnicy między 

dwiema średnimi

Df=n1+n2-2

background image

Wzory, które będą wyświetlone na 
rzutniku

2

)

1

(

)

1

(

2

1

2

2

2

1

2

1

2

N

N

N

s

N

s

s

2

2

1

2

2

1

N

s

N

s

s

x

x

2

2

)

(

1

d

d

n

n

d

t

1

)

(

2

2

N

d

d

s

d

N

S

s

d

d

2

n

i

n

i

i

i

n

i

n

i

i

i

n

i

n

i

i

n

i

i

i

i

y

y

n

x

x

n

y

x

y

x

n

r

1

1

2

2

1

1

2

2

1

1

1

)

(

*

)

(

*

)

)(

(

*

Oszacowanie wariancji z populacji

Błąd standardowy różnicy między 

dwiema średnimi

background image

Praca domowa

1-4, 12-13, s 156-157

background image

Dziękuję za uwagę.


Document Outline