#9 Regresja i korelacja
STATYSTYKA - ĆWICZENIA
Prowadzący: Rafał Styła
(rstyla@psych.uw.edu.pl)
Podstawowe pojęcia
Regresja
Przewidywania jednej
zmienne na podstawie
znajomości drugiej
Np. przewidywania
średniej ze studiów na
podstawie testu
inteligencji
Francis Galton
1885 – przewidywanie
wzrostu dzieci na
podstawie wzrostu
rodziców
Korelacja
Siła związku między
dwoma zmiennymi
Np. siła związku między
testem inteligencji a
wynikami na studiach
Współczynnik korelacji
Współczynnik Pearsona
według momentu
iloczynowego
Statystyka typu
przedziałowo-
stosunkowego, czyli dla
danych ilościowych
Inne dla zmiennych
nominalnych i
porządkowych
Jaki test wybrać, kiedy mierzymy siłę związku
między zmiennymi?
Ile jest zmiennych?
dwie zmienne
więcej niż dwie
Jaka jest skala
pomiarowa
nominalna porządkow
a
ilościowa
porządkowa
ilościow
a
V-Cramera
rho-
Spearmana
lub
tau-
Kendalla
r-Pearsona
współczynnik
wielokrotnej
korelacji
rangowej-
Kendalla
współczynnik
korelacji
wielokrotnej
r-Pearsona
Źródło: Brzeziński J. (2004). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN.
Prosta regresji
a – miejsce przecięcia z osią Y
b – kąt nachylenia prostej względem osi X
a i b to współczynniki regresji
Prosta regresji wyznaczana jest metodą najmniejszych
kwadratów.
Metoda najmniejszych kwadratów oznacza wyznaczanie w
równaniu takich współczynników a i b, dla
których
jest najmniejsza.
a
bx
Y
'
Równanie regresji
a
bx
Y
'
2
)
'
(
Y
Y
Metoda najmniejszych kwadratów
Dopasowanie linii metodą
najmniejszych kwadratów
1
Y
1
'
Y
2
'
Y
2
Y
2
)
'
(
Y
Y
jest najmniejsza
Zadanie
Równanie regresji – przewidywanie pensji na podstawie lat
kształcenia
Y’=100x+1500
Ile przewidywalnie będzie zarabiać osoba, która uczyła się
8 lat
15 lat
23 lat
Równanie regresji dla zmiennych
wystandaryzowanych
Równanie regresji dla zmiennych wystandaryzowanych
(beta) – standaryzowany współczynnik regresji
beta=0,5 oznacza, że wzrost X o jedno odchylenie standardowe
związane jest ze Y o pół odchylenia standardowego
X
Y
Z
Z
'
Korelacja
r – współczynnik korelacji z próby
Nie można mówić o przyczynowości
Stopnie swobody = n (liczba par)-2
Między -1 a 1; 0 oznacza brak związku
ρ (ro) – parametr populacji
Wzór na współczynnik korelacji
Współczynnik determinacji
R2 – korelacja podniesiona do kwadratu
Interpretacja: procent wariancji jednej zmiennej wyjaśniony
zmiennością drugiej zmiennej
n
i
n
i
i
i
n
i
n
i
i
i
n
i
n
i
i
n
i
i
i
i
y
y
n
x
x
n
y
x
y
x
n
r
1
1
2
2
1
1
2
2
1
1
1
)
(
*
)
(
*
)
)(
(
*
Diagram rozproszenia wyników
Przykład
n
i
n
i
i
i
n
i
n
i
i
i
n
i
n
i
i
n
i
i
i
i
y
y
n
x
x
n
y
x
y
x
n
r
1
1
2
2
1
1
2
2
1
1
1
)
(
*
)
(
*
)
)(
(
*
Przykład
r=0,844
Testowanie istotności współczynnika
korelacji
Sprawdzanie wartości krytycznych współczynnika korelacji
(Ferguson, tablica D, s. 582)
Df=n-2
Bardzo ważna jest analiza wykresu
rozrzutu
W przypadku liniowej analizy regresji oraz analizy korelacji
istotnym założeniem jest liniowa zależność między danymi.
Dlatego b. ważna jest wzrokowa inspekcja danych.
Kwartet Anscombe’a – dla każdego z podanych rozkładów
korelacja jest taka sama, mimo, ze jedynie w przykładzie
pierwszym analiza korelacji nadaje się do tego typu analizy
Zapis statystyczny
Aby sprawdzić zależność między poziomem agresji a
intensywnością wysiłku, przeprowadzono analizę korelacji,
r(98)=-0,78; p<0,001. Korelacja okazała się istotna. Istnieje
silny, ujemny związek między obiema zmiennymi. Wysokim
wartościom jednej zmiennej towarzyszą niskie wartości drugiej.
Wzory do zapamiętania na kolokwium
2
1
2
1
x
x
S
x
x
t
Wszystkie wzory na stopnie swobody
Wzór na wyznaczanie przedziału ufności dla małych
prób (czyli przy zastosowaniu rozkładu t)
N
S
S
x
x
S
x
t
2
1
x
x
d
2
1
x
x
d
a
bx
Y
'
X
Y
Z
Z
'
d
s
d
t
Błąd standardowy
Test t różnicy między
dwiema średnimi
Df=n1+n2-2
Wzory, które będą wyświetlone na
rzutniku
2
)
1
(
)
1
(
2
1
2
2
2
1
2
1
2
N
N
N
s
N
s
s
2
2
1
2
2
1
N
s
N
s
s
x
x
2
2
)
(
1
d
d
n
n
d
t
1
)
(
2
2
N
d
d
s
d
N
S
s
d
d
2
n
i
n
i
i
i
n
i
n
i
i
i
n
i
n
i
i
n
i
i
i
i
y
y
n
x
x
n
y
x
y
x
n
r
1
1
2
2
1
1
2
2
1
1
1
)
(
*
)
(
*
)
)(
(
*
Oszacowanie wariancji z populacji
Błąd standardowy różnicy między
dwiema średnimi
Praca domowa
1-4, 12-13, s 156-157
Dziękuję za uwagę.