Prosta analiza regresji i
wprowadzenie do regresji
wielokrotnej
Wykład 9
Różnice
• Dotychczas szukaliśmy różnic między
pewnymi grupami (zmienna
niezależna jakościowa)
Podsumowanie – poszukiwanie różnic
Podsumowanie – poszukiwanie różnic
Podsumowanie – poszukiwanie różnic
Zmiana sposobu wnioskowania
poszukiwanie związku
• Oprócz różnic chcemy także
poszukiwanie związku pomiędzy
zmiennymi – metody regresyjne
• Zaczniemy od najprostszej postaci –
związek między dwiema zmiennymi
ilościowymi
• Przewidywanie
Możliwości przewidywania zarobków,
pogody w majowy weekend…
• Spojrzenie na średnie zarobki.
• Dowiadujemy się, ile zarabiają przeciętnie Polacy i to jest wtedy przewidywana kwota jaką zarobimy.
• Jeśli znamy predyktory zarobków np. poziom wykształcenia to możemy przewidzieć zarobki znając
średnią grupową.
• Skoro osoby z wykształceniem średnim zarabiają przeciętnie 4400 złotych brutto to my też
powinniśmy
Gdy zmienna przewidywana i
predyktor są ilościowe….
• Jeśli mamy dwie zmienne ilościowe to
posługiwanie się średnią jest mało
dokładne.
• Znacznie lepsze jest użycie do
przewidywania modelu uzyskanego w
wyniku analizy regresji
Analiza regresji
• Pozwala na przewidywanie poziomu jednej
zmiennej na podstawie poziomu drugiej
zmiennej.
• Nie ma sensu przeprowadzać prostej analizy
regresji, kiedy nie ma korelacji między
zmiennymi
– Im silniejsza korelacja między zmiennymi, tym
lepsza możliwość przewidywania
– Analiza regresji prostoliniowej – posługujemy się
do przewidywania matematycznym modelem linii
prostej
Ogólny wzór linii prostej
stala
nachylenia
ˆ
B
X
B
Y
stala
nachylenia
ˆ
A
X
B
Y
Y=2x+1
– Jak wzrasta
wartość X o 1,
wartość Y
wzrasta o 2
– Idealna
predykcja, w
większości
przypadków
mamy do
czynienia z
błędem
predykcji
X
12
11
10
9
8
7
6
5
4
3
2
1
0
Y
24
22
20
18
16
14
12
10
8
6
4
2
0
Przykład 1
• Czy wielkość stresu kierownika
zależy od liczby podległych mu
pracowników?
• Obie zmienne ilościowe
• Pytanie badawcze o związek
między zmiennymi
• Uznajemy, że zależność ta jest
proporcjonalna więc linia prosta
będzie dobrym modelem ją
opisującym.
Linia regresji
Aby opisać dane
posługujemy się
modelem linii prostej.
Szukamy takiej linii,
której odległość od
wszystkich wyników
jest minimalna.
Określamy to za
pomocą Metody
Najmniejszych
Kwadratów odległości
punktów od linii.
2,00
4,00
6,00
8,00
10,00
12,00
os X - liczba pracowników
0,00
2,00
4,00
6,00
8,00
10,00
12,00
o
s
Y
-
p
o
zi
o
m
s
tr
es
u
R kwadrat dla Liniowej
= 0,766
Dopasowanie linii
Porównanie
kwadratów odległości
punktów od
linii regresji
oraz
odległości punktu
przewidywanego od
średniej
2,00
4,00
6,00
8,00
10,00
12,00
os X - liczba pracowników
0,00
2,00
4,00
6,00
8,00
10,00
12,00
o
s
Y
-
p
o
zi
o
m
s
tr
es
u
R kwadrat dla Liniowej
= 0,766
.
Wyniki
rzeczywisty
Wyniki
przewidywan
y
Dopasowanie linii
Kwadraty odległości
punktów to………
Jaka statystyka?
2,00
4,00
6,00
8,00
10,00
12,00
os X - liczba pracowników
0,00
2,00
4,00
6,00
8,00
10,00
12,00
o
s
Y
-
p
o
zi
o
m
s
tr
es
u
R kwadrat dla Liniowej
= 0,766
Reszta regresji
Aby sprawdzić, czy
linia regresji jest
dobrym modelem
wykonywana jest
analiza wariancji
porównująca średni
kwadrat regresji (to
co regresja wyjaśnia)
w stosunku do
średniego kwadratu
reszt (to czego
regresja nie wyjaśnia)
Jak w SPSS-ie?
Wydruk analizy wariancji
• Istotna analiza wariancji informuje nas, że
odległości przewidywanych wyników są większe w
porównaniu do reszt.
• A tak po ludzku?
Analiza wariancji
b
26,036
1
26,036
9,807
,049
a
7,964
3
2,655
34,000
4
Regresja
Reszta
Ogółem
Model
1
Suma
kwadratów
df
Średni
kwadrat
F
Istotność
Predyktory: (Stała), pracow
a.
Zmienna zależna: stres
b.
Jaki jest wzór linii?
• Wzór linii (dla danych surowych):
stres=0,964*liczba pracowników - 0,75
Na podstawie tego wzoru możemy przewidywać poziom stresu
innych kierowników
Na przykład – jeśli kierownik ma 40 podwładnych to zgodnie ze
wzorem 0,964*50-0,75=47,45
Oznacza to, że przewidywany poziom stresu powinien osiągnąć około
47 punktów w kwestionariuszu. Nie musimy więc już go mierzyć
Współczynniki
a
-,750
2,275
-,330
,763
,964
,308
,875
3,132
,049
(Stała)
pracow
Model
1
B
Błąd
standardowy
Współczynniki
niestandaryzowane
Beta
Współczynniki
standaryzowa
ne
t
Istotność
Zmienna zależna: stres
a.
Ale jaka jest ta zależność?
• Interpretacji zależności dokonujemy na podstawie
współczynnika standaryzowanego beta. Jest to odpowiednik
współczynnika korelacji R-Pearsona
• Siła i kierunek zależności
• Istotność testu T informuje nas o tym czy beta=0
• Jeśli beta jest równa zero, to nie ma zależności prostoliniowej
• Jeśli istotnie różni się od zera to znaczy, że mamy zależność –
wtedy interpretujemy betę
Współczynniki
a
-,750
2,275
-,330
,763
,964
,308
,875
3,132
,049
(Stała)
pracow
Model
1
B
Błąd
standardowy
Współczynniki
niestandaryzowane
Beta
Współczynniki
standaryzowa
ne
t
Istotność
Zmienna zależna: stres
a.
Ale jaka jest ta zależność?
• Jaka jest zatem zależność między liczbą
podległych pracowników a poziomem
stresu?
• silna ? słaba
• dodatnia ? ujemna
Współczynniki
a
-,750
2,275
-,330
,763
,964
,308
,875
3,132
,049
(Stała)
pracow
Model
1
B
Błąd
standardowy
Współczynniki
niestandaryzowane
Beta
Współczynniki
standaryzowa
ne
t
Istotność
Zmienna zależna: stres
a.
Czy predyktor jest
efektywny?
• Aby się dowiedzieć, czy predyktor jest
dobrym predyktorem – wyjaśnia duży
procent wariancji zmiennej
przewidywanej patrzymy na wartość r
kwadrat
Model - Podsumowanie
,875
a
,766
,688
1,62934
Model
1
R
R-kwadrat
Skorygowane
R-kwadrat
Błąd
standardowy
oszacowania
Predyktory: (Stała), pracow
a.
Jak obliczamy r kwadrat?
Model - Podsumowanie
,875
a
,766
,688
1,62934
Model
1
R
R-kwadrat
Skorygowane
R-kwadrat
Błąd
standardowy
oszacowania
Predyktory: (Stała), pracow
a.
ogolem
regresja
SS
SS
R
2
Analiza wariancji
b
26,036
1
26,036
9,807
,049
a
7,964
3
2,655
34,000
4
Regresja
Reszta
Ogółem
Model
1
Suma
kwadratów
df
Średni
kwadrat
F
Istotność
Predyktory: (Stała), pracow
a.
Zmienna zależna: stres
b.
Podsumowanie
Kolejne kroki analizy regresji:
1.
Sprawdzamy czy model linii regresji dobrze
pasuje do danych (analiza wariancji)
2.
Sprawdzamy, czy istnieje zależność między
predyktorem a zmienną zależną (istotność
współczynnika beta)
3.
Interpretujemy współczynnik beta (siła i
kierunek zależności)
4.
Zapisujemy wzór linii dla danych surowych
Przykład 1 - problemy
Współczynniki
a
3,002
1,124
2,670
,026
,500
,118
,816
4,239
,002
(Stała)
x3
Model
1
B
Błąd
standardowy
Współczynniki
niestandaryzowane
Beta
Współczynniki
standaryzowa
ne
t
Istotność
Zmienna zależna: y3
a.
Analiza wariancji
b
27,470
1
27,470
17,972
,002
a
13,756
9
1,528
41,226
10
Regresja
Reszta
Ogółem
Model
1
Suma
kwadratów
df
Średni
kwadrat
F
Istotność
Predyktory: (Stała), x3
a.
Zmienna zależna: y3
b.
Uwaga dewianci…
4,00
6,00
8,00
10,00
12,00
14,00
x3
6,00
8,00
10,00
12,00
y3
R kwadrat dla Liniowej
= 0,666
Jak zdiagnozować dewianta?
Statystyki odległości
Gdy
większe
niż jeden
Przykład 2 - Problemy
Statystyki opisowe
7,5009
2,03058
11
9,0000
3,31662
11
y4
x4
Średnia
Odchylenie
standardowe
N
Współczynniki
a
3,002
1,124
2,671
,026
,500
,118
,817
4,243
,002
(Stała)
x4
Model
1
B
Błąd
standardowy
Współczynniki
niestandaryzowane
Beta
Współczynniki
standaryzowa
ne
t
Istotność
Zmienna zależna: y4
a.
Przykład 2 – stała + dewiant
5,00
10,00
15,00
20,00
x4
6,00
8,00
10,00
12,00
y4
R kwadrat dla Liniowej
= 0,667
Przykład 3- brak liniowości
4,00
6,00
8,00
10,00
12,00
14,00
x2
3,00
4,00
5,00
6,00
7,00
8,00
9,00
10,00
y2
R kwadrat dla Liniowej
= 0,666
-2
-1
0
1
2
Regresja Standaryzowana wartość przewidywana
-2
-1
0
1
R
eg
re
sj
a
R
es
zt
a
st
an
d
ar
yz
o
w
an
a
Zmienna zależna: y2
Wykres rozrzutu
-2
-1
0
1
2
Regresja Standaryzowana wartość przewidywana
-2
-1
0
1
R
eg
re
sj
a
R
es
zt
a
st
an
d
ar
yz
o
w
an
a
Zmienna zależna: y1
Wykres rozrzutu
Założenia analizy regresji
• Odpowiednia liczba osób badanych. Ale co to
znaczy? Tabachnick i Fidel podają, że musi to
być 50 osób plus 8 na każdy predyktor. Jeśli
mamy jedną zmienną niezależną to
powinniśmy mieć w zbiorze danych 58 osób
badanych.
• Zmienna zależna musi mieć rozkład normalny
• Zmienne niezależne powinny być liniowo
powiązane ze zmienną zależną
• Przypadki odstające i ekstremalne powinny
zostać znalezione i wyeliminowane
Przykład 4 – Pokaż mi, ile masz
książek…
• Jak dobry rozmiar ramy?
• Wysokość ramy musi zapewniać
dostateczny dystans pomiędzy
górną rurą ramy a kroczem. Ma on
pozwolić na bezpieczne zeskoczenie
z pedałów bez przykrych
konsekwencji. W rowerze górskim
rowerzysta, kiedy stoi okrakiem nad
ramą, musi mieć możliwość
uniesienia przedniego koła co
najmniej 15 cm nad ziemię.
Oglądamy wykres
• Wykres wygląda
mało
zachęcająco, ale
nie widać
żadnych
dewiantów ani
zależności
krzywoliniowej
0
1
2
3
4
5
6
7
L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)
0
20
40
60
80
100
W
Y
N
IK
W
T
E
S
C
IE
A
L
F
A
B
E
T
F
U
N
K
C
/1
99
9/
0-
10
0
Czy model jest dobrze dopasowany?
Analiza wariancji
b
188548,096
1 188548,1
234,958
,000
a
768772,778
958
802,477
957320,874
959
Regresja
Reszta
Ogółem
Model
1
Suma
kwadratów
df
Średni
kwadrat
F
Istotność
Predyktory: (Stała), q163 L.KSIAZEK W DOM BIBLIOTECE R (OBECNIE)
a.
Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100
b.
Model jest dobrze dopasowany do danych F(1,
958)=234,9; p<0,001
Współczynniki
• Jeśli osoba badana ma zero książek to
uzyskuje ….. punktów w teście.
• Wraz z zakupem każdej kolejnej książki
osoba badana zyskuje 7,8 punktu w teście
• Zależność jest dość silna i dodatnia
Współczynniki
a
25,851
1,591
16,247
,000
7,847
,512
,444
15,328
,000
(Stała)
q163 L.KSIAZEK W
DOM BIBLIOTECE
R (OBECNIE)
Model
1
B
Błąd
standardowy
Współczynniki
niestandaryzowane
Beta
Współczynniki
standaryzowa
ne
t
Istotność
Zmienna zależna: alfa WYNIK W TESCIE ALFABET FUNKC/1999/0-100
a.
Procent wyjaśnianej
wariancji
• Zmienna liczba książek pozwala wyjaśnić
prawie 20% zmienności zmiennej
analfabetyzm funkcjonalny
Model - Podsumowanie
,444
a
,197
,196
28,328
Model
1
R
R-kwadrat
Skorygowane
R-kwadrat
Błąd
standardowy
oszacowania
Predyktory: (Stała), q163 L.KSIAZEK W DOM BIBLIOTECE R
(OBECNIE)
a.
Podsumowanie
• Regresja dopasowuje linię prostą –
metoda najmniejszych kwadratów –
analiza wariancji
• Dowiadujemy się jak silny jest związek i
jaki jest jego kierunek (współczynnik
beta)
• Dzięki wzorowi linii możemy przewidywać
wielkość zmiennej przewidywanej znając
tylko wielkość predyktora.
• Uwaga na dewiantów i krzywoliniowość