Analiza
regresji
Pewnego młodego obserwatora życia
niedźwiedzi
polarnych
zastanawiał fakt, że niektóre z nich potrafią
robić fikołki a inne nie. Postanowił sprawdzić co może
decydować o zdolności niedźwiedzi do fikołków.
Na początku przyszło mu do głowy, że na pewno
chodzi o tuszę tych uroczych zwierzątek. Zebrał
więc odpowiednie dane o 10 niedźwiedziach.
1
2
3
4
5
6
7
8
9
10
Fikoł
ki
1
1
2
2
5
6
7
12 12 15
Wa
ga
112
5
110
0
102
5
101
5
102
0
102
0
100
5
101
0
100
5
10
00
niedźwiedzie
Aby odpowiedzieć na pytanie o to, czy tusza ma
związek z fikaniem koziołków moglibyśmy użyć
korelacji r-Pearsona. Nie odpowie nam ona jednak na
pytanie typu: jeśli dany niedźwiedź waży 20
kilogramów więcej od innego, to o ile się zmieni liczba
wykonywanych przez niego fikołków. Nie pozwoli
również przewidywać wyników niedźwiedzi, których
nie „zmierzyliśmy”
Na tego typu pytania pomaga nam odpowiadać
analiza regresji
Wykorzystuje się ją miedzy innymi do:
•Rozpoznawania wielkości i rodzaju wpływu jednej zmiennej na
drugą
•Objaśniania zmienności jednej zmiennej za pomocą zmienności
drugiej zmiennej
•Predykcji (przewidywania) wartości zmiennej zależnej
Aby policzyć „wpływ” wagi na zdolność do fikołków
użyjemy regresji liniowej (ponieważ zakładamy liniowy
związek między tymi dwiema zmiennymi) -
należy
pamiętać, że istotne wyniki w analizie regresji nie zawsze
oznaczają związek przyczynowo-skutkowy, współwystępowanie
dwóch zjawisk może również wynikać z wpływu innego, trzeciego
zjawiska
Predyktorem
(zm. niezależną, objaśniającą) będzie
waga
, natomiast
zmienną objaśnianą
(zm. zależną)
będzie
ilość fikołków
Dane wprowadzamy w ten
sposób, że zmienna
objaśniana (Y) jest w jednej
kolumnie, natomiast
predyktor (X) w drugiej
(podobnie jak przy korelacji).
Cały czas pamiętamy, że przy
regresji zmienne powinny
być mierzone na skalach
ilościowych (dopuszcza się
również wykonywanie
analizy regresji dla
zmiennych dychotomicznych
(dwukategorialnych).
Zmienna, którą chcemy objaśniać, lub przewidywać nazywa się w
analizie regresji zmienną zależną, natomiast zmienna (lub zmienne)
na podstawie których będziemy wnioskować o zmiennej zależnej
nazywają się predyktorami
Krótkie przypomnienie bardzo krótkiego
wzoru...
y=bx+a
X
Y
a
y
(bardziej poprawnie ŷ) – przewidywane wartości zm. zależnej
x
– wartości predyktora
b
– nachylenie linii (o ile zmieni się y, gdy x zmieni się o
jednostkę)
a
– stała (wyraz wolny, punkt przecięcia linii regresji z y), ile
wynosi y, gdy x=0
ujemny
wsp. b
dodatni
wsp. b
a
Linia regresji jest wyznaczana metodą
najmniejszych kwadratów – oszacowania wartości
parametrów a i b są dobierane w taki sposób, aby
odległości wyników realnych od tych
przewidywanych przez linię regresji były jak
najmniejsze
Robiąc analizę regresji poza oszacowaniem parametrów a
i b powinniśmy zwrócić uwagę na takie rzeczy jak:
• Jaki procent zmienności zmiennej zależnej wyjaśnia
zmienność zmiennej niezależnej – R
2
(współczynnik
determinacji, proporcja zmienności Y wyjaśnionej przez X
do całkowitej zmienności Y)
• Czy zbudowany przez nas model jest dobry. Na takie
pytanie odpowie analiza wariancji. Testuje ona trzy
hipotezy:
H0: b = 0 – istotność współczynnika kierunkowego (parametru b)
H0: R2 = 0 – istotność współczynnika determinacji
H0: bx+a = 0 – istotność liniowego związku między analizowanymi
zmiennymi
Jeżeli test F jest nieistotny świadczy to o wadliwości
modelu!!
Aby można było sensownie wykonywać analizę
regresji liniowej zmienna zależna powinna być
skorelowana z predyktorem
Zarówno istotny
współczynnik
korelacji, jak i
wykres rozrzutu
potwierdzają
zależność liniową.
WAŻNE! Aby nie
pomijać tego kroku
Możliwe scenariusze (oraz wartości R-
Możliwe scenariusze (oraz wartości R-
kwadrat)
kwadrat)
b. dobry predyktor
fikołki
waga
Duża część
zmienności
zmiennej
zależnej
(fikołków)
„wyjaśniona”
przez predyktor
(wagę) (R
2
bliżej 1 niż 0)
kiepski
predyktor
waga
fikołki
Mała część
wspólna (R
2
bliskie
0)
Predyktor idealny
Predyktor „wyjaśnia”
całkowitą zmienność
zm. Zależnej (R
2
równe 1)
fikołki
waga
Aby wykonać analizę regresji liniowej z górnego
menu Analiza wybieramy Regresja i następnie
Liniowa
Pojawia się okno dialogowe,
w którym umieszczamy
nasze zmienne: predyktor w
dolnym okienku, z nazwą
zm. niezależne, zmienną
objaśnianą w górnym
W staty
stykach
możem
y
zaznacz
yć
dodatk
owo
statysty
ki
opisow
e
Z pierwszej tabelki odczytujemy
•ile wynosi korelacja miedzy zmienna zależną i predyktorem (R) –
0,655
(brak informacji o kierunku zależności, aby ją uzyskać analizujemy b lub Betę),
•jaki % wariancji wyjaśnia nasz model (R
2
) – 43%,
•jaki % zmienności jest wyjaśniony po uwzględnieniu liczby
predyktorów oraz liczby osób badanych (skorygowane R
2
) – 36%;
jeśli porównujemy ze sobą dwa modele patrzymy na skorygowane R
2
Po kliknięciu OK w oknie raportów pojawiają się wyniki
przeprowadzonej analizy regresji
Test F pokazuje, czy nasz model jest sensowny. Jeśli jest
istotny, odrzucamy hipotezy
H0: b = 0; H0: R2 = 0; H0: bx+a =
0
I się cieszymy ,
możemy sensownie interpretować
pozostałe wyniki
Przyjrzyjmy się teraz tabeli ze
współczynnikami
Widać, że
zarówno b jak i
wyraz wolny (a,
stała) są
istotnie różne
od zera (testuje
to test t)
Wystandaryzowane b, czyli współczynnik kierunkowy
Beta
(waga Beta)
opisuje zależności pomiędzy X i Y w jednostkach
odchylenia standardowego
(interpretujemy go podobnie jak współczynnik korelacji, co więcej w
sytuacji, gdy mamy tylko jeden predyktor, Beta jest równe wsp. korelacji).
Równanie regresji w tym przykładzie ma postać:
fikołki=waga*(-0,078)+86,36
Możemy dodatkowo podać istotność współczynników:
a=86,359, t(8)=2,645; p<0,05 oraz b=-0,078,
t(8)=2,454; p<0,05
!
Możemy sobie również
zażyczyć, aby program
narysował nam wykres
rozrzutu, uwzględniając
w legendzie wartość R
2
.
Aby tego dokonać,
wchodzimy w edytorze
wykresu w ustawienia,
następnie wybieramy
opcje i tam klikamy
klawisz „dopasowanie” i
zaznaczamy
odpowiednia opcję
Robiąc
wykres rozrzutu reszt i
predyktora
możemy stwierdzić,
czy istnieje między nimi związek
inny niż liniowy. Cieszymy się, gdy
nie są ze sobą skorelowane (tak
jak tu), znaczy to, że
„wycisnęliśmy” ile się dało z
naszego predyktora
Dobry użytek możemy zrobić z reszt standaryzowanych
(znajdujemy je w klawiszu Zapisz)
Podsumujmy
:
Po przeprowadzeniu analizy regresji okazało się, że
waga pomaga nam wyjaśniać to, ile fikołków robi dany
niedźwiedź.
R w naszej analizie wynosi 0,66 – czyli związek dosyć
silny (Beta pokazuje, że ujemny). Ten pojedynczy
predyktor wyjaśnia 36 % zmienności naszej zmiennej
zależnej (czyli liczby robionych przez niedźwiedzie
fikołków). Nie jest to imponująco dużo. Widocznie są
jakieś inne czynniki, które decydują o tym ile fikołków
jest zdolny zrobić niedźwiedź.
Nasz młody badacz po długim namyśle postanowił
zmierzyć również długość łap zwierząt i zobaczyć w
jakim stopniu decyduje to o możliwości robienia przez
nie fikołków
Wprowadzamy dodatkowy predyktor –
długość łap
Aby zobaczyć, czy
długość łap wyjaśniaj
coś innego niż waga
możemy zrobić wykres
rozrzutu reszt z
poprzedniej analizy i
długości łap
Jak widać istnieje dosyć silny
związek między nimi, więc
możemy podejrzewać, że ten
predyktor „wyłapuje” coś
innego niż poprzedni
Na początku... Współczynnik korelacji oczywiście; r=0,81 –
silny dodatni związek
Ten predyktor
samodzielnie
odpowiada za 61%
wariancji zmiennej
zaleznej
F istotne
Współczynni
ki istotnie
różne od
zera
fikołki = 0,264*łapy-11,253
Czyli wzrostowi łap o 1 cm odpowiada wzrost w liczbie fikołków o
o,264 fikołka
Beta wynosi 0,81, czyli wzrostowi łap o jedno OS towarzyszy wzrost liczby
fikołków o 0,81 OS
A tak to się przedstawia na wykresie
REGRESJA WIELOZMIENNOWA
Jest to rozszerzenie prostej (z jednym predyktorem) regresji liniowej,
pozwala nam stwierdzić, w jaki sposób kilka predyktorów (np.waga,
łapy) jest związanych z ta samą zmienną zależną (fikołki), czyli
mamy:
jedną zmienną zależną y, oraz kilka predyktorów: x
1
, x
2
,....,x
n
y= b
1
*x
1
+ b
2
*x
2
+ ....b
n
*x
n
.... + a
Pozwala nam ocenić wpływ danej zmiennej wyjaśniającej w
obecności innych zmiennych wyjaśniających (dowiadujemy się o
unikalnym wkładzie każdego predyktora w wyjaśnianiu zmiennej
zależnej) – służy do tego analiza wartości Beta każdego z nich.
Idealną sytuacją jest kiedy predyktory są silnie skorelowane ze zmienna
zależną, natomiast słabo ze sobą
Badacz nadal nie był usatysfakcjonowany. Chciał móc
jeszcze dokładniej przewidywać liczbę fikołków – w związku
z tym postanowił sprawdzić wpływu obydwu predyktorów
jednocześnie.
Aby to zrobić możemy posłużyć się regresją z użyciem
więcej niż jednego predyktora
Aby przeprowadzić analizę regresji wielozmiennowej po
prostu wrzucamy wszystkie predyktory do okienka
„zmienne niezależne”
SPSS oferuje nam
kilka metod
wykonywania analizy
regresji. Metoda
wprowadzania
polega na
jednoczesnym
włączeniu wszystkich
zmiennych do modelu,
krokowa –
wprowadzane są po
kolei najsilniejsze
predyktory
(spełniające określone
kryterium) oraz
usuwane najsłabsze,
eliminacji wstecznej
– wprowadzamy
wszystkie i usuwamy
po kolei najsłabsze aż
pozostaną tylko
istotne
Widzimy, że mając dwa
predyktory jednocześnie
możemy więcej
powiedzieć o naszej
zmiennej zależnej niż za
pomocą każdego z nich
osobno (za 80 % wariancji
zmiennej zależnej
„odpowiadają”nasze
zmienne niezależne).
Również analiza wariancji
potwierdza trafność
naszego modelu.
W regresji wielozmiennowej R to
korelacja pomiędzy zmienną zależną i
wszystkimi predyktorami razem
wziętymi
Równanie ma postać:
fikołki=0,22*łapy-
0,054*waga+47,78
Chcąc porównać „siłę”
naszych predyktorów
patrzymy na współczynniki
Beta. Tutaj silniejszym
„przewidywaczem” będzie
długość łap
Mając dwa predyktory możemy zależność między nimi a zmienną
zależną przedstawić graficznie (trudniej jest oczywiście zrobić to dla
3 i więcej predyktorów)
Wybieramy wykres
rozrzutu 3-W, definiujemy
zmienne (zależna na osi Y)
Aby wykres był bardziej
przejrzysty możemy w
opcjach włączyć linie
rzutowania