background image

 

 

Analiza 

regresji

background image

 

 

Pewnego młodego obserwatora życia 

niedźwiedzi 

polarnych

 zastanawiał fakt, że niektóre z nich potrafią 

robić fikołki a inne nie. Postanowił sprawdzić co może 
decydować o zdolności niedźwiedzi do fikołków. 

Na początku przyszło mu do głowy, że na pewno 
chodzi o tuszę tych uroczych zwierzątek. Zebrał 
więc odpowiednie dane o 10 niedźwiedziach.

1

2

3

4

5

6

7

8

9

10

Fikoł

ki

1

1

2

2

5

6

7

12 12 15

Wa
ga

112

5

110

0

102

5

101

5

102

0

102

0

100

5

101

0

100

5

10
00

niedźwiedzie

background image

 

 

Aby odpowiedzieć na pytanie o to, czy tusza ma 
związek z fikaniem koziołków moglibyśmy użyć 
korelacji r-Pearsona. Nie odpowie nam ona jednak na 
pytanie typu: jeśli dany niedźwiedź waży 20 
kilogramów więcej od innego, to o ile się zmieni liczba 
wykonywanych przez niego fikołków. Nie pozwoli 
również przewidywać wyników niedźwiedzi, których 
nie „zmierzyliśmy” 

Na tego typu pytania pomaga nam odpowiadać 

analiza regresji

Wykorzystuje się ją miedzy innymi do:

•Rozpoznawania wielkości i rodzaju wpływu jednej zmiennej na 
drugą 

•Objaśniania zmienności jednej zmiennej za pomocą zmienności 
drugiej zmiennej

•Predykcji (przewidywania) wartości zmiennej zależnej

Aby policzyć „wpływ” wagi na zdolność do fikołków 
użyjemy regresji liniowej (ponieważ zakładamy liniowy 
związek między tymi dwiema zmiennymi) -  

należy 

pamiętać, że istotne wyniki w analizie regresji nie zawsze 
oznaczają związek przyczynowo-skutkowy, współwystępowanie 
dwóch zjawisk może również wynikać z wpływu innego, trzeciego 
zjawiska 

background image

 

 

Predyktorem

 (zm. niezależną, objaśniającą) będzie 

waga

, natomiast 

zmienną objaśnianą

 (zm. zależną) 

będzie 

ilość fikołków

Dane wprowadzamy w ten 
sposób, że zmienna 
objaśniana (Y) jest w jednej 
kolumnie, natomiast 
predyktor (X) w drugiej 
(podobnie jak przy korelacji). 
Cały czas pamiętamy, że przy 
regresji zmienne powinny 
być mierzone na skalach 
ilościowych (dopuszcza się 
również wykonywanie 
analizy regresji dla 
zmiennych dychotomicznych 
(dwukategorialnych).   

Zmienna, którą chcemy objaśniać, lub przewidywać nazywa się w 
analizie regresji zmienną zależną, natomiast zmienna (lub zmienne) 
na podstawie których będziemy wnioskować o zmiennej zależnej 
nazywają się predyktorami

background image

 

 

Krótkie przypomnienie bardzo krótkiego 

wzoru...

y=bx+a

X

Y

a

y

 (bardziej poprawnie ŷ) – przewidywane wartości zm. zależnej

x

 – wartości predyktora

b

 – nachylenie linii (o ile zmieni się y, gdy x zmieni się o 

jednostkę)

a

 – stała (wyraz wolny, punkt przecięcia linii regresji z y), ile 

wynosi y, gdy x=0

ujemny 

wsp. b

dodatni 

wsp. b

a

background image

 

 

Linia regresji jest wyznaczana metodą 
najmniejszych kwadratów
 – oszacowania wartości 
parametrów a i b są dobierane w taki sposób, aby 
odległości wyników realnych od tych 
przewidywanych przez linię regresji były jak 
najmniejsze 

Robiąc analizę regresji poza oszacowaniem parametrów a 
i b powinniśmy zwrócić uwagę na takie rzeczy jak:

• Jaki procent zmienności zmiennej zależnej wyjaśnia 
zmienność zmiennej niezależnej – R

2

 (współczynnik 

determinacji, proporcja zmienności Y wyjaśnionej przez X 
do całkowitej zmienności Y)

• Czy zbudowany przez nas model jest dobry. Na takie 
pytanie odpowie analiza wariancji. Testuje ona trzy 
hipotezy:

H0: b = 0 – istotność współczynnika kierunkowego (parametru b)

H0: R2 = 0 – istotność współczynnika determinacji

H0: bx+a = 0 – istotność liniowego związku między analizowanymi 
zmiennymi

Jeżeli test F jest nieistotny świadczy to o wadliwości 
modelu!!

background image

 

 

Aby można było sensownie wykonywać analizę 

regresji liniowej zmienna zależna powinna być 

skorelowana z predyktorem

Zarówno istotny 

współczynnik 

korelacji, jak i 

wykres rozrzutu 

potwierdzają 

zależność liniową. 

WAŻNE! Aby nie 

pomijać tego kroku

background image

 

 

Możliwe scenariusze (oraz wartości R-

Możliwe scenariusze (oraz wartości R-

kwadrat)

kwadrat)

b. dobry predyktor

fikołki

waga

 

Duża część 
zmienności 

zmiennej 

zależnej 

(fikołków) 

„wyjaśniona” 

przez predyktor 

(wagę) (R

2

 

bliżej 1 niż 0)

kiepski 

predyktor

waga

 

fikołki

Mała część 

wspólna (R

bliskie 

0)

 Predyktor idealny 

Predyktor „wyjaśnia” 

całkowitą zmienność 

zm. Zależnej (R

2

 

równe 1)

fikołki

waga

 

background image

 

 

Aby wykonać analizę regresji liniowej z górnego 
menu Analiza wybieramy Regresja i następnie 
Liniowa 

Pojawia się okno dialogowe, 
w którym umieszczamy 
nasze zmienne: predyktor w 
dolnym okienku, z nazwą 
zm. niezależne, zmienną 
objaśnianą w górnym

W staty

stykach

 

możem

zaznacz

yć 

dodatk

owo 

statysty

ki 

opisow

e

background image

 

 

Z pierwszej tabelki odczytujemy 

•ile wynosi korelacja miedzy zmienna zależną i predyktorem (R) – 
0,655 

(brak informacji o kierunku zależności, aby ją uzyskać analizujemy b lub Betę),

 

•jaki % wariancji wyjaśnia nasz model (R

2

) – 43%, 

•jaki % zmienności jest wyjaśniony po uwzględnieniu liczby 
predyktorów oraz liczby osób badanych (skorygowane R

2

) – 36%; 

jeśli porównujemy ze sobą dwa modele patrzymy na skorygowane R

2

Po kliknięciu OK w oknie raportów pojawiają się wyniki 

przeprowadzonej analizy regresji

background image

 

 

Test F pokazuje, czy nasz model jest sensowny. Jeśli jest 
istotny, odrzucamy hipotezy

H0: b = 0;              H0: R2 = 0;           H0: bx+a = 
0

I się cieszymy , 

możemy sensownie interpretować 

pozostałe wyniki

background image

 

 

Przyjrzyjmy się teraz tabeli ze 

współczynnikami

Widać, że 

zarówno b jak i 

wyraz wolny (a, 

stała) są 

istotnie różne 

od zera (testuje 

to test t)

Wystandaryzowane b, czyli współczynnik kierunkowy 

Beta

 (waga Beta) 

opisuje zależności pomiędzy X i Y w jednostkach 

odchylenia standardowego

 

(interpretujemy go podobnie jak współczynnik korelacji, co więcej w 
sytuacji, gdy mamy tylko jeden predyktor, Beta jest równe wsp. korelacji). 

Równanie regresji w tym przykładzie ma postać:

fikołki=waga*(-0,078)+86,36

Możemy dodatkowo podać istotność współczynników: 

a=86,359, t(8)=2,645; p<0,05 oraz b=-0,078, 

t(8)=2,454; p<0,05 

background image

 

 

!

Możemy sobie również 
zażyczyć, aby program 
narysował nam wykres 
rozrzutu, uwzględniając 
w legendzie wartość R

2

.

Aby tego dokonać, 
wchodzimy w edytorze 
wykresu w ustawienia, 
następnie wybieramy 
opcje i tam klikamy 
klawisz „dopasowanie” i 
zaznaczamy 
odpowiednia opcję 

background image

 

 

Robiąc 

wykres rozrzutu reszt i 

predyktora

 możemy stwierdzić, 

czy istnieje między nimi związek 
inny niż liniowy. Cieszymy się, gdy 
nie są ze sobą skorelowane (tak 
jak tu), znaczy to, że 
„wycisnęliśmy” ile się dało z 
naszego predyktora

Dobry użytek możemy zrobić z reszt standaryzowanych 
(znajdujemy je w klawiszu Zapisz)

background image

 

 

Podsumujmy

:

Po przeprowadzeniu analizy regresji okazało się, że 
waga pomaga nam wyjaśniać to, ile fikołków robi dany 
niedźwiedź.

R w naszej analizie wynosi 0,66 – czyli związek dosyć 
silny (Beta pokazuje, że ujemny). Ten pojedynczy 
predyktor wyjaśnia 36 % zmienności naszej zmiennej 
zależnej (czyli liczby robionych przez niedźwiedzie 
fikołków). Nie jest to imponująco dużo. Widocznie są 
jakieś inne czynniki, które decydują o tym ile fikołków 
jest zdolny zrobić niedźwiedź. 

 

Nasz młody badacz po długim namyśle postanowił 
zmierzyć również długość łap zwierząt i zobaczyć w 
jakim stopniu decyduje to o  możliwości robienia przez 
nie fikołków 

background image

 

 

Wprowadzamy dodatkowy predyktor – 

długość łap

background image

 

 

Aby zobaczyć, czy 
długość łap wyjaśniaj 
coś innego niż waga 
możemy zrobić wykres 
rozrzutu reszt z 
poprzedniej analizy i 
długości łap 

Jak widać istnieje dosyć silny 
związek między nimi, więc 
możemy podejrzewać, że ten 
predyktor „wyłapuje” coś 
innego niż poprzedni

Na początku... Współczynnik korelacji oczywiście; r=0,81 – 
silny dodatni związek

background image

 

 

Ten predyktor 
samodzielnie 
odpowiada za 61% 
wariancji zmiennej 
zaleznej

F istotne 

Współczynni
ki istotnie 
różne od 
zera

fikołki = 0,264*łapy-11,253

Czyli wzrostowi łap o 1 cm odpowiada wzrost w liczbie fikołków o 

o,264 fikołka

Beta wynosi 0,81, czyli wzrostowi łap o jedno OS towarzyszy wzrost liczby 

fikołków o 0,81 OS

background image

 

 

A tak to się przedstawia na wykresie

background image

 

 

REGRESJA WIELOZMIENNOWA

Jest to rozszerzenie prostej (z jednym predyktorem) regresji liniowej, 
pozwala nam stwierdzić, w jaki sposób kilka predyktorów (np.waga, 
łapy) jest związanych z ta samą zmienną zależną (fikołki), czyli 
mamy: 

jedną zmienną zależną yoraz kilka predyktorów: x

1

, x

2

,....,x

n

                             

y= b

1

*x

1

 + b

2

*x

2

 + ....b

n

*x

n

.... + a

Pozwala nam ocenić wpływ danej zmiennej wyjaśniającej w 
obecności innych zmiennych wyjaśniających (dowiadujemy się o 
unikalnym wkładzie każdego predyktora w wyjaśnianiu zmiennej 
zależnej) – służy do tego analiza wartości Beta każdego z nich.

Idealną sytuacją jest kiedy predyktory są silnie skorelowane ze zmienna 
zależną, natomiast słabo ze sobą 

Badacz nadal nie był usatysfakcjonowany. Chciał móc 
jeszcze dokładniej przewidywać liczbę fikołków – w związku 
z tym postanowił sprawdzić wpływu obydwu predyktorów 
jednocześnie.

Aby to zrobić możemy posłużyć się regresją z użyciem 
więcej niż jednego predyktora 

background image

 

 

Aby przeprowadzić analizę regresji wielozmiennowej po 
prostu wrzucamy wszystkie predyktory do okienka 
„zmienne niezależne”

SPSS oferuje nam 
kilka metod 
wykonywania analizy 
regresji. Metoda 
wprowadzania 
polega na 
jednoczesnym 
włączeniu wszystkich 
zmiennych do modelu, 
krokowa – 
wprowadzane są po 
kolei najsilniejsze 
predyktory 
(spełniające określone 
kryterium) oraz 
usuwane najsłabsze, 
eliminacji wstecznej 
– wprowadzamy 
wszystkie i usuwamy 
po kolei najsłabsze aż 
pozostaną tylko 
istotne

background image

 

 

Widzimy, że mając dwa 
predyktory jednocześnie 
możemy więcej 
powiedzieć o naszej 
zmiennej zależnej niż za 
pomocą każdego z nich 
osobno (za 80 % wariancji 
zmiennej zależnej 
„odpowiadają”nasze 
zmienne niezależne). 
Również analiza wariancji 
potwierdza trafność 
naszego modelu.

W regresji wielozmiennowej R to 
korelacja pomiędzy zmienną zależną i 
wszystkimi predyktorami razem 
wziętymi 

Równanie ma postać:

fikołki=0,22*łapy-
0,054*waga+47,78

Chcąc porównać „siłę” 
naszych predyktorów 
patrzymy na współczynniki 
Beta. Tutaj silniejszym 
„przewidywaczem” będzie 
długość łap

background image

 

 

Mając dwa predyktory możemy zależność między nimi a zmienną 
zależną przedstawić graficznie (trudniej jest oczywiście zrobić to dla 
3 i więcej predyktorów)

Wybieramy wykres 
rozrzutu 3-W, definiujemy 
zmienne (zależna na osi Y)

background image

 

 

Aby wykres był bardziej 
przejrzysty możemy w 
opcjach włączyć linie 
rzutowania


Document Outline