background image

Regresja z predyktorami 

dychotomicznymi

background image

Zmienne jakościowe w 

regresji

• Sprawdzamy, czy ciśnienie 

skurczowe krwi zależy od wieku i płci 
pacjentów

• Płeć (0-mężczyzna, 1 – kobieta)
• Wiek zmienna ilościowa

background image

Wyniki analizy wariancji – 

dopasowanie modelu

• Analiza wariancji okazała się istotna 

statystyczne F(2, 66)=114,25; p<0,001

• Oznacza to, że model regresji jest dobrze 

dopasowany do danych

Analiza wariancji

b

18009,779

2 9004,890

114,249

,000

a

5201,989

66

78,818

23211,768

68

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), wiek, plec

a. 

Zmienna zależna: cisnienie

b. 

background image

Współczynniki

• Oba predyktory okazały się istotne statystyczne a więc 

wpływają na wartości zmiennej zależnej. 

• Silniejszym predyktorem zmiennej zależnej jest wiek. 

Zależność ta jest dodatnia i bardzo silna

• Zależność między płcią a ciśnieniem jest ujemna. Aby 

zinterpretować tę wartość beta trzeba pamiętać jak 

była kodowana zmienne niezależna. 0 to mężczyźni 1 to 

kobiety a więc im wyższe wartości tym bardziej osoba 

badana jest kobietą. A zatem im bardziej jest kobietą 

tym ma niższe wartości ciśnienia. 

Współczynniki

a

110,287

3,638

30,313

,000

-13,513

2,169

-,364

-6,229

,000

,956

,072

,780

13,366

,000

(Stała)
plec
wiek

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: cisnienie

a. 

background image

Współczynniki

• Model można opisać za pomocą następującego równania:
• Ciśnienie=110,29 + 0,96*wiek-13,51* płeć
• Zwiększenie wieku o rok pociąga za sobą niewielki wzrost 

ciśnienia o 0,956 jednostki

• W modelu dla mężczyzn otrzymujemy równanie 

Ciśnienie=110,29 + 0,96*wiek

• Dla kobiet otrzymujemy równanie Ciśnienie=110,29 + 

0,96*wiek – 13,51 = 0,96*wiek +96,77

Współczynniki

a

110,287

3,638

30,313

,000

-13,513

2,169

-,364

-6,229

,000

,956

,072

,780

13,366

,000

(Stała)
plec
wiek

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: cisnienie

a. 

background image

Procent wyjaśnionej 

wariancji

• Za pomocą modelu udaje się 

wyjaśnić 77% wariancji zmiennej 
zależnej

Model - Podsumowanie

,881

a

,776

,769

8,87795

Model
1

R

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Predyktory: (Stała), wiek, plec

a. 

background image

Linie regresji

background image

 

 

Analiza regresji – zmienne 

jakościowe

• Rozważmy następujący przykład (dane: 

dummy.sav)

• Badanie wykonywane było w tzw 

paradygmacie testu Stroopa  ( liczy się tu czas 
odczytywanie nazw np kolorów napisanych 
różnymi kolorami np: 

czerwony

czerwony

)

• Model 1: Jaką część czasów reakcji w teście 

Stroopa możemy przewidzieć na podstawie 
znajomość nastroju przed badaniem 
(NASTRÓJ) i umiejętności komputerowych 
(COMP) badanych?

background image

 

 

Model 1: Czy 

możemy 

przewidywać czas 

reakcji na podstawie 

znajomości nastroju i 

umiejętności 

komputerowych?

background image

 

 

Analiza wariancji

b

2551338,9

2

1275669

599,002

,000

a

632508,286

297

2129,658

3183847,2

299

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), umiejętności komputerowe, nastrój przed badaniem

a. 

Zmienna zależna: czas reakcji - milisekundy

b. 

Anova jest istotna – 

możemy założyć, że 

model jest liniowo 

powiązany ze zmienną 

zależną, oraz, że 

kontroluje on więcej 

zmienności czasów reakcji 

niż czynniki które nie 

kontrolujemy (błąd). 

Model - Podsumowanie

b

,895

a

,801

,800

46,14821

Model
1

R

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Predyktory: (Stała), umiejętności komputerowe, nastrój
przed badaniem

a. 

Zmienna zależna: czas reakcji - milisekundy

b. 

R

2

 = 0,800 

Na podstawie Modelu 1 

możemy przewidzieć aż do 

80% zmienności czasów 

reakcji, na podstawie 

znajomości nastroju i 

poziomu umiejętności 

komputerowych. 

background image

 

 

Czas reakcji (rt) = 42,6*nastrój + 65,8*umiejętności + 9621,8; 

Umiejętności komputerowe są lepszym predyktorem  (β=0,66) niż nastrój 

 (β=0,44). Obydwa predyktory są istotne

Czysta korelacja (cząstkowa) umiejętności komputerowych i czasów 

reakcji   r

cząstkowa

=0,81;nastroju i czasów reakcji  r

cząstkowa

=0,68. Obydwa 

predyktory są ze sobą powiązane oraz są powiązane ze zmienną zależną. 

 

Współczynniki

a

9621,864

11,631

827,228

,000

42,605

2,628

,438

16,212

,000

,632

,685

,419

65,814

2,686

,663

24,500

,000

,791

,818

,634

(Stała)
nastrój przed badaniem
umiejętności

komputerowe

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Rzędu

zerowego

Cząstkowa

Semicząs

tkowa

Korelacje

Zmienna zależna: czas reakcji - milisekundy

a. 

background image

 

 

Analiza regresji ze zmienną 

jakościową

• W naszym badaniu kontrolowaliśmy też to 

przy pomocy której ręki reagowała osoba 
badana

Jak widać zmienna RĘKA jest zmienną 

nominalną (o pięciu kategoriach) – nie 
możemy jej użyć w analizie regresji w tej 
postaci

background image

 

 

Rekodowanie zmiennej 

jakościowej na 

dychotomiczne

• Możemy przekodować RĘKĘ na zmienne 

instrumentalne

• Przypuśćmy, że jesteśmy tylko zainteresowani 

kontrolą takich przypadków, kiedy badani 
reagowali tylko przy użyciu prawej lub lewej 
ręki

background image

 

 

Zmienne instrumentalne

• Aby wykorzystać te informacje musimy 

stworzyć dwie zmienne instrumentalne: LEWA 
– osoba odpowiadała tylko przy użyciu lewej 
ręki (i w żaden inny sposób); PRAWA – osoba 
odpowiadała przy użyciu prawej ręki (i w 
żaden inny sposób)

background image

 

 

Zmienna „lewa”

• A więc, w nowej zmiennej LEWA, 1 otrzymają 

te osoby, które odpowiadały tylko przy użyciu 

lewej ręki (1 na zmiennej RĘKA), a 0 

otrzymają te osoby, które odpowiadały w inny 

sposób (2 – 5 na zmiennej RĘKA)

background image

 

 

Zmienna „prawa”

• A więc, w nowej zmiennej PRAWA, 1 otrzymają 

te osoby, które odpowiadały tylko przy użyciu 

prawej ręki (5 na zmiennej RĘKA), a 0 

otrzymają te osoby, które odpowiadały w inny 

sposób (1 – 4 na zmiennej RĘKA)

background image

 

 

Rekodowanie zmiennej RĘKA na zmienną 

instrumentalną PRAWA

Przekształcenia > Rekoduj 

 > na inne zmienne 

Przenieś RĘKA. Określ 

nazwę nowej zmiennej > 

PRAWA > wciśnij zamień 

Wartości źródłowe i 

wynikowe. Rekodowanie:  

5 -> 1 (ludzie odpowiadali 

tylko przy użyciu prawej 

ręki);

Pozostałe wartości -> 0

background image

 

 

• Po przekodowaniu RĘKi na LEWA i PRAWA, 

nowe zmienne możemy wykorzystać w 
analizie regresji.

• Wprowadzimy je jako drugi blok poprzedniej 

analizy aby sprawdzić czy kontrolowanie tego, 
której ręki używali badani do reagowania 
zwiększa moc eksplanacyjną poprzedniego 
modelu!

• Model 2: Jaką część czasów reakcji w teście 

Stroopa możemy przewidzieć na podstawie 
znajomość nastroju przed badaniem 
(NASTRÓJ), umiejętności komputerowych 
(COMP) badanych oraz tego której ręki 
używali do reagowania (LEWA i PRAWA)

Kolejność wprowadzania 

zmiennych

background image

 

 

Reresja hierarchiczna 

Analiza > Regresja  > 

Liniowa 

Nie usuwaj nastroju i 

umiejętności 

komputerowych z listy 

zmiennych niezależnych. 

Zamiast tego wciśnij 

NASTĘPNY

 

Statystyki. Wybierz: 

Zmiana  R kwadrat > 

Dalej > OK 

Przenieś: LEWA I PRAWA 

do drugiego bloku 

predyktorów

background image

 

 

Analiza wariancji

c

2551338,9

2

1275669

599,002

,000

a

632508,286

297

2129,658

3183847,2

299

2584514,0

4

646128,5

318,033

,000

b

599333,139

295

2031,638

3183847,2

299

Regresja
Reszta
Ogółem
Regresja
Reszta
Ogółem

Model
1

2

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), umiejętności komputerowe, nastrój przed badaniem

a. 

Predyktory: (Stała), umiejętności komputerowe, nastrój przed badaniem,
prawa, lewa

b. 

Zmienna zależna: czas reakcji - milisekundy

c. 

Model - Podsumowanie

c

,895

a

,801

,800

46,14821

,801

599,002

2

297

,000

,901

b

,812

,809

45,07369

,010

8,165

2

295

,000

Model
1
2

R

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Zmiana

R-kwadrat

Zmiana F

df1

df2

Istotność

zmiany F

Statystyki zmiany

Predyktory: (Stała), umiejętności komputerowe, nastrój przed badaniem

a. 

Predyktory: (Stała), umiejętności komputerowe, nastrój przed badaniem, prawa, lewa

b. 

Zmienna zależna: czas reakcji - milisekundy

c. 

Regresja hierarchiczna – czy dodawanie 

nowych zmiennych zwiększa wyjaśniającą 

wartość poprzedniego modelu?

Tak! Nasz model (nr 2) 

przewiduje istotnie więcej 

wariancji czasów reakcji. 

 R

2

 zmieniło się o ok 0,01 

Teraz odczytujemy informacje 

tylko dla modelu nr 2

(gdyby zmiana była 

nieistotna to zostalibyśmy 

przy modelu 1)

Anova dla modelu 2 jest 

istotna! 

F(4,295)=318; p<0,001; 

R

2

=0,809

background image

 

 

Współczynniki

a

9621,864

11,631

827,228

,000

42,605

2,628

,438

16,212

,000

,632

,685

,419

65,814

2,686

,663

24,500

,000

,791

,818

,634

9588,810

14,020

683,937

,000

43,609

2,593

,449

16,819

,000

,632

,700

,425

73,436

3,233

,739

22,716

,000

,791

,798

,574

26,072

7,687

,101

3,392

,001

-,357

,194

,086

-15,445

7,288

-,060

-2,119

,035

,345

-,122

-,054

(Stała)
nastrój przed badaniem
umiejętności
komputerowe
(Stała)
nastrój przed badaniem
umiejętności
komputerowe
lewa
prawa

Model
1

2

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Rzędu

zerowego

Cząstkowa

Semicząs

tkowa

Korelacje

Zmienna zależna: czas reakcji - milisekundy

a. 

Czas reakcji  = 43,6*nastrój + 73,4*umiejętności + 26*lewa - 15,4*prawa 

+ 9588,8; 

Umiejętności komputerowe okazały się najlepszym predyktorem  

(β=0,74), następnie: nastrój (β=0,45); lewa (β=0,1) i prawa (β=-0,06). 

Wszystkie predyktory były istotne. Czas reakcji wzrastał wraz z 

poziomem nastroju, umiejętności komputerowych i był dłuższy przy 

reagowaniu lewą ręką. Jeśli osoba odpowiadała przy pomocy prawej ręki, 

czas reakcji skracał się (beta ujemna).

Czyste korelacje (cząstkowe):

  of umiejętności i czas  r

cząstkowa

=0,79; 

of nastrój  i czas  r

cząstkowa

=0,70;

 of lewa i czas  r

cząstkowa

=0,19; 

of prawa  i czas  r

cząstkowa

-0,12;

background image

Efekty interakcyjne w regresji -obliczenia

1. Dwie zmienne niezależne (wyjaśniające) 
2. Jedna zmienna zależna

Kroki
1. Zmienne niezależne: standaryzujemy 

zmienne ilościowe, zmienne jakościowe 
rekodujemy na dwuwartościowe o 
wartościach  –1 i 1 (centracja zmiennych).

2. Tworzymy nową zmienną – składnik 

interakcyjny, który jest iloczynem 
przekształconych zmiennych niezależnych

3. Robimy analizę regresji, gdzie  w pierwszym 

kroku wprowadzamy zmiennej niezależne a 
w drugim kroku składnik interakcyjny. 

background image

Analiza wydruku

• Jeśli model ze składnikiem interakcyjnym jest 

istotny statystycznie (istotna beta tego 
składnika) to uznajemy, że mamy do 
czynienia z efektem interakcyjnym i 
przeprowadzamy analizę dodatkową

• Robimy dwie regresje osobno dla dwóch grup 

(jeśli jeden z predyktorów jest jakościowy) lub 
redukujemy jeden z predyktorów do zmiennej 
dychotomicznej i robimy dwie regresje dla 
dwóch grup osobno. 

background image

Efekty interakcyjne w regresji - przykład

Szukamy predyktorów depresji
Czy ilość wrażeń jakich dostarcza życie wiąże 

się z poziomem depresji w dwóch grupach 
płciowych

Szukamy efektu interakcyjnego tych dwóch 

zmiennych: płeć i ilość wrażeń na zmienną 
poziom depresji?

background image

Rekodujemy zmienną płeć na 

zmienną o wartościach -1 i 1

RECODE
  płec
  (0=-1)  (1=1)  INTO  

dumy .

EXECUTE .
DESCRIPTIVES
  VARIABLES=wrazenia  

/SAVE

  /STATISTICS=MEAN 

STDDEV MIN MAX .

COMPUTE int = dumy * 

Zwrazenia .

EXECUTE .

Rekodujemy 

zmienną 

jakościową

Standaryzujem

y zmienną 

ilościową

Obliczamy 

składnik 

interakcyjny

background image

Analiza hierarchiczna 

W pierwszym kroku 

wprowadzamy predyktory 

– rodzaj efektów 

głównych

W drugim kroku 

wprowadzamy składnik 

interakcyjny – rodzaj 

efektu interakcyjnego

background image

Wydruk 1

Zmienne wprowadzone/usunięte

b

dumy,
wrazenia

a

.

Wprowad
zanie

int

a

.

Wprowad
zanie

Model
1

2

Zmienne

wprowadzone

Zmienne

usunięte

Metoda

Wszystkie wyspecyfikowane zmienne
zostały wprowadzone.

a. 

Zmienna zależna: depresja

b. 

Analiza wariancji

c

8,100

2

4,050

,283

,755

a

529,000

37

14,297

537,100

39

387,232

3

129,077

31,006

,000

b

149,868

36

4,163

537,100

39

Regresja
Reszta
Ogółem
Regresja
Reszta
Ogółem

Model
1

2

Suma

kwadratów

df

Średni

kwadrat

F

Istotność

Predyktory: (Stała), dumy, wrazenia

a. 

Predyktory: (Stała), dumy, wrazenia, int

b. 

Zmienna zależna: depresja

c. 

Pierwszy model jest nieistotny 

statystycznie a zatem nie mamy efektów 

głównych wprowadzonych predyktorów. 

Dopiero drugi model jest istotny 

statystycznie a zatem mamy 

prawdopodobnie do czynienia z istotną 

interakcją

background image

Wydruk 2 – współczynniki

Współczynniki

a

11,342

1,963

5,778

,000

,001

,155

,001

,004

,997

,450

,598

,123

,753

,456

11,137

1,059

10,511

,000

,014

,084

,015

,172

,864

,449

,323

,123

1,393

,172

3,119

,327

,840

9,543

,000

(Stała)
wrazenia
dumy
(Stała)
wrazenia
dumy
int

Model
1

2

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: depresja

a. 

W drugim modelu mamy istotny statystycznie 

współczynnik beta dla zmiennej oznaczającej 

składnik interakcyjny. Ten współczynnik nie jest 

interpretowalny. Najważniejsze, że jest istotna beta. 

Uznajemy, że mamy istotną interakcję. 

background image

Analiza zależności osobno w 

grupach płciowych

Współczynniki

a,b

20,317

1,904

10,673

,000

-,785

,151

-,775

-5,200

,000

(Stała)
wrazenia

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: depresja

a. 

Wybrano tylko te obserwacje, dla których płec =  kobieta

b. 

Współczynniki

a,b

1,956

,894

2,188

,042

,814

,070

,939

11,551

,000

(Stała)
wrazenia

Model
1

B

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

ne

t

Istotność

Zmienna zależna: depresja

a. 

Wybrano tylko te obserwacje, dla których płec =  mężczyzna

b. 

background image

Wykres rozrzutu

background image

Alternatywnie

• Mona też wykonać podział po 

medianie dla zmiennej ilościowej i 
wykonać następnie dwuczynnikową 
analizę wariancji w schemacie 
międzygrupowym a potem analizę 
efektów prostych. Wyniki wyjdą 
identyczne. 

background image

Założenia – analiza reszt

• Główne założenia analizy regresji 

dotyczą reszt i dlatego jest to 
najważniejsza analiza eksploracyjna 
robiona w trakcie tej analizy

• Reszty surowe
• Reszty standaryzowane
• Odległości Cooka
• Statystyka Durbina - Watsona

background image

Założenia

• Reszty mają rozkład normalny
• To założenie jest ważne nie dla metody najmniejszych 

kwadratów ale dla szacowania parametrów. Jeśli 

założenie to jest złamane to błędnie mogą zostać 

oszacowane parametry regresji. Aby zrobić analizę 

reszt musimy wybrać w oknie dialogowym analizy 

regresji reszty niestandaryzowane

background image

Reszty niestandaryzowane

• Jeśli wybierzemy reszty niestandaryzowane to 

reszty te zostaną zapisane w pliku z danymi jako 
dodatkowa zmienna. Aby sprawdzi normalność 
tej zmiennej można narysować wykres KK albo 
PP, jak również użyć testu Shapiro-Wilka

background image

Wykres KK i test Shapiro-Wilka

• Rozkłady 

reszt 
odbiegają 
od 
normalnośc
i

Testy normalności rozkładu

,117

69

,020

,956

69

,016

Unstandardized Residual

Statystyka

df

Istotność Statystyka

df

Istotność

Kołmogorow-Smirnow

a

Shapiro-Wilk

Z poprawką istotności Lillieforsa

a. 

background image

Założenie o braku korelacji 

reszt

O korelacji reszt mówi nam test 

Durbina –Watsona. Test ten zakłada, 

że reszty nie są skorelowane. 

Aby poprawnie stosować ten test 

muszą być spełnione następujące 

warunki:

• Analizowany model musi mieć wyraz 

wolny

• Składniki reszt muszą mieć rozkład 

normalny

• Liczba obserwacji jest większa niż 15

background image

Test Durbina -Watsona

• Statystyka d=<0,4>

• Gdy wartość bliska 2 

to reszty są niezależne

http://www.ekonometri

a.4me.pl/durbina.htm

 (k to liczba 

predyktorów, n to 

liczba badanych)

Model - Podsumowanie

b

,881

a

,776

,769

8,87795

1,292

Model
1

R

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Statystyka

Durbina-

Watsona

Predyktory: (Stała), wiek, plec

a. 

Zmienna zależna: cisnienie

b. 

background image

Obserwacje nietypowe

Przypadki nietypowe pojawiają się z dwóch powodów:
• Braki w modelu (nieuwzględnianie ważnej zmiennej 

niezależnej w modelu) lub zła postać algebraiczna 

modelu (model nieliniowy)

• Błąd pomiaru (zanieczyszczenie warunków przez 

zmienne zakłócające)

Cele usuwania przypadków odstających:
• Określenie wad modelu (jego ograniczeń)
• Zachowanie spójności modelu przed 

oddziaływaniem punktów nie należących do tego 

modelu

background image

Analiza zakresów zmiennych

• Wiele przypadków odstających powstaje 

w wyniku błędnego wprowadzenia 
zmiennych. Nawet jeśli zbieramy dane 
w sposób elektroniczny nie sposób 
wykluczyć pomyłki systemu, czy 
zakłóceń jego funkcjonowania, które 
mogą powodować pojawianie się 
wartości zmiennych wykraczających 
poza możliwy zakres skali.

background image

Statystyki reszt – wyszukiwanie 

przypadków odstających

• Standaryzowane reszty
• Odległości Cooka (różnica między beta dla modelu 

z wyłączonym przypadkiem oraz włączonym 

przypadkiem – miara wpływu danego przypadku na 

równanie regresji. Wszystkie odległości powinny 

być podobne. Ta, która odstaje od reszty znacząco 

zmienia współczynniki regresji. Znacząco to znaczy 

jest większa od 1.

• Wartości wpływu – określają w jakim stopniu dana 

wartość modyfikuje wzór linii regresji

• Wartości wpływu większe od wartości 2(k+1)/N, 

gdzie k to liczba predyktorów powinny być 

dokładniej sprawdzane

background image

Wybór statystyk odległości

background image

Nietypowość 

• Przykład lęk.sav
• Zrób eksplorację obu zmiennych. 

Sprawdź na wykresie skrzynkowym, 
czy nie ma przypadków odstających

• Przeprowadź analizę regresji. Narysuj 

wykres rozrzutu, dopasuj linię i 
przedział ufności

background image

Nietypowość a wpływowość

• To co nietypowe dla poszczególnych 

zmiennych nie musi być nietypowe dla 
linii regresji. 

• Niekiedy przypadki odstające w obrębie 

zmiennej nie są wpływowe dla linii 
regresji

• Lepiej wpływowość obserwacji określać 

za pomocą statystyki siły wpływu niż 
posługując się wykresem skrzynkowym. 


Document Outline