Regresja z predyktorami
dychotomicznymi

Zmienne jakościowe w regresji

•

Sprawdzamy, czy ciśnienie skurczowe
krwi zależy od wieku i płci pacjentów

•

Płeć (0-mężczyzna, 1 – kobieta)

•

Wiek zmienna ilościowa

Wyniki analizy wariancji –
dopasowanie modelu

•

Analiza wariancji okazała się istotna

statystyczne F(2, 66)=114,25; p<0,001

•

Oznacza to, że model regresji jest dobrze

dopasowany do danych

Analiza wariancji

18009,779

2 9004,890

114,249

,000

5201,989

78,818

23211,768

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

Średni

kwadrat

Istotność

Predyktory: (Stała), wiek, plec

Zmienna zależna: cisnienie

Współczynniki

•

Oba predyktory okazały się istotne statystyczne a więc

wpływają na wartości zmiennej zależnej.

•

Silniejszym predyktorem zmiennej zależnej jest wiek.

Zależność ta jest dodatnia i bardzo silna

•

Zależność między płcią a ciśnieniem jest ujemna. Aby

zinterpretować tę wartość beta trzeba pamiętać jak

była kodowana zmienne niezależna. 0 to mężczyźni 1

to kobiety a więc im wyższe wartości tym bardziej

osoba badana jest kobietą. A zatem im bardziej jest

kobietą tym ma niższe wartości ciśnienia.

Współczynniki

110,287

3,638

30,313

,000

-13,513

2,169

-,364

-6,229

,000

,956

,072

,780

13,366

,000

(Stała)
plec
wiek

Model
1

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

Istotność

Zmienna zależna: cisnienie

Współczynniki

•

Model można opisać za pomocą następującego równania:

•

Ciśnienie=110,29 + 0,96*wiek-13,51* płeć

•

Zwiększenie wieku o rok pociąga za sobą niewielki

wzrost ciśnienia o 0,956 jednostki

•

W modelu dla mężczyzn otrzymujemy równanie

Ciśnienie=110,29 + 0,96*wiek

•

Dla kobiet otrzymujemy równanie Ciśnienie=110,29 +

0,96*wiek – 13,51 = 0,96*wiek +96,77

Współczynniki

110,287

3,638

30,313

,000

-13,513

2,169

-,364

-6,229

,000

,956

,072

,780

13,366

,000

(Stała)
plec
wiek

Model
1

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

Istotność

Zmienna zależna: cisnienie

Procent wyjaśnionej wariancji

•

Za pomocą modelu udaje się wyjaśnić
77% wariancji zmiennej zależnej

Model - Podsumowanie

,881

,776

,769

8,87795

Model
1

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Predyktory: (Stała), wiek, plec

Linie regresji

Analiza regresji – zmienne
jakościowe

•

Rozważmy następujący przykład

•

Badanie wykonywane było w tzw
paradygmacie testu Stroopa ( liczy się tu
czas odczytywanie nazw np kolorów
napisanych różnymi kolorami np:

czerwony

)

•

Model 1: Jaką część czasów reakcji w teście
Stroopa możemy przewidzieć na podstawie
znajomość nastroju przed badaniem
(NASTRÓJ) i umiejętności komputerowych
(COMP) badanych?

Model 1: Czy

możemy

przewidywać czas

reakcji na podstawie

znajomości nastroju i

umiejętności

komputerowych?

Analiza wariancji

2551338,9

1275669

599,002

,000

632508,286

297

2129,658

3183847,2

299

Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

Średni

kwadrat

Istotność

Predyktory: (Stała), umiejętności komputerowe, nastrój przed badaniem

Zmienna zależna: czas reakcji - milisekundy

Anova jest istotna –

możemy założyć, że

model jest liniowo

powiązany ze zmienną

zależną, oraz, że

kontroluje on więcej

zmienności czasów reakcji

niż czynniki które nie

kontrolujemy (błąd).

Model - Podsumowanie

,895

,801

,800

46,14821

Model
1

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Predyktory: (Stała), umiejętności komputerowe, nastrój
przed badaniem

Zmienna zależna: czas reakcji - milisekundy

= 0,800

Na podstawie Modelu 1

możemy przewidzieć aż do

80% zmienności czasów

reakcji, na podstawie

znajomości nastroju i

poziomu umiejętności

komputerowych.

Czas reakcji (rt) = 42,6*nastrój + 65,8*umiejętności + 9621,8;

Umiejętności komputerowe są lepszym predyktorem (β=0,66) niż nastrój

(β=0,44). Obydwa predyktory są istotne

Czysta korelacja (cząstkowa) umiejętności komputerowych i czasów

reakcji r

cząstkowa

=0,81;nastroju i czasów reakcji r

cząstkowa

=0,68. Obydwa

predyktory są ze sobą powiązane oraz są powiązane ze zmienną zależną.

Współczynniki

9621,864

11,631

827,228

,000

42,605

2,628

,438

16,212

,000

,632

,685

,419

65,814

2,686

,663

24,500

,000

,791

,818

,634

(Stała)
nastrój przed badaniem
umiejętności

komputerowe

Model
1

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

Istotność

Rzędu

zerowego

Cząstkowa

Semicząs

tkowa

Korelacje

Zmienna zależna: czas reakcji - milisekundy

Analiza regresji ze zmienną
jakościową

•

W naszym badaniu kontrolowaliśmy też to
przy pomocy której ręki reagowała osoba
badana

Jak widać zmienna RĘKA jest zmienną

nominalną (o pięciu kategoriach) – nie
możemy jej użyć w analizie regresji w tej
postaci

Rekodowanie zmiennej jakościowej na
dychotomiczne

•

Możemy przekodować RĘKĘ na zmienne
instrumentalne

•

Przypuśćmy, że jesteśmy tylko zainteresowani
kontrolą takich przypadków, kiedy badani
reagowali tylko przy użyciu prawej lub lewej
ręki

Zmienne instrumentalne

•

Aby wykorzystać te informacje musimy
stworzyć dwie zmienne instrumentalne:
LEWA – osoba odpowiadała tylko przy użyciu
lewej ręki (i w żaden inny sposób); PRAWA –
osoba odpowiadała przy użyciu prawej ręki (i
w żaden inny sposób)

Zmienna „lewa”

• A więc, w nowej zmiennej LEWA, 1 otrzymają

te osoby, które odpowiadały tylko przy użyciu

lewej ręki (1 na zmiennej RĘKA), a 0

otrzymają te osoby, które odpowiadały w inny

sposób (2 – 5 na zmiennej RĘKA)

Zmienna „prawa”

• A więc, w nowej zmiennej PRAWA, 1 otrzymają

te osoby, które odpowiadały tylko przy użyciu

prawej ręki (5 na zmiennej RĘKA), a 0

otrzymają te osoby, które odpowiadały w inny

sposób (1 – 4 na zmiennej RĘKA)

Rekodowanie zmiennej RĘKA na zmienną
instrumentalną PRAWA

Przekształcenia > Rekoduj

> na inne zmienne

Przenieś RĘKA. Określ

nazwę nowej zmiennej >

PRAWA > wciśnij zamień

Wartości źródłowe i

wynikowe. Rekodowanie:

5 -> 1 (ludzie odpowiadali

tylko przy użyciu prawej

ręki);

Pozostałe wartości -> 0

Kolejność wprowadzania

zmiennych

•

Po przekodowaniu RĘKi na LEWA i PRAWA,
nowe zmienne możemy wykorzystać w
analizie regresji.

•

Wprowadzimy je jako drugi blok poprzedniej
analizy aby sprawdzić czy kontrolowanie
tego, której ręki używali badani do
reagowania zwiększa moc eksplanacyjną
poprzedniego modelu!

•

Model 2: Jaką część czasów reakcji w teście
Stroopa możemy przewidzieć na podstawie
znajomość nastroju przed badaniem
(NASTRÓJ), umiejętności komputerowych
(COMP) badanych oraz tego której ręki
używali do reagowania (LEWA i PRAWA)

Reresja hierarchiczna

Analiza > Regresja >

Liniowa

Nie usuwaj nastroju i

umiejętności

komputerowych z listy

zmiennych niezależnych.

Zamiast tego wciśnij

NASTĘPNY

Statystyki. Wybierz:

Zmiana R kwadrat >

Dalej > OK

Przenieś: LEWA I PRAWA

do drugiego bloku

predyktorów

Analiza wariancji

2551338,9

1275669

599,002

,000

632508,286

297

2129,658

3183847,2

299

2584514,0

646128,5

318,033

,000

599333,139

295

2031,638

3183847,2

299

Regresja
Reszta
Ogółem
Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

Średni

kwadrat

Istotność

Predyktory: (Stała), umiejętności komputerowe, nastrój przed badaniem

Predyktory: (Stała), umiejętności komputerowe, nastrój przed badaniem,
prawa, lewa

Zmienna zależna: czas reakcji - milisekundy

Model - Podsumowanie

,895

,801

,800

46,14821

,801

599,002

297

,000

,901

,812

,809

45,07369

,010

8,165

295

,000

Model
1
2

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Zmiana

R-kwadrat

Zmiana F

df1

df2

Istotność

zmiany F

Statystyki zmiany

Predyktory: (Stała), umiejętności komputerowe, nastrój przed badaniem

Predyktory: (Stała), umiejętności komputerowe, nastrój przed badaniem, prawa, lewa

Zmienna zależna: czas reakcji - milisekundy

Regresja hierarchiczna – czy dodawanie nowych zmiennych
zwiększa wyjaśniającą wartość poprzedniego modelu?

Tak! Nasz model (nr 2)

przewiduje istotnie więcej

wariancji czasów reakcji.

zmieniło się o ok 0,01

Teraz odczytujemy informacje

tylko dla modelu nr 2

(gdyby zmiana była

nieistotna to zostalibyśmy

przy modelu 1)

Anova dla modelu 2 jest

istotna!

F(4,295)=318; p<0,001;

=0,809

Współczynniki

9621,864

11,631

827,228

,000

42,605

2,628

,438

16,212

,000

,632

,685

,419

65,814

2,686

,663

24,500

,000

,791

,818

,634

9588,810

14,020

683,937

,000

43,609

2,593

,449

16,819

,000

,632

,700

,425

73,436

3,233

,739

22,716

,000

,791

,798

,574

26,072

7,687

,101

3,392

,001

-,357

,194

,086

-15,445

7,288

-,060

-2,119

,035

,345

-,122

-,054

(Stała)
nastrój przed badaniem
umiejętności
komputerowe
(Stała)
nastrój przed badaniem
umiejętności
komputerowe
lewa
prawa

Model
1

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

Istotność

Rzędu

zerowego

Cząstkowa

Semicząs

tkowa

Korelacje

Zmienna zależna: czas reakcji - milisekundy

Czas reakcji = 43,6*nastrój + 73,4*umiejętności + 26*lewa - 15,4*prawa

+ 9588,8;

Umiejętności komputerowe okazały się najlepszym predyktorem

(β=0,74), następnie: nastrój (β=0,45); lewa (β=0,1) i prawa (β=-0,06).

Wszystkie predyktory były istotne. Czas reakcji wzrastał wraz z

poziomem nastroju, umiejętności komputerowych i był dłuższy przy

reagowaniu lewą ręką. Jeśli osoba odpowiadała przy pomocy prawej ręki,

czas reakcji skracał się (beta ujemna).

Czyste korelacje (cząstkowe):

of umiejętności i czas r

cząstkowa

=0,79;

of nastrój i czas r

cząstkowa

=0,70;

of lewa i czas r

cząstkowa

=0,19;

of prawa i czas r

cząstkowa

-0,12;

Efekty interakcyjne w regresji -obliczenia

1. Dwie zmienne niezależne (wyjaśniające)
2. Jedna zmienna zależna

Kroki
1. Zmienne niezależne: standaryzujemy

zmienne ilościowe, zmienne jakościowe
rekodujemy na dwuwartościowe o
wartościach –1 i 1 (centracja zmiennych).

2. Tworzymy nową zmienną – składnik

interakcyjny, który jest iloczynem
przekształconych zmiennych niezależnych

3. Robimy analizę regresji, gdzie w pierwszym

kroku wprowadzamy zmiennej niezależne a
w drugim kroku składnik interakcyjny.

Analiza wydruku

•

Jeśli model ze składnikiem interakcyjnym

jest istotny statystycznie (istotna beta tego

składnika) to uznajemy, że mamy do

czynienia z efektem interakcyjnym i

przeprowadzamy analizę dodatkową

•

Robimy dwie regresje osobno dla dwóch

grup (jeśli jeden z predyktorów jest

jakościowy) lub redukujemy jeden z

predyktorów do zmiennej dychotomicznej i

robimy dwie regresje dla dwóch grup

osobno.

Efekty interakcyjne w regresji - przykład

Szukamy predyktorów depresji
Czy ilość wrażeń jakich dostarcza życie wiąże

się z poziomem depresji w dwóch grupach
płciowych

Szukamy efektu interakcyjnego tych dwóch

zmiennych: płeć i ilość wrażeń na zmienną
poziom depresji?

Rekodujemy zmienną płeć na
zmienną o wartościach -1 i 1

RECODE

płec

(0=-1) (1=1) INTO

dumy .

EXECUTE .

DESCRIPTIVES

VARIABLES=wrazenia

/SAVE

/STATISTICS=MEAN

STDDEV MIN MAX .

COMPUTE int = dumy *

Zwrazenia .

EXECUTE .

Rekodujemy

zmienną

jakościową

Standaryzujem

y zmienną

ilościową

Obliczamy

składnik

interakcyjny

Analiza hierarchiczna

W pierwszym kroku

wprowadzamy predyktory

– rodzaj efektów

głównych

W drugim kroku

wprowadzamy składnik

interakcyjny – rodzaj

efektu interakcyjnego

Wydruk 1

Zmienne wprowadzone/usunięte

dumy,
wrazenia

Wprowad
zanie

int

Wprowad
zanie

Model
1

Zmienne

wprowadzone

Zmienne

usunięte

Metoda

Wszystkie wyspecyfikowane zmienne
zostały wprowadzone.

Zmienna zależna: depresja

Analiza wariancji

8,100

4,050

,283

,755

529,000

14,297

537,100

387,232

129,077

31,006

,000

149,868

4,163

537,100

Regresja
Reszta
Ogółem
Regresja
Reszta
Ogółem

Model
1

Suma

kwadratów

Średni

kwadrat

Istotność

Predyktory: (Stała), dumy, wrazenia

Predyktory: (Stała), dumy, wrazenia, int

Zmienna zależna: depresja

Pierwszy model jest nieistotny

statystycznie a zatem nie mamy efektów

głównych wprowadzonych predyktorów.

Dopiero drugi model jest istotny

statystycznie a zatem mamy

prawdopodobnie do czynienia z istotną

interakcją

Wydruk 2 – współczynniki

Współczynniki

11,342

1,963

5,778

,000

,001

,155

,001

,004

,997

,450

,598

,123

,753

,456

11,137

1,059

10,511

,000

,014

,084

,015

,172

,864

,449

,323

,123

1,393

,172

3,119

,327

,840

9,543

,000

(Stała)
wrazenia
dumy
(Stała)
wrazenia
dumy
int

Model
1

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

Istotność

Zmienna zależna: depresja

W drugim modelu mamy istotny statystycznie

współczynnik beta dla zmiennej oznaczającej

składnik interakcyjny. Ten współczynnik nie jest

interpretowalny. Najważniejsze, że jest istotna beta.

Uznajemy, że mamy istotną interakcję

Analiza zależności osobno w grupach
płciowych

Współczynniki

a,b

20,317

1,904

10,673

,000

-,785

,151

-,775

-5,200

,000

(Stała)
wrazenia

Model
1

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

Istotność

Zmienna zależna: depresja

Wybrano tylko te obserwacje, dla których płec = kobieta

Współczynniki

a,b

1,956

,894

2,188

,042

,814

,070

,939

11,551

,000

(Stała)
wrazenia

Model
1

Błąd

standardowy

Współczynniki

niestandaryzowane

Beta

Współczynniki

standaryzowa

Istotność

Zmienna zależna: depresja

Wybrano tylko te obserwacje, dla których płec = mężczyzna

Wykres rozrzutu

Alternatywnie

•

Mona też wykonać podział po medianie
dla zmiennej ilościowej i wykonać
następnie dwuczynnikową analizę
wariancji w schemacie międzygrupowym
a potem analizę efektów prostych. Wyniki
wyjdą identyczne.

Założenia – analiza reszt

•

Główne założenia analizy regresji dotyczą
reszt i dlatego jest to najważniejsza
analiza eksploracyjna robiona w trakcie
tej analizy

•

Reszty surowe

•

Reszty standaryzowane

•

Odległości Cooka

•

Statystyka Durbina - Watsona

Założenia

•

Reszty mają rozkład normalny

•

To założenie jest ważne nie dla metody najmniejszych

kwadratów ale dla szacowania parametrów. Jeśli

założenie to jest złamane to błędnie mogą zostać

oszacowane parametry regresji. Aby zrobić analizę

reszt musimy wybrać w oknie dialogowym analizy

regresji reszty niestandaryzowane

Reszty niestandaryzowane

•

Jeśli wybierzemy reszty niestandaryzowane to
reszty te zostaną zapisane w pliku z danymi jako
dodatkowa zmienna. Aby sprawdzi normalność
tej zmiennej można narysować wykres KK albo
PP, jak również użyć testu Shapiro-Wilka

Wykres KK i test Shapiro-Wilka

•

Rozkłady
reszt
odbiegają od
normalności

Testy normalności rozkładu

,117

,020

,956

,016

Unstandardized Residual

Statystyka

Istotność Statystyka

Istotność

Kołmogorow-Smirnow

Shapiro-Wilk

Z poprawką istotności Lillieforsa

Założenie o braku korelacji
reszt

O korelacji reszt mówi nam test Durbina –

Watsona. Test ten zakłada, że reszty nie

są skorelowane.

Aby poprawnie stosować ten test muszą

być spełnione następujące warunki:

•

Analizowany model musi mieć wyraz

wolny

•

Składniki reszt muszą mieć rozkład

normalny

•

Liczba obserwacji jest większa niż 15

Test Durbina -Watsona

•

Statystyka d=<0,4>

•

Gdy wartość bliska 2

to reszty są

niezależne

•

http://www.ekonomet

ria.4me.pl/durbina.

htm

(k to liczba

predyktorów, n to

liczba badanych)

Model - Podsumowanie

,881

,776

,769

8,87795

1,292

Model
1

R-kwadrat

Skorygowane

R-kwadrat

Błąd

standardowy

oszacowania

Statystyka

Durbina-

Watsona

Predyktory: (Stała), wiek, plec

Zmienna zależna: cisnienie

Obserwacje nietypowe

Przypadki nietypowe pojawiają się z dwóch powodów:

•

Braki w modelu (nieuwzględnianie ważnej zmiennej

niezależnej w modelu) lub zła postać algebraiczna

modelu (model nieliniowy)

•

Błąd pomiaru (zanieczyszczenie warunków przez

zmienne zakłócające)

Cele usuwania przypadków odstających:

•

Określenie wad modelu (jego ograniczeń)

•

Zachowanie spójności modelu przed

oddziaływaniem punktów nie należących do tego

modelu

Analiza zakresów zmiennych

•

Wiele przypadków odstających powstaje w
wyniku błędnego wprowadzenia
zmiennych. Nawet jeśli zbieramy dane w
sposób elektroniczny nie sposób
wykluczyć pomyłki systemu, czy zakłóceń
jego funkcjonowania, które mogą
powodować pojawianie się wartości
zmiennych wykraczających poza możliwy
zakres skali.

Statystyki reszt – wyszukiwanie
przypadków odstających

•

Standaryzowane reszty

•

Odległości Cooka (różnica między beta dla modelu z

wyłączonym przypadkiem oraz włączonym

przypadkiem – miara wpływu danego przypadku na

równanie regresji. Wszystkie odległości powinny

być podobne. Ta, która odstaje od reszty znacząco

zmienia współczynniki regresji. Znacząco to znaczy

jest większa od 1.

•

Wartości wpływu – określają w jakim stopniu dana

wartość modyfikuje wzór linii regresji

•

Wartości wpływu większe od wartości 2(k+1)/N,

gdzie k to liczba predyktorów powinny być

dokładniej sprawdzane

Wybór statystyk odległości

Nietypowość

•

Przykład lęk.sav

•

Zrób eksplorację obu zmiennych. Sprawdź
na wykresie skrzynkowym, czy nie ma
przypadków odstających

•

Przeprowadź analizę regresji. Narysuj
wykres rozrzutu, dopasuj linię i przedział
ufności

Nietypowość a wpływowość

•

To co nietypowe dla poszczególnych
zmiennych nie musi być nietypowe dla
linii regresji.

•

Niekiedy przypadki odstające w obrębie
zmiennej nie są wpływowe dla linii
regresji

•

Lepiej wpływowość obserwacji określać za
pomocą statystyki siły wpływu niż
posługując się wykresem skrzynkowym.

Document Outline

Slide 1
Slide 2
Slide 3
Slide 4
Slide 5
Slide 6
Slide 7
Slide 8
Slide 9
Slide 10
Slide 11
Slide 12
Slide 13
Slide 14
Slide 15
Slide 16
Slide 17
Slide 18
Slide 19
Slide 20
Slide 21
Slide 22
Slide 23
Slide 24
Slide 25
Slide 26
Slide 27
Slide 28
Slide 29
Slide 30
Slide 31
Slide 32
Slide 33
Slide 34
Slide 35
Slide 36
Slide 37
Slide 38
Slide 39
Slide 40
Slide 41
Slide 42
Slide 43

Wyszukiwarka

Podobne podstrony:
Regresja z predyktorami dychotomicznymi (2) ppt
Analiza regresji ppt
Skorelowane predyktory ppt
Prosta analiza regresji i wprowadzenie do regresji wielokrotnej ppt
Analiza regresji wielokrotnej Różne metody ppt
Sld 16 Predykcja
03 Sejsmika04 plytkieid 4624 ppt
Choroby układu nerwowego ppt
10 Metody otrzymywania zwierzat transgenicznychid 10950 ppt
10 dźwigniaid 10541 ppt
03 Odświeżanie pamięci DRAMid 4244 ppt
Prelekcja2 ppt

więcej podobnych podstron

Regresja z predyktorami dychotomicznymi ppt

Document Outline