Konarski Regresja wielokrotna PBS UG pazdziernik 2004

background image









Regresja wielokrotna:

diagnostyka i selekcja modelu regresji

Multiple Regression:

Diagnostics and Selection of Regression Models



Roman Konarski

Uniwersytet Gdanski

&

Pracownia Badan Spolecznych








Wersja wstepna: Prosze nie cytowac bez wczesniejszego kontaktu z autorem















Lipiec 2004

background image

1

STRESZCZENIE

Diagnostyka zalozen modelu regresji jest istotnym elementem ostroznej analizy

statystycznej. Analiza regresji pozbawiona elementu weryfikacji oraz korekty zalozen

teoretycznych testowanego modelu regresji moze prowadzic do nietrafnych wniosków

badawczych. Szczególnie istotne dla testowanego modelu regresji sa problemy

wplywowych obserwacji, wspólliniowosci oraz obecnosc bledu pomiarowego w

zmiennych wyjasniajacych. W obecnym artykule podsumowuje najbardziej istotne

zalozenia modelu regresji, metody weryfikacji oraz korekty braku spelnienia tych

zalozen. W diagnostyce statystycznej szczególna role odgrywaja metody graficzne.

Uzytecznosc oraz interpretacja róznorodnych metod graficznych jest szczególnie

podkreslana w obecnej prezentacji zagadnien diagnostycznych. Prezentacja jest

przeprowadzona na przykladach konkretnych analiz statystycznyc h.

background image

2

WPROWADZENIE

Analiza regresji jest zapewne najszerzej stosowanym modelem statystycznym,

gdyz pozwala na szacowanie sily i formy zwiazku pomiedzy zmiennymi oraz na

predykcje jednej zmiennej bazujac na wiedzy o wartosciach skorelowanych z nia

innych zmiennych. Ponadto, model regresji stanowi podstawe ogólnego modelu

linowego (general linear model, GLM) (McCullagh, Nelder, 1989) oraz modelu

równan strukturalnych (structural equation model, SEM) (Bollen, 1989). Zrozumienie

zalozen i ograniczen regresji ma zastosowanie w praktyce stosowania tych,

pochodnych regresji, modeli statystycznych. Analiza zalozen modelu regresji jest

wazna, poniewaz trafnosc wyników analizy regresji jest zalezna od stopnia spelnienia

jej zalozen teoretycznych.

Obecne podsumowanie prezentuje narzedzia diagnostyczne pozwalajace na

weryfikacje i korekte zalozen analizy regresji. Prezentacje rozpoczne od

przedstawienia podstawowych konceptów i zalozen regresji. Nastepnie przejde do

takich zagadnien diagnostycznych jak problemy zaleznosci liniowej, wplywowych

obserwacji, heterogenicznosc wariancji, nieliniowosc, oraz konsekwencji bledu

pomiarowego. Kazdy problem diagnostyczny rozpatrze pod wzgledem detekcji,

konsekwencji, oraz akcji korekcyjnych danego problemu. Prezentacja jest

przeprowadzona na przykladach konkretnych analiz statystycznych.

PODSTAWOWE KONCEPTY I ZALOZENIA REGRESJI

MODEL REGRESJI

Model klasycznej regresji to równanie

0

1

1

2

2

i

i

i

p

ip

i

Y

X

X

X

β

β

β

β

ε

=

+

+

+ +

+

K

background image

3

dla obserwacji i = 1, 2, ..., n. W równaniu regresji Y

i

jest wartoscia zmiennej

wyjasnianej dla obserwacji i, X

ij

(j = 1, 2, ..., p) sa wartosciami p zmiennych

wyjasniajacych dla obserwacji i,

i

ε jest bledem losowym obserwacji i, a

0

β i

j

β sa

nieznanymi parametrami modelu. Jezeli mamy jedna (p = 1) zmienna wyjasniajaca

nasz model jest nazywany regresja prosta. Jezeli mamy wiecej niz jedna (p > 1)

zmienna wyjasniajaca nasz model jest nazywany regresja wielokrotna.

Kluczowym zalozeniem modelu regresji jest brak bledu pomiarowego w

zmiennych Y i X

j

. Pozostale zalozenia odnosza sie do rozkladu pozostalosci regresji

i

ε , które typowo zapisujemy jako

(

)

2

NID 0,

i

ε

σ

:

co oznacza, ze

i

ε maja rozklad normalny i niezalezny (normally and independently

distributed, NID) ze srednia wartoscia równa zero,

( )

0

i

E

ε

=

, oraz stala wariancje w

calym zakresie X

i

,

( )

2

2

i

σ ε

σ

=

. W empirycznych zastosowaniach modelu regresji

powyzsze zalozenia nigdy nie sa dokladnie spelnione. Dlatego musza one byc

zweryfikowane i konsekwencje braku spelnienia tych zalozen musza byc rozwazone.

METODA NAJMNIEJSZYCH KWADRATÓW

W analizie regresji parametry modelu

(

)

0

i

j

β β nie sa znane i musza byc

oszacowanie w próbie danych. W tym celu, kryterium sumy najmniejszych

kwadratów (ordinary least squares, OLS) jest stosowane do oszacowani najlepszego

liniowego zwiazku pomiedzy zmienna wyjasniana (Y) i zmiennymi wyjasniajacymi

X

j

. Model regresji szacowany w próbie danych jest typowo zapisany jako

0

1

1

2

2

i

i

i

p

ip

i

i

i

Y

b

b X

b X

b X

e

ˆ

Y

e

= +

+

+ +

+

= +

K

background image

4

gdzie Y

i

i X

ij

sa tymi samymi wartosciami co w modelu dla populacji. Wartosci

dopasowane

i

ˆ

Y

sa wartosciami przewidywanymi dla Y

i

, b

0

jest szacunkiem stalej

regresji

0

β , wspólczynniki regresji b

j

(b

1

, b

2

, ..., b

p

) sa szacunkami odpowiadajacych

im parametrów populacji

j

β (

1

2

,

,

,

p

β β

β

K

), a e

i

sa szacunkami pozostalosci regresji

i

ε . Metoda OLS pozwala na selekcje takich wartosci b

0

oraz b

j

, które minimalizuja

ogólny blad

i

i

i

ˆ

e

Y

Y

= −

w taki sposób, ze suma kwadratu pozostalosci, RSS

=

2

i

e

(residual sum of squares), jest najmniejsza z mozliwych. Poniewaz

2

σ jest

srednia wartoscia kwadratu pozostalosci

i

ε w populacji mozemy oczekiwac, ze

nieobciazonym estymatorem

2

σ jest sredni kwadrat pozostalosci (residual mean

square) MSE = RSS / (n - p - 1).

Jezeli zalozenia odnosnie rozkladu pozostalosci sa spelnione to metoda OLS

posiada wlasciwosci BLUE (best linear unbiased estimator). Estymator OLS jest

najlepszym (dajacym najmniejsze wariancje parametrów) linowym i nieobciazonym

estymatorem parametrów modelu regresji. Jezeli zalozenia modelu regresji nie sa

spelnione to metoda OLS nie posiada wlasciwosci BLUE. W konsekwencji,

szacowane parametry modelu moga byc obciazone, a ich wariancje nie sa najmniejsze

z mozliwych.

PODSTAWOWE KONCEPTY ANALIZY REGRESJI

W dalszej czesci prezentacji posluze sie nastepujacym przykladem

syntetycznym

1

. Poradnia psychologiczna pragnie okreslic efektywnosc nowego

programu terapii rodzinnej. W tym celu, losowo wyselekcjonowano 25 par pacjentów

z posród wszystkich par rozpoczynajacych terapie w ciagu ostatnich 10 miesiecy.

Zmienna wyjasniana w testowanym modelu regresji jest efektywnosc terapii (ET), to

background image

5

jest zmiana (przyrost) w deklarowanym zadowoleniu z pozycia malzenskiego

pomiedzy poziomem na rozpoczecie terapii i poziomem osiagnietym po okreslonym

okresie trwania terapii. Dlugosc terapii (DT), mierzona w tygodniach, jest

najwazniejsza zmienna wyjasniajaca. Poniewaz dlugosc pozycia malzenskiego

(DPM), mierzona w latach, i liczba dzieci (LD) moga miec wplyw na efektywnosc

terapii te zmienne sa równiez zawarte w testowanym modelu regresji. Dane dla 25 par

pacjentów sa przedstawione w Tabeli 1.

----- tutaj Tabela 1 -----

Wyniki analizy regresji, za pomoca pakietu statystycznego SAS (SAS

Institute, 1999a), sa nastepujace:

(

) (

)

(

)

(

)

26 65

0.61

2 01

4 25

8 75

0 26

3 30

8 20

ET

.

DT

.

DPM

.

LD

.

.

.

.

=

+

W powyzszym równaniu, wspólczynniki regresji

( )

j

b okreslaja zmiane w zmiennej

wyjasnianej

( )

Y

dla zmiany o 1 jednostke w danej zmiennej wyjasniajacej

( )

j

X

,

utrzymujac pozostale zmienne wyjasniajace

( )

k j

X

na stalych poziomach. Na

przyklad, kazdy dodatkowy tydzien terapii (DT) jest zwiazany z podwyzszeniem

zadowolenia z pozycia malzenskiego (ET) o 0.61 jednostek, utrzymujac dlugosc

pozycia malzenskiego (DPM) oraz liczbe dzieci (LD) na stalych poziomach.

Jedna z najwazniejszych miar efektywnosc zastosowanego modelu regresji

jest R

2

(R-kwadrat). R

2

jest frakcja zmiennosci w Y, która jest wyjasniana przez

zmiany w zmiennych X

j

. Gdy zmienne X

j

wyjasniaja cala zmiennosc w Y, R

2

jest +1.

Jezeli nie ma zwiazku pomiedzy Y i zmiennymi X

j

, R

2

jest zero. R

2

to takze kwadrat

korelacji miedzy wartosciami przewidywanymi ˆ

Y przez nasz model regresji oraz

background image

6

wartosciami zaobserwowanymi Y,

2

2

ˆ

YY

R

r

=

. W naszym przykladzie R

2

= 0.35 co

oznacza, ze DT, DPM i LD wspólnie wyjasniaja 35% zmiennosci w ET.

Bledy standardowe (coefficient standard errors) wspólczynników regresji

( )

j

s b sa miara zakresu prawdopodobnych wartosci szacowanych wspólczynników w

populacji. Na przyklad, mozemy stwierdzic z ufnoscia 95%, ze prawdziwa wartosc

danego wspólczynnika jest w granicach ±2.0 bledu standardowego od szacowanej

wartosci

2

. Bledy standardowe wspólczynników regresji dla naszego modelu sa podane

w nawiasach ponizej szacowanych wartosci. Na przyklad, blad standardowy

wspólczynnika regresji dla DT wynosi

( )

0 26

DT

s b

.

=

. W konsekwencji, mozemy

stwierdzic z ufnoscia 95%, ze prawdziwa wartosc tego wspólczynnika znajduje sie w

przedziale 0.61 ± 2(.26).

Statystyki testowe-t mierza statystyczna istotnosc zmiennych X

j

w predykcji

zmiennej Y. Jezeli dana zmienna X

j

nie jest istotna to jej wspólczynnik regresji

0

j

β

=

w badanej populacji. Wartosc statystyki testowej-t dla danego wspólczynnika to iloraz

szacunku tego wspólczynnika i jego bledu standardowego

( )

j

j

b s b . Wartosci

statystyki testowej-t, w przyblizeniu, wieksze niz |2| oznaczaja, ze dana zmi enna X

j

jest wazna ze statystycznego punktu widzenia

3

. W naszym przykladzie, wartosci

statystyk testowych-t dla DPM (t = -0.61) i LD (t = -0.52) sa blisko zera, i dlatego te

zmienne prawdopodobnie nie przewiduja poziomu ET. Natomiast DT wydaje sie byc

wazna gdyz wartosc jej statystyki testowej-t > 2 (t = 2.37). Innymi slowy,

zaobserwowana relacja (b

DT

= 0.61) pomiedzy efektywnoscia psychoterapii i

dlugoscia psychoterapii nie jest wynikiem czynników losowych. Natomiast

zaobserwowana relacja pomiedzy efektyw noscia terapii i dlugoscia pozycia

background image

7

malzenskiego (b

DPM

= -2.01) oraz liczba dzieci (b

LD

= -4.25) jest prawdopodobnie

wynikiem czynników losowych i nie wystepuje w badanej populacji.

TESTOWANIE ZALOZEN REGRESJI

Testowanie zalozen modelu regresji polega na eksploracji cech analizowanego

zbioru danych oraz testowanego modelu regresji. W diagnostyce statystycznej

szczególnie wazna role spelniaja metody graficzne (Cook i Weisberg, 1994). Grafika

statystyczna, w odróznieniu od formalnych testów statystycznych, pozwala na ocene

stopnia spelnienia róznorodnych zalozen testowanego modelu, ujawnia strukture

szczególnego problemu diagnostycznego, oraz sugeruje najbardziej optymalna akcje

korekcyjna. Czesto istnieje naturalna hierarchia w uzyciu narzedzi diagnostycznych.

Analize zalozen modelu regresji typowo zaczynamy od diagnozy i korekty

problemów wspólzaleznosci linowej oraz wplywowych obserwacji. Zalozenia

normalnosci oraz homogenicznosci rozkladu pozostalosci regresji rozwazamy jako

ostatnie zagadnienia odnoszace sie do analizowanego zbioru danych. Problemy

nieliniowosci oraz obecnosci bledu pomiarowego sa, w pewien sposób, oddzielne

gdyz w wiekszym stopniu dotycza przyjetej formy testowanego modelu regresji niz

charakterystyk analizowanego zbioru danych.

WSPÓLLINIOWOSC

Gdy zmienne wyjasniajace sa wysoko skorelowane wyniki analizy regresji

moga byc niestabilne. Szacowany efekt danej zmiennej X

j

moze zmienic wielkosc, a

nawet kierunek, zaleznie od pozostalych zmiennych wyjasniajacych zawartych w

testowanym modelu regresji. Warunek, w którym zaleznosc linowa pomiedzy

zmiennymi wyjasniajacymi zagraza trafnosci wyników analizy regresji jest nazywany

background image

8

wspólliniowoscia (collinearity) lub wielowspólliniowoscia (multicollinearity) aby

podkreslic, ze ten problem moze dotyczyc wiecej niz dwóch zmiennych

wyjasniajacych. Alternatywnie, problem zaleznosci linowej jest nazywany zlym

uwarunkowaniem (ill conditioning) aby podkreslic, ze ten problem dotyczy

szczególnej formy macierzy X (Belsley, Kuh i Welsch, 1980). W literaturze

stosowanej przyjely sie okreslenia wspólliniowosc oraz wielowspólliniowosc, które sa

stosowane zamiennie.

Symptomami wysokiej wspólliniowosci sa znacznie zanizone statystyki

testowe-t dla zmiennych wyjasniajacych, które logicznie powinny posiadac relacje ze

zmienna wyjasniana (lub dziwnie wysokie wartosci statystki-t), lub wspólczynniki

regresji posiadajace odwrotny kierunek wspólczynnika od spodziewanego (na

przyklad, w relacji inteligencji do wyników w szkole, jezeli wspólczynnik dla

inteligencji bylby negatywny). Innym typowym objawem wysokiej wspólliniowosci

jest sytuacja gdy testowany model regresji daje wysokie R

2

jednak zadna zmienna

wyjasniajaca nie jest statystycznie istotna.

Typowo efekt wspólliniowosci jest wyrazany poprzez wspólczynnik VIF

(variance inflation factor), który wskazuje o ile wariancje wspólczynników sa

zawyzone z powodu zaleznosci liniowych w testowanym modelu. VIF dla danej

zmiennej niezaleznej X

j

jest zdefiniowany jako

(

)

2

VIF

1 1

j

j

/

R

=

,

gdzie

2

j

R

jest wspólczynnikiem wielokrotnej determinacji dla regresji danej zmiennej

X

j

na pozostale zmienne wyjasniajace zawarte w modelu

4

(Belsley, Kuh i Welsch,

1980, s. 93). VIF

j

wskazuje o ile wariancja szacowanego wspólczynnika regresji

background image

9

( )

2

j

s

b jest podwyzszona z powodu wspólliniowosci danej zmiennej niezaleznej z

pozostalymi zmiennymi niezaleznymi.

Pakiety statystyczne (np. SAS, SPSS) typowo podaja wartosc VIF oraz inna

wielkosc nazywana TOL (tolerance). TOL jest zdefiniowany jako

1 VIF

. Fox (1991)

rekomenduje stosowanie

j

VIF gdyz wielkosc ta bezposrednio wyraza o ile przedzial

ufnosci dla danego wspólczynnika jest poszerzony, lub o ile wartosc statystyki

testowej-t jest obnizona z powodu zaleznosci linowej. Chociaz nie ma uniwersalnie

przyjetej krytycznej wartosci dla VIF, wartosci VIF

j

= 4 moga byc uwazane za

wskazujace na obecnosc problemu wspólliniowosci gdyz oznaczaja, ze dany przedzial

ufnosci jest przynajmniej dwa razy szerszy (a dana statystyka testowa-t jest co

najmniej o polowe mniejsza) z powodu zaleznosci linowych.

Problem zaleznosci linowej moze byc takze wykryty poprzez wizualne

przeegzaminowanie macierzy korelacji zmiennych wyjasniajacymi. Wysoki

wspólczynnik korelacji,

j

k

j

X X

r

, pomiedzy zmienna X

j

i jakakolwiek inna zmienna

k

j

X

jest warunkiem wystarczajacym, chociaz nie koniecznym, do wystapienia

wysokiego

5

VIF

j

. Na przyklad, wspólczynnik korelacji

87

j

k

j

X X

r

.

=

wyniknie w

j

VIF

4.1

(

j

VIF

2 0

.

).

Nie ma prostego sposobu na korekte zaleznosci linowej. Gdy wystapi problem

silnej wspólliniowosci pomiedzy

1

X

i

2

X

dane niosa malo informacji o

oddzialywaniu zmiennej

1

X

na Y kontrolujac statystycznie (utrzymujac na stalym

poziomie)

2

X

. To samo mozemy powiedziec o efekcie

2

X

na Y. Tak jest poniewaz

1

X

i

2

X

dziela wiekszosc swoich wariancji i pozostaje mala proporcja wariancji w

jednej zmiennej gdy ta druga jest utrzymywana na stalym poziomie. Poniewaz

1

β

jest

background image

10

efektem czesciowym zmiennej

1

X

kontrolujac

2

X

oszacowanie tego parametru nie

jest precyzyjne, gdyz opiera sie na relatywnie malej proporcji informacji zawartej w

X

1

.

Strategie korekty problemu wysokiej wspólliniowosci odnosza sie do trzech

elementów zastosowania analizy regresji: danych, testowanego modelu, oraz metody

estymacji (Fox, 1991). Najbardziej pozadana metoda korekty problemu wysokiej

wspólliniowosci jest poprawa uwarunkowania danych poprzez rozszerzenie

istniejacego zbioru obserwacji o nowe, w taki sposób, aby zminimalizowac istniejace

zaleznosci liniowe pomiedzy zmiennymi wyjasniajacymi. Ta metoda, chociaz

najbardziej pozadana ze statystycznego i teoretycznego punktu widzenia, ma

ograniczone zastosowanie praktyczne z powodu kosztów i czasu realizacji planów

badawczych. Ponadto, dodatkowe obserwacje nie gwarantuja poprawy

uwarunkowania zaleznosci pomiedzy zmiennymi wyjasniajacymi, szczególnie jezeli

manipulacja eksperymentalna tych zmiennych nie jest mozliwa. Z tych powodów

strategia wprowadzenie dodatkowych danych prawdopodobnie nie jest metoda o

znaczeniu praktycznym (Belsley i in., 1980; Fox, 1991).

Chociaz wysoka wspólliniowosc to przede wszystkim problemem danych,

jedna z najbardziej skutecznych strategii korekcyjnych tego problemu jest

przeformulowanie testowanego modelu regresji. Przeksztalcenie modelu moze

nastapic w dwojaki sposób. Pierwszy sposób to wyrazenie zmiennych wyjasniajacych

bedacych w zaleznosci linowej jako kompozyt tych zmiennych. Na przyklad, jezeli w

testowanym modelu mamy wzrost i wage jako zmienne wyjasniajace, które sa zwykle

wysoko skorelowane, mozemy zastapic te zmienne nowa zmienna wyrazajaca

stosunek wzrostu do wagi. Jezeli liczba zmiennych wyjasniajacych w testowanym

modelu jest duza to mozemy posluzyc sie analiza glównych skladowych w celu

background image

11

redukcji tych zmiennych do jednej lub kilku relatywnie niezaleznych kompozytów.

Jezeli tak otrzymane kompozyty oryginalnych zmiennych wyjasniajacych poddaja sie

interpretacji to moga byc one uzyte jako zmienne wyjasniajace w analizie regresji.

Kilka wariantów tego podejscia jest znanych w literaturze pod nazwami „principal

component regression” oraz „latent root regression” (Wetherill, Duncombe, Kenward,

Köllerström, Paul i Vowden, 1986).

Drugi sposób przeformulowania testowanego modelu regresji to redukcja

oryginalnego zbioru zmiennych wyjasniajacych do mniejszego i mniej skorelowanego

podzbioru tych zmiennych. Jest to zdecydowanie najczesciej stosowana metoda

rozwiazywania problemy wysokiej wspólliniowosci. Musze jednak podkreslic, ze

redukcja zmiennych wyjasniajacych wiaze sie ze zreformulowaniem a priori

postawionej hipotezy o zwiazku pomiedzy zmienna zalezna i zmiennymi

niezaleznymi. Idealnie, taka selekcja zmiennych wyjasniajacych powinna byc

dokonana w swietle teorii badanego procesu psychologicznego, a nie poprzez jedna z

dostepnych metod automatycznej selekcji modelu regresji. Automatyczne metody

selekcji modelu to selekcja postepujaca (forward selection), eliminacja wsteczna

(backward elimination), oraz metoda krokowa (stepwise). W selekcji postepujacej

zaczynamy od jednej zmiennej wyjasniajacej i dodajemy zmienne do modelu, które

na danym etapie selekcji maksymalizuja R

2

. Proces selekcji zatrzymuje sie gdy

poprawa w R

2

nie osiaga ustalonego minimum. Eliminacja wsteczna jest podobna z

tym, ze proces selekcji rozpoczyna sie od pelnego modelu, zawierajacego wszystkie

zmienne wyjasniajace, i dana zmienna jest eliminowana z modelu jezeli jej brak nie

prowadzi do ustalonego spadku w R

2

. Metoda postepujaca i wsteczna charakteryzuja

sie tym, ze dana zmienna wyjasniajaca nie moze znalezc sie w modelu wiecej niz raz.

background image

12

Metoda krokowa jest kombinacja metody postepujacej i wstecznej. W metodzie

krokowej dana zmienna wyjasniajaca moze opuscic lub wejsc do modelu wiele razy.

Metody automatycznej selekcji modelu sa uniwersalnie krytykowane (np.

Draper i Smith, 1981; Weisberg, 1985; Wetherill i in., 1986) poniewaz ostateczny

podzbiór zmiennych wyjasniajacych jest zalezny od zastosowanej metody selekcji, i

zwykle nie jest optymalny ani z teoretyczne go ani ze statystycznego punktu widzenia.

To jest, metody automatycznej selekcji, z definicji, nie biora pod uwage czynników

teoretycznych, ani nie musza dac maksymalnego R

2

dla wynikajacego podzbioru

zmiennych wyjasniajacych o danej wielkosci. Ponadto, me tody automatycznej

selekcji w znaczny sposób przeceniaja istotnosc otrzymanych wyników poniewaz

testowany model jest dostosowywany do losowych charakterystyk analizowanego

zbioru danych (Weisberg, 1985). W konsekwencji, metody automatycznej selekcji

modelu powinny byc stosowane z rozwaga oraz w swietle ograniczen tych technik.

Ostatnia strategia korekty wysokiej wspólliniowosci to zastosowanie

estymatora nie spelniajacego warunków BLUE. Taki estymator daje obciazone

szacunki parametrów modelu regresji, ale z relatywnie zredukowanymi bledami

standardowymi w porównaniu z metoda OLS (Hoerl i Kennard, 1970a, 1970b;

Marquardt i Snee, 1975). Najszerzej stosowanym obciazonym estymatorem jest

regresja krawedziowa (ridge regression). Regresja krawedziowa jest modyfikacja

metody najmniejszych kwadratów, w której mala wartosc stala c = 0, nazywana

obciazajaca konstanta, jest dodana do wariancji zmiennych wyjasniajacych.

Gdy c = 0 estymator krawedziowy jest estymatorem OLS. Obciazenie szacowanych

wspólczynników regresji wzrasta wraz z c, a wariancja parametrów maleje. Zawsze

istnieje jakas wartosc c, dla której estymator krawedziowy daje mniejsze bledy

standardowe niz estymator OLS. Jednak, trudnosc w zastosowaniu regresji

background image

13

krawedziowej polega na tym, ze optymalna wartosc dla c nie jest znana i jest inna dla

kazdej aplikacji modelu regresji (Neter, Kutner, Nachtsheim i Wasserman, 1996).

Regresja krawedziowa jest mozliwa w wiekszosci popularnych pakietów

statystycznych (np. SAS i SPSS). Draper i Smith (1981), Weisberg (1985) oraz Fox

(1991) sugeruja szczególna rozwaga w stosowaniu tej metody estymacji. Weisberg

(1985) podkresla, ze w sytuacji problemu wspólliniowosci regresja krawedziowa

moze dac nam relatywnie duza redukcje bledów standardowych, jednak wartosc tej

redukcji nie jest jasna. Jezeli szacowane

j

β nie sa blisko zera to korzysci

wyplywajace z zastosowania metody krawedziowej sa nieznaczne. Jezeli szacowane

j

β sa blisko zera to metoda OLS daje nam malo precyzyjne (posiadajace duze bledy

standardowe), ale nieobciazone (prawidlowe) szacunki parametrów. Z drugiej strony,

metoda krawedziowa daje nam bardziej precyzyjne, ale obciazone szacunki

parametrów modelu.

Powracajac do naszego przykladu, w szacowanym modelu regresji ET na DT,

DPM i LD, jedynie wspólczynnik regresji dla DT jest statystycznie istotny, t(21) =

2.37, p < .001, podczas gdy wspólczynniki dla DPM, t(21) = -0.61, p > .5, oraz LD,

t(21) = -0.52, p > .5, nie osiagnely statystycznej istotnosci. Zauwazmy jednak, ze

zmienne DPM i LD posiadaja relatywnie wysokie wskazniki zaleznosci liniowej,

DPM

VIF

2 5

.

=

i

LD

VIF

2 5

.

=

, spowodowanej wysoka korelacja (r = .91) pomiedzy

tymi zmiennymi.

Wysoka korelacja pomiedzy DPM i LD jest zrozumiala gdyz badane pary

malzenskie sa we wczesnych latach (1.5 do 11 lat) malzenstwa, które sa typowym

okresem powiekszania rodziny. Dlatego najprostsza metoda obnizenia tej korelacji

bylo by przebadanie dodatkowych par w pózniejszych latach pozycia malzenskiego.

Poniewaz rozszerzenie zakresu zaobserwowanych wartosci zmiennej DPM nie jest

background image

14

mozliwe, problem wysokiej wspólliniowosci pomiedzy DPM i LD musi byc

rozwiazany poprzez wyeliminowanie jednej z tych dwóch zmiennych wyjasniajacych.

Idealnie taka decyzja powinna byc podyktowana czynnikami teoretycznymi. W

naszym wypadku, pozostawimy w modelu zmienna DPM. Szacunki parametrów

regresji dla tak zredukowanego modelu sa pokazane ponizej:

(

) (

)

(

)

27 00

0.59

3 57

8 58

0 25

1 34

RZ

.

DT

.

DPM

.

.

.

=

+

Eliminacja zmiennej LD skutecznie rozwiazala problemu wspólliniowosci (VIF

DPM

=

1.02), i spowodowala tylko nieznaczna degradacje efektywnosci (R

2

= 0.34)

zredukowanego modelu regresji. Ponadto, zauwazmy, ze zmienna DPM jest

statystycznie istotna (t = -2.67, p < .05) w zredukowanym modelu, podczas gdy byla

ona nieistotna w pelnym modelu regresji.

NIETYPOWE I WPLYWOWE OBSERWACJE

W analizie regresji nietypowe obserwacje (outliers) posiadaja nietypowe

wartosci zmiennej Y dla ich wartosci zmiennych X

j

, i w konsekwencji, posiadaja duze

wartosci pozostalosci e. Nietypowe obserwacje to takze obserwacje z relatywnie

niskimi pozostalosciami regresji, lecz z nietypowymi wartosciami jednej lub wiecej

zmiennych wyjasniajacych. Nietypowe obserwacje sa problematyczne dla metody

najmniejszych kwadratów poniewaz moga w znaczny sposób wplywac na wyniki

(szacunki parametrów) analizy regresji. Takie nietypowe obserwacje nazywamy

wplywowymi.

W regresji prostej, obserwacja posiadajaca nietypowa wartosc Y

i

dla danej

wartosci X

i

posiada wysoka odmiennosc (discrepancy). Natomiast obserwacja

posiadajaca typowa wartosc Y

i

(male e

i

) i nietypowa wartosc X

i

posiada wysoka

dzwignie (leverage). Czesto odmienne obserwacje maja duze wartosci pozostalosci

background image

15

regresji e, ale nie zawsze. Obserwacja posiadajaca wysoka dzwigne moze miec mala

wartosc e

i

, poniewaz przyciaga line (plaszczyzne w regresji wielokrotnej) regresji

i

ˆ

Y

blisko Y

i

. W konsekwencji, wplyw danej obserwacji na wspólczynniki regresji jest

wyrazany jako funkcja odmiennosci i dzwigni tej obserwacji (Fox, 1991):

Wplyw Obserwacji = Dzwignia

×

Odmiennosc.

Diagnostyka wplywu obserwacji na wyniki analizy regresji sprowadza sie do analizy

odmiennosci i dzwigni tych obserwacji, lub bezposredniej oceny wplywu obserwacji

na wspólczynniki testowanego modelu regresji.

Najczesciej stosowana miara dzwigni danej obserwacji i jest tak zwana

wartosc h

i

(hat-value) tej obserwacji. W regresji prostej, wartosc h mierzy dystans

danej obserwacji od sredniej wartosci zmiennej X:

(

)

(

)

2

2

1

i

i

i

X

X

h

n

X

X

= +

.

W regresji wielokrotnej, h

i

mierzy dystans od punktu srednich (centroid) wszystkich

zmiennych wyjasniajacych biorac pod uwage strukture korelacyjna tych zmiennych.

Wartosci h

i

mieszcza sie w przedziale 1

1

i

n

h

≤ ≤

, a ich suma jest równa liczbie

zmiennych wyjasniajacych,

i

h

p

=

. Niektóre systemy statystyczne (np. SPSS)

podaja odleglosc Mahalanobisa (Mahalanobis distance), m

i

, jako alternatywna miare

dzwigni obserwacji i. Odleglosc Mahalanobisa jest otrzymana poprzez opuszc zenie

elementu 1/n i pomnozenie pozostalosci przez (n – 1) w równaniu dla h

i

:

(

)

1

1

i

i

m

h

n

n

=

.

Belsley i in. (1980) deklaruja obserwacje jako punkty wysokiej dzwigni (high-

leverage points), których wartosci h

i

przekraczaja dwie srednie wartosc, to jest

2

i

h

p n

>

. Gdy zmienne wyjasniajace posiadaja rozklad wielozmiennowy normalny

background image

16

(multivariate normal), ta wartosc krytyczna dla h

i

pozwala na zidentyfikowanie 5%

najbardziej ekstremalnych obserwacji.

Miara odmiennosci obserwacji i w modelu regresji jest t-standaryzowana

pozostalosc regresji (studentized residual) (Belsley i in., 1980)

( )

1

i

i

i

i

e

t

MSE

h

=

,

gdzie e

i

i h

i

sa wartosciami z modelu regresji szacowanego dla wszystkich n

obserwacji. Natomiast blad standardowy regresji

( )

i

MSE

jest otrzymany poprzez

dopasowanie modelu regresji do (n - 1) obserwacji eliminujac obserwacje i. Tak

wystandaryzowane pozostalosci regresji maja rozklad t(n - p – 2), i okolo 5%

obserwacji bedzie sie znajdowalo poza zakresem

2

i

t

. W konsekwencji, Fox

(1991) sugeruje traktowanie wartosci t

i

przekraczajace ± 2 jako wskazujace na

obserwacje zaslugujace na nasza uwage. W literaturze statystycznej, t-

standaryzowane pozostalosci regresji sa takze nazywane „deletion residuals”

(Atkinson, 1985), oraz „externally Studentized residuals” (Cook i Weisberg, 1982).

Najbardziej bezposrednia miara wplywu obserwacji i na szacunki

wspólczynników regresji b

j

jest otrzymana z testowania danego modelu regresji

dwukrotnie. Raz w pelnym komplecie n obserwacji oraz powtórnie w n – 1

obserwacjach, gdy obserwacja i jest wyeliminowana ze zbioru danych. Belsley i in.

(1980) definiuja taka róznice dla danego wspólczynnika regresji j jako

( )

DFBETA

ij

j

j

i

b

b

= −

, dla kazdego i = 1, . . ., n,

gdzie b

j(-i)

jest szacunkiem parametru

j

β gdy obserwacja i jest wyeliminowana ze

zbioru danych. Aby ulatwic interpretacje, Belsley i in. (1980) takze proponuja

wystandaryzowana wersje jako

background image

17

( )

DFBETA

DFBETAS

ij

ij

j

-i

MSE

b

=

.

Walor wyrazania wplywu danej obserwacji w jednostkach bledu standardowego

regresji pozwala na okreslenie (w przyblizeniu) statystycznej istotnosci tego wplywu.

W konsekwencji Fox (1991) sugeruje stosowanie wartosci |DFBETAS

ij

| > 2 jako

wskazujace na istotny wplyw danej obserwacji w malych i sredniej wielkosci próbach

badawczych. Dla duzych prób, Belsley i in. (1980) proponuja stosowanie wartosci

krytycznej skorygowanej o wielkosc próby jako

ij

DFBETAS

2

n

>

.

Poniewaz dla danej obserwacji i mamy p + 1 wplywów (p wspólczynników

plus stala regresji) tej obserwacji na szacunki parametrów modelu potrzebujemy

metody na okreslenie ogólnego wplywu danej obserwacji na szacowany model

regresji. Dwie najczesciej stosowane miary ogólnego wplywu obserwacji na

szacowany model regresji to „odleglosc Cooka” (Cook’s distance) oraz DFFIT. Obie

miary wyrazaja wplyw obserwacji jako iloczyn dzwigni i odmiennosci tej obserwacji.

Cook (1977) zaproponowal miare odleglosci D obserwacji i jako

(

) (

)

2

2

1

1

i

i

i

i

e

h

D

MSE p

h

=

×

+

,

gdzie pierwszy element jest miara odmiennosci a drugi jest miara dzwigni danej

obserwacji. Belsley i in. (1980) zaproponowali konceptualnie identyczny indeks

ogólnego wplywu danej obserwacji jako

DFFIT

1

i

i

i

i

h

e

h

=

,

oraz jego wersje wystandaryzowana jako

DFFITS

1

i

i

i

i

h

t

h

=

.

background image

18

Fox (1991) zauwaza, ze z wyjatkiem pewnych rzadkich konfiguracji danych

(

)

2

DFFITS

1

i

i

D

p

+

. Dla DFFITS, Chatterjee i Hadi (1988), Belsley i in. (1980)

oraz Fox (1991) rekomenduja stosowanie wartosci krytycznej skorygowanej o

wielkosc próby jako

(

) (

)

DFFITS

2

1

1

i

p

n

p

>

+

− −

, oraz odpowiedniej wartosci

krytycznej dla odleglosci Cooka jako

(

)

4

1

i

D

n

p

>

− −

.

Wplyw danej obserwacji na wyniki analizy regresji moze byc takze wyrazony

poprzez wplyw tej obserwacji na bledy standardowe szacowanych wspólczynników

regresji. Poniewaz przedzialy ufnosci szacowanych wspólczynników regresji sa

bezposrednio proporcjonalne do bledów standardowych tych wspólczynników,

Belsley i in. (1980) zaproponowali miare wplywu obserwacji i na wspólny obszar

ufnosci wspólczynników szacowanego modelu regresji jako kwadrat stosunku

przedzialów ufnosci dla pelnego (n) i zredukowanego (n - 1) zbioru danych

(

)

1

2

1

1

COVRATIO

1

2

1

i

p

i

i

h

n

p

t

n

p

+

=

×

− − +

− −

.

Wartosci COVRATIO

i

< 1 wskazuja na obserwacje, których eliminacja zmniejszy

bledy standardowe szacowanych wspólczynników regresji, natomiast wartosci

COVRATIO

i

> 1 wskazuja na obserwacje, których eliminacja zwiekszy bledy

standardowe szacowanych wspólczynników regresji (Belsley i in., 1980). Belsley i in.

(1980) oraz Fox (1991) sugeruja stosowanie wartosci krytycznych skorygowanych na

wielkosc próby jako

(

)

COVRATIO

1

3

1

i

p

n

− >

+

.

Do tej pory rozwazalismy jedynie wplyw pojedynczych obserwacji. W

sytuacjach gdy mamy do czynienia z grupami obserwacji wywierajacymi kolektywny

wplyw na szacunki parametrów modelu regresji niezastapione sa metody graficzne, a

wsród nich wykres nazywany „partial-regression leverage plot” (Belsley i in., 1980)

background image

19

lub „added-variable plot” (Cook i Weisberg, 1982) lub, po prostu, „partial-regression

plot” (Fox, 1991). Proponuje tlumaczenie nomenklatury Foxa (1991) jako „wykres

regresji czastkowej”.

Wykres regresji czastkowej jest konstruowany w nastepujacy sposób.

Zdefiniujmy

( )

1

i

y

jako pozostalosc z regresji zmiennej Y na wszystkie zmienne

wyjasniajace z wyjatkiem X

1

, X

j? 1

. To jest pozostalosc z dopasowania modelu

( )

( )

( )

( )

1

1

1

1

0

2

2

i

i

p

ip

i

Y

b

b X

b X

y

=

+

+ +

+

K

.

Podobnie,

( )

1

i

x

sa pozostalosciami z regresji zmiennej X

1

na pozostale X

j? 1

:

( )

( )

( )

( )

1

1

1

1

1

0

2

2

*

*

*

i

i

p

ip

i

X

b

b

X

b

X

x

=

+

+ +

+

K

.

Wykreslajac wartosci

( )

1

i

y

i

( )

1

i

x

pozwala na egzaminowanie dzwigni i wplywu kazdej

obserwacji na b

1

. Podobne wykresy moga byc skonstruowane dla pozostalych

wspólczynników regresji. Fox (1991) oraz Cook i Weisberg (1994) demonstruja

zastosowanie wykresów regresji czastkowej w diagnostyce wplywu grup obserwacji.

Cook i Weisberg (1989) oraz McCulloch (1993) rozwijaja koncept tych wykresów do

grafiki dynamicznej w wiecej niz dwóch wymiarach.

Wszystkie dyskutowane statystyki wplywu obserwacji sa dostepne we

wspólczesnych pakietach statystycznych ogólnego zastosowania (np. SAS, SPSS).

Jednak szczególnie wyróznia sie system SAS (SAS Institute, 1999b), który pozwala

egzaminowanie wplywu i dzwigni obserwacji na dynamicznych wykresach 3-

wymiarowych.

Diagnostyka wplywu obserwacji dla zredukowanego modelu regresji ET na

DT i DPM ukazuje cztery pary malzenskie posiadajace przynajmniej jedna statystyke

wplywu przekraczajaca swoja wartosc krytyczna. Para malzenska numer 19 posiada

DFFITS

19

= -3.2 i COVARTIO

19

= 4.0. Natomiast, para malzenska 18 posiada

background image

20

DFFITS

18

= 1.5, a pary malzenskie 15 i 23 posiadaja odpowiednio COVRATIO

15

=

0.6 i COVRATIO

23

= 1.5. Dla naszych danych, zgodnie z zaleceniami Belsley i in.

(1980) oraz Fox (1991), wartosc krytyczna dla statystyki wplywu na parametry

modelu regresji jest DFFITS = 0.74, a wartosc krytyczna dla statystyki wplywu na

wariancje szacowanych parametrów modelu jest COVRATIO = 1.36 dla

zaobserwowanych wartosci COVRATIO

i

> 1, oraz COVRATIO = 0.64 dla

COVRATIO

i

< 1.

Wplyw kazdej obserwacji na wspólczynniki regresji jest takze pokazany na

wykresach regresji czastkowych zaprezentowanych w Rycinie 1. W Rycinie 1

wczesniej zidentyfikowane wplywowe obserwacje (para 15, 18, 19, i 23) sa

oznaczone numerem obserwacji. Wykres regresji czastkowej dla DT (Rycina 1a)

potwierdza znaczny wplyw obserwacji 19, która powoduje zanizenie czastkowego

efektu DT na ET. Jak mozemy dalej zauwazyc z Ryciny 1a, wylaczenie obserwacji 19

z dalszych analiz spowoduje znaczne zmniejszenie odmiennosci obserwacji 15, 18, i

23, i w konsekwencji znaczne zmniejszenie wplywu tych obserwacji na czastkowy

efekt zmiennej DT na ET.

----- tutaj Rycina 1 -----

Wykres regresji czastkowej dla DPM (Rycina 1b) pokazuje relatywnie duzy

wplyw obserwacji 18 na czastkowy efekt DPM na ET. Jak mozemy dalej zauwazyc z

Ryciny 1b, para 15 posiada relatywnie duza odmiennosc oraz relatywnie mala

dzwignie, i, w konsekwencji, niewielki wplyw na czastkowy efekt zmiennej DPM na

ET. Pozostale obserwacje (19 i 23) wczesniej zidentyfikowane jako potencjalnie

wplywowe nie wydaja sie znaczaco odbiegac od glównej tendencji zawartej w

danych.

background image

21

Powtórne sprawdzenie danych w Tabeli 1 wskazuje na blad wprowadzania

danych dla pary 19. Zgodnie z naszymi danymi para 19 byla w 82 tygodniu terapii

rodzinnej (DT

19

= 82), podczas gdy dopuszczalna dlugosc terapii, w naszym badaniu,

wynosila 40 tygodni. W konsekwencji dane pary 19 beda wykluczone z dalszych

analiz. Ponadto z dalszych analiz zostana wykluczone dane pary 18 z powodu duzego

wplywu tej obserwacji na czastkowy wspólczynnik regresji zmiennej DPM.

Ponowny test modelu regresji ET na DT i DPM w zredukowanym (n = 23)

zbiorze danych dal nastepujace równanie regresji:

(

) (

)

(

)

17 33 1.25

4 59

12 78

0 47

1 46

ET

.

DT

.

DPM

.

.

.

=

+

Zgodnie z sugestiami wykresów regresji czastkowych wykluczenie obserwacji 18 i 19

z analizowanego zbioru danych wyniklo w znacznie wyzszych wspólczynnikach

regresji dla obu zmiennych wyjasniajacych niz te otrzymane w pelnym (n = 25)

zbiorze danych. Zwrócmy takze uwage na znaczny wzrost mocy wyjasniajacej (R

2

=

0.51) testowanego modelu po wykluczeniu par 18 i 19.

Decyzja odnosnie wykluczenia nietypowych obserwacji zawsze niesie ze soba

element niepewnosci. Chociaz problematyczne dane powinny byc wykluczone, nie

powinnismy eliminowac takich obserwacji bez namyslu i rozwagi. Fox (1991)

podkresla, ze jest krytyczne abysmy zawsze rozwazyli powód, dla którego niektóre

obserwacje sa nietypowe. Nietypowe obserwacje moga motywowac modyfikacje

testowanego modelu poprzez dodanie zmiennej wyjasniajacej. Powinnismy jednak

unikac sytuacji, w których mala proporcja danych determinuje forme naszego modelu

regresji. Jezeli jednak decydujemy sie na eliminacje nietypowych obserwacji to ciazy

na nas obowiazek odnotowania tego faktu w raporcie badawczym.

background image

22

NORMALNOSC ROZKLADU POZOSTALOSCI REGRESJI

Metoda OLS jest relatywnie odporna na brak spelnienia zalozenia normalnosci

rozkladu pozostalosci regresji. Jednak w przypadku malych prób lub znacznego

pogwalcenia tego zalozenia brak normalnosci rozkladu pozostalosci moze zagrazac

trafnosci wyników analizy regresji. Normalnosc rozkladu pozostalosci jest typowo

egzaminowana za pomoca metod graficznych. Metody graficzne pozwalaja nam nie

tylko na okreslenia stopnia pogwalcenia tego zalozenia, ale takze na okreslenie formy

rozkladu pozostalosci. Takim narzedziem jest wykres normalnych centyli (normal

quantile-quantile plot) lub w skrócie wykres normalnych Q-Q, w którym empiryczne

centyle (quantiles) t-standaryzowanych pozostalosci regresji sa wykreslone na osi

rzednych a teoretyczne centyle z

i

, z rozkladu

( )

0,1

Z

N

:

, sa wykreslone na osi

odcietych. Jezeli nasze t

i

pochodza z rozkladu normalnego to, w granicach bledu

próby, uszeregowane rosnaco t

i

= z

i

, i wykres tych wartosci jest linowy. Konstrukcja i

interpretacja wykresów Q-Q jest opisana w szczególach w Chambers, Cleveland,

Kleiner i Tukey (1983) oraz Fox (1990). Wykresy normalnych Q-Q sa dostepne w

standardowych pakietach statystycznych (np. SAS, SPSS).

Wykres normalnych Q-Q dla zredukowanego (n = 23) zbioru danych jest

pokazany w Rycinie 2. Diagonalna linia referencyjna na wykresie odnosi sie do

idealnie normalnego rozkladu pozostalosci regresji. Jak mozemy zauwazyc z Ryciny

2, poza nieznaczna sklonnoscia rozkladu pozostalosci do skosnosci do lewej strony,

wzorzec wykresu pozostalosci wskazuje na rozklad nie odbiegajacy w znaczny

sposób od rozkladu normalnego.

----- tutaj Rycina 2 -----

Analiza stopnia spelnienia zalozenia normalnosci rozkladu pozostalosci jest w

wielu aspektach trudniejsza od analizy innych zalozen modelu regresji. Jezeli próba

background image

23

badawcza jest relatywnie mala ocena normalnosci rozkladu jest relatywnie trudna.

Ponadto, brak spelnienia innych zalozen modelu regresji zwykle wplywa na rozklad

pozostalosci. Na przyklad, pozostalosci moga nie posiadac normalnego rozkladu

poniewaz niewlasciwa funkcjonalna forma modelu jest testowana, lub poniewaz

rozklad pozostalosci nie posiada stalej wariancji. Z tego powodu, zwykle dobra

strategia jest egzaminowanie stopnia spelnienia pozostalych zalozen modelu regresji

przed sprawdzeniem normalnosci rozkladu pozostalosci.

Efektywnym sposobem korekty braku normalnosci pozostalosci jest

transformacja zmiennej Y, z zastosowaniem prostej transformacji z rodziny

transformacji drabiny poteg (ladder of powers) Tukeya (1977). Taka transformacja

polega na wyrazeniu zmiennej Y jako

p

Y

Y

′ =

. Typowo p = -2, -1, -1/2, 1/2, 2, lub 3.

Zauwazmy, ze p = 1 oznacza brak transformacji. Transformacja dla p = 0 byla by

bezuzyteczna gdyz

0

1

Y

=

. Z tego powodu transformacja dla p = 0 oznacza

transformacje logarytmiczna

Y

logY

′ =

. Transformacje w „góre” (p > 1) drabiny

poteg koryguja pozytywna skosnosc rozkladu pozostalosci, transformacje w „dól” (p

< 1) drabiny poteg koryguja negatywna skosnosc rozkladu.

STALOSC WARIANCJI POZOSTALOSCI REGRESJI

Brak stalosci rozproszenia pozostalosci regresji w calym zakresie wartosci

zmiennych wyjasniajacych jest nazywana heteroscedastycznoscia (heteroscedasticity).

Jezeli zalozenie homogenicznosci rozproszenia pozostalosci jest spelnione to

mówimy, ze dane sa homoscedastyczne (homoscedastic). Heteroscedastycznosc nie

powoduje obciazenia szacunków parametrów regresji, ale wplywa ujemnie na

szacunki bledu standardowego regresji. W konsekwencji, heteroscedastycznosc

background image

24

zagraza wnioskowaniu statystycznemu odnosnie szacowanych wspólczynników

regresji oraz ujemnie obciaza szacunki R

2

(Carroll i Ruppert, 1988).

Heteroscedastycznosc moze byc zdiagnozowana za pomoca wykresu

rozproszenia pozostalosci regresji e

i

i wartosci przewidywanych

i

ˆ

Y

. W przypadku

regresji prostej, wykres pozostalosci i wartosci przewidywanych moze byc zastapiony

wykresem e

i

i wartosciami zmiennej wyjasniajacej X

i

, poniewaz ˆ

Y jest linowa

funkcja X.

Wykres pozostalosci regresji i wartosci przewidywanych dla naszego modelu

regresji ET na DT i DPM testowanego w zredukowanym (n = 23) zbiorze danych jest

pokazany w Rycinie 3. Wzorzec rozproszenia pozostalosci regresji w Rycinie 3 nie

ukazuje zadnej systematycznosci i odpowiada warunkowi spelnienia zalozenia

homoscedastycznosci.

----- tutaj Rycina 3 -----

Gdy zalozenie homoscedastycznosci nie jest spelnione, wykres e

i

i

i

X (lub e

i

i

i

ˆ

Y

) pokazuje regularny wzorzec rozproszenia pozostalosci. Dwie takie sytuacje sa

przedstawione w Rycinie 4. Jak mozemy zauwazyc w Rycinie 4a, pozostalosci

regresji systematycznie rosna wraz z wartosciami zmiennej wyjasniajacej. Taki

wzorzec heteroscedastycznosci jest czesto obserwowany w danych rozwojowych, gdy

zmienna wyjasniana jest cecha podlegajac procesowi rozwoju a zmienna wyjasniajaca

jest wiek, poniewaz rosnace zróznicowanie interindywidualne jest naturalnym

zjawiskiem rozwojowym. Inny wzorzec heteroscedastycznosci jest przedstawiony w

Rycinie 4b. W tym przypadku, wariancja pozostalosci regresji jest najmniejsza dla

srednich wartosci zmiennej wyjasniajacej, i rosnie w raz z rosnacymi i malejacymi

wartosciami zmiennej wyjasniajacej.

----- tutaj Rycina 4 -----

background image

25

Gdy wzorzec heteroscedastycznosci nie jest zbyt zlozony to mozemy

zastosowac transformacje z rodziny drabiny poteg

(

)

p

Y

Y

′ =

jako metode korekty

tego problemu. Na przyklad, w sytuacji przedstawionej w Rycinie 4a powinnismy

zastosowac transformacje z p < 1. Natomiast gdyby wariancja pozostalosci

systematycznie malala wraz z wartosciami ˆ

Y to powinnismy zastosowac

transformacje z p > 1. Typowo najbardziej skuteczna transformacje dobieramy

metoda prób i bledów. Poniewaz transformacja zmiennej Y moze zmienic

funkcjonalna forme regresji Y na X

j

powinnismy zawsze sprawdzic czy linowa forma

zwiazku jest dalej odpowiednia po dokonaniu transformacji zmiennej Y.

Gdy linowy zwiazek pomiedzy Y i X

j

jest odpowiedni, ale wariancje

pozostalosci regresji nie sa stale, alternatywa do transformacji Y jest zastosowanie

estymatora wazonych najmniejszych kwadratów (weighted least squares, WLS).

Estymator WLS rózni sie od estymatora OLS tym, ze pozostalosci regresji e

i

sa

wazone waga

2

1

i

i

w

σ

=

równa odwrotnosc wariancji pozostalosci regresji obserwacji

i, w wyrazeniu dla sumy kwadratu pozostalosci,

2

w

i i

RSS

w e

=

(Carroll i Ruppert,

1988). Estymator WLS wymaga wiedzy o wariancji

2

i

σ , której zwykle nie

posiadamy. W takich przypadkach wariancje

2

i

σ musza byc oszacowane. Jednak

stosowanie szacunków dla

i

w w znacznym stopniu komplikuje inferencje

statystyczna w regresji. Na przyklad wielkosc wspólczynnika wielokrotnej

determinacji R

2

powinna byc interpretowana z ostroznoscia poniewaz nie posiada ona

jasnej interpretacji dla estymatora WLS (Neter i in., 1996). Regresja z zastosowaniem

estymatora WLS jest mozliwa za pomoca standardowych pakietów statystycznych

(np. SAS, SPSS).

background image

26

NIELINIOWOSC

Niespelnienie zalozenia liniowosci funkcjonalnej formy modelu implikuje, ze

testowany model regresji nie wyjasnia, w sposób zadawalajacy, systematycznego

zwiazku pomiedzy Y i dana zmienna X

j

. Na przyklad, relacja pomiedzy Y i jedna (lub

wiecej) zmienna X

j

moze byc nieliniowa, lub dwie zmienne wyjasniajace mo ga nie

miec efektu addytywnego poniewaz pozostaja w interakcji w ich efekcie na Y. W

takich przypadkach zalozenie, ze

( )

0

i

E

ε

=

w calym zakresie wartosci zmiennych X

j

nie bedzie spelnione.

W regresji prostej wykres rozproszenia wartosci e

i

i X

i

jest niezmiernie

uzyteczny w zobrazowaniu natury zwiazku pomiedzy tymi zmiennymi. Jednak, w

regresji wielokrotnej podobne wykresy dla e

i

i kazdej zmiennej X

ij

sa nieadekwatne

poniewaz, w tym wypadku, jestesmy zainteresowani w czastkowej relacji pomi edzy Y

i kazda zmienna X

j

, kontrolujac pozostale zmienne

k

j

X

.

W Rycinie 5 przedstawiamy typowy wzorzec rozproszenia pozostalosci

regresji gdy linowa relacja

0

1

ˆ

Y

b

b X

= +

jest nieadekwatna do wyjasnienia

kwadratowego zwiazku pomiedzy Y i X. Jak mozemy zauwazyc w Rycinie 5,

zalozenie

( )

0

i

E

ε

=

jest w oczywisty sposób pogwalcone gdyz srednia wartosc

pozostalosci jest

0

e

<

dla niski i wysokich wartosci X, natomiast

0

e

>

dla srednich

wartosci zmiennej X.

----- tutaj Rycina 5 -----

Aby w pelni zdiagnozowac odstepstwa od liniowosci zwiazku Y na X

j

musimy

skupic nasza uwage na szczególnych wzorcach warunkowego rozkladu pozostalosci

regresji i rozkladzie danej zmiennej wyjasniajacej. W regresji wielokrotnej, taka

diagnoze umozliwiaja wykresy nazywane partial-residual plots (Larsen i McCleary,

background image

27

1972; Atkinson, 1985), lub alternatywnie nazywane component-plus-residual plot

(Wood, 1973; Cook i Weisberg, 1994) aby podkreslic to, ze warunkowy rozklad

pozostalosci regresji sklada sie z komponentu linowego modelu danej zmiennej

wyjasniajacej i pozostalosc regresji. Proponuje stosowanie tlumaczenia nomenklatury

zaproponowanej przez Larsena i McClearygo (1972) jako „wykres pozostalosci

czastkowej”.

W wykresie pozostalosci czastkowych

( )

j

i

e

i wartosci danej zmiennej

wyjasniajacej X

ij

, pozostalosci czastkowe dla zmiennej X

j

sa zdefiniowane jako

( )

j

i

i

j

ij

e

e

b X

= +

,

gdzie pierwszy komponent e

i

jest pozostaloscia z pelnego modelu regresji, a b

j

X

ij

jest

linowym komponentem czastkowego zwiazku pomiedzy Y i dana zmienna X

j

. W

przeciwienstwie do prostego wykresu e

i

i X

ij

, wykres pozostalosci czastkowej sa

efektywne w diagnostyce nieliniowosci poniewaz pokazuja czy dany zwiazek

czesciowy Y na X

j

jest monotoniczny (jedynie rosnacy lub malejacy) czy

niemonotoniczny (np. malejacy a nastepnie rosnacy). Nielinowy zwiazek

monotoniczny moze byc skorygowany za pomoca prostej transformacji danej

zmiennej wyjasniajacej

p

j

j

X

X

′ =

, natomiast nielinowy zwiazek niemonotoniczny nie

moze byc skorygowany za pomoca prostej transformacji z rodziny transformacji

poteg (Fox, 1991). Wykresy pozostalosci czastkowej sa dostepne w pakiecie SAS, ale

nie sa obecnie zaimplementowane w pakiecie SPSS.

Wykresy pozostalosci czastkowej dla regresji ET na DT i DPM testowanej w

zredukowanym (n = 23) zbiorze par malzenskich sa przedstawione w Rycinie 6.

Rycina 6a przedstawia czesciowy efekt dlugosci terapii na efektywnosc terapii,

natomiast Rycina 6b przedstawia czesciowy efekt dlugosci pozycia malzenskiego na

efektywnosc terapii. Jak mozemy zauwazyc w Rycinie 6, oba wykresy pokazuja, ze

background image

28

linowa funkcja dla regresji czastkowych ET na DT oraz ET na DPM jest adekwatna

do opisania relacji pomiedzy tymi zmiennymi.

----- tutaj Rycina 6 -----

BLAD POMIAROWY W Y I X

Klasyczny model regresji zaklada, ze zmienna Y i X

j

sa pozbawione bledu

pomiarowego (Draper i Smith, 1981; Weisberg, 1985; Fuller, 1987; Neter i in., 1996;

Hausman, 2001). Chociaz blad pomiarowy jest powszechny, obecnosc bledu

pomiarowego jest czesto niedocenianym aspektem komplikujacym wnioskowanie w

analizie regresji (Fuller, 1991). Problem bledu pomiarowego najlepiej

zademonstrowac na przykladzie regresji prostej. Zalózmy, ze pragniemy oszacowac

zwiazek pomiedzy czasem spedzonym na nauce jezyka angielskiego i kompetencja

jezykowa ucznia. Zdefiniujmy X

i

jako prawdziwa wartosc spedzonego czasu, a

*
i

X

jako wartosc podana przez ucznia i. Podobnie zdefiniujmy Y

i

jako prawdziwy poziom

kompetencji ucznia, a

*

i

Y jako zaobserwowany poziom kompetencji ucznia i. W

konsekwencji mozemy zdefiniowac blad pomiarowy w Y i X jako

*

i

i

i

*

i

i

i

Y

Y

X

X

ζ

δ

=

=

Model regresji, który pragniemy testowac posiada standardowa forme

0

1

i

i

i

Y

X

β

β

ε

=

+

+

.

Jednak, my jedynie mozemy zaobserwowac

*
i

X i

*

i

Y , i w konsekwencji testowany

model regresji jest:

(

)

(

)

(

)

0

1

0

1

0

1

1

*

*

i

i

i

i

i

*

*

i

i

i

i

i

*

i

i

i

i

Y

X

Y

X

X

ζ

β

β

δ

ε

β

β

δ

ε ζ

β

β

ε ζ β δ

− =

+

+

=

+

+ +

=

+

+

+ −

background image

29

Powyzsze równanie moze wygladac na typowy model regresji ze zmienna

wyjasniajaca

*

X i elementem bledu

1

ε ζ β δ

+ −

, ale nim nie jest. Zmienna niezalezna

jest zmienna losowa skorelowana z elementem bledu

1

ε ζ β δ

+ −

. W konsekwencji,

standardowe zalozenia klasycznego modelu regresji nie moga byc zastosowane

(Weisberg, 1985; Bollen, 1989; Fuller, 1991; Neter i in., 1996).

Tak dlugo jak blad pomiarowy w Y jest losowy, nie skorelowany i

nieobciazony, blad pomiarowy w Y jest absorbowany w pozostalosci regresji

ε

.

Element bledu w modelu regresji,

ε

, odzwierciedla kompozyt duzej liczby

czynników, które nie sa brane pod uwage w testowanym modelu. Teraz jednym z tych

czynników jest blad pomiaru

ζ . Poniewaz blad pomiarowy w zmiennej zaleznej

jedynie wplywa na wielkosc pozostalosci modelu regresji

ε ζ

+

, jedyna praktyczna

konsekwencje bledu pomiarowego w Y to zanizone szacunki R

2

oraz zawyzone

szacunki bledów standardowych parametrów modelu (Neter i in., 1996; Hausman,

2001).

Niestety, konsekwencje obecnosci bledu pomiarowego w zmiennej

wyjasniajacej X sa bardziej znaczace dla trafnosci szacowanego modelu regresji. W

tym wypadku, pozostalosci regresji

1

ε β δ

sa skorelowane ze zmienna wyjasniajaca

*

X . W regresji prostej obecnosc bledu pomiarowego w zmiennej wyjasniajacej

powoduje niedoszacowanie wspólczynnika regresji

1

β

. To jest estymator b

1

jest

negatywnie obciazony odwrotnie proporcjonalnie do poziomu rzetelnosci pomiaru

( )

XX

ρ

zmiennej wyjasniajacej:

1

1

XX

b

ρ β

=

(Bollen, 1989; Wetherill i in., 1986;

Fuller, 1991; Hausman, 2001). W przypadku regresji wielokrotnej ocena wplywu

bledu pomiarowego w X

j

na szacunki parametrów modelu regresji b

j

jest

zdecydowanie bardziej skomplikowana. Efekt bledu pomiarowego zalezy od poziomu

background image

30

rzetelnosci pomiaru zmiennych wyjasniajacych oraz od wzajemnych relacji pomiedzy

tymi zmiennymi. W regresji wielokrotnej, blad pomiarowy w X

j

moze zanizyc,

zawyzyc lub pozostawic be zmiany szacunki wspólczynników regresji. Ponadto,

szacunki wspólczynników dla zmiennych wolnych od bledu pomiarowego sa takze

obciazone, poniewaz blad pomiarowy w jednej zmiennej wyjasniajacej jest

propagowany w calym modelu regresji (Lord, 1960).

Blad pomiarowy w zmiennych wyjasniajacych nie musi byc zawsze

destruktywny dla analizy regresji. Berkson (1950) opisal bardzo wazny przypadek

zastosowania regresji w predykcji. Jezeli zmienne przewidujace sa mierzone z bledem

teraz i w przyszlosci, to pozadany model regresji jest dla zmiennych mierzonych z

bledem,

*

X . W tym wypadku, prawdziwe wartosci tych zmiennych, X, nas nie

interesuja poniewaz w przyszlosci bedziemy jedynie znali

*

X a nie X. Dlatego, blad

pomiarowy moze nie byc istotny dla problemów, w których szacowany zwiazek

bazuje na zaobserwowanych wartosciach, a nie na nieobserwowalnych prawdziwych

wartosciach zmiennych wyjasniajacych.

Jednak w sytuacjach gdy pragniemy oszacowac sile i/lub forme zwiazku

pomiedzy Y i X

j

, na przyklad w weryfikacji lub konstrukcji teorii psychologicznych,

obecnosc bledu pomiarowego znacznie komplikuje sytuacje regresji. W tradycji

ekonometrycznej, typowym podejsciem do problemu bledu pomiarowego w X jest

zastosowanie tak zwanej regresji ze zmiennymi instrumentalnymi (instrumental

variables) (Fuller 1987, 1991; Angrist i Krueger, 2001; Hausman, 2001). Takie ujecie

modelu regresji wymaga pomiaru zmiennej Z, która pozostaje w relacji z

prawdziwymi wynikami X,

(

)

,

0

cov Z X

, i nie jest skorelowana ani z bledem

pomiarowym

δ

,

(

)

,

0

cov Z

δ

=

, ani z pozostaloscia regresji

ε

,

(

)

,

0

cov Z

ε

=

(Hausman, 2001). Zmienna Z jest nazywana instrumentem, poniewaz jest uzyta

background image

31

jedynie instrumentalnie, jako srodek do poznania prawdziwej (nieobciazonej bledem

pomiarowym) relacji miedzy X i Y. W modelu regresji ze zmienna instrumentalna

najpierw szacujemy wartosci przewidywane ˆ

X z regresji X na Z, a nastepnie

szacujemy interesujace nas parametry modelu (

0

β i

1

β

) z regresji Y na ˆ

X . Taki

dwuetapowy estymator jest nazywany dwustopniowa metoda najmniejszych

kwadratów (two-stage least squares) (James i Singh, 1978). W wielu przypadkach

zastosowanie zmiennych instrumentalnych moze byc pomocne w korekcie

konsekwencji obecnosci bledu pomiarowego w X. Jednak w przypadkach tak

zwanych „slabych instrumentów” – gdy relacja pomiedzy X i Z jest slaba oraz/lub gdy

blad pomiarowy w X jest znaczacy – regresja ze zmiennymi instrumentalnymi moze

dac znacznie obciazone szacunki parametrów modelu regresji (Hausman, 2001).

Analiza regresji ze zmiennymi instrumentalnymi jest mozliwa za pomoca SAS i

SPSS.

Fuller (1975; 1987; 1991) zaprezentowal alternatywna strategie

przezwyciezenia problemu bledu pomiarowego w X oparta na powtórnym pomiarze

tej zmiennej. Zastosowanie metody test-retest pozwala na jednoczesne oszacowanie

wariancji bledu pomiarowego w X,

( )

var

δ

, i uzycie tej informacji w szacowaniu

parametrów modelu regresji. Szacowanie parametrów odbywa sie za pomoca

specjalistycznego estymatora dla tak zwanych „zlozonych prób badawczych”

(„complex sample designs”), zaimplementowanego w pakiecie EV CARP (Schnell,

Park i Fuller, 1988). Podejscie zaprezentowane przez Fullera (1975; 1987; 1991)

posiada jednak powazne ograniczenia praktyczne wynikajace z zastosowanej metody

szacowania

( )

var

δ

. Metoda test-retest wymaga kosztownego powtórnego testowania

przynajmniej czesci respondentów oraz okreslenia optymalnego interwalu dzielacego

obie chwile pomiaru. Jezeli ten interwal jest zbyt krótki to pomiary moga nie byc

background image

32

niezalezne, a szacowany poziom rzetelnosci bedzie pozytywnie obciazony (Fuller,

1991). Przy zbyt dlugim interwale dzielacym chwile pomiaru szacowany poziom

rzetelnosci moze byc obciazony negatywnie z powodu naturalnych i

niesystematycznych zmian, którym ulega dana zmienna wyjasniajaca (Crocker i

Algina, 1986).

Obecnie najszerzej stosowana strategia przezwyciezania konsekwencji bledu

pomiarowego jest przeksztalcenie problemu regresji w ogólny model równan

strukturalnych SEM. SEM jest modelem statystycznym integrujacym model bledu

pomiarowego (konfirmacyjna analize czynnikowa) z modelem strukturalnym (analiza

sciezkowa) (Bollen, 1989). W podejsciu SEM zakladamy, ze zmienna wyjasniana

η

oraz zmienne wyjasniajace

j

ξ sa jedynie obserwowalne poprzez wskazniki tych

zmiennych y i x. Czesc pomiarowa modelu SEM zawiera równania dla zmiennych

obserwowalnych:

y

x

y = ? ? + ?

x = ? ? + d

gdzie macierze

y

? i

x

? zawieraja ladunki czynnikowe, a

? i

d

sa wektorami bledu

pomiarowego. W czesci strukturalnej, wspólczynniki regresji (

j

γ ) reprezentuja efekty

latentnych zmiennych wyjasniajacych na latentna zmienna wyjasniana:

1 1

2 2

p

p

η γ ξ γ ξ

γ ξ

ε

=

+

+ +

+

K

.

Szacowanie parametrów zawartych w czesci pomiarowej oraz strukturalnej modelu

SEM odbywa sie jednoczesnie za pomoca estymatora najwiekszej wiarygodnosci

(maximum likelihood). Jezeli zalozenia modelu sa spelnione to otrzymujemy szacunki

wspólczynników modelu regresji

η na

j

ξ nieobciazone obecnoscia bledu

pomiarowego w zmiennych obserwowalnych y i x (Bollen, 1989). Podejscie SEM

background image

33

wymaga, jednak, ze nasz plan badawczy przewiduje pomiar dla przynajmniej dwóch

wskazników (indicators) kazdej zmiennej latentnej zawartej w testowanym modelu

regresji. Zastosowanie podejscia SEM jest mozliwe za pomoca pakietu SAS, lub

jednego z wielu dostepnych specjalistycznych pakietów SEM, z których najszerzej

znanym jest LISREL 8 (Jöreskog, Sörbom, 1993).

W wielu empirycznych aplikacjach modelu regresji rzetelnosci zmiennych

zawartych w testowanym modelu sa znane z wlasnych badan psychometrycznych lub

z literatury tematu. Fuller i Hidiroglou (1978) oraz Fuller (1987) demonstruja

dwuetapowa metode uzycia zewnetrznej informacji o poziomie rzetelnosci zmiennych

(Y i/lub X

j

) w szacowaniu parametrów modelu regresji. W pierwszym etapie

zaobserwowana macierzy kowariancji jest skorygowana o znany poziom rzetelnosci

zmiennych zawartych w testowanym modelu. W drugim etapie, tak skorygowana

macierz kowariancji jest uzyta do szacowania parametrów modelu regresji. Marais i

Wecker (1998) demonstruja zastosowanie metody Fullera i Hidirogloua (1978) w

szacowaniu efektu olowiu na iloraz inteligencji za pomoca standardowego pakietu

statystycznego.

Bollen (1989) demonstruje zastosowanie metody Fullera i Hidirogloua (1978)

w kontekscie ogólnego modelu SEM. W podejsciu SEM metoda Fullera i Hidirogloua

(1978) polega na zrównaniu danej zmiennej obserwowalnej ze swoja zmienna

latentna,

j

j

X

ξ

=

, poprzez ograniczenie ladunku czynnikowego tej zmiennej do

jednosci,

1

j

X

λ

=

. Poniewaz proporcja wariancji w X

j

spowodowana bledem pomiaru

jest równa

(

)

1

j

j

X X

ρ

mozemy dalej ograniczyc wariancje bledu pomiarowego w

testowanym modelu SEM tak aby odzwierciedlic znany poziom rzetelnosci w X

j

:

( )

(

)

( )

1

j

j

j

X X

j

var

var X

δ

ρ

= −

.

background image

34

Konceptualnie, takie sformulowanie problemu regresji pozwala na zastapienie

arbitralnego zalozenia o rzetelnosci

1

j

j

X X

ρ

=

, w klasycznym ujeciu regresji, innym

arbitralnym, lecz bardziej realistycznym, zalozeniem o rzetelnosci

1

j

j

X X

ρ

<

. Typowo

taka analize realizujemy za pomoca specjalistycznego pakietu SEM (np. LISREL 8)

lub ogólnego pakietu statystycznego pozwalajacego na testowanie modeli SEM (np.

SAS).

Konsekwencje bledu pomiarowego w Y i X

j

na wyniki naszego modelu

regresji sa przedstawione w Tabeli 2

6

. Model regresji ET na DT i DPM szacowany dla

zredukowanego (n = 23) zbioru danych jest powtórnie pokazany jako Model 0 w

Tabeli 2. W Modelu 0, zgodnie z zalozeniem klasycznego modelu regresji, przyjete

rzetelnosci zmiennych sa równe jednosci (patrz Tabela 2). Dla porównania, Model 1

w Tabeli 2 odnosi sie do szacunków tego samego modelu regresji, ale zakladajac

rzetelnosc pomiaru dla naszej zmiennej wyjasnianej ET na poziomie

0 80

ET,ET

.

ρ

=

7

.

Porównanie szacunków dla Modelu 0 z szacunkami otrzymanymi dla Modelu 1 (patrz

Tabela 2) potwierdza wyniki teoretyczne. Szacunki R

2

oraz bledów standardowych

wspólczynników regresji sa bardziej korzystne dla Modelu 1, lecz zalozenie pelnej

rzetelnosci pomiaru dla ET w Modelu 0 nie rzutuje na szacunki parametrów naszego

modelu regresji. Rozwazmy teraz konsekwencje bledu pomiarowego w zmiennej

wyjasniajacej X

j

. Wyniki analizy naszego modelu regresji z zalozeniem poziomu

rzetelnosci pomiaru

90

DPM,DPM

.

ρ

=

dla DPM sa przedstawione jako Model 2 w

Tabeli 2

8

. Porównanie wyników dla Modelu 0 z wynikami dla Modelu 2 potwierdza

rozlegly efekt bledu pomiarowego w zmiennej X

j

dla, bez wyjatku, wszystkich

szacowanych wartosci modelu regresji. W koncu, w ostatniej kolumnie Tabeli 2

pokazujemy wyniki dla Modelu 3, w którym zakladamy rzetelnosc pomiaru zmiennej

background image

35

ET na poziome

80

ET,ET

.

ρ

=

, pelna rzetelnosc pomiaru dla DT,

1 0

DT,DT

.

ρ

=

, oraz

rzetelnosc pomiaru dla DPM na poziome

90

DPM,DPM

.

ρ

=

. Porównujac szacunki

parametrów dla Modelu 3 z szacunkami dla pozostalych modeli w Tabeli 2 mozemy

zauwazyc, ze laczne konsekwencje bledu pomiarowego w zmiennej wyjasnianej (ET)

i zmiennej wyjasniajacej (DPM) sa zlozona funkcja indywidualnych konsekwencji

bledu pomiarowego w tych zmiennych.

----- tutaj Tabela 2 -----

PODSUMOWANIE I DYSKUSJA

Zaprezentowane metody diagnostyczne podkreslaja potrzebe ostroznego

rozwazenia cech analizowanego zbioru danych oraz testowanego modelu regresji.

Analiza pozbawiona elementu sprawdzenia odpornosci testowanego modelu regresji

moze prowadzic do nietrafnych wniosków badawczych. Diagnostyka zalozen modelu

jest szczególnie wazna w malych próbach badawczych, gdyz odpornosc modelu

regresji na brak spelnienia jego zalozen teoretycznych wzrasta wraz z wielkoscia

próby badawczej.

Jednak utajona pulapka diagnostyki moze byc tendencja do zbyt agresywnej a

posteriori modyfikacji postulowanego modelu regresji, aby uchwycic losowe

wlasciwosci analizowanego zbioru danych. Jezeli w wyniku dzialan diagnostycznych

forma testowanego modelu ulega zmianie taki model jest, przynajmniej czesciowo,

zdeterminowany przez analizowany zbiór danych. Najlepszym zabezpieczeniem

przed nadmierna modyfikacja (over-fitting) testowanego modelu regresji jest

replikacja wyników (cross-validation) analizy (Mosteller i Tukey, 1977). Replikacja

wyników moze przyjac rózne formy. W typowym ujeciu replikacji analizowany zbiór

danych jest losowo dzielony na dwie czesci przed jakakolwiek analiza statystyczna

background image

36

(Snee, 1977). Pierwsza podpróba sluzy do analizy eksploracyjnej, której celem jest

„znalezienie” optymalnego modelu regresji. Druga podpróba sluzy do konfirmacji

(replikacji) wczesniej „znalezionego” modelu. Campbell i O’Connell (1982) oraz

Fiske (1982) podkreslaja potrzebe replikacji wyników stosujac maksymalnie

odmienne metody badawcze oraz instrumenty pomiaru. Wojciszke (2004) prezentuje

koncept replikacji jak forme sekwencji badan, w której kolejne badania maja na celu

replikacje wczesniej uzyskanych wyników oraz test wczesniej nie egzaminowanych

hipotez badawczych.

Czytelnicy pragnacy kontynuowac tematyke diagnostyki w regresji moga

siegnac po takie pozycje specjalistyczne jak Fox (1991), Cook i Weisberg (1982),

Belsley i in. (1980), Atkinson (1985), Carroll i Ruppert (1988) oraz Chatterjee i Hadi

(1988). Prezentacja Fox’a (1991) jest najbardziej wyczerpujaca w zakresie

poruszonych zagadnien diagnostycznych. Cook i Weisberg (1982) prezentuja metody

diagnozy oraz korekty wplywowych obserwacji. Belsley i in. (1980) traktuja

problemy wplywowych obserwacji oraz konsekwencje i metody korekty problemu

wspólliniowosci. Pozycja Atkinson’a (1985) jest szczególnie wazna z powodu

szczególowego potraktowania problemu transformacji oraz metod graficznych w

diagnostyce. Monografia Carroll’a i Ruppert’a (1988) jest poswiecona problemowi

heteroscedastycznosci, wplywowych obserwacji oraz alternatywnych metod estymacji

w regresji. Pozycja Chatterjee i Hadi (1988) jest wysoce techniczna prezentacja

zagadnien diagnostycznych oraz selekcji modelu regresji, i jest jedyna pozycja

traktujaca problem konsekwencji bledu pomiarowego w regresji.

background image

37

LITERATURA

Angrist, J. D., Krueger, A. B. (2001). Instrumental variables and the search for

identification: From supply and demand to natural experiments. Journal of

Economic Perspectives, 15, 69-85.

Atkinson, A. C. (1985). Plots, transformations and regression: An introduction

to graphical methods of diagnostic regression analysis. Oxford:

Clarendon Press.

Belsley, D. A., Kuh, E., Welsch, R. E. (1980). Regression diagnostics:

Identifying influential data and sources of collinearity. New York: Wiley.

Berkson, J. (1950). “Are there two regressions?” Journal of the American

Statistical Association, 45, 164-180.

Bollen, K. A. (1989). Structural equations with latent variables. New York:

Wiley.

Bradbury, T. N., Fincham, F. D., Beach, S. R. (2000). Research on the nature

and determinants of marital satisfaction: A decade in review. Journal of

Marriage and the Family, 62, 964-980.

Campbell, D. T., O’Connell, E. J. (1982). Methods as diluting trait relationships

rather than adding systematic variance. W: D. Brinberg i L. Kidder (red.) New

directions for methodology of social and behavioral science: Forms of

validation in research, No. 12. San Francisco, C.A.: Jossey-Bass.

Carroll, R. J., Ruppert, D. (1988). Transformation and weighting in regression.

New York: Chapman and Hall.

Chambers, J. M., Cleveland, W. S., Kleiner, B., Tukey, P. A. (1983). Graphical

methods for data analysis. Pacific Grove, CA.: Wadsworth Publishing.

Chatterjee, S., Hadi, A. S. (1988). Sensitivity analysis in linear regression.

background image

38

New York: Wiley

Cook, R. D. (1977). Deletion of influential observations in linear regression.

Technometrics, 19, 351-361.

Cook, R. D. Weisberg, S. (1982). Residuals and influence in regression. New

York: Chapman and Hall.

Cook, R. D., Weisberg, S. (1989). Regression diagnostics with dynamic

graphics (with discussion). Technometrics, 31, 277-311.

Cook, R. D., Weisberg, S. (1994). An introduction to regression graphics. New

York: Chapman and Hall.

Crocker, L., Algina, J. (1986). Introduction to classical and modern test

theory. San Francisco, C.A.: Holt, Rinehart and Winston.

Draper, N. R., Smith, H. (1981). Applied regression analysis, 2nd ed. New

York: Wiley.

Fiske, D. W. (1982). Convergent-discriminant validation in measurements and

research strategies. W: D. Brinberg i L. Kidder (red.) New directions for

methodology of social and behavioral science: Forms of validation in

research, No. 12. San Francisco, C.A.: Jossey-Bass.

Fox, J. (1990). Describing univariate distributions. W: J. Fox i J. S Long (red.)

Modern Method of Data Analysis. Newbury Park, C.A.: Sage.

Fox, J. (1991). Regression diagnostics. Newbury Park, C.A.: Sage.

Fuller, W. A. (1975). Regression analysis for sample surveys. Sankhya, 37, 117-

132.

Fuller, W. A. (1987). Measurement error models. New York: Wiley.

Fuller, W. A. (1991). Regression estimation in the presence of measurement

background image

39

error. W: P. P. Biemer, R. M. Groves, L. E. Lyberg, N. A. Mathiowetz i S.

Sudman (red.) Measurement Errors in Surveys. New York: Wiley.

Fuller, W. A., Hidiroglou, M. A. (1978). Regression estimation after

correcting for attenuation. Journal of the American Statistical Association, 73,

99-105.

Hausman, J. (2001). Mismeasured variables in econometric analysis: Problems

from the right and problems from the left. Journal of Economic Perspectives,

15, 57-67.

Hoerl, A. E., Kennard, R. W. (1970a). Ridge regression: Biased estimation for

nonorthogonal problems. Technometrics, 12, 55-67.

Hoerl, A. E., Kennard, R. W. (1970a). Ridge regression: Applications to

nonorthogonal problems. Technometrics, 12, 69-82.

James, L. R., Singh, B. K. (1978). An introduction to the logic, assumptions,

and basic analytic procedures of two-stage least squares. Psychological

Bulletin, 85, 1104-1122.

Jöreskog, K., Sörbom, D. (1993). LISREL 8 user’s reference guide. Chicago:

Scientific Software International.

Larsen, W. A., McCleary, S. A. (1972). The use of partial residual plots in

regression analysis. Technometrics, 14, 781-790.

Lord, F. (1960). Large-sample covariance analysis when the control variable is

fallible. Journal of the American Statistical Association, 55, 307-321.

Marais, M. L., Wecker, W. E. (1998). Correcting for omitted-variable and

measurement-error bias in regression with an application to the effect of lead

on IQ. Journal of the American Statistical Association, 93, 494-505.

Marquardt, D.W., Snee, R. D. (1975). Ridge regression in practice. American

background image

40

Statistician, 29, 3-19

McCullagh, P., Nelder, J. A. (1989). Generalized linear models, 2nd ed. New

York: Chapman and Hall.

McCulloch, R. (1993). Fitting regression models with unknown transformations

using dynamic graphics. The Statistician, 42, 153-160.

Mosteller, F., Tukey, J. W. (1977). Data analysis and regression: A second

course in statistics. Reading: MA: Addison-Wesley.

Neter, J., Kutner, M. H., Nachtsheim, C. J., Wasserman, W. (1996). Applied

linear statistical models, 4

th

ed. Toronto: IRWIN.

SAS Institute Inc. (1999a). SAS/STAT

®

User's Guide, Version 8, Cary, NC: SAS

Institute Inc.

SAS Institute Inc. (1999b). SAS/INSIGHT User's Guide, Version 8, Cary, NC:

SAS Institute Inc.

Schnell, D., Park, H. J., Fuller, W. A. (1988). EV CARP. Ames, Iowa: Statistical

Laboratory, Iowa State University.

Snee, R. D. (1977). Validation of regression models. Methods and examples.

Technometrics, 19, 415-428.

Tukey, J. (1977). Exploratory data analysis. Reading: MA: Addison-Wesley.

Weisberg, S. (1985). Applied linear regression, 2nd ed. New York: Wiley.

Wetherill, G. B., Duncombe, P., Kenward, M., Köllerström, J., Paul, S. R.,

Vowden, B. J. (1986). Regression analysis with applications. New York:

Chapman and Hall.

Wojciszke, B. (ma sie ukazac w 2004). Systematycznie modyfikowane

background image

41

autoreplikacje: logika programu badan empirycznych w psychologii. W: J.

Brzezinski (red.) Metodologia badan psychologicznych. Wybór tekstów.

Warszawa: Wydawnictwo Naukowe PWN.

Wood, F. S. (1973). The use of individual effects and residuals in fitting

equations to data. Technometrics, 15, 677-695.

background image

42

PRZYPISY DOLNE

1

Przyklad jest tak skonstruowany, aby zademonstrowac jak najwiecej z prezentowanych zagadnien

diagnostycznych. Chociaz prezentowany zbiór danych jest wygenerowany bez odniesienia do zadnej
teorii lub badan odnosnie relacji malzenskich, niektóre z przyjetych relacji mozna zaobserwowac w
literaturze tematu (np. Bradbury, Fincham i Beach, 2000).

2

Dokladna wartosc krytyczna z rozkladu

( )

2

t

df

α

zalezy od poziomu ufnosci

(

)

1

α

oraz od

wielkosci próby badawczej

(

)

1

df

n

p

= − −

. W naszym przykladzie dokladna wartosc krytyczna

wspólczynnika ufnosci jest t = 2.08.

3

Dokladna wartosc krytyczna jest t = 2.08.

4

Zauwazmy, ze jedynie w przypadku regresji z dwoma zmiennymi wyjasniajacymi ten wspólczynnik

jest równy kwadratowi korelacji pomiedzy tymi zmiennymi

1 2

2

2

j

x x

R

r

=

.

5

Nalezy jednak podkreslic, ze jest to jedynie warunek wystarczajacy ale nie konieczny, i dlatego brak

relatywnie wysokich korelacji pomiedzy zmiennymi wyjasniajacymi nie oznacza braku problemu
zaleznosci linowej w testowanym modelu regresji.

6

Modle 1 do 3 byly testowane za pomoca pakietu LISREL 8.53.

7

Przyjety poziom rzetelnosci

80

ET,ET

.

ρ

=

jest typowy dla pomiaru zmiennych psychologicznych.

8

Przyjety poziom rzetelnosci

90

DPM,DPM

.

ρ

=

jest arbitralny, ale moze powstac w wyniku zaokraglania

wartosci do najblizszego roku.

background image

-20

0

20

40

60

Dlugosc terapii (DT)

-40

-20

0

20

40

Efektywnosc terapii (ET)

(a)

19

18

23

15

-3

0

3

6

Dlugosc pozycia malzenskiego (DPM)

-40

-20

0

20

40

Efektywnosc terapii (ET)

(b)

18

15

19

23

Rycina 1. Wykresy regresji czesciowej dla (a) dlugosci terapii (ET) i (b)
dlugosci pozycia malzenskiego (DPM) z regresji ET na DT i DPM

background image

-3.0

-1.5

0.0

1.5

3.0

Rozklad normalny

-3.0

-1.5

0.0

1.5

3.0

t-standaryzowane pozostalosci

Rycina 2. Wykres normalnych centyli (Q-Q) z

regresji ET na DT i DPM

background image

-20

0

20

40

60

Wartosci przewidywane

-40

-20

0

20

40

Pozostalosci regresji

Rycina 3. Wykres pozostalosci regresji (e

i

) i wartosci

przewidywanych (

i

ˆ

Y

) z regresji ET na DT i DPM

background image

0

15

30

45

60

X

-3.0

-1.5

0.0

1.5

3.0

Pozostalosci regresji

(a)

0

15

30

45

60

X

-3.0

-1.5

0.0

1.5

3.0

Pozostalosci regresji

(b)

Rycina 4. Wykresy pozostalosci regresji (e

i

) i wartosci zmiennej

wyjasniajacej (X

i

) ukazujace brak spelnienia zalozenia heteroscedastycznosci

background image

0

15

30

45

60

X

-3.0

-1.5

0.0

1.5

3.0

Pozostalosci regresji

Rycina 5. Wykresy pozostalosci regresji (e

i

) i

wartosci zmiennej wyjasniajacej (X

i

) ukazujace

nieliniowa relacje pomiedzy Y i X

background image

10

20

30

40

Dlugosc terapii (DT)

0

15

30

45

60

Pozostalosci czesciowe

(a)

1

4

7

10

Dlugosc pozycia malzenskiego (DPM)

-60

-45

-30

-15

0

Pozostalosci czesciowe

(b)

Rycina 6.

Wykresy pozostalosci czesciowej dla regresji ET na DT (panel

a) oraz regresji ET na DPM (panel b)

background image

Tabela 1

Dane Syntetyczne dla 25 Par Malzenskich Uczestniczacych

w Terapii Rodzinnej

Para

ET

DT

DPM

LD

1

23

29

5.5

2

2

50

25

4.0

2

3

38

25

4.5

1

4

6

17

8.0

3

5

-6

15

7.0

2

6

-2

20

8.0

3

7

57

24

2.0

0

8

35

14

2.0

0

9

31

11

3.0

2

10

14

12

4.0

1

11

41

29

2.5

1

12

58

38

3.0

1

13

32

20

4.5

2

14

19

24

5.0

2

15

-9

23

4.0

2

16

10

10

1.5

0

17

13

14

2.0

1

18

29

19

11.0

4

19

35

82

8.0

3

20

28

21

5.0

2

21

38

26

3.0

1

22

46

18

2.5

1

23

-8

10

9.5

3

24

4

18

7.0

3

25

7

25

2.0

1

ET - efektywnosc terapii
DT - dlugosc terapii w tygodniach
DPM - dlugosc pozycia malzenskiego w latach
LD - liczba dzieci

background image

Tabela 2

Szacunki dla Modelu Regresji ET na DT i DMP Uwzgledniajace Rózne
Poziomy Rzetelnosci (Bledu Pomiarowego) Zmiennych

Parametr

Model 0

Model 1

Model 2

Model 3

ET,ET

ρ

1.00

0.80

1.00

0.80

DT,DT

ρ

1.00

1.00

1.00

1.00

DPM,DPM

ρ

1.00

1.00

0.90

0.90

b

0

17.33

(12.80)

17.33

(12.20)

20.25

(12.84)

20.25

(12.84)

b

DT

1.25*

(0.47)

1.25*

(0.45)

1.21*

(0.45)

1.21*

(0.45)

b

DPM

-4.59*

(1.46)

-4.59*

(1.40)

-5.12*

(1.57)

-5.12*

(1.57)

R

2

0.51

0.63

0.54

0.67

* p < .01

† wartosci w nawiasach to bledy standardowe

( )

s b


Wyszukiwarka

Podobne podstrony:
Wycena nieruchomości ćwiczenie 2 Budowa modelu wartości nieruchomości przy zastosowaniu regresji wie
ANALIZA REGRESJI WIELOKROTN, Zarządzanie projektami, Zarządzanie(1)
olej REGRESJA WIELOKROTNA TABELA?NYCH
październik (10), PLAN PRACY NA MIESIĄ PAŹDZIERNIK 2004 r
DZIĘKUJEMY ZA WASZ TRUD PAŹDZIERNIK 2004, scenariusze różne, scenariusze, Dzień Edukacji N
Prosta analiza regresji i wprowadzenie do regresji wielokrotnej ppt
08.regresja wielokrotna, STATYSTYKA
Zobowiązania, ART 497 KC, Wyrok Sądu Najwyższego - Izba Cywilna z dnia 8 października 2004 r
Analiza regresji wielokrotnej Różne metody ppt
KOLOKWIUM Z ANALIZY STRUKTURY TEMAT X 2004, Statystyka Opisowa UG
KOLOKWIUM Z ANALIZY STRUKTURY TEMAT YY 2004, Statystyka Opisowa UG
KOLOKWIUM Z ANALIZY STRUKTURY (skrócony0 2004, Statystyka Opisowa UG
KOLOKWIUM Z ANALIZY STRUKTURY TEMAT Y 2004, Statystyka Opisowa UG
wyklad 7 (regresja krzywoliniowa), Zarządzanie I semestr -> UG, Statystyka
Regresja prosta, REGRESJA PROSTA I WIELOKROTNA
stata test wielokrotnego wyboru, MSG UG, Statystyka
wyklad 9 Regresja liniowa wielokrotna

więcej podobnych podstron