Regresja wielokrotna:
diagnostyka i selekcja modelu regresji
Multiple Regression:
Diagnostics and Selection of Regression Models
Roman Konarski
Uniwersytet Gdanski
&
Pracownia Badan Spolecznych
Wersja wstepna: Prosze nie cytowac bez wczesniejszego kontaktu z autorem
Lipiec 2004
1
STRESZCZENIE
Diagnostyka zalozen modelu regresji jest istotnym elementem ostroznej analizy
statystycznej. Analiza regresji pozbawiona elementu weryfikacji oraz korekty zalozen
teoretycznych testowanego modelu regresji moze prowadzic do nietrafnych wniosków
badawczych. Szczególnie istotne dla testowanego modelu regresji sa problemy
wplywowych obserwacji, wspólliniowosci oraz obecnosc bledu pomiarowego w
zmiennych wyjasniajacych. W obecnym artykule podsumowuje najbardziej istotne
zalozenia modelu regresji, metody weryfikacji oraz korekty braku spelnienia tych
zalozen. W diagnostyce statystycznej szczególna role odgrywaja metody graficzne.
Uzytecznosc oraz interpretacja róznorodnych metod graficznych jest szczególnie
podkreslana w obecnej prezentacji zagadnien diagnostycznych. Prezentacja jest
przeprowadzona na przykladach konkretnych analiz statystycznyc h.
2
WPROWADZENIE
Analiza regresji jest zapewne najszerzej stosowanym modelem statystycznym,
gdyz pozwala na szacowanie sily i formy zwiazku pomiedzy zmiennymi oraz na
predykcje jednej zmiennej bazujac na wiedzy o wartosciach skorelowanych z nia
innych zmiennych. Ponadto, model regresji stanowi podstawe ogólnego modelu
linowego (general linear model, GLM) (McCullagh, Nelder, 1989) oraz modelu
równan strukturalnych (structural equation model, SEM) (Bollen, 1989). Zrozumienie
zalozen i ograniczen regresji ma zastosowanie w praktyce stosowania tych,
pochodnych regresji, modeli statystycznych. Analiza zalozen modelu regresji jest
wazna, poniewaz trafnosc wyników analizy regresji jest zalezna od stopnia spelnienia
jej zalozen teoretycznych.
Obecne podsumowanie prezentuje narzedzia diagnostyczne pozwalajace na
weryfikacje i korekte zalozen analizy regresji. Prezentacje rozpoczne od
przedstawienia podstawowych konceptów i zalozen regresji. Nastepnie przejde do
takich zagadnien diagnostycznych jak problemy zaleznosci liniowej, wplywowych
obserwacji, heterogenicznosc wariancji, nieliniowosc, oraz konsekwencji bledu
pomiarowego. Kazdy problem diagnostyczny rozpatrze pod wzgledem detekcji,
konsekwencji, oraz akcji korekcyjnych danego problemu. Prezentacja jest
przeprowadzona na przykladach konkretnych analiz statystycznych.
PODSTAWOWE KONCEPTY I ZALOZENIA REGRESJI
MODEL REGRESJI
Model klasycznej regresji to równanie
0
1
1
2
2
i
i
i
p
ip
i
Y
X
X
X
β
β
β
β
ε
=
+
+
+ +
+
K
3
dla obserwacji i = 1, 2, ..., n. W równaniu regresji Y
i
jest wartoscia zmiennej
wyjasnianej dla obserwacji i, X
ij
(j = 1, 2, ..., p) sa wartosciami p zmiennych
wyjasniajacych dla obserwacji i,
i
ε jest bledem losowym obserwacji i, a
0
β i
j
β sa
nieznanymi parametrami modelu. Jezeli mamy jedna (p = 1) zmienna wyjasniajaca
nasz model jest nazywany regresja prosta. Jezeli mamy wiecej niz jedna (p > 1)
zmienna wyjasniajaca nasz model jest nazywany regresja wielokrotna.
Kluczowym zalozeniem modelu regresji jest brak bledu pomiarowego w
zmiennych Y i X
j
. Pozostale zalozenia odnosza sie do rozkladu pozostalosci regresji
i
ε , które typowo zapisujemy jako
(
)
2
NID 0,
i
ε
σ
:
co oznacza, ze
i
ε maja rozklad normalny i niezalezny (normally and independently
distributed, NID) ze srednia wartoscia równa zero,
( )
0
i
E
ε
=
, oraz stala wariancje w
calym zakresie X
i
,
( )
2
2
i
σ ε
σ
=
. W empirycznych zastosowaniach modelu regresji
powyzsze zalozenia nigdy nie sa dokladnie spelnione. Dlatego musza one byc
zweryfikowane i konsekwencje braku spelnienia tych zalozen musza byc rozwazone.
METODA NAJMNIEJSZYCH KWADRATÓW
W analizie regresji parametry modelu
(
)
0
i
j
β β nie sa znane i musza byc
oszacowanie w próbie danych. W tym celu, kryterium sumy najmniejszych
kwadratów (ordinary least squares, OLS) jest stosowane do oszacowani najlepszego
liniowego zwiazku pomiedzy zmienna wyjasniana (Y) i zmiennymi wyjasniajacymi
X
j
. Model regresji szacowany w próbie danych jest typowo zapisany jako
0
1
1
2
2
i
i
i
p
ip
i
i
i
Y
b
b X
b X
b X
e
ˆ
Y
e
= +
+
+ +
+
= +
K
4
gdzie Y
i
i X
ij
sa tymi samymi wartosciami co w modelu dla populacji. Wartosci
dopasowane
i
ˆ
Y
sa wartosciami przewidywanymi dla Y
i
, b
0
jest szacunkiem stalej
regresji
0
β , wspólczynniki regresji b
j
(b
1
, b
2
, ..., b
p
) sa szacunkami odpowiadajacych
im parametrów populacji
j
β (
1
2
,
,
,
p
β β
β
K
), a e
i
sa szacunkami pozostalosci regresji
i
ε . Metoda OLS pozwala na selekcje takich wartosci b
0
oraz b
j
, które minimalizuja
ogólny blad
i
i
i
ˆ
e
Y
Y
= −
w taki sposób, ze suma kwadratu pozostalosci, RSS
=
2
i
e
∑
(residual sum of squares), jest najmniejsza z mozliwych. Poniewaz
2
σ jest
srednia wartoscia kwadratu pozostalosci
i
ε w populacji mozemy oczekiwac, ze
nieobciazonym estymatorem
2
σ jest sredni kwadrat pozostalosci (residual mean
square) MSE = RSS / (n - p - 1).
Jezeli zalozenia odnosnie rozkladu pozostalosci sa spelnione to metoda OLS
posiada wlasciwosci BLUE (best linear unbiased estimator). Estymator OLS jest
najlepszym (dajacym najmniejsze wariancje parametrów) linowym i nieobciazonym
estymatorem parametrów modelu regresji. Jezeli zalozenia modelu regresji nie sa
spelnione to metoda OLS nie posiada wlasciwosci BLUE. W konsekwencji,
szacowane parametry modelu moga byc obciazone, a ich wariancje nie sa najmniejsze
z mozliwych.
PODSTAWOWE KONCEPTY ANALIZY REGRESJI
W dalszej czesci prezentacji posluze sie nastepujacym przykladem
syntetycznym
1
. Poradnia psychologiczna pragnie okreslic efektywnosc nowego
programu terapii rodzinnej. W tym celu, losowo wyselekcjonowano 25 par pacjentów
z posród wszystkich par rozpoczynajacych terapie w ciagu ostatnich 10 miesiecy.
Zmienna wyjasniana w testowanym modelu regresji jest efektywnosc terapii (ET), to
5
jest zmiana (przyrost) w deklarowanym zadowoleniu z pozycia malzenskiego
pomiedzy poziomem na rozpoczecie terapii i poziomem osiagnietym po okreslonym
okresie trwania terapii. Dlugosc terapii (DT), mierzona w tygodniach, jest
najwazniejsza zmienna wyjasniajaca. Poniewaz dlugosc pozycia malzenskiego
(DPM), mierzona w latach, i liczba dzieci (LD) moga miec wplyw na efektywnosc
terapii te zmienne sa równiez zawarte w testowanym modelu regresji. Dane dla 25 par
pacjentów sa przedstawione w Tabeli 1.
----- tutaj Tabela 1 -----
Wyniki analizy regresji, za pomoca pakietu statystycznego SAS (SAS
Institute, 1999a), sa nastepujace:
¶
(
) (
)
(
)
(
)
26 65
0.61
2 01
4 25
8 75
0 26
3 30
8 20
ET
.
DT
.
DPM
.
LD
.
.
.
.
=
+
−
−
W powyzszym równaniu, wspólczynniki regresji
( )
j
b okreslaja zmiane w zmiennej
wyjasnianej
( )
Y
dla zmiany o 1 jednostke w danej zmiennej wyjasniajacej
( )
j
X
,
utrzymujac pozostale zmienne wyjasniajace
( )
k j
X
≠
na stalych poziomach. Na
przyklad, kazdy dodatkowy tydzien terapii (DT) jest zwiazany z podwyzszeniem
zadowolenia z pozycia malzenskiego (ET) o 0.61 jednostek, utrzymujac dlugosc
pozycia malzenskiego (DPM) oraz liczbe dzieci (LD) na stalych poziomach.
Jedna z najwazniejszych miar efektywnosc zastosowanego modelu regresji
jest R
2
(R-kwadrat). R
2
jest frakcja zmiennosci w Y, która jest wyjasniana przez
zmiany w zmiennych X
j
. Gdy zmienne X
j
wyjasniaja cala zmiennosc w Y, R
2
jest +1.
Jezeli nie ma zwiazku pomiedzy Y i zmiennymi X
j
, R
2
jest zero. R
2
to takze kwadrat
korelacji miedzy wartosciami przewidywanymi ˆ
Y przez nasz model regresji oraz
6
wartosciami zaobserwowanymi Y,
2
2
ˆ
YY
R
r
=
. W naszym przykladzie R
2
= 0.35 co
oznacza, ze DT, DPM i LD wspólnie wyjasniaja 35% zmiennosci w ET.
Bledy standardowe (coefficient standard errors) wspólczynników regresji
( )
j
s b sa miara zakresu prawdopodobnych wartosci szacowanych wspólczynników w
populacji. Na przyklad, mozemy stwierdzic z ufnoscia 95%, ze prawdziwa wartosc
danego wspólczynnika jest w granicach ±2.0 bledu standardowego od szacowanej
wartosci
2
. Bledy standardowe wspólczynników regresji dla naszego modelu sa podane
w nawiasach ponizej szacowanych wartosci. Na przyklad, blad standardowy
wspólczynnika regresji dla DT wynosi
( )
0 26
DT
s b
.
=
. W konsekwencji, mozemy
stwierdzic z ufnoscia 95%, ze prawdziwa wartosc tego wspólczynnika znajduje sie w
przedziale 0.61 ± 2(.26).
Statystyki testowe-t mierza statystyczna istotnosc zmiennych X
j
w predykcji
zmiennej Y. Jezeli dana zmienna X
j
nie jest istotna to jej wspólczynnik regresji
0
j
β
=
w badanej populacji. Wartosc statystyki testowej-t dla danego wspólczynnika to iloraz
szacunku tego wspólczynnika i jego bledu standardowego
( )
j
j
b s b . Wartosci
statystyki testowej-t, w przyblizeniu, wieksze niz |2| oznaczaja, ze dana zmi enna X
j
jest wazna ze statystycznego punktu widzenia
3
. W naszym przykladzie, wartosci
statystyk testowych-t dla DPM (t = -0.61) i LD (t = -0.52) sa blisko zera, i dlatego te
zmienne prawdopodobnie nie przewiduja poziomu ET. Natomiast DT wydaje sie byc
wazna gdyz wartosc jej statystyki testowej-t > 2 (t = 2.37). Innymi slowy,
zaobserwowana relacja (b
DT
= 0.61) pomiedzy efektywnoscia psychoterapii i
dlugoscia psychoterapii nie jest wynikiem czynników losowych. Natomiast
zaobserwowana relacja pomiedzy efektyw noscia terapii i dlugoscia pozycia
7
malzenskiego (b
DPM
= -2.01) oraz liczba dzieci (b
LD
= -4.25) jest prawdopodobnie
wynikiem czynników losowych i nie wystepuje w badanej populacji.
TESTOWANIE ZALOZEN REGRESJI
Testowanie zalozen modelu regresji polega na eksploracji cech analizowanego
zbioru danych oraz testowanego modelu regresji. W diagnostyce statystycznej
szczególnie wazna role spelniaja metody graficzne (Cook i Weisberg, 1994). Grafika
statystyczna, w odróznieniu od formalnych testów statystycznych, pozwala na ocene
stopnia spelnienia róznorodnych zalozen testowanego modelu, ujawnia strukture
szczególnego problemu diagnostycznego, oraz sugeruje najbardziej optymalna akcje
korekcyjna. Czesto istnieje naturalna hierarchia w uzyciu narzedzi diagnostycznych.
Analize zalozen modelu regresji typowo zaczynamy od diagnozy i korekty
problemów wspólzaleznosci linowej oraz wplywowych obserwacji. Zalozenia
normalnosci oraz homogenicznosci rozkladu pozostalosci regresji rozwazamy jako
ostatnie zagadnienia odnoszace sie do analizowanego zbioru danych. Problemy
nieliniowosci oraz obecnosci bledu pomiarowego sa, w pewien sposób, oddzielne
gdyz w wiekszym stopniu dotycza przyjetej formy testowanego modelu regresji niz
charakterystyk analizowanego zbioru danych.
WSPÓLLINIOWOSC
Gdy zmienne wyjasniajace sa wysoko skorelowane wyniki analizy regresji
moga byc niestabilne. Szacowany efekt danej zmiennej X
j
moze zmienic wielkosc, a
nawet kierunek, zaleznie od pozostalych zmiennych wyjasniajacych zawartych w
testowanym modelu regresji. Warunek, w którym zaleznosc linowa pomiedzy
zmiennymi wyjasniajacymi zagraza trafnosci wyników analizy regresji jest nazywany
8
wspólliniowoscia (collinearity) lub wielowspólliniowoscia (multicollinearity) aby
podkreslic, ze ten problem moze dotyczyc wiecej niz dwóch zmiennych
wyjasniajacych. Alternatywnie, problem zaleznosci linowej jest nazywany zlym
uwarunkowaniem (ill conditioning) aby podkreslic, ze ten problem dotyczy
szczególnej formy macierzy X (Belsley, Kuh i Welsch, 1980). W literaturze
stosowanej przyjely sie okreslenia wspólliniowosc oraz wielowspólliniowosc, które sa
stosowane zamiennie.
Symptomami wysokiej wspólliniowosci sa znacznie zanizone statystyki
testowe-t dla zmiennych wyjasniajacych, które logicznie powinny posiadac relacje ze
zmienna wyjasniana (lub dziwnie wysokie wartosci statystki-t), lub wspólczynniki
regresji posiadajace odwrotny kierunek wspólczynnika od spodziewanego (na
przyklad, w relacji inteligencji do wyników w szkole, jezeli wspólczynnik dla
inteligencji bylby negatywny). Innym typowym objawem wysokiej wspólliniowosci
jest sytuacja gdy testowany model regresji daje wysokie R
2
jednak zadna zmienna
wyjasniajaca nie jest statystycznie istotna.
Typowo efekt wspólliniowosci jest wyrazany poprzez wspólczynnik VIF
(variance inflation factor), który wskazuje o ile wariancje wspólczynników sa
zawyzone z powodu zaleznosci liniowych w testowanym modelu. VIF dla danej
zmiennej niezaleznej X
j
jest zdefiniowany jako
(
)
2
VIF
1 1
j
j
/
R
=
−
,
gdzie
2
j
R
jest wspólczynnikiem wielokrotnej determinacji dla regresji danej zmiennej
X
j
na pozostale zmienne wyjasniajace zawarte w modelu
4
(Belsley, Kuh i Welsch,
1980, s. 93). VIF
j
wskazuje o ile wariancja szacowanego wspólczynnika regresji
9
( )
2
j
s
b jest podwyzszona z powodu wspólliniowosci danej zmiennej niezaleznej z
pozostalymi zmiennymi niezaleznymi.
Pakiety statystyczne (np. SAS, SPSS) typowo podaja wartosc VIF oraz inna
wielkosc nazywana TOL (tolerance). TOL jest zdefiniowany jako
1 VIF
. Fox (1991)
rekomenduje stosowanie
j
VIF gdyz wielkosc ta bezposrednio wyraza o ile przedzial
ufnosci dla danego wspólczynnika jest poszerzony, lub o ile wartosc statystyki
testowej-t jest obnizona z powodu zaleznosci linowej. Chociaz nie ma uniwersalnie
przyjetej krytycznej wartosci dla VIF, wartosci VIF
j
= 4 moga byc uwazane za
wskazujace na obecnosc problemu wspólliniowosci gdyz oznaczaja, ze dany przedzial
ufnosci jest przynajmniej dwa razy szerszy (a dana statystyka testowa-t jest co
najmniej o polowe mniejsza) z powodu zaleznosci linowych.
Problem zaleznosci linowej moze byc takze wykryty poprzez wizualne
przeegzaminowanie macierzy korelacji zmiennych wyjasniajacymi. Wysoki
wspólczynnik korelacji,
j
k
j
X X
r
≠
, pomiedzy zmienna X
j
i jakakolwiek inna zmienna
k
j
X
≠
jest warunkiem wystarczajacym, chociaz nie koniecznym, do wystapienia
wysokiego
5
VIF
j
. Na przyklad, wspólczynnik korelacji
87
j
k
j
X X
r
.
≠
=
wyniknie w
j
VIF
4.1
≥
(
j
VIF
2 0
.
≥
).
Nie ma prostego sposobu na korekte zaleznosci linowej. Gdy wystapi problem
silnej wspólliniowosci pomiedzy
1
X
i
2
X
dane niosa malo informacji o
oddzialywaniu zmiennej
1
X
na Y kontrolujac statystycznie (utrzymujac na stalym
poziomie)
2
X
. To samo mozemy powiedziec o efekcie
2
X
na Y. Tak jest poniewaz
1
X
i
2
X
dziela wiekszosc swoich wariancji i pozostaje mala proporcja wariancji w
jednej zmiennej gdy ta druga jest utrzymywana na stalym poziomie. Poniewaz
1
β
jest
10
efektem czesciowym zmiennej
1
X
kontrolujac
2
X
oszacowanie tego parametru nie
jest precyzyjne, gdyz opiera sie na relatywnie malej proporcji informacji zawartej w
X
1
.
Strategie korekty problemu wysokiej wspólliniowosci odnosza sie do trzech
elementów zastosowania analizy regresji: danych, testowanego modelu, oraz metody
estymacji (Fox, 1991). Najbardziej pozadana metoda korekty problemu wysokiej
wspólliniowosci jest poprawa uwarunkowania danych poprzez rozszerzenie
istniejacego zbioru obserwacji o nowe, w taki sposób, aby zminimalizowac istniejace
zaleznosci liniowe pomiedzy zmiennymi wyjasniajacymi. Ta metoda, chociaz
najbardziej pozadana ze statystycznego i teoretycznego punktu widzenia, ma
ograniczone zastosowanie praktyczne z powodu kosztów i czasu realizacji planów
badawczych. Ponadto, dodatkowe obserwacje nie gwarantuja poprawy
uwarunkowania zaleznosci pomiedzy zmiennymi wyjasniajacymi, szczególnie jezeli
manipulacja eksperymentalna tych zmiennych nie jest mozliwa. Z tych powodów
strategia wprowadzenie dodatkowych danych prawdopodobnie nie jest metoda o
znaczeniu praktycznym (Belsley i in., 1980; Fox, 1991).
Chociaz wysoka wspólliniowosc to przede wszystkim problemem danych,
jedna z najbardziej skutecznych strategii korekcyjnych tego problemu jest
przeformulowanie testowanego modelu regresji. Przeksztalcenie modelu moze
nastapic w dwojaki sposób. Pierwszy sposób to wyrazenie zmiennych wyjasniajacych
bedacych w zaleznosci linowej jako kompozyt tych zmiennych. Na przyklad, jezeli w
testowanym modelu mamy wzrost i wage jako zmienne wyjasniajace, które sa zwykle
wysoko skorelowane, mozemy zastapic te zmienne nowa zmienna wyrazajaca
stosunek wzrostu do wagi. Jezeli liczba zmiennych wyjasniajacych w testowanym
modelu jest duza to mozemy posluzyc sie analiza glównych skladowych w celu
11
redukcji tych zmiennych do jednej lub kilku relatywnie niezaleznych kompozytów.
Jezeli tak otrzymane kompozyty oryginalnych zmiennych wyjasniajacych poddaja sie
interpretacji to moga byc one uzyte jako zmienne wyjasniajace w analizie regresji.
Kilka wariantów tego podejscia jest znanych w literaturze pod nazwami „principal
component regression” oraz „latent root regression” (Wetherill, Duncombe, Kenward,
Köllerström, Paul i Vowden, 1986).
Drugi sposób przeformulowania testowanego modelu regresji to redukcja
oryginalnego zbioru zmiennych wyjasniajacych do mniejszego i mniej skorelowanego
podzbioru tych zmiennych. Jest to zdecydowanie najczesciej stosowana metoda
rozwiazywania problemy wysokiej wspólliniowosci. Musze jednak podkreslic, ze
redukcja zmiennych wyjasniajacych wiaze sie ze zreformulowaniem a priori
postawionej hipotezy o zwiazku pomiedzy zmienna zalezna i zmiennymi
niezaleznymi. Idealnie, taka selekcja zmiennych wyjasniajacych powinna byc
dokonana w swietle teorii badanego procesu psychologicznego, a nie poprzez jedna z
dostepnych metod automatycznej selekcji modelu regresji. Automatyczne metody
selekcji modelu to selekcja postepujaca (forward selection), eliminacja wsteczna
(backward elimination), oraz metoda krokowa (stepwise). W selekcji postepujacej
zaczynamy od jednej zmiennej wyjasniajacej i dodajemy zmienne do modelu, które
na danym etapie selekcji maksymalizuja R
2
. Proces selekcji zatrzymuje sie gdy
poprawa w R
2
nie osiaga ustalonego minimum. Eliminacja wsteczna jest podobna z
tym, ze proces selekcji rozpoczyna sie od pelnego modelu, zawierajacego wszystkie
zmienne wyjasniajace, i dana zmienna jest eliminowana z modelu jezeli jej brak nie
prowadzi do ustalonego spadku w R
2
. Metoda postepujaca i wsteczna charakteryzuja
sie tym, ze dana zmienna wyjasniajaca nie moze znalezc sie w modelu wiecej niz raz.
12
Metoda krokowa jest kombinacja metody postepujacej i wstecznej. W metodzie
krokowej dana zmienna wyjasniajaca moze opuscic lub wejsc do modelu wiele razy.
Metody automatycznej selekcji modelu sa uniwersalnie krytykowane (np.
Draper i Smith, 1981; Weisberg, 1985; Wetherill i in., 1986) poniewaz ostateczny
podzbiór zmiennych wyjasniajacych jest zalezny od zastosowanej metody selekcji, i
zwykle nie jest optymalny ani z teoretyczne go ani ze statystycznego punktu widzenia.
To jest, metody automatycznej selekcji, z definicji, nie biora pod uwage czynników
teoretycznych, ani nie musza dac maksymalnego R
2
dla wynikajacego podzbioru
zmiennych wyjasniajacych o danej wielkosci. Ponadto, me tody automatycznej
selekcji w znaczny sposób przeceniaja istotnosc otrzymanych wyników poniewaz
testowany model jest dostosowywany do losowych charakterystyk analizowanego
zbioru danych (Weisberg, 1985). W konsekwencji, metody automatycznej selekcji
modelu powinny byc stosowane z rozwaga oraz w swietle ograniczen tych technik.
Ostatnia strategia korekty wysokiej wspólliniowosci to zastosowanie
estymatora nie spelniajacego warunków BLUE. Taki estymator daje obciazone
szacunki parametrów modelu regresji, ale z relatywnie zredukowanymi bledami
standardowymi w porównaniu z metoda OLS (Hoerl i Kennard, 1970a, 1970b;
Marquardt i Snee, 1975). Najszerzej stosowanym obciazonym estymatorem jest
regresja krawedziowa (ridge regression). Regresja krawedziowa jest modyfikacja
metody najmniejszych kwadratów, w której mala wartosc stala c = 0, nazywana
obciazajaca konstanta, jest dodana do wariancji zmiennych wyjasniajacych.
Gdy c = 0 estymator krawedziowy jest estymatorem OLS. Obciazenie szacowanych
wspólczynników regresji wzrasta wraz z c, a wariancja parametrów maleje. Zawsze
istnieje jakas wartosc c, dla której estymator krawedziowy daje mniejsze bledy
standardowe niz estymator OLS. Jednak, trudnosc w zastosowaniu regresji
13
krawedziowej polega na tym, ze optymalna wartosc dla c nie jest znana i jest inna dla
kazdej aplikacji modelu regresji (Neter, Kutner, Nachtsheim i Wasserman, 1996).
Regresja krawedziowa jest mozliwa w wiekszosci popularnych pakietów
statystycznych (np. SAS i SPSS). Draper i Smith (1981), Weisberg (1985) oraz Fox
(1991) sugeruja szczególna rozwaga w stosowaniu tej metody estymacji. Weisberg
(1985) podkresla, ze w sytuacji problemu wspólliniowosci regresja krawedziowa
moze dac nam relatywnie duza redukcje bledów standardowych, jednak wartosc tej
redukcji nie jest jasna. Jezeli szacowane
j
β nie sa blisko zera to korzysci
wyplywajace z zastosowania metody krawedziowej sa nieznaczne. Jezeli szacowane
j
β sa blisko zera to metoda OLS daje nam malo precyzyjne (posiadajace duze bledy
standardowe), ale nieobciazone (prawidlowe) szacunki parametrów. Z drugiej strony,
metoda krawedziowa daje nam bardziej precyzyjne, ale obciazone szacunki
parametrów modelu.
Powracajac do naszego przykladu, w szacowanym modelu regresji ET na DT,
DPM i LD, jedynie wspólczynnik regresji dla DT jest statystycznie istotny, t(21) =
2.37, p < .001, podczas gdy wspólczynniki dla DPM, t(21) = -0.61, p > .5, oraz LD,
t(21) = -0.52, p > .5, nie osiagnely statystycznej istotnosci. Zauwazmy jednak, ze
zmienne DPM i LD posiadaja relatywnie wysokie wskazniki zaleznosci liniowej,
DPM
VIF
2 5
.
=
i
LD
VIF
2 5
.
=
, spowodowanej wysoka korelacja (r = .91) pomiedzy
tymi zmiennymi.
Wysoka korelacja pomiedzy DPM i LD jest zrozumiala gdyz badane pary
malzenskie sa we wczesnych latach (1.5 do 11 lat) malzenstwa, które sa typowym
okresem powiekszania rodziny. Dlatego najprostsza metoda obnizenia tej korelacji
bylo by przebadanie dodatkowych par w pózniejszych latach pozycia malzenskiego.
Poniewaz rozszerzenie zakresu zaobserwowanych wartosci zmiennej DPM nie jest
14
mozliwe, problem wysokiej wspólliniowosci pomiedzy DPM i LD musi byc
rozwiazany poprzez wyeliminowanie jednej z tych dwóch zmiennych wyjasniajacych.
Idealnie taka decyzja powinna byc podyktowana czynnikami teoretycznymi. W
naszym wypadku, pozostawimy w modelu zmienna DPM. Szacunki parametrów
regresji dla tak zredukowanego modelu sa pokazane ponizej:
¶
(
) (
)
(
)
27 00
0.59
3 57
8 58
0 25
1 34
RZ
.
DT
.
DPM
.
.
.
=
+
−
Eliminacja zmiennej LD skutecznie rozwiazala problemu wspólliniowosci (VIF
DPM
=
1.02), i spowodowala tylko nieznaczna degradacje efektywnosci (R
2
= 0.34)
zredukowanego modelu regresji. Ponadto, zauwazmy, ze zmienna DPM jest
statystycznie istotna (t = -2.67, p < .05) w zredukowanym modelu, podczas gdy byla
ona nieistotna w pelnym modelu regresji.
NIETYPOWE I WPLYWOWE OBSERWACJE
W analizie regresji nietypowe obserwacje (outliers) posiadaja nietypowe
wartosci zmiennej Y dla ich wartosci zmiennych X
j
, i w konsekwencji, posiadaja duze
wartosci pozostalosci e. Nietypowe obserwacje to takze obserwacje z relatywnie
niskimi pozostalosciami regresji, lecz z nietypowymi wartosciami jednej lub wiecej
zmiennych wyjasniajacych. Nietypowe obserwacje sa problematyczne dla metody
najmniejszych kwadratów poniewaz moga w znaczny sposób wplywac na wyniki
(szacunki parametrów) analizy regresji. Takie nietypowe obserwacje nazywamy
wplywowymi.
W regresji prostej, obserwacja posiadajaca nietypowa wartosc Y
i
dla danej
wartosci X
i
posiada wysoka odmiennosc (discrepancy). Natomiast obserwacja
posiadajaca typowa wartosc Y
i
(male e
i
) i nietypowa wartosc X
i
posiada wysoka
dzwignie (leverage). Czesto odmienne obserwacje maja duze wartosci pozostalosci
15
regresji e, ale nie zawsze. Obserwacja posiadajaca wysoka dzwigne moze miec mala
wartosc e
i
, poniewaz przyciaga line (plaszczyzne w regresji wielokrotnej) regresji
i
ˆ
Y
blisko Y
i
. W konsekwencji, wplyw danej obserwacji na wspólczynniki regresji jest
wyrazany jako funkcja odmiennosci i dzwigni tej obserwacji (Fox, 1991):
Wplyw Obserwacji = Dzwignia
×
Odmiennosc.
Diagnostyka wplywu obserwacji na wyniki analizy regresji sprowadza sie do analizy
odmiennosci i dzwigni tych obserwacji, lub bezposredniej oceny wplywu obserwacji
na wspólczynniki testowanego modelu regresji.
Najczesciej stosowana miara dzwigni danej obserwacji i jest tak zwana
wartosc h
i
(hat-value) tej obserwacji. W regresji prostej, wartosc h mierzy dystans
danej obserwacji od sredniej wartosci zmiennej X:
(
)
(
)
2
2
1
i
i
i
X
X
h
n
X
X
−
= +
−
∑
.
W regresji wielokrotnej, h
i
mierzy dystans od punktu srednich (centroid) wszystkich
zmiennych wyjasniajacych biorac pod uwage strukture korelacyjna tych zmiennych.
Wartosci h
i
mieszcza sie w przedziale 1
1
i
n
h
≤ ≤
, a ich suma jest równa liczbie
zmiennych wyjasniajacych,
i
h
p
=
∑
. Niektóre systemy statystyczne (np. SPSS)
podaja odleglosc Mahalanobisa (Mahalanobis distance), m
i
, jako alternatywna miare
dzwigni obserwacji i. Odleglosc Mahalanobisa jest otrzymana poprzez opuszc zenie
elementu 1/n i pomnozenie pozostalosci przez (n – 1) w równaniu dla h
i
:
(
)
1
1
i
i
m
h
n
n
=
−
−
.
Belsley i in. (1980) deklaruja obserwacje jako punkty wysokiej dzwigni (high-
leverage points), których wartosci h
i
przekraczaja dwie srednie wartosc, to jest
2
i
h
p n
>
. Gdy zmienne wyjasniajace posiadaja rozklad wielozmiennowy normalny
16
(multivariate normal), ta wartosc krytyczna dla h
i
pozwala na zidentyfikowanie 5%
najbardziej ekstremalnych obserwacji.
Miara odmiennosci obserwacji i w modelu regresji jest t-standaryzowana
pozostalosc regresji (studentized residual) (Belsley i in., 1980)
( )
1
i
i
i
i
e
t
MSE
h
−
=
−
,
gdzie e
i
i h
i
sa wartosciami z modelu regresji szacowanego dla wszystkich n
obserwacji. Natomiast blad standardowy regresji
( )
i
MSE
−
jest otrzymany poprzez
dopasowanie modelu regresji do (n - 1) obserwacji eliminujac obserwacje i. Tak
wystandaryzowane pozostalosci regresji maja rozklad t(n - p – 2), i okolo 5%
obserwacji bedzie sie znajdowalo poza zakresem
2
i
t
≤
. W konsekwencji, Fox
(1991) sugeruje traktowanie wartosci t
i
przekraczajace ± 2 jako wskazujace na
obserwacje zaslugujace na nasza uwage. W literaturze statystycznej, t-
standaryzowane pozostalosci regresji sa takze nazywane „deletion residuals”
(Atkinson, 1985), oraz „externally Studentized residuals” (Cook i Weisberg, 1982).
Najbardziej bezposrednia miara wplywu obserwacji i na szacunki
wspólczynników regresji b
j
jest otrzymana z testowania danego modelu regresji
dwukrotnie. Raz w pelnym komplecie n obserwacji oraz powtórnie w n – 1
obserwacjach, gdy obserwacja i jest wyeliminowana ze zbioru danych. Belsley i in.
(1980) definiuja taka róznice dla danego wspólczynnika regresji j jako
( )
DFBETA
ij
j
j
i
b
b
−
= −
, dla kazdego i = 1, . . ., n,
gdzie b
j(-i)
jest szacunkiem parametru
j
β gdy obserwacja i jest wyeliminowana ze
zbioru danych. Aby ulatwic interpretacje, Belsley i in. (1980) takze proponuja
wystandaryzowana wersje jako
17
( )
DFBETA
DFBETAS
ij
ij
j
-i
MSE
b
=
.
Walor wyrazania wplywu danej obserwacji w jednostkach bledu standardowego
regresji pozwala na okreslenie (w przyblizeniu) statystycznej istotnosci tego wplywu.
W konsekwencji Fox (1991) sugeruje stosowanie wartosci |DFBETAS
ij
| > 2 jako
wskazujace na istotny wplyw danej obserwacji w malych i sredniej wielkosci próbach
badawczych. Dla duzych prób, Belsley i in. (1980) proponuja stosowanie wartosci
krytycznej skorygowanej o wielkosc próby jako
ij
DFBETAS
2
n
>
.
Poniewaz dla danej obserwacji i mamy p + 1 wplywów (p wspólczynników
plus stala regresji) tej obserwacji na szacunki parametrów modelu potrzebujemy
metody na okreslenie ogólnego wplywu danej obserwacji na szacowany model
regresji. Dwie najczesciej stosowane miary ogólnego wplywu obserwacji na
szacowany model regresji to „odleglosc Cooka” (Cook’s distance) oraz DFFIT. Obie
miary wyrazaja wplyw obserwacji jako iloczyn dzwigni i odmiennosci tej obserwacji.
Cook (1977) zaproponowal miare odleglosci D obserwacji i jako
(
) (
)
2
2
1
1
i
i
i
i
e
h
D
MSE p
h
=
×
+
−
,
gdzie pierwszy element jest miara odmiennosci a drugi jest miara dzwigni danej
obserwacji. Belsley i in. (1980) zaproponowali konceptualnie identyczny indeks
ogólnego wplywu danej obserwacji jako
DFFIT
1
i
i
i
i
h
e
h
=
−
,
oraz jego wersje wystandaryzowana jako
DFFITS
1
i
i
i
i
h
t
h
=
−
.
18
Fox (1991) zauwaza, ze z wyjatkiem pewnych rzadkich konfiguracji danych
(
)
2
DFFITS
1
i
i
D
p
≈
+
. Dla DFFITS, Chatterjee i Hadi (1988), Belsley i in. (1980)
oraz Fox (1991) rekomenduja stosowanie wartosci krytycznej skorygowanej o
wielkosc próby jako
(
) (
)
DFFITS
2
1
1
i
p
n
p
>
+
− −
, oraz odpowiedniej wartosci
krytycznej dla odleglosci Cooka jako
(
)
4
1
i
D
n
p
>
− −
.
Wplyw danej obserwacji na wyniki analizy regresji moze byc takze wyrazony
poprzez wplyw tej obserwacji na bledy standardowe szacowanych wspólczynników
regresji. Poniewaz przedzialy ufnosci szacowanych wspólczynników regresji sa
bezposrednio proporcjonalne do bledów standardowych tych wspólczynników,
Belsley i in. (1980) zaproponowali miare wplywu obserwacji i na wspólny obszar
ufnosci wspólczynników szacowanego modelu regresji jako kwadrat stosunku
przedzialów ufnosci dla pelnego (n) i zredukowanego (n - 1) zbioru danych
(
)
1
2
1
1
COVRATIO
1
2
1
i
p
i
i
h
n
p
t
n
p
+
=
×
−
− − +
− −
.
Wartosci COVRATIO
i
< 1 wskazuja na obserwacje, których eliminacja zmniejszy
bledy standardowe szacowanych wspólczynników regresji, natomiast wartosci
COVRATIO
i
> 1 wskazuja na obserwacje, których eliminacja zwiekszy bledy
standardowe szacowanych wspólczynników regresji (Belsley i in., 1980). Belsley i in.
(1980) oraz Fox (1991) sugeruja stosowanie wartosci krytycznych skorygowanych na
wielkosc próby jako
(
)
COVRATIO
1
3
1
i
p
n
− >
+
.
Do tej pory rozwazalismy jedynie wplyw pojedynczych obserwacji. W
sytuacjach gdy mamy do czynienia z grupami obserwacji wywierajacymi kolektywny
wplyw na szacunki parametrów modelu regresji niezastapione sa metody graficzne, a
wsród nich wykres nazywany „partial-regression leverage plot” (Belsley i in., 1980)
19
lub „added-variable plot” (Cook i Weisberg, 1982) lub, po prostu, „partial-regression
plot” (Fox, 1991). Proponuje tlumaczenie nomenklatury Foxa (1991) jako „wykres
regresji czastkowej”.
Wykres regresji czastkowej jest konstruowany w nastepujacy sposób.
Zdefiniujmy
( )
1
i
y
jako pozostalosc z regresji zmiennej Y na wszystkie zmienne
wyjasniajace z wyjatkiem X
1
, X
j? 1
. To jest pozostalosc z dopasowania modelu
( )
( )
( )
( )
1
1
1
1
0
2
2
i
i
p
ip
i
Y
b
b X
b X
y
=
+
+ +
+
K
.
Podobnie,
( )
1
i
x
sa pozostalosciami z regresji zmiennej X
1
na pozostale X
j? 1
:
( )
( )
( )
( )
1
1
1
1
1
0
2
2
*
*
*
i
i
p
ip
i
X
b
b
X
b
X
x
=
+
+ +
+
K
.
Wykreslajac wartosci
( )
1
i
y
i
( )
1
i
x
pozwala na egzaminowanie dzwigni i wplywu kazdej
obserwacji na b
1
. Podobne wykresy moga byc skonstruowane dla pozostalych
wspólczynników regresji. Fox (1991) oraz Cook i Weisberg (1994) demonstruja
zastosowanie wykresów regresji czastkowej w diagnostyce wplywu grup obserwacji.
Cook i Weisberg (1989) oraz McCulloch (1993) rozwijaja koncept tych wykresów do
grafiki dynamicznej w wiecej niz dwóch wymiarach.
Wszystkie dyskutowane statystyki wplywu obserwacji sa dostepne we
wspólczesnych pakietach statystycznych ogólnego zastosowania (np. SAS, SPSS).
Jednak szczególnie wyróznia sie system SAS (SAS Institute, 1999b), który pozwala
egzaminowanie wplywu i dzwigni obserwacji na dynamicznych wykresach 3-
wymiarowych.
Diagnostyka wplywu obserwacji dla zredukowanego modelu regresji ET na
DT i DPM ukazuje cztery pary malzenskie posiadajace przynajmniej jedna statystyke
wplywu przekraczajaca swoja wartosc krytyczna. Para malzenska numer 19 posiada
DFFITS
19
= -3.2 i COVARTIO
19
= 4.0. Natomiast, para malzenska 18 posiada
20
DFFITS
18
= 1.5, a pary malzenskie 15 i 23 posiadaja odpowiednio COVRATIO
15
=
0.6 i COVRATIO
23
= 1.5. Dla naszych danych, zgodnie z zaleceniami Belsley i in.
(1980) oraz Fox (1991), wartosc krytyczna dla statystyki wplywu na parametry
modelu regresji jest DFFITS = 0.74, a wartosc krytyczna dla statystyki wplywu na
wariancje szacowanych parametrów modelu jest COVRATIO = 1.36 dla
zaobserwowanych wartosci COVRATIO
i
> 1, oraz COVRATIO = 0.64 dla
COVRATIO
i
< 1.
Wplyw kazdej obserwacji na wspólczynniki regresji jest takze pokazany na
wykresach regresji czastkowych zaprezentowanych w Rycinie 1. W Rycinie 1
wczesniej zidentyfikowane wplywowe obserwacje (para 15, 18, 19, i 23) sa
oznaczone numerem obserwacji. Wykres regresji czastkowej dla DT (Rycina 1a)
potwierdza znaczny wplyw obserwacji 19, która powoduje zanizenie czastkowego
efektu DT na ET. Jak mozemy dalej zauwazyc z Ryciny 1a, wylaczenie obserwacji 19
z dalszych analiz spowoduje znaczne zmniejszenie odmiennosci obserwacji 15, 18, i
23, i w konsekwencji znaczne zmniejszenie wplywu tych obserwacji na czastkowy
efekt zmiennej DT na ET.
----- tutaj Rycina 1 -----
Wykres regresji czastkowej dla DPM (Rycina 1b) pokazuje relatywnie duzy
wplyw obserwacji 18 na czastkowy efekt DPM na ET. Jak mozemy dalej zauwazyc z
Ryciny 1b, para 15 posiada relatywnie duza odmiennosc oraz relatywnie mala
dzwignie, i, w konsekwencji, niewielki wplyw na czastkowy efekt zmiennej DPM na
ET. Pozostale obserwacje (19 i 23) wczesniej zidentyfikowane jako potencjalnie
wplywowe nie wydaja sie znaczaco odbiegac od glównej tendencji zawartej w
danych.
21
Powtórne sprawdzenie danych w Tabeli 1 wskazuje na blad wprowadzania
danych dla pary 19. Zgodnie z naszymi danymi para 19 byla w 82 tygodniu terapii
rodzinnej (DT
19
= 82), podczas gdy dopuszczalna dlugosc terapii, w naszym badaniu,
wynosila 40 tygodni. W konsekwencji dane pary 19 beda wykluczone z dalszych
analiz. Ponadto z dalszych analiz zostana wykluczone dane pary 18 z powodu duzego
wplywu tej obserwacji na czastkowy wspólczynnik regresji zmiennej DPM.
Ponowny test modelu regresji ET na DT i DPM w zredukowanym (n = 23)
zbiorze danych dal nastepujace równanie regresji:
¶
(
) (
)
(
)
17 33 1.25
4 59
12 78
0 47
1 46
ET
.
DT
.
DPM
.
.
.
=
+
−
Zgodnie z sugestiami wykresów regresji czastkowych wykluczenie obserwacji 18 i 19
z analizowanego zbioru danych wyniklo w znacznie wyzszych wspólczynnikach
regresji dla obu zmiennych wyjasniajacych niz te otrzymane w pelnym (n = 25)
zbiorze danych. Zwrócmy takze uwage na znaczny wzrost mocy wyjasniajacej (R
2
=
0.51) testowanego modelu po wykluczeniu par 18 i 19.
Decyzja odnosnie wykluczenia nietypowych obserwacji zawsze niesie ze soba
element niepewnosci. Chociaz problematyczne dane powinny byc wykluczone, nie
powinnismy eliminowac takich obserwacji bez namyslu i rozwagi. Fox (1991)
podkresla, ze jest krytyczne abysmy zawsze rozwazyli powód, dla którego niektóre
obserwacje sa nietypowe. Nietypowe obserwacje moga motywowac modyfikacje
testowanego modelu poprzez dodanie zmiennej wyjasniajacej. Powinnismy jednak
unikac sytuacji, w których mala proporcja danych determinuje forme naszego modelu
regresji. Jezeli jednak decydujemy sie na eliminacje nietypowych obserwacji to ciazy
na nas obowiazek odnotowania tego faktu w raporcie badawczym.
22
NORMALNOSC ROZKLADU POZOSTALOSCI REGRESJI
Metoda OLS jest relatywnie odporna na brak spelnienia zalozenia normalnosci
rozkladu pozostalosci regresji. Jednak w przypadku malych prób lub znacznego
pogwalcenia tego zalozenia brak normalnosci rozkladu pozostalosci moze zagrazac
trafnosci wyników analizy regresji. Normalnosc rozkladu pozostalosci jest typowo
egzaminowana za pomoca metod graficznych. Metody graficzne pozwalaja nam nie
tylko na okreslenia stopnia pogwalcenia tego zalozenia, ale takze na okreslenie formy
rozkladu pozostalosci. Takim narzedziem jest wykres normalnych centyli (normal
quantile-quantile plot) lub w skrócie wykres normalnych Q-Q, w którym empiryczne
centyle (quantiles) t-standaryzowanych pozostalosci regresji sa wykreslone na osi
rzednych a teoretyczne centyle z
i
, z rozkladu
( )
0,1
Z
N
:
, sa wykreslone na osi
odcietych. Jezeli nasze t
i
pochodza z rozkladu normalnego to, w granicach bledu
próby, uszeregowane rosnaco t
i
= z
i
, i wykres tych wartosci jest linowy. Konstrukcja i
interpretacja wykresów Q-Q jest opisana w szczególach w Chambers, Cleveland,
Kleiner i Tukey (1983) oraz Fox (1990). Wykresy normalnych Q-Q sa dostepne w
standardowych pakietach statystycznych (np. SAS, SPSS).
Wykres normalnych Q-Q dla zredukowanego (n = 23) zbioru danych jest
pokazany w Rycinie 2. Diagonalna linia referencyjna na wykresie odnosi sie do
idealnie normalnego rozkladu pozostalosci regresji. Jak mozemy zauwazyc z Ryciny
2, poza nieznaczna sklonnoscia rozkladu pozostalosci do skosnosci do lewej strony,
wzorzec wykresu pozostalosci wskazuje na rozklad nie odbiegajacy w znaczny
sposób od rozkladu normalnego.
----- tutaj Rycina 2 -----
Analiza stopnia spelnienia zalozenia normalnosci rozkladu pozostalosci jest w
wielu aspektach trudniejsza od analizy innych zalozen modelu regresji. Jezeli próba
23
badawcza jest relatywnie mala ocena normalnosci rozkladu jest relatywnie trudna.
Ponadto, brak spelnienia innych zalozen modelu regresji zwykle wplywa na rozklad
pozostalosci. Na przyklad, pozostalosci moga nie posiadac normalnego rozkladu
poniewaz niewlasciwa funkcjonalna forma modelu jest testowana, lub poniewaz
rozklad pozostalosci nie posiada stalej wariancji. Z tego powodu, zwykle dobra
strategia jest egzaminowanie stopnia spelnienia pozostalych zalozen modelu regresji
przed sprawdzeniem normalnosci rozkladu pozostalosci.
Efektywnym sposobem korekty braku normalnosci pozostalosci jest
transformacja zmiennej Y, z zastosowaniem prostej transformacji z rodziny
transformacji drabiny poteg (ladder of powers) Tukeya (1977). Taka transformacja
polega na wyrazeniu zmiennej Y jako
p
Y
Y
′ =
. Typowo p = -2, -1, -1/2, 1/2, 2, lub 3.
Zauwazmy, ze p = 1 oznacza brak transformacji. Transformacja dla p = 0 byla by
bezuzyteczna gdyz
0
1
Y
=
. Z tego powodu transformacja dla p = 0 oznacza
transformacje logarytmiczna
Y
logY
′ =
. Transformacje w „góre” (p > 1) drabiny
poteg koryguja pozytywna skosnosc rozkladu pozostalosci, transformacje w „dól” (p
< 1) drabiny poteg koryguja negatywna skosnosc rozkladu.
STALOSC WARIANCJI POZOSTALOSCI REGRESJI
Brak stalosci rozproszenia pozostalosci regresji w calym zakresie wartosci
zmiennych wyjasniajacych jest nazywana heteroscedastycznoscia (heteroscedasticity).
Jezeli zalozenie homogenicznosci rozproszenia pozostalosci jest spelnione to
mówimy, ze dane sa homoscedastyczne (homoscedastic). Heteroscedastycznosc nie
powoduje obciazenia szacunków parametrów regresji, ale wplywa ujemnie na
szacunki bledu standardowego regresji. W konsekwencji, heteroscedastycznosc
24
zagraza wnioskowaniu statystycznemu odnosnie szacowanych wspólczynników
regresji oraz ujemnie obciaza szacunki R
2
(Carroll i Ruppert, 1988).
Heteroscedastycznosc moze byc zdiagnozowana za pomoca wykresu
rozproszenia pozostalosci regresji e
i
i wartosci przewidywanych
i
ˆ
Y
. W przypadku
regresji prostej, wykres pozostalosci i wartosci przewidywanych moze byc zastapiony
wykresem e
i
i wartosciami zmiennej wyjasniajacej X
i
, poniewaz ˆ
Y jest linowa
funkcja X.
Wykres pozostalosci regresji i wartosci przewidywanych dla naszego modelu
regresji ET na DT i DPM testowanego w zredukowanym (n = 23) zbiorze danych jest
pokazany w Rycinie 3. Wzorzec rozproszenia pozostalosci regresji w Rycinie 3 nie
ukazuje zadnej systematycznosci i odpowiada warunkowi spelnienia zalozenia
homoscedastycznosci.
----- tutaj Rycina 3 -----
Gdy zalozenie homoscedastycznosci nie jest spelnione, wykres e
i
i
i
X (lub e
i
i
i
ˆ
Y
) pokazuje regularny wzorzec rozproszenia pozostalosci. Dwie takie sytuacje sa
przedstawione w Rycinie 4. Jak mozemy zauwazyc w Rycinie 4a, pozostalosci
regresji systematycznie rosna wraz z wartosciami zmiennej wyjasniajacej. Taki
wzorzec heteroscedastycznosci jest czesto obserwowany w danych rozwojowych, gdy
zmienna wyjasniana jest cecha podlegajac procesowi rozwoju a zmienna wyjasniajaca
jest wiek, poniewaz rosnace zróznicowanie interindywidualne jest naturalnym
zjawiskiem rozwojowym. Inny wzorzec heteroscedastycznosci jest przedstawiony w
Rycinie 4b. W tym przypadku, wariancja pozostalosci regresji jest najmniejsza dla
srednich wartosci zmiennej wyjasniajacej, i rosnie w raz z rosnacymi i malejacymi
wartosciami zmiennej wyjasniajacej.
----- tutaj Rycina 4 -----
25
Gdy wzorzec heteroscedastycznosci nie jest zbyt zlozony to mozemy
zastosowac transformacje z rodziny drabiny poteg
(
)
p
Y
Y
′ =
jako metode korekty
tego problemu. Na przyklad, w sytuacji przedstawionej w Rycinie 4a powinnismy
zastosowac transformacje z p < 1. Natomiast gdyby wariancja pozostalosci
systematycznie malala wraz z wartosciami ˆ
Y to powinnismy zastosowac
transformacje z p > 1. Typowo najbardziej skuteczna transformacje dobieramy
metoda prób i bledów. Poniewaz transformacja zmiennej Y moze zmienic
funkcjonalna forme regresji Y na X
j
powinnismy zawsze sprawdzic czy linowa forma
zwiazku jest dalej odpowiednia po dokonaniu transformacji zmiennej Y.
Gdy linowy zwiazek pomiedzy Y i X
j
jest odpowiedni, ale wariancje
pozostalosci regresji nie sa stale, alternatywa do transformacji Y jest zastosowanie
estymatora wazonych najmniejszych kwadratów (weighted least squares, WLS).
Estymator WLS rózni sie od estymatora OLS tym, ze pozostalosci regresji e
i
sa
wazone waga
2
1
i
i
w
σ
=
równa odwrotnosc wariancji pozostalosci regresji obserwacji
i, w wyrazeniu dla sumy kwadratu pozostalosci,
2
w
i i
RSS
w e
=
∑
(Carroll i Ruppert,
1988). Estymator WLS wymaga wiedzy o wariancji
2
i
σ , której zwykle nie
posiadamy. W takich przypadkach wariancje
2
i
σ musza byc oszacowane. Jednak
stosowanie szacunków dla
i
w w znacznym stopniu komplikuje inferencje
statystyczna w regresji. Na przyklad wielkosc wspólczynnika wielokrotnej
determinacji R
2
powinna byc interpretowana z ostroznoscia poniewaz nie posiada ona
jasnej interpretacji dla estymatora WLS (Neter i in., 1996). Regresja z zastosowaniem
estymatora WLS jest mozliwa za pomoca standardowych pakietów statystycznych
(np. SAS, SPSS).
26
NIELINIOWOSC
Niespelnienie zalozenia liniowosci funkcjonalnej formy modelu implikuje, ze
testowany model regresji nie wyjasnia, w sposób zadawalajacy, systematycznego
zwiazku pomiedzy Y i dana zmienna X
j
. Na przyklad, relacja pomiedzy Y i jedna (lub
wiecej) zmienna X
j
moze byc nieliniowa, lub dwie zmienne wyjasniajace mo ga nie
miec efektu addytywnego poniewaz pozostaja w interakcji w ich efekcie na Y. W
takich przypadkach zalozenie, ze
( )
0
i
E
ε
=
w calym zakresie wartosci zmiennych X
j
nie bedzie spelnione.
W regresji prostej wykres rozproszenia wartosci e
i
i X
i
jest niezmiernie
uzyteczny w zobrazowaniu natury zwiazku pomiedzy tymi zmiennymi. Jednak, w
regresji wielokrotnej podobne wykresy dla e
i
i kazdej zmiennej X
ij
sa nieadekwatne
poniewaz, w tym wypadku, jestesmy zainteresowani w czastkowej relacji pomi edzy Y
i kazda zmienna X
j
, kontrolujac pozostale zmienne
k
j
X
≠
.
W Rycinie 5 przedstawiamy typowy wzorzec rozproszenia pozostalosci
regresji gdy linowa relacja
0
1
ˆ
Y
b
b X
= +
jest nieadekwatna do wyjasnienia
kwadratowego zwiazku pomiedzy Y i X. Jak mozemy zauwazyc w Rycinie 5,
zalozenie
( )
0
i
E
ε
=
jest w oczywisty sposób pogwalcone gdyz srednia wartosc
pozostalosci jest
0
e
<
dla niski i wysokich wartosci X, natomiast
0
e
>
dla srednich
wartosci zmiennej X.
----- tutaj Rycina 5 -----
Aby w pelni zdiagnozowac odstepstwa od liniowosci zwiazku Y na X
j
musimy
skupic nasza uwage na szczególnych wzorcach warunkowego rozkladu pozostalosci
regresji i rozkladzie danej zmiennej wyjasniajacej. W regresji wielokrotnej, taka
diagnoze umozliwiaja wykresy nazywane partial-residual plots (Larsen i McCleary,
27
1972; Atkinson, 1985), lub alternatywnie nazywane component-plus-residual plot
(Wood, 1973; Cook i Weisberg, 1994) aby podkreslic to, ze warunkowy rozklad
pozostalosci regresji sklada sie z komponentu linowego modelu danej zmiennej
wyjasniajacej i pozostalosc regresji. Proponuje stosowanie tlumaczenia nomenklatury
zaproponowanej przez Larsena i McClearygo (1972) jako „wykres pozostalosci
czastkowej”.
W wykresie pozostalosci czastkowych
( )
j
i
e
i wartosci danej zmiennej
wyjasniajacej X
ij
, pozostalosci czastkowe dla zmiennej X
j
sa zdefiniowane jako
( )
j
i
i
j
ij
e
e
b X
= +
,
gdzie pierwszy komponent e
i
jest pozostaloscia z pelnego modelu regresji, a b
j
X
ij
jest
linowym komponentem czastkowego zwiazku pomiedzy Y i dana zmienna X
j
. W
przeciwienstwie do prostego wykresu e
i
i X
ij
, wykres pozostalosci czastkowej sa
efektywne w diagnostyce nieliniowosci poniewaz pokazuja czy dany zwiazek
czesciowy Y na X
j
jest monotoniczny (jedynie rosnacy lub malejacy) czy
niemonotoniczny (np. malejacy a nastepnie rosnacy). Nielinowy zwiazek
monotoniczny moze byc skorygowany za pomoca prostej transformacji danej
zmiennej wyjasniajacej
p
j
j
X
X
′ =
, natomiast nielinowy zwiazek niemonotoniczny nie
moze byc skorygowany za pomoca prostej transformacji z rodziny transformacji
poteg (Fox, 1991). Wykresy pozostalosci czastkowej sa dostepne w pakiecie SAS, ale
nie sa obecnie zaimplementowane w pakiecie SPSS.
Wykresy pozostalosci czastkowej dla regresji ET na DT i DPM testowanej w
zredukowanym (n = 23) zbiorze par malzenskich sa przedstawione w Rycinie 6.
Rycina 6a przedstawia czesciowy efekt dlugosci terapii na efektywnosc terapii,
natomiast Rycina 6b przedstawia czesciowy efekt dlugosci pozycia malzenskiego na
efektywnosc terapii. Jak mozemy zauwazyc w Rycinie 6, oba wykresy pokazuja, ze
28
linowa funkcja dla regresji czastkowych ET na DT oraz ET na DPM jest adekwatna
do opisania relacji pomiedzy tymi zmiennymi.
----- tutaj Rycina 6 -----
BLAD POMIAROWY W Y I X
Klasyczny model regresji zaklada, ze zmienna Y i X
j
sa pozbawione bledu
pomiarowego (Draper i Smith, 1981; Weisberg, 1985; Fuller, 1987; Neter i in., 1996;
Hausman, 2001). Chociaz blad pomiarowy jest powszechny, obecnosc bledu
pomiarowego jest czesto niedocenianym aspektem komplikujacym wnioskowanie w
analizie regresji (Fuller, 1991). Problem bledu pomiarowego najlepiej
zademonstrowac na przykladzie regresji prostej. Zalózmy, ze pragniemy oszacowac
zwiazek pomiedzy czasem spedzonym na nauce jezyka angielskiego i kompetencja
jezykowa ucznia. Zdefiniujmy X
i
jako prawdziwa wartosc spedzonego czasu, a
*
i
X
jako wartosc podana przez ucznia i. Podobnie zdefiniujmy Y
i
jako prawdziwy poziom
kompetencji ucznia, a
*
i
Y jako zaobserwowany poziom kompetencji ucznia i. W
konsekwencji mozemy zdefiniowac blad pomiarowy w Y i X jako
*
i
i
i
*
i
i
i
Y
Y
X
X
ζ
δ
=
−
=
−
Model regresji, który pragniemy testowac posiada standardowa forme
0
1
i
i
i
Y
X
β
β
ε
=
+
+
.
Jednak, my jedynie mozemy zaobserwowac
*
i
X i
*
i
Y , i w konsekwencji testowany
model regresji jest:
(
)
(
)
(
)
0
1
0
1
0
1
1
*
*
i
i
i
i
i
*
*
i
i
i
i
i
*
i
i
i
i
Y
X
Y
X
X
ζ
β
β
δ
ε
β
β
δ
ε ζ
β
β
ε ζ β δ
− =
+
−
+
=
+
−
+ +
=
+
+
+ −
29
Powyzsze równanie moze wygladac na typowy model regresji ze zmienna
wyjasniajaca
*
X i elementem bledu
1
ε ζ β δ
+ −
, ale nim nie jest. Zmienna niezalezna
jest zmienna losowa skorelowana z elementem bledu
1
ε ζ β δ
+ −
. W konsekwencji,
standardowe zalozenia klasycznego modelu regresji nie moga byc zastosowane
(Weisberg, 1985; Bollen, 1989; Fuller, 1991; Neter i in., 1996).
Tak dlugo jak blad pomiarowy w Y jest losowy, nie skorelowany i
nieobciazony, blad pomiarowy w Y jest absorbowany w pozostalosci regresji
ε
.
Element bledu w modelu regresji,
ε
, odzwierciedla kompozyt duzej liczby
czynników, które nie sa brane pod uwage w testowanym modelu. Teraz jednym z tych
czynników jest blad pomiaru
ζ . Poniewaz blad pomiarowy w zmiennej zaleznej
jedynie wplywa na wielkosc pozostalosci modelu regresji
ε ζ
+
, jedyna praktyczna
konsekwencje bledu pomiarowego w Y to zanizone szacunki R
2
oraz zawyzone
szacunki bledów standardowych parametrów modelu (Neter i in., 1996; Hausman,
2001).
Niestety, konsekwencje obecnosci bledu pomiarowego w zmiennej
wyjasniajacej X sa bardziej znaczace dla trafnosci szacowanego modelu regresji. W
tym wypadku, pozostalosci regresji
1
ε β δ
−
sa skorelowane ze zmienna wyjasniajaca
*
X . W regresji prostej obecnosc bledu pomiarowego w zmiennej wyjasniajacej
powoduje niedoszacowanie wspólczynnika regresji
1
β
. To jest estymator b
1
jest
negatywnie obciazony odwrotnie proporcjonalnie do poziomu rzetelnosci pomiaru
( )
XX
ρ
zmiennej wyjasniajacej:
1
1
XX
b
ρ β
=
(Bollen, 1989; Wetherill i in., 1986;
Fuller, 1991; Hausman, 2001). W przypadku regresji wielokrotnej ocena wplywu
bledu pomiarowego w X
j
na szacunki parametrów modelu regresji b
j
jest
zdecydowanie bardziej skomplikowana. Efekt bledu pomiarowego zalezy od poziomu
30
rzetelnosci pomiaru zmiennych wyjasniajacych oraz od wzajemnych relacji pomiedzy
tymi zmiennymi. W regresji wielokrotnej, blad pomiarowy w X
j
moze zanizyc,
zawyzyc lub pozostawic be zmiany szacunki wspólczynników regresji. Ponadto,
szacunki wspólczynników dla zmiennych wolnych od bledu pomiarowego sa takze
obciazone, poniewaz blad pomiarowy w jednej zmiennej wyjasniajacej jest
propagowany w calym modelu regresji (Lord, 1960).
Blad pomiarowy w zmiennych wyjasniajacych nie musi byc zawsze
destruktywny dla analizy regresji. Berkson (1950) opisal bardzo wazny przypadek
zastosowania regresji w predykcji. Jezeli zmienne przewidujace sa mierzone z bledem
teraz i w przyszlosci, to pozadany model regresji jest dla zmiennych mierzonych z
bledem,
*
X . W tym wypadku, prawdziwe wartosci tych zmiennych, X, nas nie
interesuja poniewaz w przyszlosci bedziemy jedynie znali
*
X a nie X. Dlatego, blad
pomiarowy moze nie byc istotny dla problemów, w których szacowany zwiazek
bazuje na zaobserwowanych wartosciach, a nie na nieobserwowalnych prawdziwych
wartosciach zmiennych wyjasniajacych.
Jednak w sytuacjach gdy pragniemy oszacowac sile i/lub forme zwiazku
pomiedzy Y i X
j
, na przyklad w weryfikacji lub konstrukcji teorii psychologicznych,
obecnosc bledu pomiarowego znacznie komplikuje sytuacje regresji. W tradycji
ekonometrycznej, typowym podejsciem do problemu bledu pomiarowego w X jest
zastosowanie tak zwanej regresji ze zmiennymi instrumentalnymi (instrumental
variables) (Fuller 1987, 1991; Angrist i Krueger, 2001; Hausman, 2001). Takie ujecie
modelu regresji wymaga pomiaru zmiennej Z, która pozostaje w relacji z
prawdziwymi wynikami X,
(
)
,
0
cov Z X
≠
, i nie jest skorelowana ani z bledem
pomiarowym
δ
,
(
)
,
0
cov Z
δ
=
, ani z pozostaloscia regresji
ε
,
(
)
,
0
cov Z
ε
=
(Hausman, 2001). Zmienna Z jest nazywana instrumentem, poniewaz jest uzyta
31
jedynie instrumentalnie, jako srodek do poznania prawdziwej (nieobciazonej bledem
pomiarowym) relacji miedzy X i Y. W modelu regresji ze zmienna instrumentalna
najpierw szacujemy wartosci przewidywane ˆ
X z regresji X na Z, a nastepnie
szacujemy interesujace nas parametry modelu (
0
β i
1
β
) z regresji Y na ˆ
X . Taki
dwuetapowy estymator jest nazywany dwustopniowa metoda najmniejszych
kwadratów (two-stage least squares) (James i Singh, 1978). W wielu przypadkach
zastosowanie zmiennych instrumentalnych moze byc pomocne w korekcie
konsekwencji obecnosci bledu pomiarowego w X. Jednak w przypadkach tak
zwanych „slabych instrumentów” – gdy relacja pomiedzy X i Z jest slaba oraz/lub gdy
blad pomiarowy w X jest znaczacy – regresja ze zmiennymi instrumentalnymi moze
dac znacznie obciazone szacunki parametrów modelu regresji (Hausman, 2001).
Analiza regresji ze zmiennymi instrumentalnymi jest mozliwa za pomoca SAS i
SPSS.
Fuller (1975; 1987; 1991) zaprezentowal alternatywna strategie
przezwyciezenia problemu bledu pomiarowego w X oparta na powtórnym pomiarze
tej zmiennej. Zastosowanie metody test-retest pozwala na jednoczesne oszacowanie
wariancji bledu pomiarowego w X,
( )
var
δ
, i uzycie tej informacji w szacowaniu
parametrów modelu regresji. Szacowanie parametrów odbywa sie za pomoca
specjalistycznego estymatora dla tak zwanych „zlozonych prób badawczych”
(„complex sample designs”), zaimplementowanego w pakiecie EV CARP (Schnell,
Park i Fuller, 1988). Podejscie zaprezentowane przez Fullera (1975; 1987; 1991)
posiada jednak powazne ograniczenia praktyczne wynikajace z zastosowanej metody
szacowania
( )
var
δ
. Metoda test-retest wymaga kosztownego powtórnego testowania
przynajmniej czesci respondentów oraz okreslenia optymalnego interwalu dzielacego
obie chwile pomiaru. Jezeli ten interwal jest zbyt krótki to pomiary moga nie byc
32
niezalezne, a szacowany poziom rzetelnosci bedzie pozytywnie obciazony (Fuller,
1991). Przy zbyt dlugim interwale dzielacym chwile pomiaru szacowany poziom
rzetelnosci moze byc obciazony negatywnie z powodu naturalnych i
niesystematycznych zmian, którym ulega dana zmienna wyjasniajaca (Crocker i
Algina, 1986).
Obecnie najszerzej stosowana strategia przezwyciezania konsekwencji bledu
pomiarowego jest przeksztalcenie problemu regresji w ogólny model równan
strukturalnych SEM. SEM jest modelem statystycznym integrujacym model bledu
pomiarowego (konfirmacyjna analize czynnikowa) z modelem strukturalnym (analiza
sciezkowa) (Bollen, 1989). W podejsciu SEM zakladamy, ze zmienna wyjasniana
η
oraz zmienne wyjasniajace
j
ξ sa jedynie obserwowalne poprzez wskazniki tych
zmiennych y i x. Czesc pomiarowa modelu SEM zawiera równania dla zmiennych
obserwowalnych:
y
x
y = ? ? + ?
x = ? ? + d
gdzie macierze
y
? i
x
? zawieraja ladunki czynnikowe, a
? i
d
sa wektorami bledu
pomiarowego. W czesci strukturalnej, wspólczynniki regresji (
j
γ ) reprezentuja efekty
latentnych zmiennych wyjasniajacych na latentna zmienna wyjasniana:
1 1
2 2
p
p
η γ ξ γ ξ
γ ξ
ε
=
+
+ +
+
K
.
Szacowanie parametrów zawartych w czesci pomiarowej oraz strukturalnej modelu
SEM odbywa sie jednoczesnie za pomoca estymatora najwiekszej wiarygodnosci
(maximum likelihood). Jezeli zalozenia modelu sa spelnione to otrzymujemy szacunki
wspólczynników modelu regresji
η na
j
ξ nieobciazone obecnoscia bledu
pomiarowego w zmiennych obserwowalnych y i x (Bollen, 1989). Podejscie SEM
33
wymaga, jednak, ze nasz plan badawczy przewiduje pomiar dla przynajmniej dwóch
wskazników (indicators) kazdej zmiennej latentnej zawartej w testowanym modelu
regresji. Zastosowanie podejscia SEM jest mozliwe za pomoca pakietu SAS, lub
jednego z wielu dostepnych specjalistycznych pakietów SEM, z których najszerzej
znanym jest LISREL 8 (Jöreskog, Sörbom, 1993).
W wielu empirycznych aplikacjach modelu regresji rzetelnosci zmiennych
zawartych w testowanym modelu sa znane z wlasnych badan psychometrycznych lub
z literatury tematu. Fuller i Hidiroglou (1978) oraz Fuller (1987) demonstruja
dwuetapowa metode uzycia zewnetrznej informacji o poziomie rzetelnosci zmiennych
(Y i/lub X
j
) w szacowaniu parametrów modelu regresji. W pierwszym etapie
zaobserwowana macierzy kowariancji jest skorygowana o znany poziom rzetelnosci
zmiennych zawartych w testowanym modelu. W drugim etapie, tak skorygowana
macierz kowariancji jest uzyta do szacowania parametrów modelu regresji. Marais i
Wecker (1998) demonstruja zastosowanie metody Fullera i Hidirogloua (1978) w
szacowaniu efektu olowiu na iloraz inteligencji za pomoca standardowego pakietu
statystycznego.
Bollen (1989) demonstruje zastosowanie metody Fullera i Hidirogloua (1978)
w kontekscie ogólnego modelu SEM. W podejsciu SEM metoda Fullera i Hidirogloua
(1978) polega na zrównaniu danej zmiennej obserwowalnej ze swoja zmienna
latentna,
j
j
X
ξ
=
, poprzez ograniczenie ladunku czynnikowego tej zmiennej do
jednosci,
1
j
X
λ
=
. Poniewaz proporcja wariancji w X
j
spowodowana bledem pomiaru
jest równa
(
)
1
j
j
X X
ρ
−
mozemy dalej ograniczyc wariancje bledu pomiarowego w
testowanym modelu SEM tak aby odzwierciedlic znany poziom rzetelnosci w X
j
:
( )
(
)
( )
1
j
j
j
X X
j
var
var X
δ
ρ
= −
.
34
Konceptualnie, takie sformulowanie problemu regresji pozwala na zastapienie
arbitralnego zalozenia o rzetelnosci
1
j
j
X X
ρ
=
, w klasycznym ujeciu regresji, innym
arbitralnym, lecz bardziej realistycznym, zalozeniem o rzetelnosci
1
j
j
X X
ρ
<
. Typowo
taka analize realizujemy za pomoca specjalistycznego pakietu SEM (np. LISREL 8)
lub ogólnego pakietu statystycznego pozwalajacego na testowanie modeli SEM (np.
SAS).
Konsekwencje bledu pomiarowego w Y i X
j
na wyniki naszego modelu
regresji sa przedstawione w Tabeli 2
6
. Model regresji ET na DT i DPM szacowany dla
zredukowanego (n = 23) zbioru danych jest powtórnie pokazany jako Model 0 w
Tabeli 2. W Modelu 0, zgodnie z zalozeniem klasycznego modelu regresji, przyjete
rzetelnosci zmiennych sa równe jednosci (patrz Tabela 2). Dla porównania, Model 1
w Tabeli 2 odnosi sie do szacunków tego samego modelu regresji, ale zakladajac
rzetelnosc pomiaru dla naszej zmiennej wyjasnianej ET na poziomie
0 80
ET,ET
.
ρ
=
7
.
Porównanie szacunków dla Modelu 0 z szacunkami otrzymanymi dla Modelu 1 (patrz
Tabela 2) potwierdza wyniki teoretyczne. Szacunki R
2
oraz bledów standardowych
wspólczynników regresji sa bardziej korzystne dla Modelu 1, lecz zalozenie pelnej
rzetelnosci pomiaru dla ET w Modelu 0 nie rzutuje na szacunki parametrów naszego
modelu regresji. Rozwazmy teraz konsekwencje bledu pomiarowego w zmiennej
wyjasniajacej X
j
. Wyniki analizy naszego modelu regresji z zalozeniem poziomu
rzetelnosci pomiaru
90
DPM,DPM
.
ρ
=
dla DPM sa przedstawione jako Model 2 w
Tabeli 2
8
. Porównanie wyników dla Modelu 0 z wynikami dla Modelu 2 potwierdza
rozlegly efekt bledu pomiarowego w zmiennej X
j
dla, bez wyjatku, wszystkich
szacowanych wartosci modelu regresji. W koncu, w ostatniej kolumnie Tabeli 2
pokazujemy wyniki dla Modelu 3, w którym zakladamy rzetelnosc pomiaru zmiennej
35
ET na poziome
80
ET,ET
.
ρ
=
, pelna rzetelnosc pomiaru dla DT,
1 0
DT,DT
.
ρ
=
, oraz
rzetelnosc pomiaru dla DPM na poziome
90
DPM,DPM
.
ρ
=
. Porównujac szacunki
parametrów dla Modelu 3 z szacunkami dla pozostalych modeli w Tabeli 2 mozemy
zauwazyc, ze laczne konsekwencje bledu pomiarowego w zmiennej wyjasnianej (ET)
i zmiennej wyjasniajacej (DPM) sa zlozona funkcja indywidualnych konsekwencji
bledu pomiarowego w tych zmiennych.
----- tutaj Tabela 2 -----
PODSUMOWANIE I DYSKUSJA
Zaprezentowane metody diagnostyczne podkreslaja potrzebe ostroznego
rozwazenia cech analizowanego zbioru danych oraz testowanego modelu regresji.
Analiza pozbawiona elementu sprawdzenia odpornosci testowanego modelu regresji
moze prowadzic do nietrafnych wniosków badawczych. Diagnostyka zalozen modelu
jest szczególnie wazna w malych próbach badawczych, gdyz odpornosc modelu
regresji na brak spelnienia jego zalozen teoretycznych wzrasta wraz z wielkoscia
próby badawczej.
Jednak utajona pulapka diagnostyki moze byc tendencja do zbyt agresywnej a
posteriori modyfikacji postulowanego modelu regresji, aby uchwycic losowe
wlasciwosci analizowanego zbioru danych. Jezeli w wyniku dzialan diagnostycznych
forma testowanego modelu ulega zmianie taki model jest, przynajmniej czesciowo,
zdeterminowany przez analizowany zbiór danych. Najlepszym zabezpieczeniem
przed nadmierna modyfikacja (over-fitting) testowanego modelu regresji jest
replikacja wyników (cross-validation) analizy (Mosteller i Tukey, 1977). Replikacja
wyników moze przyjac rózne formy. W typowym ujeciu replikacji analizowany zbiór
danych jest losowo dzielony na dwie czesci przed jakakolwiek analiza statystyczna
36
(Snee, 1977). Pierwsza podpróba sluzy do analizy eksploracyjnej, której celem jest
„znalezienie” optymalnego modelu regresji. Druga podpróba sluzy do konfirmacji
(replikacji) wczesniej „znalezionego” modelu. Campbell i O’Connell (1982) oraz
Fiske (1982) podkreslaja potrzebe replikacji wyników stosujac maksymalnie
odmienne metody badawcze oraz instrumenty pomiaru. Wojciszke (2004) prezentuje
koncept replikacji jak forme sekwencji badan, w której kolejne badania maja na celu
replikacje wczesniej uzyskanych wyników oraz test wczesniej nie egzaminowanych
hipotez badawczych.
Czytelnicy pragnacy kontynuowac tematyke diagnostyki w regresji moga
siegnac po takie pozycje specjalistyczne jak Fox (1991), Cook i Weisberg (1982),
Belsley i in. (1980), Atkinson (1985), Carroll i Ruppert (1988) oraz Chatterjee i Hadi
(1988). Prezentacja Fox’a (1991) jest najbardziej wyczerpujaca w zakresie
poruszonych zagadnien diagnostycznych. Cook i Weisberg (1982) prezentuja metody
diagnozy oraz korekty wplywowych obserwacji. Belsley i in. (1980) traktuja
problemy wplywowych obserwacji oraz konsekwencje i metody korekty problemu
wspólliniowosci. Pozycja Atkinson’a (1985) jest szczególnie wazna z powodu
szczególowego potraktowania problemu transformacji oraz metod graficznych w
diagnostyce. Monografia Carroll’a i Ruppert’a (1988) jest poswiecona problemowi
heteroscedastycznosci, wplywowych obserwacji oraz alternatywnych metod estymacji
w regresji. Pozycja Chatterjee i Hadi (1988) jest wysoce techniczna prezentacja
zagadnien diagnostycznych oraz selekcji modelu regresji, i jest jedyna pozycja
traktujaca problem konsekwencji bledu pomiarowego w regresji.
37
LITERATURA
Angrist, J. D., Krueger, A. B. (2001). Instrumental variables and the search for
identification: From supply and demand to natural experiments. Journal of
Economic Perspectives, 15, 69-85.
Atkinson, A. C. (1985). Plots, transformations and regression: An introduction
to graphical methods of diagnostic regression analysis. Oxford:
Clarendon Press.
Belsley, D. A., Kuh, E., Welsch, R. E. (1980). Regression diagnostics:
Identifying influential data and sources of collinearity. New York: Wiley.
Berkson, J. (1950). “Are there two regressions?” Journal of the American
Statistical Association, 45, 164-180.
Bollen, K. A. (1989). Structural equations with latent variables. New York:
Wiley.
Bradbury, T. N., Fincham, F. D., Beach, S. R. (2000). Research on the nature
and determinants of marital satisfaction: A decade in review. Journal of
Marriage and the Family, 62, 964-980.
Campbell, D. T., O’Connell, E. J. (1982). Methods as diluting trait relationships
rather than adding systematic variance. W: D. Brinberg i L. Kidder (red.) New
directions for methodology of social and behavioral science: Forms of
validation in research, No. 12. San Francisco, C.A.: Jossey-Bass.
Carroll, R. J., Ruppert, D. (1988). Transformation and weighting in regression.
New York: Chapman and Hall.
Chambers, J. M., Cleveland, W. S., Kleiner, B., Tukey, P. A. (1983). Graphical
methods for data analysis. Pacific Grove, CA.: Wadsworth Publishing.
Chatterjee, S., Hadi, A. S. (1988). Sensitivity analysis in linear regression.
38
New York: Wiley
Cook, R. D. (1977). Deletion of influential observations in linear regression.
Technometrics, 19, 351-361.
Cook, R. D. Weisberg, S. (1982). Residuals and influence in regression. New
York: Chapman and Hall.
Cook, R. D., Weisberg, S. (1989). Regression diagnostics with dynamic
graphics (with discussion). Technometrics, 31, 277-311.
Cook, R. D., Weisberg, S. (1994). An introduction to regression graphics. New
York: Chapman and Hall.
Crocker, L., Algina, J. (1986). Introduction to classical and modern test
theory. San Francisco, C.A.: Holt, Rinehart and Winston.
Draper, N. R., Smith, H. (1981). Applied regression analysis, 2nd ed. New
York: Wiley.
Fiske, D. W. (1982). Convergent-discriminant validation in measurements and
research strategies. W: D. Brinberg i L. Kidder (red.) New directions for
methodology of social and behavioral science: Forms of validation in
research, No. 12. San Francisco, C.A.: Jossey-Bass.
Fox, J. (1990). Describing univariate distributions. W: J. Fox i J. S Long (red.)
Modern Method of Data Analysis. Newbury Park, C.A.: Sage.
Fox, J. (1991). Regression diagnostics. Newbury Park, C.A.: Sage.
Fuller, W. A. (1975). Regression analysis for sample surveys. Sankhya, 37, 117-
132.
Fuller, W. A. (1987). Measurement error models. New York: Wiley.
Fuller, W. A. (1991). Regression estimation in the presence of measurement
39
error. W: P. P. Biemer, R. M. Groves, L. E. Lyberg, N. A. Mathiowetz i S.
Sudman (red.) Measurement Errors in Surveys. New York: Wiley.
Fuller, W. A., Hidiroglou, M. A. (1978). Regression estimation after
correcting for attenuation. Journal of the American Statistical Association, 73,
99-105.
Hausman, J. (2001). Mismeasured variables in econometric analysis: Problems
from the right and problems from the left. Journal of Economic Perspectives,
15, 57-67.
Hoerl, A. E., Kennard, R. W. (1970a). Ridge regression: Biased estimation for
nonorthogonal problems. Technometrics, 12, 55-67.
Hoerl, A. E., Kennard, R. W. (1970a). Ridge regression: Applications to
nonorthogonal problems. Technometrics, 12, 69-82.
James, L. R., Singh, B. K. (1978). An introduction to the logic, assumptions,
and basic analytic procedures of two-stage least squares. Psychological
Bulletin, 85, 1104-1122.
Jöreskog, K., Sörbom, D. (1993). LISREL 8 user’s reference guide. Chicago:
Scientific Software International.
Larsen, W. A., McCleary, S. A. (1972). The use of partial residual plots in
regression analysis. Technometrics, 14, 781-790.
Lord, F. (1960). Large-sample covariance analysis when the control variable is
fallible. Journal of the American Statistical Association, 55, 307-321.
Marais, M. L., Wecker, W. E. (1998). Correcting for omitted-variable and
measurement-error bias in regression with an application to the effect of lead
on IQ. Journal of the American Statistical Association, 93, 494-505.
Marquardt, D.W., Snee, R. D. (1975). Ridge regression in practice. American
40
Statistician, 29, 3-19
McCullagh, P., Nelder, J. A. (1989). Generalized linear models, 2nd ed. New
York: Chapman and Hall.
McCulloch, R. (1993). Fitting regression models with unknown transformations
using dynamic graphics. The Statistician, 42, 153-160.
Mosteller, F., Tukey, J. W. (1977). Data analysis and regression: A second
course in statistics. Reading: MA: Addison-Wesley.
Neter, J., Kutner, M. H., Nachtsheim, C. J., Wasserman, W. (1996). Applied
linear statistical models, 4
th
ed. Toronto: IRWIN.
SAS Institute Inc. (1999a). SAS/STAT
®
User's Guide, Version 8, Cary, NC: SAS
Institute Inc.
SAS Institute Inc. (1999b). SAS/INSIGHT User's Guide, Version 8, Cary, NC:
SAS Institute Inc.
Schnell, D., Park, H. J., Fuller, W. A. (1988). EV CARP. Ames, Iowa: Statistical
Laboratory, Iowa State University.
Snee, R. D. (1977). Validation of regression models. Methods and examples.
Technometrics, 19, 415-428.
Tukey, J. (1977). Exploratory data analysis. Reading: MA: Addison-Wesley.
Weisberg, S. (1985). Applied linear regression, 2nd ed. New York: Wiley.
Wetherill, G. B., Duncombe, P., Kenward, M., Köllerström, J., Paul, S. R.,
Vowden, B. J. (1986). Regression analysis with applications. New York:
Chapman and Hall.
Wojciszke, B. (ma sie ukazac w 2004). Systematycznie modyfikowane
41
autoreplikacje: logika programu badan empirycznych w psychologii. W: J.
Brzezinski (red.) Metodologia badan psychologicznych. Wybór tekstów.
Warszawa: Wydawnictwo Naukowe PWN.
Wood, F. S. (1973). The use of individual effects and residuals in fitting
equations to data. Technometrics, 15, 677-695.
42
PRZYPISY DOLNE
1
Przyklad jest tak skonstruowany, aby zademonstrowac jak najwiecej z prezentowanych zagadnien
diagnostycznych. Chociaz prezentowany zbiór danych jest wygenerowany bez odniesienia do zadnej
teorii lub badan odnosnie relacji malzenskich, niektóre z przyjetych relacji mozna zaobserwowac w
literaturze tematu (np. Bradbury, Fincham i Beach, 2000).
2
Dokladna wartosc krytyczna z rozkladu
( )
2
t
df
α
zalezy od poziomu ufnosci
(
)
1
α
−
oraz od
wielkosci próby badawczej
(
)
1
df
n
p
= − −
. W naszym przykladzie dokladna wartosc krytyczna
wspólczynnika ufnosci jest t = 2.08.
3
Dokladna wartosc krytyczna jest t = 2.08.
4
Zauwazmy, ze jedynie w przypadku regresji z dwoma zmiennymi wyjasniajacymi ten wspólczynnik
jest równy kwadratowi korelacji pomiedzy tymi zmiennymi
1 2
2
2
j
x x
R
r
=
.
5
Nalezy jednak podkreslic, ze jest to jedynie warunek wystarczajacy ale nie konieczny, i dlatego brak
relatywnie wysokich korelacji pomiedzy zmiennymi wyjasniajacymi nie oznacza braku problemu
zaleznosci linowej w testowanym modelu regresji.
6
Modle 1 do 3 byly testowane za pomoca pakietu LISREL 8.53.
7
Przyjety poziom rzetelnosci
80
ET,ET
.
ρ
=
jest typowy dla pomiaru zmiennych psychologicznych.
8
Przyjety poziom rzetelnosci
90
DPM,DPM
.
ρ
=
jest arbitralny, ale moze powstac w wyniku zaokraglania
wartosci do najblizszego roku.
-20
0
20
40
60
Dlugosc terapii (DT)
-40
-20
0
20
40
Efektywnosc terapii (ET)
(a)
19
18
23
15
-3
0
3
6
Dlugosc pozycia malzenskiego (DPM)
-40
-20
0
20
40
Efektywnosc terapii (ET)
(b)
18
15
19
23
Rycina 1. Wykresy regresji czesciowej dla (a) dlugosci terapii (ET) i (b)
dlugosci pozycia malzenskiego (DPM) z regresji ET na DT i DPM
-3.0
-1.5
0.0
1.5
3.0
Rozklad normalny
-3.0
-1.5
0.0
1.5
3.0
t-standaryzowane pozostalosci
Rycina 2. Wykres normalnych centyli (Q-Q) z
regresji ET na DT i DPM
-20
0
20
40
60
Wartosci przewidywane
-40
-20
0
20
40
Pozostalosci regresji
Rycina 3. Wykres pozostalosci regresji (e
i
) i wartosci
przewidywanych (
i
ˆ
Y
) z regresji ET na DT i DPM
0
15
30
45
60
X
-3.0
-1.5
0.0
1.5
3.0
Pozostalosci regresji
(a)
0
15
30
45
60
X
-3.0
-1.5
0.0
1.5
3.0
Pozostalosci regresji
(b)
Rycina 4. Wykresy pozostalosci regresji (e
i
) i wartosci zmiennej
wyjasniajacej (X
i
) ukazujace brak spelnienia zalozenia heteroscedastycznosci
0
15
30
45
60
X
-3.0
-1.5
0.0
1.5
3.0
Pozostalosci regresji
Rycina 5. Wykresy pozostalosci regresji (e
i
) i
wartosci zmiennej wyjasniajacej (X
i
) ukazujace
nieliniowa relacje pomiedzy Y i X
10
20
30
40
Dlugosc terapii (DT)
0
15
30
45
60
Pozostalosci czesciowe
(a)
1
4
7
10
Dlugosc pozycia malzenskiego (DPM)
-60
-45
-30
-15
0
Pozostalosci czesciowe
(b)
Rycina 6.
Wykresy pozostalosci czesciowej dla regresji ET na DT (panel
a) oraz regresji ET na DPM (panel b)
Tabela 1
Dane Syntetyczne dla 25 Par Malzenskich Uczestniczacych
w Terapii Rodzinnej
Para
ET
DT
DPM
LD
1
23
29
5.5
2
2
50
25
4.0
2
3
38
25
4.5
1
4
6
17
8.0
3
5
-6
15
7.0
2
6
-2
20
8.0
3
7
57
24
2.0
0
8
35
14
2.0
0
9
31
11
3.0
2
10
14
12
4.0
1
11
41
29
2.5
1
12
58
38
3.0
1
13
32
20
4.5
2
14
19
24
5.0
2
15
-9
23
4.0
2
16
10
10
1.5
0
17
13
14
2.0
1
18
29
19
11.0
4
19
35
82
8.0
3
20
28
21
5.0
2
21
38
26
3.0
1
22
46
18
2.5
1
23
-8
10
9.5
3
24
4
18
7.0
3
25
7
25
2.0
1
ET - efektywnosc terapii
DT - dlugosc terapii w tygodniach
DPM - dlugosc pozycia malzenskiego w latach
LD - liczba dzieci
Tabela 2
Szacunki dla Modelu Regresji ET na DT i DMP Uwzgledniajace Rózne
Poziomy Rzetelnosci (Bledu Pomiarowego) Zmiennych
Parametr
Model 0
Model 1
Model 2
Model 3
ET,ET
ρ
1.00
0.80
1.00
0.80
DT,DT
ρ
1.00
1.00
1.00
1.00
DPM,DPM
ρ
1.00
1.00
0.90
0.90
b
0
17.33
(12.80)
17.33
(12.20)
20.25
(12.84)
20.25
(12.84)
b
DT
1.25*
(0.47)
1.25*
(0.45)
1.21*
(0.45)
1.21*
(0.45)
b
DPM
-4.59*
(1.46)
-4.59*
(1.40)
-5.12*
(1.57)
-5.12*
(1.57)
R
2
0.51
0.63
0.54
0.67
* p < .01
† wartosci w nawiasach to bledy standardowe
( )
s b