Marcin Błażejowski
Dwa dodatkowe testy niezbędne do wykonania projektu
nr 1
Pierwsze wydanie książki „Ekonomatria. Rozwiązywanie problemów z wykorzytaniem pro-
gramu GRETL” nie zawierało opisu dwóch poniższych testów z racji tego, że w 2004 roku
GRETL nie posiadał jeszcze możliwości ich wykonywania. Ponieważ aktualna wersja programu
daje możliwość realizowania w/w testów, a nowe wydanie podręcznika jeszcze się nie ukazało,
uzgodniłem z prof. Kuflem, że opis wspomnianych testów zamieszczę w Moodle, co niniejszym
czynię. Wszystkie zrzuty ekranu dotyczą modelu dla powiatów, który jest realizowany w roz-
dziale 4 podręcznika.
1. Weryfikacja współliniowości zmiennych objaśniających
Współliniowość zmiennych objaśniających jest cechą niepożądaną w oszacowanym modelu.
Jeżeli wystąpiła dokładna współliniowość, to model nie zostanie oszacowany, ponieważ wy-
znacznik macierzy X
T
X jest równy zero
. Wysokie skorelowanie zmiennych objaśniających po-
woduje, że wartość wyznacznika jest bliska zero, a przez to oszacowane błędy standardowe ocen
parametrów powstałe z macierzy wariancji i kowariancji są o relatywnie dużych wartościach,
co prowadzi do zaniżania wartości statystyki t-Studenta w ocenie istotności parametru.
Ocenę stopnia współliniowości zmiennych objaśniających można wykonać za pomocą miary
VIF (variance inflation factors) określanej jako czynnik inflacji wariancji. Miarę V IF
j
wyzna-
cza się z następującego wzoru:
V IF
j
=
1
1 − R
2
j
,
dla j = 1, 2, . . . , k, gdzie R
j
jest współczynnikiem korelacji wielorakiej pomiędzy zmienną x
j
a pozostałymi zmiennymi modelu.
Jeżeli wartość V IF
j
jest równa jeden, to oznacza, że zmienna x
j
jest ortogonalna (nieskore-
lowana) w stosunku do pozostałych zmiennych objaśniających modelu. „Uważa się, że wartość
V IF
j
> 10 jest oznaką współliniowości, która trwale zakłóca jakość skonstruowanego modelu
ekonometrycznego”, co oznacza, że współczynnik korelacji wielorakiej R
j
, tj. r
x
1
.x
2
x
3
...x
k
jest
większy co do modułu od 0.95.
Okno [1] przedstawia wyniki badania współliniowości uzyskane przez funkcję w oknie modelu
Testy/test współliniowości VIF , które wskazują, że w oszacowanym modelu skorelowanie
zmiennych objaśniających nie zakłóca jakości modelu.
2. Obserwacje nietypowe i wpływowe
„W danych wykorzystywanych do budowy modelu ekonometrycznego często występują ob-
serwacje odróżniające się pewnymi cechami od pozostałych. Wyróżnia się dwa rodzaje takich
1
Chodzi tutaj o formułę KMNK, tj. a = X
T
X
−1
X
T
y i brak możliwości odwrócenia macierzy.
obserwacji: nietypowe (ang. outliers) i wpływowe (influential observations). Kryterium wy-
różniającym te obserwacje są skutki ich oddziaływania na model ekonometryczny.
Obserwacja nietypowa charakteryzuje się dużą resztą, czyli różnicą miedzy wartością rze-
czywistą zmiennej objaśnianej a wartością teoretyczną tej zmiennej wynikającą z modelu ekono-
metrycznego (. . . ). Obserwację uważa się za wpływową, jeśli w wyniku nieznacznej zmiany jej
wartości (przesuwaniu jej) lub usunięciu z danych znacznie zmieniają się oszacowane parametry
modelu. Wartości reszt obserwacji wpływowych nie są duże.”
Do identyfikacji czy y
i
jest wpływowe na tle pozostałych wartości y używa się statysty-
ki h
i
określanej jako dźwignia (ang. leverage), szacowanej na podstawie elementów diagonal-
nych macierzy rzutowania H (ang. hat matrix ), H = X
X
T
X
−1
X
T
. Elementy diagonalne
h
ii
= h
i
(i = 1, 2, . . . , n) określają wpływ i-tej obserwacji na oceny parametrów modelu i przyj-
mują wartości z przedziału 0 ¬ h
i
¬ 1. Obserwację i -tą można traktować jako dźwigniową
- wpływową, jeśli h
i
> h
∗
= 2(k + 1)/n, co w oknie gretla: leverage and influence (okno 2)
wartości kolumny leverage są zaznaczone (∗).
Okno wyników [2] uzyskuje się za pomocą funkcji menu modelu Testy/test wpływowych
obserwacji . Dla analizowanego przykładu: (k + 1) = (8 + 1) = 9, n = 380, a wyznaczona
wartość krytyczna wynosi h
∗
= 2 · 9/380 = 0.0474.
W literaturze wskazuje się, że DF F IT S
i
(different of fits) jest kryterium wykrywania ob-
serwacji nietypowych a także wpływowych. „DF F IT S
i
jest bowiem wystandaryzowaną miarą
przyrostu teoretycznej wartości y
i
wynikającą z pominięcia konkretnej obserwacji”. Wartość
miernika DF F IT S
i
jest wyznaczana ze wzoru:
DF F IT S
i
= ˜
u
i
v
u
u
t
h
i
1 − h
i
!
gdzie ˜
u
i
jest i-tą resztą studentyzowaną. Jeżeli wartość DF F IT S
i
co do modułu jest większa
od 2
q
(k + 1) /n, to i-ta obserwacja może być nietypowa lub/i wpływowa. Dla opisywanego
przykładu wartość krytyczna wynosi 2 ·
q
9/380 = 0.3078.
Wyniki zawarte w oknie [2] można zapisać do bazy danych za pomocą ikony
i przeana-
lizować występowanie wartości nietypowych i wpływowych.
Dodatkowo, prostymi sposobami wyszukania obserwacji odstających - nietypowych jest tak-
że wskazanie reszt większych co do modułu od dwu i pół krotnego błędu standardowego reszt, to
jest |e
i
| > 2.5 · S
e
. Wyniki wskazania takich odstających obserwacji uzyskujemy poprzez menu
modelu Analiza/Pokaż empiryczne, wyrównane i reszty , które są oznaczone symbolem
gwiazdką (∗).
Innym sposobem identyfikowania obserwacji odstających w zbiorze wartości zmiennych ob-
jaśniających X
ij
jest wyznaczenie odległości Mahalanobisa M D
i
dla poszczególnych obserwacji
od ich środka ciężkości (wektora średnich).
Elementy diagonalne macierzy rzutowania h
i
można przekształcić w miarę odległości Ma-
halanobisa M D
i
według następującej formuły:
M D
i
=
q
(n − 1) (h
i
− 1/n),
oznacza to, że przed oszacowaniem modelu wykorzystując tylko M D
i
można zidentyfikować
obserwacje odstające. Wyselekcjonowanie zmiennych w oknie gretla i wywołanie funkcji Wi-
dok/Odległość Mahalanobisa szacuje miary M D
i
. Okno [3] prezentuje posortowane wyniki
oszacowanej miary h
i
(lever ) i M D
i
(mdist), gdzie maksymalne wyniki wskazują nietypowe
i odstające obserwacje.
Ocenę przydatności modelu dla danych przekrojowych program gretl realizuje za pomo-
cą wielu funkcji, ale dodatkowo można wykorzystać także polecenia związane z nakładaniem
restrykcji na parametry.