Współliniowość
liniowa zależność (korelacja) pomiędzy zmiennymi objaśniającymi
przyczyny: najczęściej tendencja zjawisk ekonomicznych do kształtowania się zgodnie z przebiegiem cykli
koniunkturalnych
skutki: utrudniona wiarygodna interpretacja ocen poszczególnych parametrów;
zawyżone oceny średnich błędów szacunku parametrów
Ekonometria 110010-0609
1
Współliniowość: miary
czynnik inflacji wariancji: porównuje sytuację faktyczną z idealną, w której wszystkie zmienne objaśniające są ze sobą nieskorelowane
wskaźnik uwarunkowania macierzy: mierzy wrażliwość ocen parametrów na niewielkie zmiany w danych
ocena natężenia efektu katalizy, czyli zakłócenia wyników estymacji wynikającego z występowania w modelu zmiennych
objaśniających mocno skorelowanych między sobą (tzw. katalizatorów)
Ekonometria 110010-0609
2
Współliniowość: CIW
CIW: czynnik inflacji wariancji (VIF, ang.
variance inflation factor) gdzie R 2
i jest kwadratem współczynnika
korelacji wielorakiej pomiędzy Xi a pozostałymi zmiennymi objaśniającymi
CIW porównuje sytuację faktyczną z idealną, w której wszystkie zmienne objaśniające są ze sobą nieskorelowane
Ekonometria 110010-0609
3
Współliniowość: CN
wskaźnik uwarunkowania macierzy (CN, ang. condition number) wyznaczany jest dla modelu jako pierwiastek kwadratowy z ilorazu najmniejszej i największej wartości własnej macierzy XTX zmiennych objaśniających
mierzy wrażliwość ocen parametrów na niewielkie zmiany w danych
w praktyce wartości większe niż 20
uznawane są za duże
Ekonometria 110010-0609
4
Współliniowość: co dalej? (I)
regresja grzbietowa: zmniejszenie wzajemnego skorelowania zmiennych
objaśniających poprzez dodanie stałej do wariancji zmiennych objaśniających; powoduje obciążenie estymatorów i nie jest
niezmiennicza względem jednostek miary zmiennych objaśniających oraz ich liniowych transformacji
regresja względem głównych składowych: przekształcenie zmiennych objaśniających na zbiór zmiennych nieskorelowanych; równie arbitralna
Ekonometria 110010-0609
5
Współliniowość: co dalej? (II)
usuwanie zmiennych powodujących
występowanie zjawiska współliniowości
zastąpienie zmiennych powodujących współliniowość zmiennymi zastępczymi, niosącymi podobną informację merytoryczną, ale słabiej skorelowanymi z innymi zmiennymi modelu
zwiększenie próby w celu wychwycenia szerszego spektrum zmienności zmiennych objaśniających
Ekonometria 110010-0609
6
Korelacja
a związek przyczynowo-skutkowy
Stwierdzenie związku statystycznego (korelacji) między zmiennymi nie musi oznaczać związku przyczynowo-skutkowego między nimi. Obserwuje się między innymi:
dodatnią korelację między liczbą wypadków spowodowanych przez nietrzeźwych
użytkowników dróg w Polsce a spożyciem piwa na głowę mieszkańca w Grecji,
dodatnią korelację między płacami nauczycieli w Wielkiej Brytanii a spożyciem alkoholu.
Ekonometria 110010-0609
7
Własności składnika losowego
Złamanie założeń o własnościach składnika losowego może mieć postać:
autokorelacji, czyli korelacji między składnikami losowymi modelu,
heteroskedastyczności, czyli zmiennej wariancji składnika losowego.
Estymatory MNK pozostają wprawdzie nieobciążone, ale są nieefektywne (nie mają najmniejszej wariancji w klasie liniowych estymatorów nieobciążonych).
Ekonometria 110010-0609
8
Autokorelacja
autokorelacja składnika losowego to korelacja między składnikami losowymi modelu
autokorelacja między e i e
określana jest
t
t-k
mianem autokorelacji rzędu k i oznaczana przez ρ k
stanowi złamanie założenia o sferyczności składnika losowego, leżącego u podstaw twierdzenia Gaussa – Markowa
Ekonometria 110010-0609
9
Autokorelacja: przyczyny
natura procesów gospodarczych: skutki decyzji i zdarzeń ekonomicznych często rozciągają się na wiele miesięcy lub lat; procesy ekonomiczne, zwłaszcza w skali makro, cechują się pewną inercją
błędy specyfikacji modelu:
niepoprawna postać analityczna
niepełny zestaw zmiennych objaśniających
niewłaściwa struktura dynamiczna Ekonometria 110010-0609
10
Autokorelacja: skutki
jeśli wśród zmiennych objaśniających nie występują opóźnienia zmiennej
objaśnianej, estymatory są nieobciążone, ale nieefektywne (wariancje estymatorów poszczególnych parametrów modelu są stosunkowo duże)
jeśli wśród zmiennych objaśniających występują opóźnienia zmiennej
objaśnianej, estymatory MNK nie są zgodne Ekonometria 110010-0609
11
Autokorelacja: test DW
najczęściej stosowany, bardzo prosty test autokorelacji
obciążony licznymi wadami:
można go zastosować wyłącznie do modeli z wyrazem wolnym, bez opóźnionej zmiennej objaśnianej oraz o normalnym rozkładzie składnika losowego
nie pozwala wykryć autokorelacji rzędu wyższego niż 1
nie zawsze prowadzi do uzyskania jednoznacznego wyniku
Ekonometria 110010-0609
12
Autokorelacja: test LM
test mnożnika Lagrange’a (LM – Lagrange multiplier) jest testem bardzo ogólnym i nie dotyczą go ograniczenia testu DW
procedura dwustopniowa:
szacujemy wyjściowe równanie za pomocą MNK i wyznaczamy jego reszty
do wyjściowego modelu wprowadzamy dodatkowo p zmiennych będących opóźnieniami oszacowanych reszt i
ponownie szacujemy model, testując hipotezę, że parametry przy wszystkich opóźnionych zmiennych są równe zero Ekonometria 110010-0609
13
Autokorelacja: test LM (c.d.)
w praktyce procedura testu LM
przeprowadzana jest automatycznie w pakietach ekonometrycznych
ma charakter asymptotyczny, co wyklucza jego zastosowanie w małych próbach
dla dużej liczby obserwacji (n > 30) statystyka (n-1)R2 ma rozkład χ2 z jednym stopniem swobody
hipoteza zerowa: brak autokorelacji Ekonometria 110010-0609
14
Autokorelacja: co dalej?
korekta metody estymacji parametrów modelu
metoda Cochrane’a – Orcutta
metoda Hildretha – Lu
zmiana postaci analitycznej
HAC: odporne estymatory błędu
standardowego oszacowania parametru Ekonometria 110010-0609
15
Heteroskedastyczność
wariancja składnika losowego nie jest stała dla wszystkich obserwacji
skutki heteroskedastyczności składnika losowego dla estymatorów MNK:
estymatory są nieobciążone, ale
nieefektywne
oceny ich wariancji są obciążone
statystyki oparte na wariancjach (a więc i odchyleniach standardowych) estymatorów nie są wiarygodne
Ekonometria 110010-0609
16
Heteroskedastyczność: przyczyny
wśród podmiotów „większych” można się spodziewać większej zmienności zachowań, co może znaleźć odzwierciedlenie w kształtowaniu się składnika losowego
występowanie procesów uczenia się oraz udoskonalanie technik gromadzenia i przetwarzania informacji może spowodować, że wariancja składnika losowego modelu będzie maleć z upływem czasu
test heteroskedastyczności może „wyłapać”
błędną postać funkcyjną lub pominięte zmienne objaśniające
Ekonometria 110010-0609
17
Heteroskedastyczność:
test White’a
procedura dwustopniowa:
szacujemy wyjściowe równanie za pomocą MNK i wyznaczamy jego reszty
szacujemy model regresji kwadratów reszt wyjściowego modelu względem wszystkich zmiennych objaśniających, ich kwadratów i ich iloczynów
statystyka testowa (postaci n⋅R2, gdzie R2 jest współczynnikiem determinacji równania testowego) ma rozkład χ2 o liczbie stopni swobody równej liczbie zmiennych
objaśniających równania testowego
hipoteza zerowa: homoskedastyczność Ekonometria 110010-0609
18
Heteroskedastyczność:
inne testy
Ramseya, Breuscha – Pagana, Goldfeldta –
Quandta
test dla małych prób: Harrisona-McCabe’a
wymaga arbitralnego podziału zbioru obserwacji na dwie grupy: jedną odpowiadającą dużym wartościom zmiennej, a drugą – małym wartościom, a następnie porównania ich wariancji za pomocą testu F
w celu łatwiejszego rozróżnienia pomiędzy wariancjami małymi i dużymi pomija się niekiedy „środkowe” wartości zmiennej Ekonometria 110010-0609
19
Heteroskedastyczność: co dalej?
ważona MNK: wagi zależą od postaci heteroskedastyczności
zastosowanie deflatorów: procedura podobna do ważonej MNK, ale bardziej arbitralna
transformacja danych do postaci
logarytmicznej (uwaga: decyzja o postaci modelu powinna być jednak podejmowana na podstawie zupełnie innych kryteriów!) Ekonometria 110010-0609
20
Alternatywa: HAC
alternatywa dla ważonej MNK: korekta wartości wariancji błędów, ponieważ same estymatory są nieobciążone
ponieważ te same konsekwencje ma autokorelacja składnika losowego,
zaproponowano łączne rozwiązanie obu problemów: estymatory HAC (ang.
heteroskedasticity and autocorrelation consistent)
Ekonometria 110010-0609
21
Alternatywa: HAC
estymatorem asymptotycznej macierzy kowariancji odpornym na
heteroskedastyczność składnika losowego nieznanej postaci oraz autokorelację wyższych rzędów (której można się spodziewać w danych o wyższej częstotliwości: kwartalnej czy miesięcznej) jest estymator Neweya – Westa ΣNW
pierwiastek kwadratowy z elementu ( i, i) macierzy ΣNW nazywany jest odpornym (na heteroskedastyczność i autokorelację) estymatorem błędu standardowego oszacowania parametru MNK
Ekonometria 110010-0609
22
Inne metody estymacji
MNW (metoda największej wiarygodności): modele nieliniowe, wielorównaniowe, o heteroskedastycznym składniku losowym
UMM (uogólniona metoda momentów): dane panelowe
MZI (metoda zmiennych
instrumentalnych): zmienne objaśniające skorelowane ze składnikiem losowym, modele wielorównaniowe
Ekonometria 110010-0609
23
Normalność rozkładu
składnika losowego
nie jest niezbędna do uzyskania
estymatorów o pożądanych własnościach
jeśli jednak składnik losowy modelu ma rozkład normalny, to estymator MNK ma własności użyteczne w konstruowaniu testów statystycznych, co ma duże
znaczenie dla procesu weryfikacji modelu ekonometrycznego
Ekonometria 110010-0609
24
Normalność rozkładu
składnika losowego
powszechnie stosowany test: Jarque – Bery
jego konstrukcja opiera się na weryfikacji podobieństwa trzeciego i czwartego momentu rozkładu składnika losowego modelu do znanych wartości tych
momentów w rozkładzie normalnym
statystyka testu ma rozkład χ2 z dwoma stopniami swobody
hipoteza zerowa: składnik losowy ma rozkład normalny
Ekonometria 110010-0609
25
Własności asymptotyczne
estymatorów
nieobciążoność i zgodność estymatorów KMNK
zagwarantowana jest pod warunkiem
spełnienia założeń twierdzenia Gaussa –
Markowa
liniowy model regresji spełniający założenia twierdzenia Gaussa – Markowa TGM jest w ekonometrii wyjątkiem, znane są bowiem własności estymatora oraz statystyk testowych w małej próbie
Ekonometria 110010-0609
26
Własności asymptotyczne
estymatorów, c.d.
jeśli założenia te nie są spełnione, można posłużyć się alternatywną metodą estymacji (np. MZI w przypadku korelacji zmiennej objaśniającej ze składnikiem losowym)
estymacja i interpretacja modelu staje się wtedy bardziej pracochłonna, a wyznaczenie podstawowych własności estymatora (w tym ustalenie jego nieobciążoności i zgodności) jest niekiedy skomplikowane
łatwiej jest tego dokonać dla prób o liczebności zmierzającej do nieskończoności, gdyż można się wtedy posłużyć rachunkiem prawdopodobieństwa i prawem wielkich liczb
Ekonometria 110010-0609
27
Własności asymptotyczne
estymatorów, c.d.
własności estymatorów w dużej próbie nazywane są własnościami asymptotycznymi
stosujemy te estymatory w nadziei, że ich pożądane własności, które w dużych próbach potrafimy udowodnić, będą je również cechowały w niewielkich próbach, z którymi często mamy do czynienia
do weryfikacji tej nadziei służą symulacje Monte Carlo
ilustracja symulacji Monte Carlo: Verbeek
[2004]
Ekonometria 110010-0609
28
Własności asymptotyczne
estymatorów, c.d.
wyniki symulacji Monte Carlo wskazują, że w modelach regresji liniowej metody
asymptotyczne na ogół spełniają pokładane w nich nadzieje
jeśli jednak własności estymatorów w małych próbach odbiegają znacząco od ich własności asymptotycznych, stosuje się bardziej zaawansowane techniki estymacji
opis zaawansowanych metod asymptotycznych, omówienie własności estymatorów i testów w małych próbach: Phillips & Tzavalis (red.)
[2007]
Ekonometria 110010-0609
29
Własności asymptotyczne
testów
niespełnienie założenia o normalności rozkładu składnika losowego nie
dyskwalifikuje wyników testów istotności:
statystyka testu t-Studenta ma w dużych próbach rozkład asymptotycznie normalny, a wartości krytyczne rozkładu t-Studenta i rozkładu normalnego są dla dużej próby niemal identyczne
statystyka testu Walda ma rozkład F-Snedecora, jeśli składnik losowy modelu ma rozkład normalny; w przeciwnym przypadku rozkład tej statystyki w małych próbach nie jest znany Ekonometria 110010-0609
30
Własności asymptotyczne
testów, c.d.
w dużych próbach statystyka mF ma w przybliżeniu rozkład χ2 o m stopniach swobody; można ją zatem stosować, nawet jeśli założenie o normalności rozkładu składnika losowego nie jest spełnione
w dużych próbach można również stosować klasyczną statystykę F, gdyż im większa próba, tym różnice między rozkładem F a mF stają się mniej znaczące
spełnienie założenia o normalności rozkładu składnika losowego ma zatem kluczowe znaczenie jedynie w przypadku modeli szacowanych na podstawie małej próby Ekonometria 110010-0609
31