Weryfikacja modelu - ciąg dalszy
Zarówno oszacowania parametrów jak i wnioski co do jakości modelu szacowanego MNK, oparte o wartości R2, F-statystyki t-statystyk mogą być fałszywe, jeśli niespełnione są założenia MNK:
o normalności rozkładu składnika losowego
o braku autokorelacji składnika losowego (korelacji pomiędzy składnikami losowymi, dotyczącymi różnych obserwacji)
o stałej wariancji składnika losowego.
Aby upewnić się, czy założenia MNK są spełnione po estymacji modelu trzeba przeprowadzić dodatkowo szereg testów statystycznych.
Normalność rozkładu składnika losowego - test Jarque-Bera
Jeśli rozkład składnika losowego nie jest normalny, to zastosowanie rozkładu t-Studenta do testowania hipotez o istotności parametrów za pomocą t-statystyk jest nieuprawnione. Dotyczy to również F-statystyki i rozkładu F.
Test skonstruowany jest tak, że weryfikacji podlega podobieństwo pewnych charakterystyk rozkładu składnika losowego modelu do znanych wartości tych charakterystyk w rozkładzie normalnym.
Przyjmujemy, że reszty modelu ekonometrycznego są empiryczną realizacją składnika losowego. Testujemy hipotezę
H0: składnik losowy modelu ma rozkład normalny
przy hipotezie alternatywnej
H1: składnik losowy modelu nie ma rozkładu normalnego
Postępowanie przebiega następująco:
Krok 1: Szacujemy model
Krok 2: Obliczamy reszty e t, t = 1,2,...,n.
Krok 3: Szacujemy wartość obciążonego estymatora odchylenia standardowego składnika losowego modelu:
S = √ ((1/n) * ∑et2)
Krok 4: Szacujemy wartość miary asymetrii rozkładu reszt (miara ogólnie dla szeregów obserwacji mierzy asymetrię rozkładu wokół średniej. Miara ta dla rozkładów symetrycznych, a więc i dla rozkładu normalnego, przyjmuje wartość 0.
A = 1/n ∑ (et3/ S3) - skewness
Krok 5: Szacujemy wartość miary kurtozy rozkładu reszt (kurtoza mierzy płaskość rozkładu). Miara dla rozkładu normalnego przyjmuje wartość 3.
K = 1/n ∑ (et4/ s4)
Krok 6: Wyznaczamy wartość statystyki JB
JB = (n - k)/6 * ( A2 + ¼ * (K-3)2 )
Statystyka JB ma rozkład chi2 z dwoma stopniami swobody.
Krok 7: Na poziomie istotności α weryfikujemy hipotezę zerową. Jeśli dla wartości krytycznej testu chi* spełniona jest nierówność JB > chi* , to hipotezę o normalności rozkładu składnika losowego modelu odrzucamy. W przeciwnym przypadku nie ma podstaw do odrzucenia tej hipotezy.
Przykład. Model produkcji roślinnej:
PRODt = c(0) + c(1)*SIPt + c(2) *NAWt + et
gdzie SIP = siła pociągowa
NAW = nawożenie
Method: Least Squares |
||||
Sample: 1950 1996 |
||||
Included observations: 47 |
||||
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
SIP |
0.622653 |
0.067650 |
9.204048 |
0.0000 |
NAW |
0.017319 |
0.000779 |
22.23473 |
0.0000 |
C |
51.56247 |
1.923409 |
26.80785 |
0.0000 |
R-squared |
0.958139 |
Mean dependent var |
103.2149 |
|
Adjusted R-squared |
0.956236 |
S.D. dependent var |
27.72400 |
|
S.E. of regression |
5.799833 |
Akaike info criterion |
6.415237 |
|
Sum squared resid |
1480.075 |
Schwarz criterion |
6.533331 |
|
Log likelihood |
-147.7581 |
F-statistic |
503.5437 |
|
Durbin-Watson stat |
1.738265 |
Prob(F-statistic) |
0.000000 |
JB < chi* na poziomie istotności 0.05, zatem nie ma podstaw do odrzucenia hipotezy zerowej Bez sięgania do tablic: "probability" - (w przybliżeniu) pokazuje prawdopodobieństwo tego, że wartość JB będzie mniejsza od wartości krytycznej chi* . Zatem H0 można odrzucić, jesli to prawdopodobieństwo jest małe (np. 0.05).
Autokorelacja składnika losowego
Autokorelacja składnika losowego - składniki losowe różnych obserwacji są ze sobą skorelowane.
Szczególnie występuje w szeregach czasowych.
Przyczyny:
Natura procesu - wpływ zdarzeń losowych na przyszłość: np. seria nieurodzajnych lat, skutki trzęsienia ziemi
Natura procesu - psychologia podejmowania decyzji - wpływ zdarzeń z najbliższej przeszłości
Niepoprawna postać modelu: nie uwzględnienie cykli, pominięcie ważnej zmiennej objaśniającej, zła konstrukcja dynamicznej postaci modelu (nieuwzględnienie zmiennych opóźnionych).
Skutki: estymatory nie są efektywne, estymator wariancji jest obciążony co najczęściej prowadzi do niedoszacowania błędów i zawyżenia t-statystyk.
Co robić? Przy wystąpieniu autokorelacji składnika losowego należy albo zastosować inne metody szacunku (niż KMNK) - jeśli uznajemy, że autokorelacja składnika losowego wynika z natury rzeczywistego procesu , albo zmienić specyfikację modelu.
Schemat autoregresyjny rzędu pierwszego (AR(1)):
Składniki losowe dla różnych obserwacji są związane zależnością:
εt = ρεt-1 + ηt
Uogólnienie: schemat autoregresyjny rzędu s (AR(s)):
εt = ρ1εt-1 + ρ2εt-2 + ... + ρsεt-s + ηt
Wykrywania autokorelacji
Test Durbina-Watsona na autokorelację rzędu 1
Zakładamy AR(1): εt = ρεt-1 + ηt
Będziemy testować zestaw hipotez:
H0: ρ = 0
H1: ρ > 0 (jeśli ocena estymatora ρ > 0) lub ρ < 0 (jeśli ocena estymatora ρ < 0)
za pomocą statystyki D-W:
d = ∑(et - et-1)2 / ∑ et2
Wartości krytyczne rozkładu tej statystyki podane są w tablicach. Dla każdej pary (n,k), gdzi n - liczba obserwacji, k - liczba zmiennych objaśniających, podane są dwie wartości (górna i dolna) dL i dU.
Decyzje podejmujemy w następujący sposób (dla danego n i k!).
jeśli d <= dL |
hipotezę H0 odrzucamy i przyjmujemy, że występuje autokorelacja dodatnia |
jeśli d > dU i d < 4- dU |
nie ma podstaw do odrzucenia H0 (brak autokorelacji 1-go rzędu) |
jeśli d >= 4 - dL |
odrzucamy H0 i przyjmujemy, że występuje autokorelacja ujemna |
jeśli dL < d < dU albo 4-dU < d < 4-dL |
nie możemy podjąć żadnej decyzji |
Test Durbina-Watsona ( prosty obliczeniowo, trudny w intrepretacji) ma ograniczenia, które podważają sensowność jego zastosowania:
obszar niekonkluzywności
nie nadaje się w tej postaci do testowania modeli, w których występuje opóźniona zmienna objaśniana,
bada tylko autokorelację pierwszego rzędu (a np. w modelach o dużej częstotliwości czasowej obserwacji często występują autokorelacje wyższych rzędów).
Dlatego często praktycznie stosowane są inne testy: Q statystyki Ljunga-Boxa lub test mnożników Lagrange (LM test Breuscha-Godfreya).
Przykład:
Wartość statystyki D-W dla modelu produkcji roślinnej wynosi ok. 1.73.
Przy liczbie obserwacji n = 47 i zmiennych objaśniających k = 2) znajdujemy w tablicach wartości krytyczne dL i dU i stwierdzamy, że D-W > dU oraz mniejsze od 4 - dU.
Nie mamy podstaw do odrzucenia hipotezy H0 - przyjmujemy, że nie występuje autokorelacja rzędu 1.
Heteroskedastyczność składnika losowego
Zjawisko heteroskedastyczności polega na niejednorodności wariancji składników losowych w obrębie proby (obserwacji).
Przyczyny: często natura zjawiska (np. w modelu przekrojowym wariancja dochodów wśród rodzin o wyższych dochodach jest wyższa niż u rodzin o niższych dochodach, wariancja zysków rośnie wraz ze wzrostem rozmiarów firmy itp.). Modele finansowe.
Skutki: niespełnienie założeń KMNK, czego wynikiem jest to, że estymatory parametrów strukturalnych nie są efektywne, a estymatory ich wariancji są obciążone, co prowadzi do fałszywych informacji o poziomach istotności i wartości statystyk służących do testowania hipotez.
Wykrywanie heteroskedastycznośc: test Harrisona-McCabe'a (z obszarem nierozstrzygalności), test White'a (dla obserwacji >=30)
Test White'a
Szacujemy model (model podstawowy)
Obliczamy reszty et oraz ich kwadraty et2 . Będą one reprezentować wartości wariancji składnika losowego (średnia równa jest 0!).
Szacujemy pomocniczy model, w którym zmienną objaśnianą sa wartości wariancji (obserwacje reprezentowane są przez kwadraty reszt), a zmiennymi objaśniającymi wszelki możliwe niepowatrzające się kombinacje iloczynów zmiennych objaśniających modelu podstawowego.
Obliczamy statystykę White, która ma postać n*R2, gdzie n - liczba obserwacji. Statystyka ta mo rozkład chi2 z liczbą stopni swobody, rowną liczbie zmiennych objaśniających w model pomocniczym.
Za pomocą tej statystyki na poziomie istotności α (zwykle 0.05) weryfikujemy hipotezę zerową H0: wszystkie parametry w modelu pomocniczym równe są 0 (tzn. wariancja jest stała, składnik losowy jest homoskedastyczny) przy hipotezie alternatywnej H1: co najmniej jeden parametr przy zmiennej objaśniającej w modelu pomocniczym nie jest równy 0.
Hipotezę zerową odrzucamy, gdy wartość statytyki White'a jest większa od wartości krytycznej rozkkładu chi2 przy danej liczbie stopni swobody i wybranym poziomie istotności. W przeciwnym razie nie mamy podstaw do odrzucenia hipotezy zerowej (przyjmujemy, że składnik losowy jest homoskedastyczny).
Przykład:
Model produkcji roślinnej:
PRODt = c(0) + c(1)*SIPt + c(2) *NAWt + et
Szacujemy model i obliczamy reszty oraz ich kwadraty.
Szacujemy model pomocniczy o postaci:
RESZTY2 = C(1)*SIP + C(2)*(SIP^2) + C(3)*(SIP*NAW) + C(4)*NAW + C(5)*(NAW^2) + C(6)
R2 = 0.21489
Obliczamy: n*R2 = 10.09983 (prob. = 0.072456).
Na poziomie istotności 0.05 nie ma podstaw aby odrzucić hipotezę H0.
Przyjmujemy, że składnik losowy nie jest heteroskedatsyczny
Współiniowość zmiennych objasniających
Współliniowość wartości zmiennych objaśniających polega na tym, że szeregi obserwacji zmiennych objaśniających są nadmiernie skorelowane.
Jeśli występuje ścisła korelacja liniowa, to rząd macierzy X (obserwacji zmiennych objasniających) jest mniejszy od k+1 (k liczba zmiennych objasniających) , a w konsekwencji macierz XTX jest osobliwa, co uniemożliwia wyznaczenie parametrów metodą MNK.
W praktyce dokładna zależność liniowa zmiennych objaśniających jest mało prawdopodobna. Często jednak występują bardzo zbliżone do ściśle liniowych zależności wartości zmiennych objaśniających (nadmierne skorelowanie).
Przyczyna: tendencja kształtowania się wartości wielu kategorii ekonomicznych według tych samych trendów rozwojowych lub szerzej - według podobnych cykli koniunkturalnych. W modelach, w których informacje o zmiennych mają charakter danych przekrojowych, występowanie zjawiska współliniowości jest tłumaczone tendencją do proporcjonalnych zmian wartości zmiennych objaśniających.
Skutki:
Niemożliwy jest poprawny pomiar siły oddziaływania poszczególnych zmiennych na zmienną objaśnianą (założenie ceteris paribus może być nieaktualne).
Oceny wariancji MNK-estymatorów, związanych zeskorelowanymi zmiennymi są bardzo duże
W związku z tym wartości t-statystyk dla skorelowanych zmiennych są małe, co (wcale niekoniecznie i nie do końca słusznie sugeruje usunięcie wszystkich tych zmiennych ze specyfikacji modelu). Możemy otrzymać paradoksalny rezultat: wszystkie zmiennye objaśniające są statystycznie nieistotne, a mimo to współczynnik determinacji R2 osiąga dużą wartość (i statystyka F może. być istotna)
Przybliżona współliniowość nie powoduje utraty przez estymator wektora parametrów * modelu wyznaczony KMNK własności, o których mówi twierdzenie Gaussa-Markowa..
Mierzenie współliniowości
Miarą dokładności oszacowania parametru αj, dla j=1,2, ..., k modelu jest średni błąd szacunku
. Jest on pierwiastkiem kwadratowym z j-tego elementu diagonalnego djj macierzy wariancji-kowariancji S2(XTX)-1. Można pokazać, że:
(4.15)
gdzie
jest współczynnikiem determinacji dla modelu pomocniczego, w którym zmienną objaśnianą jest Xj czyli j-ta zmienna objaśniająca modelu, a zmiennymi objaśniającymi - pozostałe k-1 zmiennych objaśniających modelu. Wśród szacowanych parametrów tego modelu znajduje się również wyraz wolny.
Zgodnie z interpretacją współczynnika determinacji
, jego duża wartość oznacza wysoki topień skorelowania zmiennej Xj z pozostałymi k-1 zmiennymi objaśniającymi.
Ze wzoru wynika, że im większa wartość współczynnika
, tym większa wartość wariancji, a w konsekwencji większa wartość średniego błędu szacunku parametru α*j. Występujący w tym wzorze czynnik 1 / (1 -
) nazywa się czynnikiem inflacji wariancji (CIWj) estymatora parametru α*j
Gdy brak współliniowości zmiennych, wtedy
= 0 oraz CIWj = 1. Jeśli występuje przybliżona współliniowość zmiennych objaśniających, wtedy
> 0 oraz CIWj > 1. Mówimy, że wartość CIWj pokazuje stopień podwyższenia (inflacji) wartości wariancji estymatora parametru α*j wywołany współliniowością zmiennych. Uważa się, że wartość CIWj > 10 jest oznaką współliniowości, która trwale zakłóca jakość skonstruowanego modelu ekonometrycznego.
Przykład
W modelu konsumpcji lodów:
KONS = f (CENA, DOCH, TEMP)
są trzy zmienne objaśniające: CENA, DOCH i TEMP. Dla zbadania zjawiska współliniowości oszacowano modele ekonometryczne (t = 1,2, ..., 32):
CENAt = 8,65 +5,67 DOCHt + 0,58 TEMPt
= 0,88 CIWCENA = 8,33,
DOCHt = - 0,03 - 0,04 TEMPt + 0,11 CENAt
= 0,72 CIWDOCH = 3,57,
TEMPt = - 10,69 +1,10 CENAt - 4,32 DOCHt
= 0,74 CIWTEMP = 3,85.
W żadnym przypadku nie występuje zjawisko zakłócającej współliniowości między wyróżnioną zmienną objaśniającą a pozostałymi zmiennymi objaśniającymi, chociaż wartość czynnika inflacji wariancji parametru stojącego przy zmiennej CENA jest bliska 10. *
UPROSZCZONA PROCEDURA BUDOWY i WERYFIKACJI
LINIOWEGO JEDNORÓWNANIOWEGO MODELU EKONOMETRYCZNEGO
Krok 1: Określić zmienną objaśnianą i zbiór kandydatek na zmienne objaśniające.
Zgromadzić niezbędne dane statystyczne.
Krok 2: Przeprowadzić procedurę doboru zmiennych objaśniających.
Krok 3: Zdefiniować jednorównaniowy liniowy model ekonometryczny.
Krok 4: Oszacować parametry modelu metodą najmniejszych kwadratów.
Krok 5: Wyznaczyć reszty modelu.
Krok 6: Czy reszty mają rozkład normalny?
TAK * krok 7 NIE * STOP (użyć innych metod)
Krok 7: Czy występuje zjawisko autokorelacji składnika losowego modelu?
TAK * STOP (użyć innych metod) NIE * krok 8
Krok 8: Czy występuje zjawisko heteroskedastyczności składnika losowego modelu?
TAK * STOP (użyć innych metod) NIE * krok 9
Krok 9: Czy występuje zjawisko współliniowości zmiennych objaśniających?
TAK krok11 lub* STOP (użyć innych metod) NIE * krok 10
Krok 10: Czy wszystkie zmienne objaśniające są istotne statystycznie?
TAK * krok 12 NIE * krok 11
Krok 11: Zmienić zestaw zmiennych objaśniających i przejść do kroku 4.
Krok 12: Czy można zaakceptować wartość współczynnika determinacji?
TAK * krok 13 NIE * krok 11
Krok 13: Czy można zaakceptować interpretację wartości oszacowań parametrów modelu?
TAK * krok 14 NIE * krok 11
Krok 14: Wykorzystać oszacowany model ekonometryczny * STOP.