MODEL
EKONOMETRYCZNY
Spis treści
Postać modelu …………………………………………………………………………………… 2
Dane ……………………………………………………………………………………… 2
Dobór zmiennych objaśniających metodą Hellwig'a …………………………………………… 3
Oszacowanie parametrów strukturalnych ……………………………………………………….. 5
3.1 Interpretacja oszacowanych parametrów strukturalnych ………………………………… 5
3.2 Interpretacja błędów szacunku parametrów ……………………………………………… 6
Badanie właściwości koincydencji ……………………………………………………………….. 6
Normalność rozkładu składnika losowego ……………………………………………………….. 6
5.1 Test Jarcque'a-Bera ………………………………………………………………………. 6
Autokorelacja składnika losowego ……………………………………………………………….. 7
6.1 Test Durbin'a-Watson'a ………………………………………………………………….. 7
6.2 Test Lagrange'a ................................................................................................................... 7
Heteroskedastyczność składnika losowego ..................................................................................... 7
7.1 Test White'a ........................................................................................................................ 7
Współliniowość zmiennych objaśniających .................................................................................... 8
Istotność zmiennych objaśniających ............................................................................................... 9
test t-Studenta
10. Współczynnik determinacji ..............................................................................................................9
11.1 Skorygowanty współczynnik determinacji ....................................................................... 9
Prognozy ......................................................................................................................................... 9
11.1 Test stabilności Chow'a .................................................................................................... 9
11.2 Prognoza ......................................................................................................................... 10
12. Prognoza zmiennej endogenicznej na podstawie modelu trendu liniowego. ....................................... 10
12.1 Prognoza P na okres 20 (2004r.) ........................................................................................................ 10
1.Postać modelu
Pt = α0 + α1Mt + α2Ft + α3Bt
Pt - ogólna liczba ludności w Polsce w tysiącach w Polsce w latach 1985-2000, w tys.
Mt - liczba zawieranych małżeństw w Polsce w latach 1985-2000
Ft - liczba mieszkań oddanych do użytku w latach 1985-2000, w tys.
Bt - liczba urodzeń żywych dzieci ogółem w latach 1985-2000
αj - parametry strukturalne, j=0,1,2,3,
εt - składnik losowy
Dane
Dane do modelu obejmują 16 obserwacji od 1985 do 2000 roku:
t |
Pt |
Mt |
Ft |
Bt |
1985 |
37341 |
266816 |
190,4 |
685305 |
1986 |
37572 |
257887 |
185 |
642221 |
1987 |
37764 |
252819 |
191 |
612458 |
1988 |
37885 |
246791 |
189,6 |
594249 |
1989 |
38038,4 |
255643 |
150,2 |
568569 |
1990 |
38183,2 |
255369 |
134,2 |
551660 |
1991 |
38309,2 |
233206 |
136,8 |
551455 |
1992 |
38418,1 |
217240 |
133 |
518669 |
1993 |
38504,7 |
207674 |
94,4 |
497708 |
1994 |
38580,6 |
207689 |
76,1 |
485098 |
1995 |
38609,4 |
207081 |
67,1 |
436312 |
1996 |
38639,3 |
203641 |
62,1 |
431211 |
1997 |
38660 |
204850 |
73,7 |
415166 |
1998 |
38667 |
209430 |
80,0 |
398103 |
1999 |
38653,6 |
219398 |
82,0 |
384379 |
2000 |
38644,2 |
211150 |
88,0 |
380476 |
2. Dobór zmiennych objaśniających metodą Hellwig'a
-----------------------------------------------------------------------
Correlation matrix
-----------------------------------------------------------------------
P M F B
P 1.0000 -0.92347 -0.94034 -0.94880
M -0.92347 1.0000 0.91344 0.87815
F -0.94034 0.91344 1.0000 0.92227
B -0.94880 0.87815 0.92227 1.0000
-----------------------------------------------------------------------
-0,92347 1 0,91344 0,87815
R0 = -0,94034 , R = 0,91344 1 0,92227 -0,94880 0,87815 0,92227 1
gdzie:
R0 = rj - macierz współczynników korelacji liniowej pomiędzy j. zmienną objaśniającą, a zmienną objaśnianą, j = 1, 2, ....... , k
R = rij - macierz współczynników korelacji liniowej pomiędzy i. a j. zmienną objaśniającą, i = 1, 2, ..., k, j = 1, 2, ..., k,
k - liczba zmiennych objaśniających w modelu.
Ilość możliwych podzbiorów ze zbioru zmiennych objaśniających {M1,F2,B3} (bez zbioru pustego):
S = 2k - 1 = 23 - 1 = 7
Te możliwe podzbiory to:
numer podzbioru (s) |
podzbiór |
Zbiór indeksów zmiennych tworzących dany podzbiór (Cs) |
1 |
{M} |
{1} |
2 |
{F} |
{2} |
3 |
{B} |
{3} |
4 |
{M, F} |
{1, 2} |
5 |
{M, B} |
{1, 3} |
6 |
{F,B} |
{2, 3} |
7 |
{M, F, B} |
{1, 2, 3} |
Pojemność indywidualną j. zmiennej s. podzbioru określamy jako:
hsj =
Pojemność integralna s. podzbioru to suma jego pojemności indywidualnych:
Hs =
hfj
Pojemność integralna i indywidualna dla zbioru jednoelementowego jest identyczna:
{M}: h11 = 0,852 = H1
{F} : h22 = 0,884 = H2
{B}: h33 = 0,901 = H3
oraz:
(4) {M, F}: h41 = 0,446
h42 = 0,462
H4 = h41 + h42 = 0,908
(5) {M, B}: h51 = 0,454
h53 = 0,48
H5 = h51 + h53 = 0,934
(6) {F, B}: h62 = 0,494
h63 = 0,503
H6 = h62 + h63 = 0,997 ~ 1,00
(7) {M, F, B}: h71 = 0,305
h72 = 0,317
h73 = 0,306
H7 = h71 + h72 + h73 = 0,928
Zestawienie pojemności integralnych:
s |
podzbiór |
Hs |
1 |
{M} |
0,852 |
2 |
{F} |
0,884 |
3 |
{B} |
0,901 |
4 |
{M, F} |
0,908 |
5 |
{M, B} |
0,934 |
6 |
{F,B} |
0,997 |
7 |
{M, F, B} |
0,928 |
Wybieramy ten podzbiór, dla którego pojemność integralna jest największa. Zatem do modelu powinny wejść zmienne objaśniające: F, B. Biorąc jednak pod uwagę wyniki w oszacowanym modelu, widać, że krytyczny poziom istotności (t-prob) dla zmiennej objaśniającej F przekracza dopuszczalny poziom błędu (0,322>0,05). Zatem przyjmując, że zmienna objaśniająca F jest nieistotna statystycznie wyrzucamy ją z modelu. Dalej oszacowujemy model dla zmiennej objaśnianej P i zmiennych objaśniających M i B.
Następnie porównujemy krytyczny poziom istotności w obu modelach. W drugim modelu wartości są mniejsze, więc model jest bardziej prawidłowy. Dodatkowo sprawdzamy wyniki macierzy korelacyjnej. Im wartości są bardziej zbliżone do siebie, tym zmienne są bardziej współliniowe, a to oznacza, że w modelu dane są źle dobrane.
Dodatkowo współczynnik determinacji (R2) jest wyższy, co potwierdza nasz wybór dotyczący zmiennych w modelu.
Oszacowanie parametrów strukturalnych
Pakiet PcGive podaje wyniki:
--------------------------------------------------------------------------------------------------------
Coefficient Std.Error t-value t-prob Part.R^2
Constant 41350.9 369.5 112. 0.000 0.9990
M -0.00737628 0.002746 -2.69 0.019 0.3569
B -0.00271944 0.0006630 -4.10 0.001 0.5641
--------------------------------------------------------------------------------------------------------
sigma 118.349 RSS 182085.201
R^2 0.935835 F(2,13) = 94.8 [0.000]**
log-likelihood -97.4201 DW 0.404
no. of observations 16 no. of parameters 3
mean(P) 38279.4 var(P) 177360
Oszacowany metodą najmniejszych kwadratów model przyjmuje zatem postać:
P = 41530,9 - 0,00737628 M - 0,00271944 B
[369,5]
[0,002746] [0,0006630]
W nawiasach podano średnie błędy szacunku.
3.1 Interpretacja oszacowanych parametrów strukturalnych
α1- (- 0,00737628) - wzrost ilości zawartych małżeństw o jednostkę (ceteris paribus - przy pozostałych warunkach niezmienionych) wywoła spadek liczby ludności o 7,38 tys.
α2 - (-0,00271944) - wzrost liczby urodzeń o jednostkę (ceteris paribus) powoduje spadek ogólnej liczby ludności o 2,72 tys.
3.2 Interpretacja błędów szacunku parametru
Sα0 - 369,5 - szacując α0 na poziomie 41530,9 mylimy się średnio o +/- 369,5
Sα1 - 0,0027 - szacując α1 na poziomie (-0,0074) mylimy się średnio o +/- 0,0027
Sα3 - 0,0007 - szacując α2 na poziomie (-0,0027) mylimy się średnio o +/- 0,0007
4. Badanie własności koincydencji
Model jest koincydentny, gdy spełniony jest warunek:
sgn rj = sgn αj, j = 1, 2, ..., k
sgn (r1 = -0,92347) = „-„ oraz sgn (α1 = -0,0074) = „-„
sgn (r2 = -0,9488) = „-„ oraz sgn (α2 = -0,0027) = „-„
Ponieważ dla wszystkich par znaki są zgodne, zatem model spełnia postulat koincydencji.
Obie wielkości: rj i αj, są ujemne w obu przypadkach. Oznacza to, że rosnącym wartościom zmiennej P towarzyszą malejące wartości zmiennych objaśniających.
5. Normalność rozkładu składnika losowego
5.1 Test Jarque-Bera
PcGive podaje wyniki testu normalności reszt opartego na rozkładzie chi-kwadrat.
Formułujemy hipotezę dotyczącą normalności rozkładu reszt:
H0 - reszty mają rozkład normalny
H1 - reszty nie mają rozkładu normalnego
-------------------------------------------------
Normality test for Residuals
Observations 16
Mean 0.00000
Std.Devn. 106.68
Skewness 0.44184
Excess Kurtosis -0.59729
Minimum -178.13
Maximum 216.20
Asymptotic test: Chi^2(2) = 0.75843 [0.6844]
Normality test: Chi^2(2) = 0.84951 [0.6539]
--------------------------------------------------
Wniosek: Przy 65% poziomie istotności moglibyśmy odrzucić H0, co znacznie przekracza 5% poziomu błędu. Uznajemy więc, że w naszym modelu składnik losowy ma rozkład normalny.
6. Autokorelacja składnika losowego
6.1 Test Durbin'a-Watson'a
sigma 118.349 RSS
182085.201
R^2 0.935835 F(2,13) = 94.8 [0.000]**
log-likelihood -97.4201 DW 0.404
no. of observations 16 no. of parameters 3
mean(P) 38279.4 var(P) 177360
W oszacowanym modelu wartość testu DW wynosi 0,404, czyli jest < 2.
Formułujemy hipotezy:
H0: ρ = 0 - brak autokorelacji
H1: ρ > 0 - dodatnia autokorelacja
T = 16, k + 1 = 3, k - ilość zmiennych objaśniających
Odczytujemy z tablic wartość dla T = 16 i 3 stopni swobody.
dl = 0,86, a du = 1,73
DW należy do przedziału (0,dl>. Na tej podstawie odrzucamy H0, na korzyść H1, która mówi, że istnieje dodatnia autokorelacja składnika losowego.
Ze względu na występowanie autokorelacji składnika losowego mamy do czynienia z obciążonym estymatorem metody najmniejszych kwadratów.
6.2 Test mnożnika Lagrange'a
Formułujemy hipotezy:
H0: ρ = 0 - brak autokorelacji składnika losowego
H1: ρ
0 - autokorelacja składnika losowego
Program PcGive podaje wyniki:
Testing for error autocorrelation from lags 1 to 1
Chi^2(1) = 8.9385 [0.0028]** and F-form F(1,12) = 15.190 [0.0021]**
Poziom istotności wynosi 0,0028, jest on mniejszy od krytycznego poziomu istotności wynoszącego 0,05, a to oznacza, że odrzucamy hipotezę zerową na korzyść alternatywne, która mówi, że istnieje autokorelacja składnika losowego.
7. Heteroskedastyczność składnika losowego
7.1 Test White'a
Pt = α0 + α1x1t + α2x2t + εt
Szacujemy model:
et2 = β0 + β1x1t + β2x2t + β3x1t2 + β4x2t2 + ξt
i obliczamy R2
Obliczamy statystykę nR2 i odczytujemy z tablic:
χ2α=0,05; df=5
Jeżeli nR2 < χ2α; df, to H0: σ2=σ2 - składnik losowy jest homoskedastyczny
Jeżeli nR2 > χ2α; df, to H1: σ2=σ2 - składnik losowy jest heteroskedastyczny
Testing for heteroscedasticity using squares
Chi^2(4) = 6.7034 [0.1524] and F-form F(4,8) = 1.4421 [0.3050]
Czyli:
Na podstawie testu White'a i analizie wartości χ2 przyjmujemy, że składnik losowy jest homoskedastyczny Homoskedastyczność składnika losowego oznacza, że jego estymator jest efektywny.
8.Współliniowość zmiennych objaśniających
Model wyjściowy:
Coefficient Std.Error t-value t-prob Part.R^2
Constant 41350.9 369.5 112. 0.000 0.9990
M -0.00737628 0.002746 -2.69 0.019 0.3569
B -0.00271944 0.0006630 -4.10 0.001 0.5641
sigma 118.349 RSS 182085.201
R^2 0.935835 F(2,13) = 94.8 [0.000]**
log-likelihood -97.4201 DW 0.404
no. of observations 16 no. of parameters 3
mean(P) 38279.4 var(P) 177360
Modele pomocnicze:
Coefficient Std.Error t-value t-prob Part.R^2
Constant 120514. 1.599e+004 7.54 0.000 0.8023
B 0.212002 0.03087 6.87 0.000 0.7712
sigma 11517.9 RSS 1.85725343e+009
R^2 0.771153 F(1,14) = 47.18 [0.000]**
log-likelihood -171.261 DW 0.665
no. of observations 16 no. of parameters 2
mean(M) 228543 var(M) 5.07231e+008
*** Warning: diagonal elements of W'W are very small or very different.
Numerical accuracy is endangered, try rescaling the data.
---------------------------------------------------------------------------------------------------------------------------
Coefficient Std.Error t-value t-prob Part.R^2
Constant -321753. 1.216e+005 -2.65 0.019 0.3333
M 3.63747 0.5296 6.87 0.000 0.7712
sigma 47709.1 RSS 3.1866191e+010
R^2 0.771153 F(1,14) = 47.18 [0.000]**
log-likelihood -194.001 DW 0.573
no. of observations 16 no. of parameters
mean(B) 509565 var(B) 8.70292e+009
---------------------------------------------------------------------------------------------------------------------------
Po oszacowaniu dwóch nowych modeli, w których kolejno zmiennymi objaśnianymi są M i B a wartość R^2 w obu modelach wynosi 0,77.Ta wartość jest mniejsza od wartości R^2 w modelu wyjściowym, która wynosi 0,94 ,to oznacza brak współliniowości zmiennych objaśniających.
9.Istotność zmiennych objaśniających - test t-Studenta
H0: αj = 0 - j. zmienna jest nieistotna w modelu, j = 0, 1, 2, ..., k
H1: αj = 0 - j. zmienna jest istotna w modelu
Zmienna losowa ma rozkład t-Studenta z n - (k + 1) stopniami swobody.
Statystki t-Studenta oraz krytyczne (nominalne) poziomy istotności dla poszczególnych zmiennych wynoszą odpowiednio:
t-value t-prob
Constant 112. 0.000
M -2.69 0.019
B -4.10 0.001
Z analizy wartości t-prob w wynika, że każda ze zmiennych objaśniających jest istotna statystycznie, ponieważ wartości te nie przekraczają 0,05.
10.Współczynnik determinacji
Współczynnik determinacji w modelu wyjściowym wynosi 0,935.To oznacza, że około 94% zmienności ogólnej liczby ludności jest wyjaśnione przez zmienność zmiennych: liczbą urodzeń żywych oraz liczbą zawieranych małżeństw.
10.1 Skorygowany współczynnik determinacji
2= R2 -
= 0,935 -
= 0,925
11. Prognozy
11.1 Test stabilności Chowa
Badamy, czy parametry są stabilne. Do tego wykorzystujemy test Chowa.
Formułujemy hipotezy:
H0-parametry są stabilne.
H1-parametry nie są stabilne.
PcGive podaje wyniki:
Forecast Chi^2(3) = 11.812 [0.0081]**
Chow F(3,10) = 1.2311 [0.3490]
Test Chowa wskazuje, że parametry są stabilne, ponieważ poziom istotności 0,34 znacznie przekracza krytyczny poziom istotności, który przyjęliśmy na poziomie 0,05. Dlatego nie mamy podstaw do odrzucenia H0.
11.2 Prognoza
PcGive podaje wyniki:
Dynamic (ex ante) forecasts for Pt (SE based on error variance only)
Horizon Forecast SE Actual Error t-value
1998 38850.5 115.3 38667.0 -183.477 -1.591
1999 38873.7 115.3 38653.6 -220.116 -1.909
2000 38918.0 115.3 38644.2 -273.785 -2.374
mean(Error) = -225.79 RMSE = 228.82
SD(Error) = 37.086 MAPE = 0.58415
Model został przeszacowany. Średni błąd prognozy wynosi -225,79.
12. Prognoza zmiennej endogenicznej na podstawie modelu trendu liniowego.
PcGive podaje wyniki:
Coefficient Std.Error t-value t-prob Part.R^2
Constant 37427.8 67.26 556. 0.000 1.0000
Trend 109.266 8.474 12.9 0.000 0.9379
sigma 114.322 RSS 143764.586
R^2 0.937943 F(1,11) = 166.3 [0.000]**
log-likelihood -78.9676 DW 0.331
no. of observations 13 no. of parameters 2
mean(Pt) 38192.7 var(Pt) 178205
Oszacowany model trendu ma postać:
P = 37427.8 + 109.266t
12.1 Prognoza P na okres 20 (2004r.)
Pp17 = 37427.8 + 109.266 . 20 = 39613.12