Paweł Niśkiewicz nr. Albumu 44215 04.oraz 09.10.2008r.
Praca domowa
Na podstawie dowolnie wybranych danych z Banku Danych Regionalnych GUSu (www.stat.gov.pl) oszacować model liniowy MNK i zweryfikować jego jakość za pomocą dotychczas omówionych testów. Należy podać interpretację parametrów przy każdej zmiennej oraz skomentować wyniki testów.
Zmienna objaśniana:
G - liczba gwałtów w USA(w tys.).
Zmienne objaśniające:
GP - liczba gwałtów w USA w roku poprzednim(w tys.).
WL - liczba włamań w USA w roku poprzednim(w tys.).
BZ - stopa bezrobocia w USA w roku poprzednim(w %).
Badam w Latach 1961-2007. Liczba obserwacji : n = 47
Model 1: Estymacja KMNK z wykorzystaniem 47 obserwacji 1961-2007
Zmienna zależna: G
|
Współczynnik |
Błąd stand. |
t-Student |
wartość p |
|
const |
12075,6 |
14593,8 |
0,8274 |
0,41255 |
|
GP |
0,318637 |
0,13888 |
2,2943 |
0,02672 |
** |
WL |
0,0246523 |
0,00758334 |
3,2508 |
0,00224 |
*** |
BZ |
-4548 |
3201,24 |
-1,4207 |
0,16262 |
|
Średnia arytmetyczna zmiennej zależnej = 67672,4
Odchylenie standardowe zmiennej zależnej = 32876,6
Suma kwadratów reszt = 2,30693e+010
Błąd standardowy reszt = 23162,4
Wsp. determinacji R2 = 0,53602
Skorygowany R2 = 0,50365
Statystyka F (3, 43) = 16,5586 (wartość p < 0,00001)
Statystyka testu Durbina-Watsona = 2,23611
Autokorelacja reszt rzędu pierwszego = -0,126322
Logarytm wiarygodności = -536,963
Kryterium informacyjne Akaike'a = 1081,93
Kryterium bayesowskie Schwarza = 1089,33
Kryterium infor. Hannana-Quinna = 1084,71
G = 12075,6 + 0,318637GP + 0,00246523WL - 4548BZ
1) Interpretacja ocen parametrów regresji:
GP - Jeżeli liczba gwałtów w roku poprzednim wzrośnie o jednostkę (o tysiąc), to liczba gwałtów w roku bieżącym wzrośnie o około 318 ( 0,318637 jednostki - tysiąca)
WL - Jeżeli liczba włamań w roku poprzednim wzrośnie o jednostkę (o tysiąc), to liczba gwałtów w roku bieżącym wzrośnie o około 24 ( 0,0246523 jednostki - tysiąca)
BZ - Jeżeli stopa bezrobocia w roku poprzednim wzrośnie o jednostkę (o 1 punkt procentowy), to liczba gwałtów w roku bieżącym spadnie o około 4548 jednostek (tysięcy).
Średnie błędy szacunku wynoszą odpowiednio 0,13888 dla GP, 0,00758334 dla WL oraz 3201,24 dla BZ.
2) Interpretacja Współczynnika determinacji:
Wsp. determinacji R2 = 0,53602
Skorygowany R2 = 0,50365
Współczynnik determinacji jest umiarkowany, co oznacza, że model w 53% procentach objaśnia analizowane zjawisko.
3) Statystyka F (3, 43) = 16,5586 (wartość p < 0,00001)
Łącznie wszystkie zmienne objaśniające są istotne statystycznie.
4) Zmienne GP oraz WL są statystycznie istotne gdyż wartość p dla ich statystyk t wynosi odpowiednio 0,02672<0,05 oraz 0,00224<0,05. Natomiast zmienna BZ nie jest statystycznie istotna gdyż jej wartość p wynosi 0,16262 > 0,05
5) Test RESET (prawidłowa postać funkcyjna)
Pomocnicze równanie regresji dla testu specyfikacji RESET
Estymacja KMNK z wykorzystaniem 47 obserwacji 1961-2007
Zmienna zależna: G
współczynnik błąd standardowy t-Student wartość p
------------------------------------------------------------------
const 13787,5 19891,3 0,6931 0,4921
GP 0,552377 1,06075 0,5207 0,6053
WL 0,0401439 0,0692004 0,5801 0,5650
BZ -7220,49 11589,8 -0,6230 0,5367
yhat^2 -1,69366E-05 5,91278E-05 -0,2864 0,7760
yhat^3 1,14522E-010 3,42149E-010 0,3347 0,7395
Statystyka testu: F = 0,146842,
z wartością p = P(F(2,41) > 0,146842) = 0,864
Hipoteza zerowa mówi o liniowości modelu
F = 0,146842 > 0,05 zatem nie mamy podstaw do odrzucenia hipotezy zerowej na rzecz alternatywnej mówiącej o nieprawidłowej postaci funkcyjnej modelu.
6) Ocena współliniowości VIF - czynnika powiększania wariancji
Minimalna możliwa wartość = 1.0
Wartości > 10.0 mogą wskazywać na problem współliniowości-rozdęcia wariancji
3) GP 1,856
4) WL 2,917
5) BZ 1,817
VIF(j) = 1/(1 - R(j)^2), gdzie R(j) jest współczynnikiem korelacji wielorakiej
pomiędzy zmienną 'j' a pozostałymi zmiennymi niezależnymi modelu.
Własności macierzy X'X:
1-norm = 3,2490775e+014
Wyznacznik = 1,9542164e+027
Wskażnik uwarunkowania macierzy CN = 6,835438e-015
Wartości czynników inflacji wariancji wynoszą odpowiednio 1,856 dla GP, 2,917 dla WL oraz 1,817 dla BZ i wszystkie są mniejsze od 5 (oraz 10) nie mamy więc podstaw sądzić o korelacji między zmiennymi objaśniającymi w modelu.
Test pominiętych zmiennych :
dla zmiennej GP
Model 2: Estymacja KMNK z wykorzystaniem 47 obserwacji 1961-2007
Zmienna zależna: G
|
Współczynnik |
Błąd stand. |
t-Student |
wartość p |
|
const |
14960,7 |
15227,7 |
0,9825 |
0,33124 |
|
WL |
0,035741 |
0,00612025 |
5,8398 |
<0,00001 |
*** |
BZ |
-6141,1 |
3272,95 |
-1,8763 |
0,06725 |
* |
Średnia arytmetyczna zmiennej zależnej = 67672,4
Odchylenie standardowe zmiennej zależnej = 32876,6
Suma kwadratów reszt = 2,58934e+010
Błąd standardowy reszt = 24258,7
Wsp. determinacji R2 = 0,47922
Skorygowany R2 = 0,45555
Statystyka F (2, 44) = 20,2441 (wartość p < 0,00001)
Statystyka testu Durbina-Watsona = 1,44243
Autokorelacja reszt rzędu pierwszego = 0,270599
Logarytm wiarygodności = -539,677
Kryterium informacyjne Akaike'a = 1085,35
Kryterium bayesowskie Schwarza = 1090,9
Kryterium infor. Hannana-Quinna = 1087,44
Hipoteza zerowa: parametry regresji dla wskazanych zmiennych są równe zero.
Statystyka testu: F(1, 43) = 5,26396, z wartością p = 0,026717 < 0,05
Odrzucamy więc hipotezę zerową na rzecz alternatywnej mówiącej, że parametry zmiennej GP są różne od zera
dla zmiennej WL
Model 3: Estymacja KMNK z wykorzystaniem 47 obserwacji 1961-2007
Zmienna zależna: G
|
Współczynnik |
Błąd stand. |
t-Student |
wartość p |
|
const |
15993,3 |
16047,5 |
0,9966 |
0,32440 |
|
GP |
0,606378 |
0,118084 |
5,1351 |
<0,00001 |
*** |
BZ |
1979,81 |
2750,89 |
0,7197 |
0,47552 |
|
Średnia arytmetyczna zmiennej zależnej = 67672,4
Odchylenie standardowe zmiennej zależnej = 32876,6
Suma kwadratów reszt = 2,8739e+010
Błąd standardowy reszt = 25557
Wsp. determinacji R2 = 0,42199
Skorygowany R2 = 0,39571
Statystyka F (2, 44) = 16,0613 (wartość p < 0,00001)
Statystyka testu Durbina-Watsona = 2,48592
Autokorelacja reszt rzędu pierwszego = -0,253848
Logarytm wiarygodności = -542,127
Kryterium informacyjne Akaike'a = 1090,25
Kryterium bayesowskie Schwarza = 1095,81
Kryterium infor. Hannana-Quinna = 1092,34
Hipoteza zerowa: parametry regresji dla wskazanych zmiennych są równe zero
Statystyka testu: F(1, 43) = 10,568, z wartością p = 0,00223946< 0,05
Odrzucamy więc hipotezę zerową na rzecz alternatywnej mówiącej, że parametry zmiennej WL są różne od zera
dla zmiennej BZ
Model 4: Estymacja KMNK z wykorzystaniem 47 obserwacji 1961-2007
Zmienna zależna: G
|
Współczynnik |
Błąd stand. |
t-Student |
wartość p |
|
const |
-612,124 |
11675 |
-0,0524 |
0,95842 |
|
GP |
0,361434 |
0,137134 |
2,6356 |
0,01156 |
** |
WL |
0,0178944 |
0,00597389 |
2,9954 |
0,00449 |
*** |
Średnia arytmetyczna zmiennej zależnej = 67672,4
Odchylenie standardowe zmiennej zależnej = 32876,6
Suma kwadratów reszt = 2,41521e+010
Błąd standardowy reszt = 23428,9
Wsp. determinacji R2 = 0,51424
Skorygowany R2 = 0,49216
Statystyka F (2, 44) = 23,2897 (wartość p < 0,00001)
Statystyka testu Durbina-Watsona = 2,25816
Autokorelacja reszt rzędu pierwszego = -0,138525
Logarytm wiarygodności = -538,041
Kryterium informacyjne Akaike'a = 1082,08
Kryterium bayesowskie Schwarza = 1087,63
Kryterium infor. Hannana-Quinna = 1084,17
Hipoteza zerowa: parametry regresji dla wskazanych zmiennych są równe zero
Statystyka testu: F(1, 43) = 2,01838, z wartością p = 0,162616 > 0,05
Nie odrzucamy więc hipotezy zerowej mówiącej, że parametry regresji dla BZ równe są zeru.
Test na Autokorelację składnika losowego
Test Breuscha-Godfreya na autokorelację rzędu pierwszego
Estymacja KMNK z wykorzystaniem 47 obserwacji 1961-2007
Zmienna zależna: uhat
współczynnik błąd standardowy t-Student wartość p
---------------------------------------------------------------
const -5164,05 14313,4 -0,3608 0,7201
GP 0,591751 0,319951 1,850 0,0714 *
WL -0,0207659 0,0125505 -1,655 0,1055
BZ 2956,58 3414,02 0,8660 0,3914
uhat_1 -0,719775 0,353364 -2,037 0,0480 **
Wsp. determinacji R-kwadrat = 0,08991
Statystyka testu: LMF = 4,149054,
z wartością p = P(F(1,42) > 4,14905) = 0,048
Statystyka testu: TR^2 = 4,225559,
z wartością p = P(Chi-kwadrat(1) > 4,22556) = 0,0398
Ljung-Box Q' = 0,781116 z wartością p = P(Chi-kwadrat(1) > 0,781116) = 0,377
Hipoteza zerowa mówi o braku autokorelacji składnika losowego. Wartość statystyki F o 1 i 42 stopniach swobody (dla p=0,05) wynosi 4,07265 co jest mniejsze od wartości statystyki testu LMF 4,07265 < 4,149054. Musimy więc odrzucić hipotezę zerową na rzecz alternatywnej mówiącej o autokorelacji składnika losowego. Test RESET wykazał jednak prawidłową postać funkcyjną. Oznacza to więc, że estymatory stają się nieefektywne, lecz nadal pozostają nieobciążone oraz zgodne.
Test na Heterostoskedastyczność składnika losowego.
Test White'a na heteroskedastyczność reszt (zmienność wariancji resztowej)
Estymacja KMNK z wykorzystaniem 47 obserwacji 1961-2007
Zmienna zależna: uhat^2
współczynnik błąd standardowy t-Student wartość p
-----------------------------------------------------------------
const 5,92816E+08 3,03305E+09 0,1955 0,8461
GP 28328,0 38974,5 0,7268 0,4719
WL 315,988 2601,44 0,1215 0,9040
BZ -5,61296E+08 8,80837E+08 -0,6372 0,5279
sq_GP 0,848076 0,277837 3,052 0,0042 ***
X2_X3 -0,0581019 0,0257722 -2,254 0,0302 **
X2_X4 1616,17 8900,35 0,1816 0,8569
sq_WL 0,00103240 0,000839094 1,230 0,2263
X3_X4 -311,475 469,214 -0,6638 0,5109
sq_BZ 9,71636E+07 1,23586E+08 0,7862 0,4368
Wsp. determinacji R-kwadrat = 0,30940
Statystyka testu: TR^2 = 14,541875,
z wartością p = P(Chi-kwadrat(9) > 14,541875) = 0,104313
Hipoteza zerowa mówi, że heteroskedastyczność nie jest obecna. Wartosc statystyki Chi- kwadrat o 9. stopniach swobody wynosi 16,919 i jest większa niż wartosc TR^2 (16,919 > 14,541875).
Brak więc podstaw do odrzucenia hipotezy zerowej mówiącej o braku heteroskedastyczności składnika losowego.