Ekonometria II projekt B


Autor opracowania: Marek Walesiak
PROJEKT B  MODEL LINIOWY
z dwiema zmiennymi objaśniającymi
Nazwisko i imię studenta 1: ..........................................
Kierunek i rok studiów studenta 1: ......
Numer grupy studenta 1: .....
Nazwisko i imię studenta 2: ..........................................
Kierunek i rok studiów studenta 2: ......
Numer grupy studenta 2: .....
Uwagi dla studentów:
1. Program R należy pobrać ze strony: http://cran.r-project.org/
2. Co najmniej jeden projekt (A, B, C, D) należy przesłać na e-mail prowadzącego laboratoria
3. Projekty można wykonywać osobiście lub w zespołach dwuosobowych (liczba zrealizowanych
projektów oraz jakość i estetyka wykonania będzie decydować o ocenie z laboratorium dla
przedmiotu Ekonometria)
4. Liczba obserwacji (dane w postaci szeregów przekrojowych z roku 2009 lub 2010) w projekcie
A, B oraz C musi wynosić co najmniej 12, a w projekcie D co najmniej 30. Dla danych staty-
stycznych należy koniecznie podać zródło
5. Nie wolno w projektach stosować zmiennych użytych w przykładowych projektach prezentowa-
nych na laboratoriach (nie dotyczy projektu C)
6. Wraz z każdym projektem opracowanym w edytorze Word (może też być jego odpowiednik z
pakietu OpenOffice) należy przesłać:
a) plik (pliki) danych w formacie csv
b) odpowiednie procedury w programie R
7. Termin przesłania projektu (projektów): do 03 stycznia 2012 roku
8. Proszę przesyłać projekty z własnych e-maili podając w e-mailu skład zespołu (imię i nazwisko,
rok i forma studiów, numer grupy lub specjalność)
9. Warunkiem przyjęcia projektu (projektów) jest uzyskanie pozytywnej odpowiedzi od prowadzą-
cego laboratoria
10. Odpowiedzi na e-maile informujące o akceptacji projektu lub projektów będą przesyłane w cią-
gu siedmiu dni od ich nadesłania
11. Odrzucane będą projekty, które wykonali inni studenci
1
Autor opracowania: Marek Walesiak
PROJEKT B  MODEL LINIOWY
z dwiema zmiennymi objaśniającymi
1. Zebrać z Roczników Statystycznych co najmniej 12 obserwacji na zmiennej objaśnianej i
dwóch zmiennych objaśniających (dane w postaci szeregów przekrojowych)
Dane przekrojowe (wg województw Polski w roku 2005)
y  produkt krajowy brutto województwa Polski w mln zł (ceny bieżące),
x1  nakłady inwestycyjne w województwie w mln zł (ceny bieżące),
x2  wartość brutto środków trwałych województwa w mln zł (bieżące ceny ewidencyjne),
x3  pracujący w województwie w tys. osób,
x4  produkcja sprzedana przemysłu województwa w mln zł (ceny bieżące),
x5  stopa bezrobocia rejestrowanego w województwie w %.
yródło: dane dotyczące produktu krajowego brutto są z Rocznika statystycznego województw 2007, pozo-
stałe z Rocznika statystycznego województw 2006.
a) wprowadzić dane statystyczne do programu EXCEL w następującym układzie:
Plik Dane_przekrojowe_PKB
2
Autor opracowania: Marek Walesiak
b) zapisać dane w formacie csv na dysku
(podać nazwę pliku Dane_przekrojowe_PKB.csv)
2. Wykorzystując w programie R procedurę
Reg_wieloraka_model_liniowy_plaszczyzna_2010.r:
a) oszacować metodą najmniejszych kwadratów parametry strukturalne modelu zmiennej y w
zależności od zmiennych x1 i x4. Zapisać postać modelu z oszacowanymi parametrami poda-
jąc w nawiasach pod ocenami estymatorów parametrów ich błędy. Podać interpretację para-
metrów strukturalnych oraz błędów estymatorów parametrów strukturalnych,
b) zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny, współ-
czynnik determinacji, skorygowany współczynnik determinacji),
c) za pomocą testów t i F sprawdzić istotność współczynników regresji,
d) przedstawić wykres płaszczyzny regresji,
e) wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych,
f) wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny,
g) sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej współliniowo-
ści,
h) wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność warian-
cji składników losowych,
i) za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie wy-
stępuje autokorelacja pierwszego stopnia,
j) sprawdzić czy w zbiorze danych występują obserwacje nietypowe,
k) sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe.
ODPOWIEDZI Z WYKORZYSTANIEM obliczeń w programie R
a) oszacować metodą najmniejszych kwadratów parametry strukturalne modelu zmiennej
y w zależności od zmiennych x1 (zm1) i x4 (zm2)
[1] Wyniki estymacji MNK
Call:
lm(formula = y ~ zm1 + zm2, data = d, x = TRUE, y = TRUE)
Residuals:
Min 1Q Median 3Q Max
-5860,7 -1433,0 -734,5 1773,8 6486,7
3
Autor opracowania: Marek Walesiak
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2,790e+03 1,457e+03 1,915 0,07771 .
zm1 5,263e+00 4,356e-01 12,083 1,92e-08 ***
zm2 3,562e-01 7,351e-02 4,845 0,00032 ***
---
Signif. codes: 0  *** 0,001  ** 0,01  * 0,05  . 0,1   1
Residual standard error: 3619 on 13 degrees of freedom
Multiple R-squared: 0.9954, Adjusted R-squared: 0.9947
F-statistic: 1404 on 2 and 13 DF, p-value: 6,511e-16
a) zapisać postać modelu z oszacowanymi parametrami podając w nawiasach pod ocenami
estymatorów parametrów ich błędy
w = 2790+ 5,263x1 + 0,356 x4
(1457)
(0,436) (0,074)
a) Podać interpretację parametrów strukturalnych oraz błędów estymatorów parametrów
strukturalnych
Ć
b1 = 5,263  wzrost (spadek) wartości nakładów inwestycyjnych województwa (wartości zmien-
nej objaśniającej x1) o 1 mln zł spowoduje wzrost (spadek) produktu krajowego brutto wojewódz-
twa (zmienna objaśniana y) średnio o 5,263 mln zł (ceteris paribus);
Ć
b4 = 0,356  wzrost (spadek) produkcji sprzedanej przemysłu województwa (wartości zmiennej
objaśniającej x4) o 1 mln zł spowoduje wzrost (spadek) produktu krajowego brutto województwa
(zmienna objaśniana y) średnio o 0,356 mln zł (ceteris paribus);
Ć
b0 = 2790 (wyraz wolny)  brak w tym przypadku interpretacji ekonomicznej.
Ć
S(b0) =1457  szacując parametr b0 , gdybyśmy mogli wiele razy pobrać próbę z tej samej popu-
lacji generalnej, mylimy się średnio in plus i in minus o 1457 (b0 = 2790 ą1457 ),
Ć
S(b1) = 0,436  szacując parametr b1, gdybyśmy mogli wiele razy pobrać próbę z tej samej po-
pulacji generalnej, mylimy się średnio in plus i in minus o 0,436 (b1 = 5,263ą 0,436),
Ć
S(b4) = 0,074  szacując parametr b4 , gdybyśmy mogli wiele razy pobrać próbę z tej samej po-
pulacji generalnej, mylimy się średnio in plus i in minus o 0,074 (b4 = 0,356 ą 0,074 ),
b) zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny,
współczynnik determinacji, skorygowany współczynnik determinacji),
standardowy błąd oceny (Residual standard error: 3619)  wartości empiryczne
zmiennej objaśnianej (produkt krajowy brutto województwa) odchylają się od wartości teore-
tycznych przeciętnie o 3619 mln zł.
współczynnik determinacji (Multiple R-Squared: 0.9954)  99,54% zmienności zmiennej
objaśnianej (produkt krajowy brutto województwa) zostało wyjaśnionych przez zbudowany mo-
del.
skorygowany współczynnik determinacji (Adjusted R-squared: 0.9947)  99,47% wa-
riancji zmiennej objaśnianej (produkt krajowy brutto województwa) zostało wyjaśnionych przez
zbudowany model.
4
Autor opracowania: Marek Walesiak
c) za pomocą testów t i F sprawdzić istotność współczynników regresji
Test t
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2,790e+03 1,457e+03 1,915 0,07771 .
zm1 5,263e+00 4,356e-01 12,083 1,92e-08 ***
zm2 3,562e-01 7,351e-02 4,845 0,00032 ***
Z uwagi na to, że dla b0 a = 0,05 < 0,07771 nie ma podstaw do odrzucenia hipotezy zerowej.
Oznacza to, że parametr b0 nieistotnie różni się od zera.
Z uwagi na to, że dla b1 a = 0,05 >1,92e - 08 (0,0000000192) hipotezę zerową odrzucamy.
Oznacza to, że parametr b1 istotnie różni się od zera. Zmienna objaśniająca x1 ma istotny wpływ na
zmienną objaśnianą y.
Z uwagi na to, że dla b4 a = 0,05 > 0,00032 hipotezę zerową odrzucamy. Oznacza to, że para-
metr b4 istotnie różni się od zera. Zmienna objaśniająca x4 ma istotny wpływ na zmienną objaśnia-
ną y.
Test F
F-statistic: 1404 on 2 and 13 DF, p-value: 6,511e-16
Z uwagi na to, że a = 0,05 > 6,511e -16 (UWAGA! e -16 oznacza przesunięcie przecinka w
lewo o 16 miejsc) hipotezę zerową należy odrzucić. Oznacza to, że regresja jako całość jest istotna.
d) przedstawić wykres płaszczyzny regresji
200000
150000
100000
150000
100000
50000
50000
10000
20000
0
30000
e) wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych
[1] Przedziały ufności dla parametrów
2,5 % 97,5 %
(Intercept) -356,8646924 5936,3854523
zm1 4,3224163 6,2045676
zm2 0,1973624 0,5149773
5
y
2
zm
zm
1
Autor opracowania: Marek Walesiak
Z prawdopodobieństwem 0,95 przedział [- 356,865; 5936,385] pokryje nieznaną wartość para-
metru b0 z modelu y = b0 + b1x1 + b4x4 +x .
Z prawdopodobieństwem 0,95 przedział [4,322; 6,205] pokryje nieznaną wartość parametru b1 z
modelu y = b0 + b1x1 + b4x4 +x .
Z prawdopodobieństwem 0,95 przedział [0,197; 0,515] pokryje nieznaną wartość parametru b4 z
modelu y = b0 + b1x1 + b4x4 +x .
Węższe (szersze) przedziały ufności można uzyskać poprzez zmniejszenie (zwiększenie) pozio-
mu ufności.
f) wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny
[1] Wyniki testu Shapiro-Wilka
Shapiro-Wilk normality test
data: reg$residuals
W = 0,9512, p-value = 0,509
Z uwagi na to, że a = 0,05 Ł p - value = 0,509 nie ma podstaw do odrzucenia hipotezy o nor-
malności rozkładu składnika losowego.
g) sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej
współliniowości
[1] VIF - czynnik inflacji wariancji
zm1 zm2
10,00626 10,00626
Wartości VIFj > 1 informują ile razy wariancja estymatora parametru jest większa od wariancji
prawdziwej (tzn. nie zakłóconej współliniowością statystyczną). Wartości VIFj > 20 wskazują na
problemy związane ze współliniowością. W analizowanym modelu w zasadzie nie występuje pro-
blem związany ze współliniowością zmiennych objaśniających.
h) wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność
wariancji składników losowych
[1] Wyniki testu Goldfelda-Quandta
Goldfeld-Quandt test
data: reg
GQ = 0,472, df1 = 4, df2 = 3, p-value = 0,7594
Nie ma podstaw do odrzucenia hipotezy zerowej, że składnik losowy jest homoskedastyczny
(a = 0,05 Ł p - value = 0,7594 ).
i) za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie
występuje autokorelacja pierwszego stopnia
[1] Wyniki testów Durbina-Watsona oraz Breuscha-Godfreya na auto-
korelację pierwszego stopnia
lag Autocorrelation D-W Statistic p-value
1 -0,1673144 1,991318 0,48
Alternative hypothesis: rho < 0
Breusch-Godfrey test for serial correlation of order 1
data: reg
LM test = 0,55, df = 1, p-value = 0,4583
6
Autor opracowania: Marek Walesiak
Oba testy potwierdzają brak w modelu autokorelacji reszt pierwszego stopnia, z uwagi na to, że
a = 0,05 Ł p - value .
j) sprawdzić czy w zbiorze danych występują obserwacje nietypowe (rys. z lewej strony)
Mazowieckie
Śląskie
Mazowieckie
5 10 15
5 10 15
numer obserwacji
numer obserwacji
Obserwacje nietypowe (outliers) charakteryzują się dużą resztą. Tego typu obserwacje wpływają
na pogorszenie dopasowania modelu do danych. Dla szacowanego modelu y = b0 + b1x1 + b4x4 +x
jest jedna reszta nietypowa (woj. mazowieckie). W przypadku wystąpienia reszt nietypowych model
należy oszacować i zweryfikować powtórnie z pominięciem obserwacji nietypowych.
j) sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe (rys. z prawej stro-
ny)
Obserwacje wpływowe (influential observations) silnie oddziałują na oszacowane parametry
strukturalne. Włączenie do zbioru danych tych obserwacji powoduje, że znacznie zmieniają się
oszacowane parametry modelu. Dla szacowanego modelu y = b0 + b1x1 + b4x4 +x obserwacje doty-
czące woj. mazowieckiego i śląskiego są wpływowe. Należy więc oszacować i zweryfikować po-
wtórnie model z pominięciem tych dwóch województw.
7
hat values
reszty studentyzowane
0,2
0,4
0,6
0,8
1,0
1,2
-4
-2
0
2
4


Wyszukiwarka