Ekonometria II projekt A

background image

Autor opracowania: Marek Walesiak

1

PROJEKT A – MODEL LINIOWY

z co najmniej trzema zmiennymi objaśniającymi

(4-7 potencjalnych zmiennych objaśniających + dobór zmiennych)



Nazwisko i imię studenta 1: ..........................................
Kierunek i rok studiów studenta 1: ......
Numer grupy studenta 1: .....


Nazwisko i imię studenta 2: ..........................................
Kierunek i rok studiów studenta 2: ......
Numer grupy studenta 2: .....






Uwagi dla studentów:

1. Program R należy pobrać ze strony: http://cran.r-project.org/
2. Co najmniej jeden projekt (A, B, C, D) należy przesłać na e-mail prowadzącego laboratoria
3. Projekty można wykonywać osobiście lub w zespołach dwuosobowych (liczba zrealizowanych

projektów oraz jakość i estetyka wykonania będzie decydować o ocenie z laboratorium dla
przedmiotu Ekonometria)

4. Liczba obserwacji (dane w postaci szeregów przekrojowych z roku 2009 lub 2010) w projekcie

A, B oraz C musi wynosić co najmniej 12, a w projekcie D co najmniej 30. Dla danych staty-
stycznych należy koniecznie podać źródło

5. Nie wolno w projektach stosować zmiennych użytych w przykładowych projektach prezentowa-

nych na laboratoriach (nie dotyczy projektu C)

6. Wraz z każdym projektem opracowanym w edytorze Word (może też być jego odpowiednik z

pakietu OpenOffice) należy przesłać:
a) plik (pliki) danych w formacie csv
b) odpowiednie procedury w programie R

7. Termin przesłania projektu (projektów): do 03 stycznia 2012 roku
8. Proszę przesyłać projekty z własnych e-maili podając w e-mailu skład zespołu (imię i nazwisko,

rok i forma studiów, numer grupy lub specjalność)

9. Warunkiem przyjęcia projektu (projektów) jest uzyskanie pozytywnej odpowiedzi od prowadzą-

cego laboratoria

10. Odpowiedzi na e-maile informujące o akceptacji projektu lub projektów będą przesyłane w cią-

gu siedmiu dni od ich nadesłania

11. Odrzucane będą projekty, które wykonali inni studenci

background image

Autor opracowania: Marek Walesiak

2

PROJEKT A – MODEL LINIOWY

z co najmniej trzema zmiennymi objaśniającymi

(4-7 potencjalnych zmiennych objaśniających + dobór zmiennych)



1. Zebrać z Roczników Statystycznych co najmniej 12 obserwacji na zmiennej objaśnianej i

4-7 potencjalnych zmiennych objaśniających (dane w postaci szeregów przekrojowych)

Dane przekrojowe (wg województw Polski w roku 2005)

y – produkt krajowy brutto województwa Polski w mln zł (ceny bieżące),
x1 – nakłady inwestycyjne w województwie w mln zł (ceny bieżące),
x2 – wartość brutto środków trwałych województwa w mln zł (bieżące ceny ewidencyjne),
x3 – pracujący w województwie w tys. osób,
x4 – produkcja sprzedana przemysłu województwa w mln zł (ceny bieżące),
x5 – stopa bezrobocia rejestrowanego w województwie w %.
Źródło: dane dotyczące produktu krajowego brutto są z Rocznika statystycznego województw 2007, pozo-

stałe z Rocznika statystycznego województw 2006.

a) wprowadzić dane statystyczne do programu EXCEL w następującym układzie:

Plik Dane_przekrojowe_PKB

b) zapisać dane w formacie csv na dysku
(podać nazwę pliku Dane_przekrojowe_PKB.csv)

background image

Autor opracowania: Marek Walesiak

3


2. Zastosować przy doborze zmiennych statystyczne kryteria wyboru między modelami re-

gresji (kryterium Theila maksymalnego skorygowanego współczynnika determinacji, kryteria
bazujące na minimalizacji średniokwadratowego błędu predykcji Mallowsa, kryteria informacyj-
ne: Akaike (AIC), Schwartza (BIC)). Wybrać na podstawie jednego z kryteriów zmienne obja-
śniające do modelu

1

. Zastosować w programie R procedurę AIC_BIC_adjr2_Cp.r

Wynik z programu R

[1] "Najlepsza kombinacja zmiennych wg AIC to: 1, 2, 3, 4 z warto-
ścią miary: 258,440306449048"
[1] "Najlepsza kombinacja zmiennych wg BIC to: 1, 2, 3, 4 z warto-
ścią miary: 262,303250060246"
[1] "Najlepsza kombinacja zmiennych wg adjr2 to: 1, 2, 3, 4, 5 z
wartością miary: 0,996815506925318"
[1] "Najlepsza kombinacja zmiennych wg Cp to: 1, 2, 3, 4 z warto-
ścią miary: 5,30346700096197"
[1] "Dokładne wyniki w pliku wynik_AIC_BIC_adjr2_Cp.csv"

Do modelu liniowego zostaną wybrane zmienne objaśniające x1, x2, x3 i x4. Zatem model

ma postać:

4

4

3

3

2

2

1

1

0

x

b

x

b

x

b

x

b

b

y


3. Wykorzystując w programie R procedurę

Reg_wieloraka_model_liniowy_hiperplaszczyzna_2010.r
a) oszacować metodą najmniejszych kwadratów parametry strukturalne modelu z wybranymi

zmiennymi. Zapisać postać modelu z oszacowanymi parametrami podając w nawiasach pod
ocenami estymatorów parametrów ich błędy. Podać interpretację parametrów strukturalnych
oraz błędów estymatorów parametrów strukturalnych,

b) zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny, współ-

czynnik determinacji, skorygowany współczynnik determinacji),

c) za pomocą testów t i F sprawdzić istotność współczynników regresji,
d) wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych,
e) wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny,
f) sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej współliniowo-

ści,

g) wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność warian-

cji składników losowych

1

Wybrać wariant z co najmniej trzema zmiennymi objaśniającymi.

background image

Autor opracowania: Marek Walesiak

4

h) za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie wy-

stępuje autokorelacja pierwszego stopnia

i) sprawdzić czy w zbiorze danych występują obserwacje nietypowe
j) sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe

ODPOWIEDZI Z WYKORZYSTANIEM obliczeń w programie R

a) oszacować metodą najmniejszych kwadratów parametry strukturalne modelu z wybra-

nymi zmiennymi

[1] Wyniki estymacji MNK

Call:
lm(formula = y ~ x1 + x2 + x3 + x4, data = d, x = TRUE, y = TRUE)

Residuals:
Min 1Q Median 3Q Max
-4447,813 -1497,929 -5,696 1710,408 4731,755

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -150,92985 2008,93467 -0,075 0,941461
x1 3,98625 0,54714 7,286 1,57e-05 ***
x2 0,05511 0,01869 2,948 0,013256 *
x3 11,41188 6,99426 1,632 0,131034
x4 0,32510 0,06678 4,868 0,000496 ***
---
Signif. codes: 0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘ ’ 1

Residual standard error: 2839 on 11 degrees of freedom
Multiple R-squared: 0.9976, Adjusted R-squared: 0.9967
F-statistic: 1143 on 4 and 11 DF, p-value: 2,529e-14

a) zapisać postać modelu z oszacowanymi parametrami podając w nawiasach pod ocenami

estymatorów parametrów ich błędy

4

)

067

,

0

(

3

)

994

,

6

(

2

)

019

,

0

(

1

)

547

,

0

(

)

935

,

2008

(

325

,

0

412

,

11

055

,

0

986

,

3

930

,

150

ˆ

x

x

x

x

y

a) podać interpretację parametrów strukturalnych oraz błędów estymatorów parametrów

strukturalnych

986

,

3

ˆ

1

b

– wzrost (spadek) wartości nakładów inwestycyjnych województwa (wartości zmien-

nej objaśniającej x1) o 1 mln zł spowoduje wzrost (spadek) produktu krajowego brutto wojewódz-
twa (zmienna objaśniana y) średnio o 3,986 mln zł (ceteris paribus);

055

,

0

ˆ

2

b

– wzrost (spadek) wartości brutto środków trwałych województwa (wartości zmien-

nej objaśniającej x2) o 1 mln zł spowoduje wzrost (spadek) produktu krajowego brutto wojewódz-
twa (zmienna objaśniana y) średnio o 0,055 mln zł (ceteris paribus);

412

,

11

ˆ

3

b

– wzrost (spadek) liczby pracujących w województwie (wartości zmiennej objaśnia-

jącej x3) o 1 tys. osób spowoduje wzrost (spadek) produktu krajowego brutto województwa
(zmienna objaśniana y) średnio o 11,412 mln zł (ceteris paribus);

325

,

0

ˆ

4

b

– wzrost (spadek) produkcji sprzedanej przemysłu województwa (wartości zmiennej

objaśniającej x4) o 1 mln zł spowoduje wzrost (spadek) produktu krajowego brutto województwa
(zmienna objaśniana y) średnio o 0,325 mln zł (ceteris paribus);

930

,

150

ˆ

0

b

(wyraz wolny) – brak w tym przypadku interpretacji ekonomicznej.

935

,

2008

)

ˆ

(

0

b

S

– szacując parametr

0

b

, gdybyśmy mogli wiele razy pobrać próbę z tej samej

populacji generalnej, mylimy się średnio in plus i in minus o 2008,935 (

935

,

2008

930

,

150

0

b

),

background image

Autor opracowania: Marek Walesiak

5

547

,

0

)

ˆ

(

1

b

S

– szacując parametr

1

b , gdybyśmy mogli wiele razy pobrać próbę z tej samej po-

pulacji generalnej, mylimy się średnio in plus i in minus o 0,547 (

547

,

0

986

,

3

1

b

),

019

,

0

)

ˆ

(

2

b

S

– szacując parametr

2

b , gdybyśmy mogli wiele razy pobrać próbę z tej samej po-

pulacji generalnej, mylimy się średnio in plus i in minus o 0,019 (

019

,

0

055

,

0

2

b

),

994

,

6

)

ˆ

(

3

b

S

– szacując parametr

3

b , gdybyśmy mogli wiele razy pobrać próbę z tej samej po-

pulacji generalnej, mylimy się średnio in plus i in minus o 6,994 (

994

,

6

412

,

11

3

b

),

067

,

0

)

ˆ

(

4

b

S

– szacując parametr

4

b , gdybyśmy mogli wiele razy pobrać próbę z tej samej po-

pulacji generalnej, mylimy się średnio in plus i in minus o 0,067 (

067

,

0

325

,

0

4

b

),

b) zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny,

współczynnik determinacji, skorygowany współczynnik determinacji),

standardowy błąd oceny (Residual standard error: 2839) – wartości empiryczne

zmiennej objaśnianej (produkt krajowy brutto województwa) odchylają się od wartości teore-
tycznych przeciętnie o 2839 mln zł.

współczynnik determinacji (Multiple R-Squared: 0.9976) – 99,76% zmienności zmiennej

objaśnianej (produkt krajowy brutto województwa) zostało wyjaśnionych przez zbudowany mo-
del.

skorygowany współczynnik determinacji (Adjusted R-squared: 0.9967) – 99,67% wa-

riancji zmiennej objaśnianej (produkt krajowy brutto województwa) zostało wyjaśnionych przez
zbudowany model.

c) za pomocą testów t i F sprawdzić istotność współczynników regresji

Test t
Estimate Std. Error t value Pr(>|t|)
(Intercept) -150,92985 2008,93467 -0,075 0,941461
x1 3,98625 0,54714 7,286 1,57e-05
x2 0,05511 0,01869 2,948 0,013256
x3 11,41188 6,99426 1,632 0,131034
x4 0,32510 0,06678 4,868 0,000496

Z uwagi na to, że dla

0

b

941461

,

0

05

,

0

nie ma podstaw do odrzucenia hipotezy zerowej.

Oznacza to, że parametr

0

b nieistotnie różni się od zera.

Z uwagi na to, że dla

1

b

05

57

,

1

05

,

0

e

hipotezę zerową odrzucamy. Oznacza to, że para-

metr

1

b istotnie różni się od zera. Zmienna objaśniająca x1 ma istotny wpływ na zmienną objaśnia-

ną y.

Z uwagi na to, że dla

2

b

013256

,

0

05

,

0

hipotezę zerową odrzucamy. Oznacza to, że para-

metr

2

b istotnie różni się od zera. Zmienna objaśniająca x2 ma istotny wpływ na zmienną objaśnia-

ną y.

Z uwagi na to, że dla

3

b

131034

,

0

05

,

0

nie ma podstaw do odrzucenia hipotezy zerowej.

Oznacza to, że parametr

3

b nieistotnie różni się od zera. Zmienna objaśniająca x3 nie ma istotnego

wpływu na zmienną objaśnianą y.

Z uwagi na to, że dla

4

b

000496

,

0

05

,

0

hipotezę zerową odrzucamy. Oznacza to, że para-

metr

4

b istotnie różni się od zera. Zmienna objaśniająca x4 ma istotny wpływ na zmienną objaśnia-

ną y.

Test F
F-statistic: 1143 on 4 and 11 DF, p-value: 2,529e-14

background image

Autor opracowania: Marek Walesiak

6

Z uwagi na to, że

14

529

,

2

05

,

0

e

(UWAGA!

14

e

oznacza przesunięcie przecinka w

lewo o 14 miejsc) hipotezę zerową należy odrzucić. Oznacza to, że regresja jako całość jest istotna.

d) wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych

[1] Przedziały ufności dla parametrów
2,5 % 97,5 %
(Intercept) -4,572565e+03 4,270706e+03
x1 2,782001e+00 5,190509e+00
x2 1,396466e-02 9,624931e-02
x3 -3,982372e+00 2,680614e+01
x4 1,781145e-01 4,720831e-01

Z prawdopodobieństwem 0,95 przedział

706

,

4270

565

,

4572

;

pokryje nieznaną wartość para-

metru

0

b z modelu

4

4

3

3

2

2

1

1

0

x

b

x

b

x

b

x

b

b

y

.

Z prawdopodobieństwem 0,95 przedział

191

,

5

782

,

2

;

pokryje nieznaną wartość parametru

1

b z

modelu

4

4

3

3

2

2

1

1

0

x

b

x

b

x

b

x

b

b

y

.

Z prawdopodobieństwem 0,95 przedział

096

,

0

;

014

,

0

pokryje nieznaną wartość parametru

2

b

z modelu

4

4

3

3

2

2

1

1

0

x

b

x

b

x

b

x

b

b

y

.

Z prawdopodobieństwem 0,95 przedział

806

,

26

982

,

3

;

pokryje nieznaną wartość parametru

3

b z modelu

4

4

3

3

2

2

1

1

0

x

b

x

b

x

b

x

b

b

y

.

Z prawdopodobieństwem 0,95 przedział

472

,

0

178

,

0

;

pokryje nieznaną wartość parametru

4

b z

modelu

4

4

3

3

2

2

1

1

0

x

b

x

b

x

b

x

b

b

y

.

Węższe (szersze) przedziały ufności można uzyskać poprzez zmniejszenie (zwiększenie) pozio-

mu ufności.

e) wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny

[1] Wyniki testu Shapiro-Wilka
Shapiro-Wilk normality test
data: reg$residuals
W = 0,983, p-value = 0,9827

Z uwagi na to, że

0,9827

value

p

05

,

0

nie ma podstaw do odrzucenia hipotezy o nor-

malności rozkładu składnika losowego.

f) sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej

współliniowości


[1] VIF - czynnik inflacji wariancji
x1 x2 x3 x4
25,65694 5,42586 21,22442 13,42201

Wartości

1

j

VIF

informują ile razy wariancja estymatora parametru jest większa od wariancji

prawdziwej (tzn. nie zakłóconej współliniowością statystyczną). Wartości

20

j

VIF

wskazują na

problemy związane ze współliniowością. Problem związany ze współliniowością występuje w tym
modelu szczególnie dla zmiennych objaśniających x1 i x3.

g) wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność

wariancji składników losowych

[1] Wyniki testu Goldfelda-Quandta
Goldfeld-Quandt test
data: reg
GQ = 1,6221, df1 = 3, df2 = 3, p-value = 0,3504

background image

Autor opracowania: Marek Walesiak

7

Nie ma podstaw do odrzucenia hipotezy zerowej, że składnik losowy jest homoskedastyczny

(

0,3504

value

p

05

,

0

).

h) za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie

występuje autokorelacja pierwszego stopnia

[1] Wyniki testów Durbina-Watsona oraz Breuscha-Godfreya na auto-
korelację pierwszego stopnia
lag Autocorrelation D-W Statistic p-value
1 0,06648353 1,391266 0,135
Alternative hypothesis: rho > 0

Breusch-Godfrey test for serial correlation of order 1

data: reg
LM test = 0,1109, df = 1, p-value = 0,7391

Oba testy potwierdzają brak w modelu autokorelacji reszt pierwszego stopnia, z uwagi na to, że

value

p

05

,

0

.

i) sprawdzić czy w zbiorze danych występują obserwacje nietypowe (rys. z lewej strony)

5

10

15

-4

-2

0

2

4

6

numer obserwacji

re

szt

y

st

u

d

e

n

tyzo

w

a

n

e

Mazowieckie

Wielkopolskie

5

10

15

0

,5

1

,0

1

,5

numer obserwacji

h

a

t

va

lu

e

s

Mazowieckie

Śląskie

Wielkopolskie

Obserwacje nietypowe (outliers) charakteryzują się dużą resztą. Tego typu obserwacje wpływają

na

pogorszenie

dopasowania

modelu

do

danych.

Dla

szacowanego

modelu

4

4

3

3

2

2

1

1

0

x

b

x

b

x

b

x

b

b

y

są dwie reszty nietypowe (woj. mazowieckie i woj. wielkopol-

skie). W przypadku wystąpienia reszt nietypowych model należy oszacować i zweryfikować po-
wtórnie z pominięciem obserwacji nietypowych.


j) sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe (rys. z prawej stro-

ny)

Obserwacje wpływowe (influential observations) silnie oddziałują na oszacowane parametry

strukturalne. Włączenie do zbioru danych tych obserwacji powoduje, że znacznie zmieniają się
oszacowane parametry modelu. Dla szacowanego modelu

4

4

3

3

2

2

1

1

0

x

b

x

b

x

b

x

b

b

y

ob-

serwacje dotyczące woj. mazowieckiego, śląskiego i wielkopolskiego są wpływowe. Należy więc
oszacować i zweryfikować powtórnie model z pominięciem tych dwóch województw.


Wyszukiwarka

Podobne podstrony:
Ekonometria II projekt D
Ekonometria II projekt C
Ekonometria II projekt B
Ekonomia II ZACHOWANIA PROEKOLOGICZNE
CZO WKA BUDOWNICTWOOBL STA, Politechnika Gdańska Budownictwo, Semestr 4, Budownictwo Ogólne II, Pro
Ekonometria II stopień
Ekonometria II wykład 5 2013
ZEBRANIE OBCIĄŻEŃ - KONSTRUKCJA BUDYNKU, Budownictwo, Budownictwo ogólne, BO II, projektowanie, stro
PRZEDMIA, Politechnika Gdańska Budownictwo, Semestr 4, Budownictwo Ogólne II, Projekt, Jakieś inne p
zagad egzam(1), Ekonomia, II rok, Ekonometria
Efektywność i opłacalność gospodarowania w rolnictwie, Ekonomika, II rok
Mechanika grotworu II projekt(2)

więcej podobnych podstron