Autor opracowania: Marek Walesiak
1
PROJEKT C – MODEL NIELINIOWY
funkcja produkcji z dwiema zmiennymi objaśniającymi
Nazwisko i imię studenta 1: ..........................................
Kierunek i rok studiów studenta 1: ......
Numer grupy studenta 1: .....
Nazwisko i imię studenta 2: ..........................................
Kierunek i rok studiów studenta 2: ......
Numer grupy studenta 2: .....
Uwagi dla studentów:
1. Program R należy pobrać ze strony: http://cran.r-project.org/
2. Co najmniej jeden projekt (A, B, C, D) należy przesłać na e-mail prowadzącego laboratoria
3. Projekty można wykonywać osobiście lub w zespołach dwuosobowych (liczba zrealizowanych
projektów oraz jakość i estetyka wykonania będzie decydować o ocenie z laboratorium dla
przedmiotu Ekonometria)
4. Liczba obserwacji (dane w postaci szeregów przekrojowych z roku 2009 lub 2010) w projekcie
A, B oraz C musi wynosić co najmniej 12, a w projekcie D co najmniej 30. Dla danych staty-
stycznych należy koniecznie podać źródło
5. Nie wolno w projektach stosować zmiennych użytych w przykładowych projektach prezentowa-
nych na laboratoriach (nie dotyczy projektu C)
6. Wraz z każdym projektem opracowanym w edytorze Word (może też być jego odpowiednik z
pakietu OpenOffice) należy przesłać:
a) plik (pliki) danych w formacie csv
b) odpowiednie procedury w programie R
7. Termin przesłania projektu (projektów): do 03 stycznia 2012 roku
8. Proszę przesyłać projekty z własnych e-maili podając w e-mailu skład zespołu (imię i nazwisko,
rok i forma studiów, numer grupy lub specjalność)
9. Warunkiem przyjęcia projektu (projektów) jest uzyskanie pozytywnej odpowiedzi od prowadzą-
cego laboratoria
10. Odpowiedzi na e-maile informujące o akceptacji projektu lub projektów będą przesyłane w cią-
gu siedmiu dni od ich nadesłania
11. Odrzucane będą projekty, które wykonali inni studenci
Autor opracowania: Marek Walesiak
2
PROJEKT C – MODEL NIELINIOWY
funkcja produkcji z dwiema zmiennymi objaśniającymi
1. Zebrać z Roczników Statystycznych co najmniej 12 obserwacji na zmiennej objaśnianej i
dwóch zmiennych objaśniających (dane w postaci szeregów przekrojowych) do modelu
funkcji produkcji
Dane przekrojowe (województwa Polski z 2006 r.)
y – produkcja sprzedana przemysłu województwa w mln zł (ceny bieżące),
x1 – liczba pracujących w przemyśle województwa w tys. osób (stan na koniec roku),
x2 – wartość brutto środków trwałych w przemyśle województwa w mln zł (bieżące ceny ewidencyjne).
Źródło: Rocznik statystyczny województw. Główny Urząd Statystyczny, Warszawa 2007.
a) wprowadzić dane statystyczne do programu EXCEL w następującym układzie:
Plik Dane_przekrojowe_f_prod
b) zapisać dane w formacie csv na dysku
(podać nazwę pliku Dane_przekrojowe_f_prod.csv)
Autor opracowania: Marek Walesiak
3
Funkcja produkcji:
e
x
x
b
y
b
b
2
1
2
1
0
(1)
Transformacja liniowa (w programie R log oznacza logarytm naturalny):
2
2
1
1
0
log
log
log
log
x
b
x
b
b
y
Podstawianie:
z
y
log
,
a
b
0
log
,
1
1
log
v
x
,
2
2
log
v
x
2
2
1
1
v
b
v
b
a
z
(2)
2. Wykorzystując w programie R procedurę
Reg_wieloraka_model_nieliniowy_f_prod_2010.r:
a) oszacować metodą najmniejszych kwadratów parametry strukturalne modelu (2). Zapisać po-
stać modelu (2) z oszacowanymi parametrami podając w nawiasach pod ocenami estymato-
rów parametrów ich błędy. Podać interpretację parametrów strukturalnych oraz błędów esty-
matorów parametrów strukturalnych dla modelu (2),
b) zinterpretować obliczone parametry struktury stochastycznej dla modelu (2) (standardowy
błąd oceny, współczynnik determinacji, skorygowany współczynnik determinacji),
c) za pomocą testów t i F sprawdzić istotność współczynników regresji modelu (2),
d) przedstawić wykres płaszczyzny regresji modelu (2),
e) wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych modelu (2),
f) wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy modelu (2) ma rozkład
normalny,
g) sprawdzić za pomocą VIF czy w modelu (2) nie występuje problem przybliżonej współlinio-
wości,
h) wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność warian-
cji składników losowych dla modelu (2),
i) za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie wy-
stępuje autokorelacja pierwszego stopnia dla modelu (2),
j) sprawdzić czy w zbiorze danych występują obserwacje nietypowe dla modelu (2),
k) sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe dla modelu (2),
l) zapisać postać modelu (1) z oszacowanymi parametrami. Podać interpretację współczynników
elastyczności punktowej produkcji oraz obliczyć i zinterpretować efekt skali produkcji (ESP).
ODPOWIEDZI Z WYKORZYSTANIEM obliczeń w programie R
a) oszacować metodą najmniejszych kwadratów parametry strukturalne modelu (2)
[1] Wyniki estymacji MNK
Call:
Autor opracowania: Marek Walesiak
4
lm(formula = log(y) ~ log(x1) + log(x2), data = d, x = TRUE,
y = TRUE)
Residuals:
Min 1Q Median 3Q Max
-0,34626 -0,07106 -0,01740 0,05555 0,33718
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1,2691 1,0854 1,169 0,2633
log(x1) 0,6238 0,2362 2,640 0,0204 *
log(x2) 0,5935 0,2090 2,839 0,0139 *
---
Signif. codes: 0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘ ’ 1
Residual standard error: 0,1892 on 13 degrees of freedom
Multiple R-squared: 0.9522, Adjusted R-squared: 0.9449
F-statistic: 129.6 on 2 and 13 DF, p-value: 2,594e-09
a) zapisać postać modelu (2) z oszacowanymi parametrami podając w nawiasach pod oce-
nami estymatorów parametrów ich błędy
2
)
2090
,
0
(
1
)
2362
,
0
(
)
0854
,
1
(
5935
,
0
6238
,
0
2691
,
1
ˆ
v
v
z
a) podać interpretację parametrów strukturalnych oraz błędów estymatorów parametrów
strukturalnych dla modelu (2)
6238
,
0
ˆ
1
b
– wzrost (spadek) logarytmu liczby pracujących w przemyśle województwa (warto-
ści zmiennej objaśniającej v1) o jednostkę spowoduje wzrost (spadek) logarytmu produkcji sprze-
danej przemysłu województwa (zmienna objaśniana z) średnio o 0,6238 jednostki (ceteris paribus);
5935
,
0
ˆ
2
b
– wzrost (spadek) logarytmu wartości brutto środków trwałych w przemyśle woje-
wództwa (wartości zmiennej objaśniającej v2) o jednostkę spowoduje wzrost (spadek) logarytmu
produkcji sprzedanej przemysłu województwa (zmienna objaśniana z) średnio o 0,5935 jednostki
(ceteris paribus);
2691
,
1
ˆ
a
(wyraz wolny) – brak w tym przypadku interpretacji ekonomicznej.
0854
,
1
)
ˆ
(
a
S
– szacując parametr
a , gdybyśmy mogli wiele razy pobrać próbę z tej samej po-
pulacji generalnej, mylimy się średnio in plus i in minus o 1,0854 (
0854
,
1
2691
,
1
a
),
2362
,
0
)
ˆ
(
1
b
S
– szacując parametr
1
b , gdybyśmy mogli wiele razy pobrać próbę z tej samej po-
pulacji generalnej, mylimy się średnio in plus i in minus o 0,2362 (
2362
,
0
6238
,
0
1
b
),
2090
,
0
)
ˆ
(
2
b
S
– szacując parametr
2
b , gdybyśmy mogli wiele razy pobrać próbę z tej samej po-
pulacji generalnej, mylimy się średnio in plus i in minus o 0,2090 (
2090
,
0
5935
,
0
2
b
).
b) zinterpretować obliczone parametry struktury stochastycznej dla modelu (2) (standar-
dowy błąd oceny, współczynnik determinacji, skorygowany współczynnik determinacji)
standardowy błąd oceny (Residual standard error: 0,1892) – wartości empiryczne
zmiennej objaśnianej (logarytm produkcji sprzedanej przemysłu województwa) odchylają się od
wartości teoretycznych przeciętnie o 0,1892 jednostki.
współczynnik determinacji (Multiple R-Squared: 0.9522) – 95,22% zmienności zmiennej
objaśnianej (logarytm produkcji sprzedanej przemysłu województwa) zostało wyjaśnionych
przez zbudowany model.
skorygowany współczynnik determinacji (Adjusted R-squared: 0.9449) – 94,49% wa-
riancji zmiennej objaśnianej (logarytm produkcji sprzedanej przemysłu województwa) zostało
wyjaśnionych przez zbudowany model.
Autor opracowania: Marek Walesiak
5
c) za pomocą testów t i F sprawdzić istotność współczynników regresji dla modelu (2)
Test t
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1,2691 1,0854 1,169 0,2633
log(x1) 0,6238 0,2362 2,640 0,0204 *
log(x2) 0,5935 0,2090 2,839 0,0139 *
Z uwagi na to, że dla a
2633
,
0
05
,
0
nie ma podstaw do odrzucenia hipotezy zerowej.
Oznacza to, że parametr a nieistotnie różni się od zera.
Z uwagi na to, że dla
1
b
0204
,
0
05
,
0
hipotezę zerową odrzucamy. Oznacza to, że parametr
1
b istotnie różni się od zera. Zmienna objaśniająca v1 ma istotny wpływ na zmienną objaśnianą z.
Z uwagi na to, że dla
2
b
0139
,
0
05
,
0
hipotezę zerową odrzucamy. Oznacza to, że parametr
2
b istotnie różni się od zera. Zmienna objaśniająca v2 ma istotny wpływ na zmienną objaśnianą z.
Test F
F-statistic: 129.6 on 2 and 13 DF, p-value: 2,594e-09
Z uwagi na to, że
09
594
,
2
05
,
0
e
(UWAGA!
09
e
oznacza przesunięcie przecinka w
lewo o 9 miejsc) hipotezę zerową należy odrzucić. Oznacza to, że regresja jako całość jest istotna.
d) przedstawić wykres płaszczyzny regresji modelu (2)
log(x1)
4,0
4,5
5,0
5,5
6,0
lo
g
(x2
)
9,0
9,5
10,0
10,5
11,0
11,5
lo
g
(y)
9
10
11
12
e) wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych dla mo-
delu (2)
[1] Przedziały ufności dla parametrów
2,5 % 97,5 %
(Intercept) -1,0757379 3,613934
log(x1) 0,1133937 1,134155
log(x2) 0,1419439 1,045118
Z prawdopodobieństwem 0,95 przedział
614
,
3
076
,
1
;
pokryje nieznaną wartość parametru a
z modelu
2
2
1
1
v
b
v
b
a
z
.
Autor opracowania: Marek Walesiak
6
Z prawdopodobieństwem 0,95 przedział
134
,
1
113
,
0
;
pokryje nieznaną wartość parametru
1
b z
modelu
2
2
1
1
v
b
v
b
a
z
.
Z prawdopodobieństwem 0,95 przedział
045
,
1
;
142
,
0
pokryje nieznaną wartość parametru
2
b z
modelu
2
2
1
1
v
b
v
b
a
z
.
Węższe (szersze) przedziały ufności można uzyskać poprzez zmniejszenie (zwiększenie) pozio-
mu ufności.
f) wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny
dla modelu (2)
[1] Wyniki testu Shapiro-Wilka
Shapiro-Wilk normality test
data: reg$residuals
W = 0,9454, p-value = 0,4205
Z uwagi na to, że
0,4205
value
p
05
,
0
nie ma podstaw do odrzucenia hipotezy o nor-
malności rozkładu składnika losowego.
g) sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej współli-
niowości dla modelu (2)
[1] VIF - czynnik inflacji wariancji
log(x1) log(x2)
8,888769 8,888769
Wartości
1
j
VIF
informują ile razy wariancja estymatora parametru jest większa od wariancji
prawdziwej (tzn. nie zakłóconej współliniowością statystyczną). Wartości
20
j
VIF
wskazują na
problemy związane ze współliniowością. W analizowanym modelu nie występuje problem związa-
ny ze współliniowością zmiennych objaśniających.
h) wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność
wariancji składników losowych
[1] Wyniki testu Goldfelda-Quandta
Goldfeld-Quandt test
data: reg
GQ = 0,8334, df1 = 3, df2 = 2, p-value = 0,5859
Nie ma podstaw do odrzucenia hipotezy zerowej, że składnik losowy jest homoskedastyczny
(
0,5859
value
p
05
,
0
).
i) za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie
występuje autokorelacja pierwszego stopnia
[1] Wyniki testów Durbina-Watsona oraz Breuscha-Godfreya na auto-
korelację pierwszego stopnia
lag Autocorrelation D-W Statistic p-value
1 0,0005780169 1,988776 0,494
Alternative hypothesis: rho > 0
Breusch-Godfrey test for serial correlation of order 1
data: reg
LM test = 0, df = 1, p-value = 0,998
Oba testy potwierdzają brak w modelu autokorelacji reszt pierwszego stopnia, z uwagi na to, że
value
p
05
,
0
.
Autor opracowania: Marek Walesiak
7
j) sprawdzić czy w zbiorze danych występują obserwacje nietypowe (rys. z lewej strony)
5
10
15
-4
-2
0
2
4
numer obserwacji
re
szt
y
st
u
d
e
n
tyzo
w
a
n
e
Mazowieckie
5
10
15
0
,2
0
,4
0
,6
0
,8
numer obserwacji
h
a
t
va
lu
e
s
Opolskie
Obserwacje nietypowe (outliers) charakteryzują się dużą resztą. Tego typu obserwacje wpływają
na pogorszenie dopasowania modelu do danych. Dla szacowanego modelu
2
2
1
1
v
b
v
b
a
z
jest jedna reszta nietypowa (woj. mazowieckie). W przypadku wystąpienia reszt nietypowych model
należy oszacować i zweryfikować powtórnie z pominięciem obserwacji nietypowych.
k) sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe (rys. z prawej stro-
ny)
Obserwacje wpływowe (influential observations) silnie oddziałują na oszacowane parametry
strukturalne. Włączenie do zbioru danych tych obserwacji powoduje, że znacznie zmieniają się
oszacowane parametry modelu. Dla szacowanego modelu
2
2
1
1
v
b
v
b
a
z
obserwacja doty-
czące woj. opolskiego jest wpływowa. Należy więc oszacować i zweryfikować powtórnie model z
pominięciem tego województwa.
l) zapisać postać modelu (1) z oszacowanymi parametrami. Podać interpretację współ-
czynników elastyczności punktowej produkcji oraz obliczyć i zinterpretować efekt skali
produkcji (ESP)
2
2
1
1
v
b
v
b
a
z
(2)
gdzie:
z
y
log
,
a
b
0
log
,
1
1
log
v
x
,
2
2
log
v
x
2
)
2090
,
0
(
1
)
2362
,
0
(
)
0854
,
1
(
5935
,
0
6238
,
0
2691
,
1
ˆ
v
v
z
a
b
0
log
,
0
)
exp(
b
a
;
0
)
2691
,
1
exp(
b
;
5576
,
3
0
b
5935
,
0
2
6238
,
0
1
5576
,
3
ˆ
x
x
y
(1)
Współczynniki elastyczności punktowej:
6238
,
0
1
x
E
i
5935
,
0
2
x
E
.
6238
,
0
1
x
E
– wzrost (spadek) liczby pracujących w przemyśle województwa o 1% spowoduje
wzrost (spadek) produkcji sprzedanej przemysłu województwa w przybliżeniu o 0,6238% (ceteris
paribus).
5935
,
0
2
x
E
– wzrost (spadek) wartości brutto środków trwałych w przemyśle województwa o
1% spowoduje wzrost (spadek) produkcji sprzedanej przemysłu województwa w przybliżeniu o
0,5935% (ceteris paribus).
2173
,
1
5935
,
0
6238
,
0
2
1
x
x
E
E
ESP
.
Zatem funkcja (1) jest funkcją o rosnących przyrostach, dla której efektywne jest zwiększanie
nakładów.