Autor opracowania: Marek Walesiak
1
PROJEKT A – MODEL LINIOWY
z co najmniej trzema zmiennymi objaśniającymi
(4-7 potencjalnych zmiennych objaśniających + dobór zmiennych)
Nazwisko i imię studenta 1: ..........................................
Kierunek i rok studiów studenta 1: ......
Numer grupy studenta 1: .....
Nazwisko i imię studenta 2: ..........................................
Kierunek i rok studiów studenta 2: ......
Numer grupy studenta 2: .....
Uwagi dla studentów:
1. Program R należy pobrać ze strony: http://cran.r-project.org/
2. Co najmniej jeden projekt (A, B, C, D) należy przesłać na e-mail prowadzącego laboratoria
3. Projekty można wykonywać osobiście lub w zespołach dwuosobowych (liczba zrealizowanych
projektów oraz jakość i estetyka wykonania będzie decydować o ocenie z laboratorium dla
przedmiotu Ekonometria)
4. Liczba obserwacji (dane w postaci szeregów przekrojowych z roku 2009 lub 2010) w projekcie
A, B oraz C musi wynosić co najmniej 12, a w projekcie D co najmniej 30. Dla danych staty-
stycznych należy koniecznie podać źródło
5. Nie wolno w projektach stosować zmiennych użytych w przykładowych projektach prezentowa-
nych na laboratoriach (nie dotyczy projektu C)
6. Wraz z każdym projektem opracowanym w edytorze Word (może też być jego odpowiednik z
pakietu OpenOffice) należy przesłać:
a) plik (pliki) danych w formacie csv
b) odpowiednie procedury w programie R
7. Termin przesłania projektu (projektów): do 03 stycznia 2012 roku
8. Proszę przesyłać projekty z własnych e-maili podając w e-mailu skład zespołu (imię i nazwisko,
rok i forma studiów, numer grupy lub specjalność)
9. Warunkiem przyjęcia projektu (projektów) jest uzyskanie pozytywnej odpowiedzi od prowadzą-
cego laboratoria
10. Odpowiedzi na e-maile informujące o akceptacji projektu lub projektów będą przesyłane w cią-
gu siedmiu dni od ich nadesłania
11. Odrzucane będą projekty, które wykonali inni studenci
Autor opracowania: Marek Walesiak
2
PROJEKT A – MODEL LINIOWY
z co najmniej trzema zmiennymi objaśniającymi
(4-7 potencjalnych zmiennych objaśniających + dobór zmiennych)
1. Zebrać z Roczników Statystycznych co najmniej 12 obserwacji na zmiennej objaśnianej i
4-7 potencjalnych zmiennych objaśniających (dane w postaci szeregów przekrojowych)
Dane przekrojowe (wg województw Polski w roku 2005)
y – produkt krajowy brutto województwa Polski w mln zł (ceny bieżące),
x1 – nakłady inwestycyjne w województwie w mln zł (ceny bieżące),
x2 – wartość brutto środków trwałych województwa w mln zł (bieżące ceny ewidencyjne),
x3 – pracujący w województwie w tys. osób,
x4 – produkcja sprzedana przemysłu województwa w mln zł (ceny bieżące),
x5 – stopa bezrobocia rejestrowanego w województwie w %.
Źródło: dane dotyczące produktu krajowego brutto są z Rocznika statystycznego województw 2007, pozo-
stałe z Rocznika statystycznego województw 2006.
a) wprowadzić dane statystyczne do programu EXCEL w następującym układzie:
Plik Dane_przekrojowe_PKB
b) zapisać dane w formacie csv na dysku
(podać nazwę pliku Dane_przekrojowe_PKB.csv)
Autor opracowania: Marek Walesiak
3
2. Zastosować przy doborze zmiennych statystyczne kryteria wyboru między modelami re-
gresji (kryterium Theila maksymalnego skorygowanego współczynnika determinacji, kryteria
bazujące na minimalizacji średniokwadratowego błędu predykcji Mallowsa, kryteria informacyj-
ne: Akaike (AIC), Schwartza (BIC)). Wybrać na podstawie jednego z kryteriów zmienne obja-
śniające do modelu
1
. Zastosować w programie R procedurę AIC_BIC_adjr2_Cp.r
Wynik z programu R
[1] "Najlepsza kombinacja zmiennych wg AIC to: 1, 2, 3, 4 z warto-
ścią miary: 258,440306449048"
[1] "Najlepsza kombinacja zmiennych wg BIC to: 1, 2, 3, 4 z warto-
ścią miary: 262,303250060246"
[1] "Najlepsza kombinacja zmiennych wg adjr2 to: 1, 2, 3, 4, 5 z
wartością miary: 0,996815506925318"
[1] "Najlepsza kombinacja zmiennych wg Cp to: 1, 2, 3, 4 z warto-
ścią miary: 5,30346700096197"
[1] "Dokładne wyniki w pliku wynik_AIC_BIC_adjr2_Cp.csv"
Do modelu liniowego zostaną wybrane zmienne objaśniające x1, x2, x3 i x4. Zatem model
ma postać:
4
4
3
3
2
2
1
1
0
x
b
x
b
x
b
x
b
b
y
3. Wykorzystując w programie R procedurę
Reg_wieloraka_model_liniowy_hiperplaszczyzna_2010.r
a) oszacować metodą najmniejszych kwadratów parametry strukturalne modelu z wybranymi
zmiennymi. Zapisać postać modelu z oszacowanymi parametrami podając w nawiasach pod
ocenami estymatorów parametrów ich błędy. Podać interpretację parametrów strukturalnych
oraz błędów estymatorów parametrów strukturalnych,
b) zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny, współ-
czynnik determinacji, skorygowany współczynnik determinacji),
c) za pomocą testów t i F sprawdzić istotność współczynników regresji,
d) wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych,
e) wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny,
f) sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej współliniowo-
ści,
g) wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność warian-
cji składników losowych
1
Wybrać wariant z co najmniej trzema zmiennymi objaśniającymi.
Autor opracowania: Marek Walesiak
4
h) za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie wy-
stępuje autokorelacja pierwszego stopnia
i) sprawdzić czy w zbiorze danych występują obserwacje nietypowe
j) sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe
ODPOWIEDZI Z WYKORZYSTANIEM obliczeń w programie R
a) oszacować metodą najmniejszych kwadratów parametry strukturalne modelu z wybra-
nymi zmiennymi
[1] Wyniki estymacji MNK
Call:
lm(formula = y ~ x1 + x2 + x3 + x4, data = d, x = TRUE, y = TRUE)
Residuals:
Min 1Q Median 3Q Max
-4447,813 -1497,929 -5,696 1710,408 4731,755
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -150,92985 2008,93467 -0,075 0,941461
x1 3,98625 0,54714 7,286 1,57e-05 ***
x2 0,05511 0,01869 2,948 0,013256 *
x3 11,41188 6,99426 1,632 0,131034
x4 0,32510 0,06678 4,868 0,000496 ***
---
Signif. codes: 0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘ ’ 1
Residual standard error: 2839 on 11 degrees of freedom
Multiple R-squared: 0.9976, Adjusted R-squared: 0.9967
F-statistic: 1143 on 4 and 11 DF, p-value: 2,529e-14
a) zapisać postać modelu z oszacowanymi parametrami podając w nawiasach pod ocenami
estymatorów parametrów ich błędy
4
)
067
,
0
(
3
)
994
,
6
(
2
)
019
,
0
(
1
)
547
,
0
(
)
935
,
2008
(
325
,
0
412
,
11
055
,
0
986
,
3
930
,
150
ˆ
x
x
x
x
y
a) podać interpretację parametrów strukturalnych oraz błędów estymatorów parametrów
strukturalnych
986
,
3
ˆ
1
b
– wzrost (spadek) wartości nakładów inwestycyjnych województwa (wartości zmien-
nej objaśniającej x1) o 1 mln zł spowoduje wzrost (spadek) produktu krajowego brutto wojewódz-
twa (zmienna objaśniana y) średnio o 3,986 mln zł (ceteris paribus);
055
,
0
ˆ
2
b
– wzrost (spadek) wartości brutto środków trwałych województwa (wartości zmien-
nej objaśniającej x2) o 1 mln zł spowoduje wzrost (spadek) produktu krajowego brutto wojewódz-
twa (zmienna objaśniana y) średnio o 0,055 mln zł (ceteris paribus);
412
,
11
ˆ
3
b
– wzrost (spadek) liczby pracujących w województwie (wartości zmiennej objaśnia-
jącej x3) o 1 tys. osób spowoduje wzrost (spadek) produktu krajowego brutto województwa
(zmienna objaśniana y) średnio o 11,412 mln zł (ceteris paribus);
325
,
0
ˆ
4
b
– wzrost (spadek) produkcji sprzedanej przemysłu województwa (wartości zmiennej
objaśniającej x4) o 1 mln zł spowoduje wzrost (spadek) produktu krajowego brutto województwa
(zmienna objaśniana y) średnio o 0,325 mln zł (ceteris paribus);
930
,
150
ˆ
0
b
(wyraz wolny) – brak w tym przypadku interpretacji ekonomicznej.
935
,
2008
)
ˆ
(
0
b
S
– szacując parametr
0
b
, gdybyśmy mogli wiele razy pobrać próbę z tej samej
populacji generalnej, mylimy się średnio in plus i in minus o 2008,935 (
935
,
2008
930
,
150
0
b
),
Autor opracowania: Marek Walesiak
5
547
,
0
)
ˆ
(
1
b
S
– szacując parametr
1
b , gdybyśmy mogli wiele razy pobrać próbę z tej samej po-
pulacji generalnej, mylimy się średnio in plus i in minus o 0,547 (
547
,
0
986
,
3
1
b
),
019
,
0
)
ˆ
(
2
b
S
– szacując parametr
2
b , gdybyśmy mogli wiele razy pobrać próbę z tej samej po-
pulacji generalnej, mylimy się średnio in plus i in minus o 0,019 (
019
,
0
055
,
0
2
b
),
994
,
6
)
ˆ
(
3
b
S
– szacując parametr
3
b , gdybyśmy mogli wiele razy pobrać próbę z tej samej po-
pulacji generalnej, mylimy się średnio in plus i in minus o 6,994 (
994
,
6
412
,
11
3
b
),
067
,
0
)
ˆ
(
4
b
S
– szacując parametr
4
b , gdybyśmy mogli wiele razy pobrać próbę z tej samej po-
pulacji generalnej, mylimy się średnio in plus i in minus o 0,067 (
067
,
0
325
,
0
4
b
),
b) zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny,
współczynnik determinacji, skorygowany współczynnik determinacji),
standardowy błąd oceny (Residual standard error: 2839) – wartości empiryczne
zmiennej objaśnianej (produkt krajowy brutto województwa) odchylają się od wartości teore-
tycznych przeciętnie o 2839 mln zł.
współczynnik determinacji (Multiple R-Squared: 0.9976) – 99,76% zmienności zmiennej
objaśnianej (produkt krajowy brutto województwa) zostało wyjaśnionych przez zbudowany mo-
del.
skorygowany współczynnik determinacji (Adjusted R-squared: 0.9967) – 99,67% wa-
riancji zmiennej objaśnianej (produkt krajowy brutto województwa) zostało wyjaśnionych przez
zbudowany model.
c) za pomocą testów t i F sprawdzić istotność współczynników regresji
Test t
Estimate Std. Error t value Pr(>|t|)
(Intercept) -150,92985 2008,93467 -0,075 0,941461
x1 3,98625 0,54714 7,286 1,57e-05
x2 0,05511 0,01869 2,948 0,013256
x3 11,41188 6,99426 1,632 0,131034
x4 0,32510 0,06678 4,868 0,000496
Z uwagi na to, że dla
0
b
941461
,
0
05
,
0
nie ma podstaw do odrzucenia hipotezy zerowej.
Oznacza to, że parametr
0
b nieistotnie różni się od zera.
Z uwagi na to, że dla
1
b
05
57
,
1
05
,
0
e
hipotezę zerową odrzucamy. Oznacza to, że para-
metr
1
b istotnie różni się od zera. Zmienna objaśniająca x1 ma istotny wpływ na zmienną objaśnia-
ną y.
Z uwagi na to, że dla
2
b
013256
,
0
05
,
0
hipotezę zerową odrzucamy. Oznacza to, że para-
metr
2
b istotnie różni się od zera. Zmienna objaśniająca x2 ma istotny wpływ na zmienną objaśnia-
ną y.
Z uwagi na to, że dla
3
b
131034
,
0
05
,
0
nie ma podstaw do odrzucenia hipotezy zerowej.
Oznacza to, że parametr
3
b nieistotnie różni się od zera. Zmienna objaśniająca x3 nie ma istotnego
wpływu na zmienną objaśnianą y.
Z uwagi na to, że dla
4
b
000496
,
0
05
,
0
hipotezę zerową odrzucamy. Oznacza to, że para-
metr
4
b istotnie różni się od zera. Zmienna objaśniająca x4 ma istotny wpływ na zmienną objaśnia-
ną y.
Test F
F-statistic: 1143 on 4 and 11 DF, p-value: 2,529e-14
Autor opracowania: Marek Walesiak
6
Z uwagi na to, że
14
529
,
2
05
,
0
e
(UWAGA!
14
e
oznacza przesunięcie przecinka w
lewo o 14 miejsc) hipotezę zerową należy odrzucić. Oznacza to, że regresja jako całość jest istotna.
d) wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych
[1] Przedziały ufności dla parametrów
2,5 % 97,5 %
(Intercept) -4,572565e+03 4,270706e+03
x1 2,782001e+00 5,190509e+00
x2 1,396466e-02 9,624931e-02
x3 -3,982372e+00 2,680614e+01
x4 1,781145e-01 4,720831e-01
Z prawdopodobieństwem 0,95 przedział
706
,
4270
565
,
4572
;
pokryje nieznaną wartość para-
metru
0
b z modelu
4
4
3
3
2
2
1
1
0
x
b
x
b
x
b
x
b
b
y
.
Z prawdopodobieństwem 0,95 przedział
191
,
5
782
,
2
;
pokryje nieznaną wartość parametru
1
b z
modelu
4
4
3
3
2
2
1
1
0
x
b
x
b
x
b
x
b
b
y
.
Z prawdopodobieństwem 0,95 przedział
096
,
0
;
014
,
0
pokryje nieznaną wartość parametru
2
b
z modelu
4
4
3
3
2
2
1
1
0
x
b
x
b
x
b
x
b
b
y
.
Z prawdopodobieństwem 0,95 przedział
806
,
26
982
,
3
;
pokryje nieznaną wartość parametru
3
b z modelu
4
4
3
3
2
2
1
1
0
x
b
x
b
x
b
x
b
b
y
.
Z prawdopodobieństwem 0,95 przedział
472
,
0
178
,
0
;
pokryje nieznaną wartość parametru
4
b z
modelu
4
4
3
3
2
2
1
1
0
x
b
x
b
x
b
x
b
b
y
.
Węższe (szersze) przedziały ufności można uzyskać poprzez zmniejszenie (zwiększenie) pozio-
mu ufności.
e) wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny
[1] Wyniki testu Shapiro-Wilka
Shapiro-Wilk normality test
data: reg$residuals
W = 0,983, p-value = 0,9827
Z uwagi na to, że
0,9827
value
p
05
,
0
nie ma podstaw do odrzucenia hipotezy o nor-
malności rozkładu składnika losowego.
f) sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej
współliniowości
[1] VIF - czynnik inflacji wariancji
x1 x2 x3 x4
25,65694 5,42586 21,22442 13,42201
Wartości
1
j
VIF
informują ile razy wariancja estymatora parametru jest większa od wariancji
prawdziwej (tzn. nie zakłóconej współliniowością statystyczną). Wartości
20
j
VIF
wskazują na
problemy związane ze współliniowością. Problem związany ze współliniowością występuje w tym
modelu szczególnie dla zmiennych objaśniających x1 i x3.
g) wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność
wariancji składników losowych
[1] Wyniki testu Goldfelda-Quandta
Goldfeld-Quandt test
data: reg
GQ = 1,6221, df1 = 3, df2 = 3, p-value = 0,3504
Autor opracowania: Marek Walesiak
7
Nie ma podstaw do odrzucenia hipotezy zerowej, że składnik losowy jest homoskedastyczny
(
0,3504
value
p
05
,
0
).
h) za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie
występuje autokorelacja pierwszego stopnia
[1] Wyniki testów Durbina-Watsona oraz Breuscha-Godfreya na auto-
korelację pierwszego stopnia
lag Autocorrelation D-W Statistic p-value
1 0,06648353 1,391266 0,135
Alternative hypothesis: rho > 0
Breusch-Godfrey test for serial correlation of order 1
data: reg
LM test = 0,1109, df = 1, p-value = 0,7391
Oba testy potwierdzają brak w modelu autokorelacji reszt pierwszego stopnia, z uwagi na to, że
value
p
05
,
0
.
i) sprawdzić czy w zbiorze danych występują obserwacje nietypowe (rys. z lewej strony)
5
10
15
-4
-2
0
2
4
6
numer obserwacji
re
szt
y
st
u
d
e
n
tyzo
w
a
n
e
Mazowieckie
Wielkopolskie
5
10
15
0
,5
1
,0
1
,5
numer obserwacji
h
a
t
va
lu
e
s
Mazowieckie
Śląskie
Wielkopolskie
Obserwacje nietypowe (outliers) charakteryzują się dużą resztą. Tego typu obserwacje wpływają
na
pogorszenie
dopasowania
modelu
do
danych.
Dla
szacowanego
modelu
4
4
3
3
2
2
1
1
0
x
b
x
b
x
b
x
b
b
y
są dwie reszty nietypowe (woj. mazowieckie i woj. wielkopol-
skie). W przypadku wystąpienia reszt nietypowych model należy oszacować i zweryfikować po-
wtórnie z pominięciem obserwacji nietypowych.
j) sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe (rys. z prawej stro-
ny)
Obserwacje wpływowe (influential observations) silnie oddziałują na oszacowane parametry
strukturalne. Włączenie do zbioru danych tych obserwacji powoduje, że znacznie zmieniają się
oszacowane parametry modelu. Dla szacowanego modelu
4
4
3
3
2
2
1
1
0
x
b
x
b
x
b
x
b
b
y
ob-
serwacje dotyczące woj. mazowieckiego, śląskiego i wielkopolskiego są wpływowe. Należy więc
oszacować i zweryfikować powtórnie model z pominięciem tych dwóch województw.