background image

Autor opracowania: Marek Walesiak 

 

 

PROJEKT A – MODEL LINIOWY 

z co najmniej trzema zmiennymi objaśniającymi 

(4-7 potencjalnych zmiennych objaśniających + dobór zmiennych)

 

 
 
 

Nazwisko i imię studenta 1: .......................................... 
Kierunek i rok studiów studenta 1: ...... 
Numer grupy studenta 1: ..... 

 
 

Nazwisko i imię studenta 2: .......................................... 
Kierunek i rok studiów studenta 2: ...... 
Numer grupy studenta 2: ..... 

 
 
 
 
 
 

Uwagi dla studentów: 

1.  Program R należy pobrać ze strony: http://cran.r-project.org/ 
2.  Co najmniej jeden projekt (A, B, C, D) należy przesłać na e-mail prowadzącego laboratoria 
3.  Projekty  można  wykonywać  osobiście  lub  w zespołach dwuosobowych (liczba zrealizowanych 

projektów  oraz  jakość  i  estetyka  wykonania  będzie  decydować  o  ocenie  z  laboratorium  dla 
przedmiotu Ekonometria

4.  Liczba obserwacji (dane w postaci szeregów przekrojowych z roku 2009 lub 2010) w projekcie 

A, B oraz  C  musi wynosić co najmniej 12, a w projekcie D co najmniej 30. Dla danych staty-
stycznych należy koniecznie podać źródło 

5.  Nie wolno w projektach stosować zmiennych użytych w przykładowych projektach prezentowa-

nych na laboratoriach (nie dotyczy projektu C) 

6.  Wraz  z  każdym  projektem  opracowanym  w edytorze Word (może też być jego odpowiednik  z 

pakietu OpenOffice) należy przesłać: 
a)  plik (pliki) danych w formacie csv 
b) odpowiednie procedury w programie R 

7.  Termin przesłania projektu (projektów): do 03 stycznia 2012 roku 
8.  Proszę przesyłać projekty z własnych e-maili podając w e-mailu skład zespołu (imię i nazwisko, 

rok i forma studiów, numer grupy lub specjalność) 

9.  Warunkiem przyjęcia projektu (projektów) jest uzyskanie pozytywnej odpowiedzi od prowadzą-

cego laboratoria 

10. Odpowiedzi na e-maile informujące o akceptacji projektu lub projektów będą przesyłane w cią-

gu siedmiu dni od ich nadesłania 

11. Odrzucane będą projekty, które wykonali inni studenci 

background image

Autor opracowania: Marek Walesiak 

 

PROJEKT A – MODEL LINIOWY 

z co najmniej trzema zmiennymi objaśniającymi 

(4-7 potencjalnych zmiennych objaśniających + dobór zmiennych) 

 
 
1.  Zebrać  z  Roczników  Statystycznych  co  najmniej  12  obserwacji  na  zmiennej  objaśnianej  i 

4-7 potencjalnych zmiennych objaśniających (dane w postaci szeregów przekrojowych) 

Dane przekrojowe (wg województw Polski w roku 2005) 

y – produkt krajowy brutto województwa Polski w mln zł (ceny bieżące), 
x1 – nakłady inwestycyjne w województwie w mln zł (ceny bieżące), 
x2 – wartość brutto środków trwałych województwa w mln zł (bieżące ceny ewidencyjne), 
x3 – pracujący w województwie w tys. osób, 
x4 – produkcja sprzedana przemysłu województwa w mln zł (ceny bieżące), 
x5 – stopa bezrobocia rejestrowanego w województwie w %. 
Źródło:  dane dotyczące produktu krajowego brutto są z Rocznika statystycznego województw 2007, pozo-

stałe z Rocznika statystycznego województw 2006. 

 

a) wprowadzić dane statystyczne do programu EXCEL w następującym układzie: 

 

Plik Dane_przekrojowe_PKB 

 

 

b) zapisać dane w formacie csv na dysku 
(podać nazwę pliku Dane_przekrojowe_PKB.csv) 
 

background image

Autor opracowania: Marek Walesiak 

 

 

 
2.  Zastosować  przy  doborze  zmiennych  statystyczne  kryteria  wyboru  między  modelami  re-

gresji  (kryterium  Theila  maksymalnego  skorygowanego  współczynnika  determinacji,  kryteria 
bazujące na minimalizacji średniokwadratowego błędu predykcji Mallowsa, kryteria informacyj-
ne:  Akaike  (AIC),  Schwartza  (BIC)).  Wybrać  na  podstawie  jednego  z  kryteriów  zmienne  obja-
śniające do modelu

1

. Zastosować w programie R procedurę AIC_BIC_adjr2_Cp.r 

Wynik z programu R 

[1] "Najlepsza kombinacja zmiennych wg AIC to: 1, 2, 3, 4 z warto-
ścią miary: 258,440306449048" 
[1] "Najlepsza kombinacja zmiennych wg BIC to: 1, 2, 3, 4 z warto-
ścią miary: 262,303250060246" 
[1]  "Najlepsza  kombinacja  zmiennych  wg  adjr2  to:  1,  2,  3,  4,  5  z 
wartością miary: 0,996815506925318" 
[1] "Najlepsza kombinacja zmiennych wg Cp to: 1, 2, 3, 4 z warto-
ścią miary: 5,30346700096197" 
[1] "Dokładne wyniki w pliku wynik_AIC_BIC_adjr2_Cp.csv" 
 

Do  modelu  liniowego  zostaną  wybrane  zmienne  objaśniające  x1,  x2,  x3  i  x4.  Zatem  model  

ma postać: 

4

4

3

3

2

2

1

1

0

x

b

x

b

x

b

x

b

b

y

 

 
3.  Wykorzystując w programie R procedurę 

Reg_wieloraka_model_liniowy_hiperplaszczyzna_2010.r 
a)  oszacować  metodą  najmniejszych  kwadratów  parametry  strukturalne  modelu  z  wybranymi 

zmiennymi.  Zapisać  postać  modelu  z  oszacowanymi  parametrami  podając  w  nawiasach  pod 
ocenami  estymatorów  parametrów  ich  błędy.  Podać  interpretację parametrów strukturalnych 
oraz błędów estymatorów parametrów strukturalnych, 

b) zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny, współ-

czynnik determinacji, skorygowany współczynnik determinacji), 

c)  za pomocą testów t i F sprawdzić istotność współczynników regresji, 
d) wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych, 
e)  wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny, 
f)  sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej współliniowo-

ści, 

g)  wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność warian-

cji składników losowych 

                                                 

1

 Wybrać wariant z co najmniej trzema zmiennymi objaśniającymi. 

background image

Autor opracowania: Marek Walesiak 

 

h) za  pomocą  testów  Durbina-Watsona  oraz  Breuscha-Godfreya  zbadać  czy  w  modelu  nie  wy-

stępuje autokorelacja pierwszego stopnia 

i)  sprawdzić czy w zbiorze danych występują obserwacje nietypowe 
j)  sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe 

 

ODPOWIEDZI Z WYKORZYSTANIEM obliczeń w programie R 

a)  oszacować metodą najmniejszych kwadratów parametry strukturalne modelu z wybra-

nymi zmiennymi 

[1] Wyniki estymacji MNK 
 
Call: 
lm(formula = y ~ x1 + x2 + x3 + x4, data = d, x = TRUE, y = TRUE) 
 
Residuals: 
      Min        1Q    Median        3Q       Max  
-4447,813 -1497,929    -5,696  1710,408  4731,755  
 
Coefficients: 
              Estimate Std. Error t value Pr(>|t|)     
(Intercept) -150,92985 2008,93467  -0,075 0,941461     
x1             3,98625    0,54714   7,286 1,57e-05 *** 
x2             0,05511    0,01869   2,948 0,013256 *   
x3            11,41188    6,99426   1,632 0,131034     
x4             0,32510    0,06678   4,868 0,000496 *** 
--- 
Signif. codes:  0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘ ’ 1  
 
Residual standard error: 2839 on 11 degrees of freedom 
Multiple R-squared: 0.9976,     Adjusted R-squared: 0.9967  
F-statistic:  1143 on 4 and 11 DF,  p-value: 2,529e-14 

 

a)  zapisać postać modelu z oszacowanymi parametrami podając w nawiasach pod ocenami 

estymatorów parametrów ich błędy 

4

)

067

,

0

(

3

)

994

,

6

(

2

)

019

,

0

(

1

)

547

,

0

(

)

935

,

2008

(

325

,

0

412

,

11

055

,

0

986

,

3

930

,

150

ˆ

x

x

x

x

y

 

a)  podać interpretację parametrów strukturalnych oraz błędów estymatorów parametrów 

strukturalnych 

986

,

3

ˆ

1

b

 – wzrost (spadek) wartości nakładów inwestycyjnych województwa (wartości zmien-

nej objaśniającej x1) o 1 mln zł spowoduje wzrost (spadek) produktu krajowego brutto wojewódz-
twa (zmienna objaśniana y) średnio o 3,986 mln zł (ceteris paribus); 

055

,

0

ˆ

2

b

 – wzrost (spadek) wartości brutto środków trwałych województwa (wartości zmien-

nej objaśniającej x2) o 1 mln zł spowoduje wzrost (spadek) produktu krajowego brutto wojewódz-
twa (zmienna objaśniana y) średnio o 0,055 mln zł (ceteris paribus); 

412

,

11

ˆ

3

b

 – wzrost (spadek) liczby pracujących w województwie (wartości zmiennej objaśnia-

jącej  x3)  o  1  tys.  osób  spowoduje  wzrost  (spadek)  produktu  krajowego  brutto  województwa 
(zmienna objaśniana y) średnio o 11,412 mln zł (ceteris paribus); 

325

,

0

ˆ

4

b

 – wzrost (spadek) produkcji sprzedanej przemysłu województwa (wartości zmiennej 

objaśniającej x4) o 1 mln zł spowoduje wzrost (spadek) produktu krajowego brutto województwa 
(zmienna objaśniana y) średnio o 0,325 mln zł (ceteris paribus); 

930

,

150

ˆ

0

b

 (wyraz wolny) – brak w tym przypadku interpretacji ekonomicznej. 

935

,

2008

)

ˆ

(

0

b

S

 – szacując parametr 

0

b

, gdybyśmy mogli wiele razy pobrać próbę z tej samej 

populacji generalnej, mylimy się średnio in plus i in minus o 2008,935 (

935

,

2008

930

,

150

0

b

), 

background image

Autor opracowania: Marek Walesiak 

 

547

,

0

)

ˆ

(

1

b

S

 – szacując parametr 

1

, gdybyśmy mogli wiele razy pobrać próbę z tej samej po-

pulacji generalnej, mylimy się średnio in plus i in minus o 0,547 (

547

,

0

986

,

3

1

b

), 

019

,

0

)

ˆ

(

2

b

S

 – szacując parametr 

2

, gdybyśmy mogli wiele razy pobrać próbę z tej samej po-

pulacji generalnej, mylimy się średnio in plus i in minus o 0,019 (

019

,

0

055

,

0

2

b

), 

994

,

6

)

ˆ

(

3

b

S

 – szacując parametr 

3

, gdybyśmy mogli wiele razy pobrać próbę z tej samej po-

pulacji generalnej, mylimy się średnio in plus i in minus o 6,994 (

994

,

6

412

,

11

3

b

), 

067

,

0

)

ˆ

(

4

b

S

 – szacując parametr 

4

, gdybyśmy mogli wiele razy pobrać próbę z tej samej po-

pulacji generalnej, mylimy się średnio in plus i in minus o 0,067 (

067

,

0

325

,

0

4

b

), 

 

b) zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny, 

współczynnik determinacji, skorygowany współczynnik determinacji), 

standardowy  błąd  oceny  (Residual  standard  error:  2839)  –  wartości  empiryczne 

zmiennej  objaśnianej  (produkt  krajowy  brutto  województwa)  odchylają  się  od  wartości  teore-
tycznych przeciętnie o 2839 mln zł. 

współczynnik determinacji (Multiple R-Squared: 0.9976) – 99,76% zmienności zmiennej 

objaśnianej (produkt krajowy brutto województwa) zostało wyjaśnionych przez zbudowany mo-
del. 

skorygowany  współczynnik  determinacji  (Adjusted  R-squared:  0.9967)  –  99,67%  wa-

riancji zmiennej objaśnianej (produkt krajowy brutto województwa) zostało wyjaśnionych przez 
zbudowany model. 

 

c)  za pomocą testów t i F sprawdzić istotność współczynników regresji 

Test t 
              Estimate Std. Error t value Pr(>|t|) 
(Intercept) -150,92985 2008,93467  -0,075 0,941461 
x1             3,98625    0,54714   7,286 1,57e-05 
x2             0,05511    0,01869   2,948 0,013256 
x3            11,41188    6,99426   1,632 0,131034 
x4             0,32510    0,06678   4,868 0,000496 
 

Z uwagi na to, że dla 

0

 

941461

,

0

05

,

0

 nie ma podstaw do odrzucenia hipotezy zerowej. 

Oznacza to, że parametr 

0

 nieistotnie różni się od zera. 

Z uwagi na to, że dla 

1

 

05

57

,

1

05

,

0

e

 hipotezę zerową odrzucamy. Oznacza to, że para-

metr 

1

 istotnie różni się od zera. Zmienna objaśniająca x1 ma istotny wpływ na zmienną objaśnia-

ną y. 

Z uwagi na to, że dla 

2

 

013256

,

0

05

,

0

 hipotezę zerową odrzucamy. Oznacza to, że para-

metr 

2

 istotnie różni się od zera. Zmienna objaśniająca x2 ma istotny wpływ na zmienną objaśnia-

ną y. 

Z uwagi na to, że dla 

3

 

131034

,

0

05

,

0

 nie ma podstaw do odrzucenia hipotezy zerowej. 

Oznacza to, że parametr 

3

 nieistotnie różni się od zera. Zmienna objaśniająca x3 nie ma istotnego 

wpływu na zmienną objaśnianą y. 

Z uwagi na to, że dla 

4

 

000496

,

0

05

,

0

 hipotezę zerową odrzucamy. Oznacza to, że para-

metr 

4

 istotnie różni się od zera. Zmienna objaśniająca x4 ma istotny wpływ na zmienną objaśnia-

ną y. 
 

Test F 
F-statistic:  1143 on 4 and 11 DF,  p-value: 2,529e-14 
 

background image

Autor opracowania: Marek Walesiak 

 

Z  uwagi  na  to,  że 

14

529

,

2

05

,

0

e

  (UWAGA! 

14

e

  oznacza  przesunięcie  przecinka  w 

lewo o 14 miejsc) hipotezę zerową należy odrzucić. Oznacza to, że regresja jako całość jest istotna. 

d) wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych 

[1] Przedziały ufności dla parametrów 
                    2,5 %       97,5 % 
(Intercept) -4,572565e+03 4,270706e+03 
x1           2,782001e+00 5,190509e+00 
x2           1,396466e-02 9,624931e-02 
x3          -3,982372e+00 2,680614e+01 
x4           1,781145e-01 4,720831e-01 
 

Z prawdopodobieństwem  0,95 przedział 

706

,

4270

565

,

4572

;

 pokryje nieznaną wartość para-

metru 

0

 z modelu 

4

4

3

3

2

2

1

1

0

x

b

x

b

x

b

x

b

b

y

Z prawdopodobieństwem 0,95 przedział 

191

,

5

782

,

2

 pokryje nieznaną wartość parametru 

1

 z 

modelu 

4

4

3

3

2

2

1

1

0

x

b

x

b

x

b

x

b

b

y

Z prawdopodobieństwem 0,95 przedział 

096

,

0

;

014

,

0

 

 pokryje nieznaną wartość parametru 

2

 

z modelu 

4

4

3

3

2

2

1

1

0

x

b

x

b

x

b

x

b

b

y

Z  prawdopodobieństwem  0,95  przedział 

806

,

26

982

,

3

  pokryje  nieznaną  wartość  parametru 

3

 z modelu 

4

4

3

3

2

2

1

1

0

x

b

x

b

x

b

x

b

b

y

Z prawdopodobieństwem 0,95 przedział 

472

,

0

178

,

0

 pokryje nieznaną wartość parametru 

4

 z 

modelu 

4

4

3

3

2

2

1

1

0

x

b

x

b

x

b

x

b

b

y

Węższe (szersze) przedziały ufności można uzyskać poprzez zmniejszenie (zwiększenie) pozio-

mu ufności. 

 

e)  wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny 

[1] Wyniki testu Shapiro-Wilka 
        Shapiro-Wilk normality test 
data:  reg$residuals  
W = 0,983, p-value = 0,9827 
 

Z uwagi na to, że 

0,9827

value

p

05

,

0

 nie ma podstaw do odrzucenia hipotezy o nor-

malności rozkładu składnika losowego.  

 

f)  sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej 

współliniowości 

 
[1] VIF - czynnik inflacji wariancji 
      x1       x2       x3       x4  
25,65694  5,42586 21,22442 13,42201 

Wartości 

1

j

VIF

  informują ile razy wariancja estymatora parametru jest większa od wariancji 

prawdziwej  (tzn.  nie  zakłóconej  współliniowością  statystyczną).  Wartości 

20

j

VIF

  wskazują  na 

problemy związane ze współliniowością. Problem związany ze współliniowością występuje w tym 
modelu szczególnie dla zmiennych objaśniających x1 i x3. 
 

g)  wykorzystując  test  Goldfelda-Quandta  sprawdzić  czy  nie  występuje  niejednorodność 

wariancji składników losowych 

[1] Wyniki testu Goldfelda-Quandta 
        Goldfeld-Quandt test 
data:  reg  
GQ = 1,6221, df1 = 3, df2 = 3, p-value = 0,3504 

background image

Autor opracowania: Marek Walesiak 

 

 

Nie  ma  podstaw  do  odrzucenia  hipotezy  zerowej,  że  składnik  losowy  jest  homoskedastyczny 

(

0,3504

value

p

05

,

0

). 

h) za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie 

występuje autokorelacja pierwszego stopnia 

[1] Wyniki testów Durbina-Watsona oraz Breuscha-Godfreya na auto-
korelację pierwszego stopnia 
 lag Autocorrelation D-W Statistic p-value 
   1      0,06648353      1,391266   0,135 
 Alternative hypothesis: rho > 0 
 
        Breusch-Godfrey test for serial correlation of order 1 
 
data:  reg  
LM test = 0,1109, df = 1, p-value = 0,7391 
 

Oba testy potwierdzają brak w modelu autokorelacji reszt pierwszego stopnia, z uwagi na to, że 

value

p

05

,

0

 

i)  sprawdzić czy w zbiorze danych występują obserwacje nietypowe (rys. z lewej strony) 

5

10

15

-4

-2

0

2

4

6

numer obserwacji

re

szt

st

u

d

e

n

tyzo

w

a

n

e

Mazowieckie

Wielkopolskie

 

5

10

15

0

,5

1

,0

1

,5

numer obserwacji

h

a

va

lu

e

s

Mazowieckie

Śląskie

Wielkopolskie

 

 

Obserwacje nietypowe (outliers) charakteryzują się dużą resztą. Tego typu obserwacje wpływają 

na 

pogorszenie 

dopasowania 

modelu 

do 

danych. 

Dla 

szacowanego 

modelu 

4

4

3

3

2

2

1

1

0

x

b

x

b

x

b

x

b

b

y

 są dwie reszty nietypowe (woj. mazowieckie i woj. wielkopol-

skie).  W  przypadku  wystąpienia  reszt  nietypowych  model  należy  oszacować  i  zweryfikować  po-
wtórnie z pominięciem obserwacji nietypowych. 

 
 

j)  sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe (rys. z prawej stro-

ny) 

Obserwacje  wpływowe  (influential  observations)  silnie  oddziałują  na  oszacowane  parametry 

strukturalne.  Włączenie  do  zbioru  danych  tych  obserwacji  powoduje,  że  znacznie  zmieniają  się 
oszacowane  parametry  modelu.  Dla  szacowanego  modelu 

4

4

3

3

2

2

1

1

0

x

b

x

b

x

b

x

b

b

y

  ob-

serwacje  dotyczące  woj.  mazowieckiego,  śląskiego  i  wielkopolskiego  są  wpływowe.  Należy  więc 
oszacować i zweryfikować powtórnie model z pominięciem tych dwóch województw.