PROJEKT A – MODEL LINIOWY
z co najmniej trzema zmiennymi objaśniającymi
(4-7 potencjalnych zmiennych objaśniających + dobór zmiennych)
Nazwisko i imię studenta 1: Krzysztof Ochab
Kierunek i rok studiów studenta 1: Ekonomia I ROK II-go stopnia
Numer grupy studenta 1: III
Nazwisko i imię studenta : MATYSIAK ANNA
Kierunek i rok studiów studenta :EKONOMIA I ROK II-go stopnia
Numer grupy studenta 2: 03
Zebrać z Roczników Statystycznych co najmniej 12 obserwacji na zmiennej objaśnianej i 4-7 potencjalnych zmiennych objaśniających (dane w postaci szeregów przekrojowych) (2009-2010)
Dane przekrojowe (wg województw Polski w roku 2009)
– produkcja sprzedana przemysłu i budownictwa województwa (ceny bieżące w mln zł)
X1 – pracujący w przemyśle i budownictwie województwa (w tys.),
X2 - inwestycyjne (ceny bieżące) przemysłu i budownictwa województwa (w %),
X3 - wartość brutto środków trwałych w przemyśle i budownictwie województwa (w % ogółem),
X4 - wskaźnik cen towarów i usług konsumpcyjnych (rok poprzedni =100)
Źródło: Rocznik statystyczny GUS
wprowadzić dane statystyczne do programu EXCEL w następującym układzie:
zapisać dane w formacie csv na dysku (podać nazwę pliku Produkcja_przemyslowa_budowlana.csv)
Zastosować przy doborze zmiennych statystyczne kryteria wyboru między modelami re-gresji (kryterium Theila maksymalnego skorygowanego współczynnika determinacji, kryteria bazujące na minimalizacji średniokwadratowego błędu predykcji Mallowsa, kryteria informacyj-ne: Akaike (AIC), Schwartza (BIC)). Wybrać na podstawie jednego z kryteriów zmienne obja-śniające do modelu1. Zastosować w programie R procedurę AIC_BIC_adjr2_Cp.r
Wynik z programu R
[1] "Najlepsza kombinacja zmiennych wg AIC to: 1, 2, 3, 4 z wartością miary: 327,436418925427"
[1] "Najlepsza kombinacja zmiennych wg BIC to: 4 z wartością miary: 329,116038516031"
[1] "Najlepsza kombinacja zmiennych wg adjr2 to: 1, 2, 3, 4 z wartością miary: 0,830140108059294"
[1] "Najlepsza kombinacja zmiennych wg Cp to: 4 z wartością miary: 4,1399555196633"
[1] "Dokładne wyniki w pliku wynik_AIC_BIC_adjr2_Cp.csv"
Do modelu liniowego zostaną wybrane zmienne objaśniające x1, x2, x3, x4. Zatem model ma postać:
y=b0+b1x1+b2x2+b3x3*b4x4+&
Wykorzystując w programie R procedurę Reg_wieloraka_model_liniowy_hiperplaszczyzna_2010.r
a) oszacować metodą najmniejszych kwadratów parametry strukturalne modelu z wybranymi zmiennymi. Zapisać postać modelu z oszacowanymi parametrami podając w nawiasach pod ocenami estymatorów parametrów ich błędy. Podać interpretację parametrów strukturalnych oraz błędów estymatorów parametrów strukturalnych,
b) zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny, współ-czynnik determinacji, skorygowany współczynnik determinacji),
c) za pomocą testów t i F sprawdzić istotność współczynników regresji,
d) wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych,
e) wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny,
f) sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej współliniowości,
g) wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność wariancji składników losowych
h) za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie wy-stępuje autokorelacja pierwszego stopnia
i) sprawdzić czy w zbiorze danych występują obserwacje nietypowe
j) sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe
ODPOWIEDZI Z WYKORZYSTANIEM obliczeń w programie R
a) oszacować metodą najmniejszych kwadratów parametry strukturalne modelu z wybranymi zmiennymi
[1] Wyniki estymacji MNK
Call:
lm(formula = y ~ x1 + x2 + x3 + x4, data = d, x = TRUE, y = TRUE)
Residuals:
Min 1Q Median 3Q Max
-22312 -12617 -1544 7036 41085
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1,052e+06 2,120e+06 -0,496 0,630
x1 4,109e+02 4,646e+01 8,843 2,49e-06 ***
x2 6,709e+02 1,498e+03 0,448 0,663
x3 -2,928e+03 2,123e+03 -1,379 0,195
x4 1,061e+04 2,065e+04 0,514 0,617
---
Signif. codes: 0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘ ’ 1
Residual standard error: 21070 on 11 degrees of freedom
Multiple R-squared: 0.908, Adjusted R-squared: 0.8746
F-statistic: 27.16 on 4 and 11 DF, p-value: 1,195e-05
zapisać postać modelu z oszacowanymi parametrami podając w nawiasach pod ocenami estymatorów parametrów ich błędy
y(t) = -1052000 + 410,90x1 + 670,90x2 - 1928,00x3 + 10610,00x4
podać interpretację parametrów strukturalnych oraz błędów estymatorów parametrów strukturalnych
b(t)1 = 410,90 - wzrost (spadek) liczby pracujących w przemyśle i budownictwie województwa (wartości zmiennej objaśniającej x1) o 1 tys., spowoduje wzrost (spadek) produkcji sprzedanej przemysłu i budownictwa województwa (zmienna objaśniana y) średnio o 410,90 mln zł (ceteris paribus);
b(t)2 = 670,90 - wzrost (spadek) wartości nakładów inwestycyjnych (ceny bieżące) przemysłu i budownictwa województwa (wartości zmiennej objaśniającej x2) o 1 tys., spowoduje wzrost (spadek) produkcji sprzedanej przemysłu i budownictwa województwa (zmienna objaśniana y) średnio o 670,90mln zł (ceteris paribus);
b(t)3 = 1928,00 - spadek (wzrost) wartości brutto środków trwałych w przemyśle i budownictwie województwa (wartości zmiennej objaśniającej x3) o 1 % ogółem, spowoduje spadek (wzrost) produkcji sprzedanej przemysłu i budownictwa województwa (zmienna objaśniana y) średnio o 1928,00mln zł (ceteris paribus);
b(t)4 = 10610,00 - wzrost (spadek) wartości wskaźnika cen towarów i usług konsumpcyjnych w przemyśle i budownictwie województwa (wartości zmiennej objaśniającej x4) o 1 % ogółem, spowoduje spadek (wzrost) produkcji sprzedanej przemysłu i budownictwa województwa (zmienna objaśniana y) średnio o 10610,00 zł (ceteris paribus);
b(t)0 = -1052000 (wyraz wolny) – brak w tym przypadku interpretacji ekonomicznej.
S(b0) - szacując parametr b0, gdybyśmy mogli wiele razy pobrać próbę z tej samej populacji generalnej, mylimy się średnio in plus i in minus o 2120000 (b0 = -1052000+/-2120000)
S(b1) - szacując parametr b1, gdybyśmy mogli wiele razy pobrać próbę z tej samej populacji generalnej, mylimy się średnio in plus i in minus o 46,46(b1=410,90 +/-46,46)
S(b2)- szacując parametr b2, gdybyśmy mogli wiele razy pobrać próbę z tej samej populacji generalnej, mylimy się średnio in plus i in minus o 1498,00 (b2=670,90+/-1498,00)
S(b3)- szacując parametr b3, gdybyśmy mogli wiele razy pobrać próbę z tej samej populacji generalnej, mylimy się średnio in plus i in minus o 2123,00 (b3= - 10610,00+/-2123,00)
S(b4)- szacując parametr b4, gdybyśmy mogli wiele razy pobrać próbę z tej samej populacji generalnej, mylimy się średnio in plus i in minus o 20650,00 (b4= - 1928,00+/-20650,00 )
zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny, współczynnik determinacji, skorygowany współczynnik determinacji),
standardowy błąd oceny (Residual standard error: 21070) – wartości empiryczne zmiennej objaśnianej (produkcji sprzedanej przemysłu i budownictwa województwa) odchylają się od wartości teoretycznych przeciętnie o 21070 mln zł.
współczynnik determinacji (Multiple R-Squared: 0.908) – 90,8% zmienności zmiennej objaśnianej (produkcji sprzedanej przemysłu i budownictwa województwa) zostało wyjaśnionych przez zbudowany model.
skorygowany współczynnik determinacji (Adjusted R-squared: 0.8746) – 87,46% wariancji zmiennej objaśnianej (produkcji sprzedanej przemysłu i budownictwa województwa) zostało wyjaśnionych przez zbudowany model.
za pomocą testów t i F sprawdzić istotność współczynników regresji
Test t
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1,052e+06 2,120e+06 -0,496 0,630
x1 4,109e+02 4,646e+01 8,843 2,49e-06 ***
x2 6,709e+02 1,498e+03 0,448 0,663
x3 -2,928e+03 2,123e+03 -1,379 0,195
x4 1,061e+04 2,065e+04 0,514 0,617
Z uwagi na to, że dla b0 α = 0,05 < 0,630 nie ma podstaw do odrzucenia hipotezy zerowej. Oznacza to, że parametr b0 nieistotnie różni się od zera.
Z uwagi na to, że dla b1 α = 0,05 >2,49e-06 hipotezę zerową odrzucamy. Oznacza to, że parametr b1 istotnie różni się od zera. Zmienna objaśniająca x1 ma istotny wpływ na zmienną objaśnianą y.
Z uwagi na to, że dla b2 α = 0,05 <0,663 nie ma podstaw do odrzucenia hipotezy zerowej. Oznacza to, że parametr b2 istotnie różni się od zera. Zmienna objaśniająca x2 nie ma istotnego wpływu na zmienną objaśnianą y.
Z uwagi na to, że dla b3 α = 0,05 < 0,195 nie ma podstaw do odrzucenia hipotezy zerowej. Oznacza to, że parametr b2 istotnie różni się od zera. Zmienna objaśniająca x3 nie ma istotnego wpływu na zmienną objaśnianą y.
Z uwagi na to, że dla b4 α = 0,05 < 0,617 nie ma podstaw do odrzucenia hipotezy zerowej. Oznacza to, że parametr b4 istotnie różni się od zera. Zmienna objaśniająca x42 nie ma istotnego wpływu na zmienną objaśnianą y.
wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych
[1] Przedziały ufności dla parametrów
2,5 % 97,5 %
(Intercept) -5718668,1167 3614630,2251
x1 308,6086 513,1237
x2 -2625,7809 3967,5849
x3 -7601,3049 1744,6054
x4 -34835,6118 56060,7687
Z prawdopodobieństwem 0,975 przedział [-5718668,1167 ; 3614630,225151] pokryje nieznaną wartość parametru b0 z modelu y=b0+b1x1+b2x2+b3x3*b4x4+&
Z prawdopodobieństwem 0,95 przedział 308,6086; 513,1237] pokryje nieznaną wartość parametru b1 z modelu y=b0+b1x1+b2x2+b3x3*b4x4+&
Z prawdopodobieństwem 0,95 przedział -2625,7809; 3967,5849] pokryje nieznaną wartość parametru b2 z modelu y= y=b0+b1x1+b2x2+b3x3*b4x4+&
Z prawdopodobieństwem 0,95 przedział [-7601,3049; 1744,6054] pokryje nieznaną wartość parametru b3z modelu y y=b0+b1x1+b2x2+b3x3*b4x4+&
Z prawdopodobieństwem 0,95 przedział -34835,6118; 56060,7687] pokryje nieznaną wartość parametru b4 z modelu y=b0+b1x1+b2x2+b3x3*b4x4+&
Węższe (szersze) przedziały ufności można uzyskać poprzez zmniejszenie (zwiększenie) poziomu ufności.
wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny
[[1] Wyniki testu Shapiro-Wilka
Shapiro-Wilk normality test
data: reg$residuals
W = 0,9179, p-value = 0,1560
Z uwagi na to, że = 0,05 <= p-value = 0,1560 nie ma podstaw do odrzucenia hipotezy o normalności rozkładu składnika losowego.
sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej współliniowości
[[1] VIF - czynnik inflacji wariancji
x1 x2 x3 x4
1,672941 4,813136 7,449432 2,060150
Wartości VIF > 1 informują ile razy wariancja estymatora parametru jest większa od wariancji prawdziwej (tzn. nie zakłóconej współliniowością statystyczną). Wartości VIF > 20 wskazują na problemy związane ze współliniowością. Problem związany ze współliniowością nie występuje w tym modelu.
wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność wariancji składników losowych
[1] Wyniki testu Goldfelda-Quandta
Goldfeld-Quandt test
data: reg
GQ = 0,0676, df1 = 3, df2 = 3, p-value = 0,9734
Nie ma podstaw do odrzucenia hipotezy zerowej, że składnik losowy jest homoskedastyczny (alfa = 0,05 < równe p-value = 0,9734.
za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie występuje autokorelacja pierwszego stopnia
[1] Wyniki testów Durbina-Watsona oraz Breuscha-Godfreya na autokorelację pierwszego stopnia
lag Autocorrelation D-W Statistic p-value
1 -0,007821122 1,996089 0,453
Alternative hypothesis: rho < 0
Breusch-Godfrey test for serial correlation of order up to 1
data: reg
LM test = 0,0017, df = 1, p-value = 0,9673
Oba testy potwierdzają brak w modelu autokorelacji reszt pierwszego stopnia, z uwagi na to, że Alfa = 0,05 < 0,9673.
sprawdzić czy w zbiorze danych występują obserwacje nietypowe (rys. z lewej strony)
Obserwacje nietypowe (outliers) charakteryzują się dużą resztą. Tego typu obserwacje wpływają na pogorszenie dopasowania modelu do danych. Dla szacowanego modelu y=b0+b1x1+b2x2+b3x3*b4x4+& jest jedna reszta nietypowa (woj. mazowieckie ). W przypadku wystąpienia reszt nietypowych model należy oszacować i zweryfikować powtórnie z pominięciem obserwacji nietypowych.
sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe (rys. z prawej strony)
Obserwacje wpływowe (influential observations) silnie oddziałują na oszacowane parametry strukturalne. Włączenie do zbioru danych tych obserwacji powoduje, że znacznie zmieniają się oszacowane parametry modelu. Dla szacowanego modelu
y=b0+b1x1+b2x2+b3x3*b4x4+& obserwacje dotyczące woj. pomorskiego, są wpływowe. Należy więc oszacować i zweryfikować powtórnie model z pominięciem tego województwa.