PROJEKT B – MODEL LINIOWY
z co najmniej trzema zmiennymi objaśniającymi
(4-7 potencjalnych zmiennych objaśniających + dobór zmiennych)
Nazwisko i imię studenta 1: Krzysztof Ochab
Kierunek i rok studiów studenta 1: Ekonomia I ROK II-go stopnia
Numer grupy studenta 1: III
Nazwisko i imię studenta : MATYSIAK ANNA
Kierunek i rok studiów studenta: Ekonomia I ROK II-go stopnia
Numer grupy studenta 2: 03
Zebrać z Roczników Statystycznych co najmniej 12 obserwacji na zmiennej objaśnianej i dwóch zmiennych objaśniających (dane w postaci szeregów przekrojowych).
Dane przekrojowe (wg województw Polski w roku 2007-2010)
y– wskaźnik zagrożenia ubóstwem (na podstawie wyników badań wyników badań budżetowych gospodarstw domowych)
x1– dochody do dyspozycji brutto w sektorze gospodarstw domowych województwa,
x2– stopa bezrobocia rejestrowanego w województwie w %.
x3– przeciętne miesięczne wynagrodzenie województwa,
Źródło: dane dotyczące produktu krajowego brutto są z Rocznika statystycznego województw 2007, pozostałe z Rocznika statystycznego województw 2010.
wprowadzić dane statystyczne do programu EXCEL w następującym układzie:
Plik: Zagrozenie_ubostwem.xls
zapisać dane w formacie csv na dysku
plik: zagrozenie_ubostwem.csv
2. Wykorzystując w programie R procedurę Reg_wieloraka_model_liniowy_plaszczyzna_2010.r:
a) oszacować metodą najmniejszych kwadratów parametry strukturalne modelu zmiennej y w zależności od zmiennych x1 i x4. Zapisać postać modelu z oszacowanymi parametrami poda-jąc w nawiasach pod ocenami estymatorów parametrów ich błędy. Podać interpretację para-metrów strukturalnych oraz błędów estymatorów parametrów strukturalnych,
b) zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny, współ-czynnik determinacji, skorygowany współczynnik determinacji),
c) za pomocą testów t i F sprawdzić istotność współczynników regresji,
d) przedstawić wykres płaszczyzny regresji,
e) wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych,
f) wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny,
g) sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej współliniowo-ści,
h) wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność warian-cji składników losowych,
i) za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie wy-stępuje autokorelacja pierwszego stopnia,
j) sprawdzić czy w zbiorze danych występują obserwacje nietypowe,
k) sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe.
ODPOWIEDZI Z WYKORZYSTANIEM obliczeń w programie R
a) oszacować metodą najmniejszych kwadratów parametry strukturalne modelu zmiennej y w zależności od zmiennych x1 (zm1) i x2 (zm2)
[1] Wyniki estymacji MNK
Call:
lm(formula = y ~ zm1 + zm2, data = d, x = TRUE, y = TRUE)
Residuals:
Min 1Q Median 3Q Max
-32004 -9208 -2993 6781 53614
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 25584,96 27816,58 0,920 0,3744
zm1 366,85 36,28 10,112 1,58e-07 ***
zm2 -1225,66 689,53 -1,778 0,0989 .
---
Signif. codes: 0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘ ’ 1
Residual standard error: 21270 on 13 degrees of freedom
Multiple R-squared: 0.8893, Adjusted R-squared: 0.8722
F-statistic: 52.2 on 2 and 13 DF, p-value: 6,137e-07
zapisać postać modelu z oszacowanymi parametrami podając w nawiasach pod ocenami estymatorów parametrów ich błędy
y(t)= 25584,96 + 366,85x1 - 1225,66x2
Podać interpretację parametrów strukturalnych oraz błędów estymatorów parametrów strukturalnych
b(t)1 = 366,85 - wzrost (spadek) wartości dochodów do dyspozycji brutto w sektorze gospodarstw domowych województwa (wartości zmiennej objaśniającej x1) o 1 mln zł spowoduje wzrost (spadek) wskaźnik zagrożenia ubóstwem województwa (zmienna objaśniana y) średnio o 366,85 jednostek(ceteris paribus);
b(t)2 = - 1225,66 spadek(wzrost) stopy bezrobocia rejestrowanego w województwie w % (wartości zmiennej objaśniającej x2) o 1 mln zł spowoduje wzrost (spadek) wskaźnik zagrożenia ubóstwem województwa (zmienna objaśniana y) średnio o 1225,66 jednostek(ceteris paribus);
b(t)0 = 25584,96 - (wyraz wolny) – brak w tym przypadku interpretacji ekonomicznej.
S(b0) = 27816,58 - szacując parametr b0 , gdybyśmy mogli wiele razy pobrać próbę z tej samej populacji generalnej, mylimy się średnio in plus i in minus o 27816,58 (25584,96+/- 27816,58),
S(b1) = 36,28 - szacując parametr b2, gdybyśmy mogli wiele razy pobrać próbę z tej samej populacji generalnej, mylimy się średnio in plus i in minus o 36,28 (366,85+/- 36,28),
S(b3) = 689,53- szacując parametr b3, gdybyśmy mogli wiele razy pobrać próbę z tej samej populacji generalnej, mylimy się średnio in plus i in minus o 689,53 (- 1225,66x +/- 689,53),
zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny, współczynnik determinacji, skorygowany współczynnik determinacji),
standardowy błąd oceny (Residual standard error: 21270) – wartości empiryczne zmiennej objaśnianej (produkt krajowy brutto województwa) odchylają się od wartości teore-tycznych przeciętnie o 3619 mln zł.
współczynnik determinacji (Multiple R-Squared: 0.889) – 88,9% zmienności zmiennej objaśnianej (produkt krajowy brutto województwa) zostało wyjaśnionych przez zbudowany model.
skorygowany współczynnik determinacji (Adjusted R-squared: 0.8722) – 87,2% wariancji zmiennej objaśnianej (produkt krajowy brutto województwa) zostało wyjaśnionych przez zbudowany model.
za pomocą testów t i F sprawdzić istotność współczynników regresji
test t
Estimate Std. Error t value Pr(>|t|)
(Intercept) 25584,96 27816,58 0,920 0,3744
zm1 366,85 36,28 10,112 1,58e-07 ***
zm2 -1225,66 689,53 -1,778 0,0989 .
Z uwagi na to, że dla b0 Alfa = 0,05 < 0,3744 nie ma podstaw do odrzucenia hipotezy zerowej. Oznacza to, że parametr b nieistotnie różni się od zera.
Z uwagi na to, że dla b1 Alfa = 0,05 > 1,58e-07 hipotezę zerową odrzucamy. Oznacza to, że parametr b istotnie różni się od zera. Zmienna objaśniająca x1 ma istotny wpływ na zmienną objaśnianą y.
Z uwagi na to, że dla b2 Alfa = 0,05 < 0,0989 nie ma podstaw do odrzucenia hipotezy zerowej. Oznacza to, że parametr b nieistotnie różni się od zera. Zmienna objaśniająca x2 ma istotny wpływ na zmienną objaśnianą y.
Test F
F-statistic: 52.2 on 2 and 13 DF, p-value: 6,137e-07
Z uwagi na to, że Alfa = 0,05 > 6,137e-07. Oznacza to, że regresja jako całość jest istotna.
przedstawić wykres płaszczyzny regresji
wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych
[1] Przedziały ufności dla parametrów
2,5 % 97,5 %
(Intercept) -34509,1102 85679,0398
zm1 288,4749 445,2231
zm2 -2715,2932 263,9820
Z prawdopodobieństwem 0,95 przedział [-34509,1102;85679,0398] pokryje nieznaną wartość parametru b0 z modelu y = b0 + b1x1 + b2x2 + &
Z prawdopodobieństwem 0,95 przedział [288,4749; 445,2231] pokryje nieznaną wartość parametru b1 z modelu y = b0 + b1x1 + b2x2 + &
Z prawdopodobieństwem 0,95 przedział [-2715,2932; 263,9820] pokryje nieznaną wartość parametru b1 z modelu y = b0 + b1x1 + b2x2 + &
wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny
[1] Wyniki testu Shapiro-Wilka
Shapiro-Wilk normality test
data: reg$residuals
W = 0,9272, p-value = 0,2202
Z uwagi na to, że Alfa = 0,05 <= p-value = 0,2202 nie ma podstaw do odrzucenia hipotezy o normalności rozkładu składnika losowego.
sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej współliniowości
[1] VIF - czynnik inflacji wariancji
zm1 zm2
1,000978 1,000978
Wartości VIFj >1 informują ile razy wariancja estymatora parametru jest większa od wariancji prawdziwej (tzn. nie zakłóconej współliniowością statystyczną). Wartości VIFj>20 wskazują na problemy związane ze współliniowością. W analizowanym modelu w zasadzie nie występuje pro-blem związany ze współliniowością zmiennych objaśniających.
wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność wariancji składników losowych
[1] Wyniki testu Goldfelda-Quandta
Goldfeld-Quandt test
data: reg
GQ = 0,2722, df1 = 4, df2 = 3, p-value = 0,8795
Nie ma podstaw do odrzucenia hipotezy zerowej, że składnik losowy jest homoskedastyczny (Alfa = 0,05 <= p-value = 0,8795.
za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie występuje autokorelacja pierwszego stopnia
[1] Wyniki testów Durbina-Watsona oraz Breuscha-Godfreya na autokorelację pierwszego stopnia
lag Autocorrelation D-W Statistic p-value
1 -0,1439365 2,276647 0,288
Alternative hypothesis: rho < 0
Breusch-Godfrey test for serial correlation of order up to 1
data: reg
LM test = 0,5713, df = 1, p-value = 0,4497
Oba testy potwierdzają brak w modelu autokorelacji reszt pierwszego stopnia, z uwagi na to, że Alfa <= p-value (0,288 oraz 0,4497)
sprawdzić czy w zbiorze danych występują obserwacje nietypowe (rys. z lewej strony)
Obserwacje nietypowe (outliers) charakteryzują się dużą resztą. Tego typu obserwacje wpływają na pogorszenie dopasowania modelu do danych. Dla szacowanego modelu y= b0 + b1x1 + b2x2 + & jest jedna reszta nietypowa (woj. mazowieckie). W przypadku wystąpienia reszt nietypowych model należy oszacować i zweryfikować powtórnie z pominięciem obserwacji nietypowych.
sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe (rys. z prawej strony)
Obserwacje wpływowe (influential observations) silnie oddziałują na oszacowane parametry strukturalne. Włączenie do zbioru danych tych obserwacji powoduje, że znacznie zmieniają się oszacowane parametry modelu. Dla szacowanego modelu y= b0 + b1x1 + b2x2 + & obserwacje dotyczące woj. mazowieckiego i śląskiego są wpływowe. Należy więc oszacować i zweryfikować po-wtórnie model z pominięciem tych dwóch województw.