Autor opracowania: Marek Walesiak PROJEKT B MODEL LINIOWY z dwiema zmiennymi objaśniającymi Nazwisko i imię studenta 1: .......................................... Kierunek i rok studiów studenta 1: ...... Numer grupy studenta 1: ..... Nazwisko i imię studenta 2: .......................................... Kierunek i rok studiów studenta 2: ...... Numer grupy studenta 2: ..... Uwagi dla studentów: 1. Program R należy pobrać ze strony: http://cran.r-project.org/ 2. Co najmniej jeden projekt (A, B, C, D) należy przesłać na e-mail prowadzącego laboratoria 3. Projekty można wykonywać osobiście lub w zespołach dwuosobowych (liczba zrealizowanych projektów oraz jakość i estetyka wykonania będzie decydować o ocenie z laboratorium dla przedmiotu Ekonometria) 4. Liczba obserwacji (dane w postaci szeregów przekrojowych z roku 2009 lub 2010) w projekcie A, B oraz C musi wynosić co najmniej 12, a w projekcie D co najmniej 30. Dla danych staty- stycznych należy koniecznie podać zródło 5. Nie wolno w projektach stosować zmiennych użytych w przykładowych projektach prezentowa- nych na laboratoriach (nie dotyczy projektu C) 6. Wraz z każdym projektem opracowanym w edytorze Word (może też być jego odpowiednik z pakietu OpenOffice) należy przesłać: a) plik (pliki) danych w formacie csv b) odpowiednie procedury w programie R 7. Termin przesłania projektu (projektów): do 03 stycznia 2012 roku 8. Proszę przesyłać projekty z własnych e-maili podając w e-mailu skład zespołu (imię i nazwisko, rok i forma studiów, numer grupy lub specjalność) 9. Warunkiem przyjęcia projektu (projektów) jest uzyskanie pozytywnej odpowiedzi od prowadzą- cego laboratoria 10. Odpowiedzi na e-maile informujące o akceptacji projektu lub projektów będą przesyłane w cią- gu siedmiu dni od ich nadesłania 11. Odrzucane będą projekty, które wykonali inni studenci 1 Autor opracowania: Marek Walesiak PROJEKT B MODEL LINIOWY z dwiema zmiennymi objaśniającymi 1. Zebrać z Roczników Statystycznych co najmniej 12 obserwacji na zmiennej objaśnianej i dwóch zmiennych objaśniających (dane w postaci szeregów przekrojowych) Dane przekrojowe (wg województw Polski w roku 2005) y produkt krajowy brutto województwa Polski w mln zł (ceny bieżące), x1 nakłady inwestycyjne w województwie w mln zł (ceny bieżące), x2 wartość brutto środków trwałych województwa w mln zł (bieżące ceny ewidencyjne), x3 pracujący w województwie w tys. osób, x4 produkcja sprzedana przemysłu województwa w mln zł (ceny bieżące), x5 stopa bezrobocia rejestrowanego w województwie w %. yródło: dane dotyczące produktu krajowego brutto są z Rocznika statystycznego województw 2007, pozo- stałe z Rocznika statystycznego województw 2006. a) wprowadzić dane statystyczne do programu EXCEL w następującym układzie: Plik Dane_przekrojowe_PKB 2 Autor opracowania: Marek Walesiak b) zapisać dane w formacie csv na dysku (podać nazwę pliku Dane_przekrojowe_PKB.csv) 2. Wykorzystując w programie R procedurę Reg_wieloraka_model_liniowy_plaszczyzna_2010.r: a) oszacować metodą najmniejszych kwadratów parametry strukturalne modelu zmiennej y w zależności od zmiennych x1 i x4. Zapisać postać modelu z oszacowanymi parametrami poda- jąc w nawiasach pod ocenami estymatorów parametrów ich błędy. Podać interpretację para- metrów strukturalnych oraz błędów estymatorów parametrów strukturalnych, b) zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny, współ- czynnik determinacji, skorygowany współczynnik determinacji), c) za pomocą testów t i F sprawdzić istotność współczynników regresji, d) przedstawić wykres płaszczyzny regresji, e) wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych, f) wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny, g) sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej współliniowo- ści, h) wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność warian- cji składników losowych, i) za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie wy- stępuje autokorelacja pierwszego stopnia, j) sprawdzić czy w zbiorze danych występują obserwacje nietypowe, k) sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe. ODPOWIEDZI Z WYKORZYSTANIEM obliczeń w programie R a) oszacować metodą najmniejszych kwadratów parametry strukturalne modelu zmiennej y w zależności od zmiennych x1 (zm1) i x4 (zm2) [1] Wyniki estymacji MNK Call: lm(formula = y ~ zm1 + zm2, data = d, x = TRUE, y = TRUE) Residuals: Min 1Q Median 3Q Max -5860,7 -1433,0 -734,5 1773,8 6486,7 3 Autor opracowania: Marek Walesiak Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2,790e+03 1,457e+03 1,915 0,07771 . zm1 5,263e+00 4,356e-01 12,083 1,92e-08 *** zm2 3,562e-01 7,351e-02 4,845 0,00032 *** --- Signif. codes: 0 *** 0,001 ** 0,01 * 0,05 . 0,1 1 Residual standard error: 3619 on 13 degrees of freedom Multiple R-squared: 0.9954, Adjusted R-squared: 0.9947 F-statistic: 1404 on 2 and 13 DF, p-value: 6,511e-16 a) zapisać postać modelu z oszacowanymi parametrami podając w nawiasach pod ocenami estymatorów parametrów ich błędy w = 2790+ 5,263x1 + 0,356 x4 (1457) (0,436) (0,074) a) Podać interpretację parametrów strukturalnych oraz błędów estymatorów parametrów strukturalnych Ć b1 = 5,263 wzrost (spadek) wartości nakładów inwestycyjnych województwa (wartości zmien- nej objaśniającej x1) o 1 mln zł spowoduje wzrost (spadek) produktu krajowego brutto wojewódz- twa (zmienna objaśniana y) średnio o 5,263 mln zł (ceteris paribus); Ć b4 = 0,356 wzrost (spadek) produkcji sprzedanej przemysłu województwa (wartości zmiennej objaśniającej x4) o 1 mln zł spowoduje wzrost (spadek) produktu krajowego brutto województwa (zmienna objaśniana y) średnio o 0,356 mln zł (ceteris paribus); Ć b0 = 2790 (wyraz wolny) brak w tym przypadku interpretacji ekonomicznej. Ć S(b0) =1457 szacując parametr b0 , gdybyśmy mogli wiele razy pobrać próbę z tej samej popu- lacji generalnej, mylimy się średnio in plus i in minus o 1457 (b0 = 2790 ą1457 ), Ć S(b1) = 0,436 szacując parametr b1, gdybyśmy mogli wiele razy pobrać próbę z tej samej po- pulacji generalnej, mylimy się średnio in plus i in minus o 0,436 (b1 = 5,263ą 0,436), Ć S(b4) = 0,074 szacując parametr b4 , gdybyśmy mogli wiele razy pobrać próbę z tej samej po- pulacji generalnej, mylimy się średnio in plus i in minus o 0,074 (b4 = 0,356 ą 0,074 ), b) zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny, współczynnik determinacji, skorygowany współczynnik determinacji), standardowy błąd oceny (Residual standard error: 3619) wartości empiryczne zmiennej objaśnianej (produkt krajowy brutto województwa) odchylają się od wartości teore- tycznych przeciętnie o 3619 mln zł. współczynnik determinacji (Multiple R-Squared: 0.9954) 99,54% zmienności zmiennej objaśnianej (produkt krajowy brutto województwa) zostało wyjaśnionych przez zbudowany mo- del. skorygowany współczynnik determinacji (Adjusted R-squared: 0.9947) 99,47% wa- riancji zmiennej objaśnianej (produkt krajowy brutto województwa) zostało wyjaśnionych przez zbudowany model. 4 Autor opracowania: Marek Walesiak c) za pomocą testów t i F sprawdzić istotność współczynników regresji Test t Estimate Std. Error t value Pr(>|t|) (Intercept) 2,790e+03 1,457e+03 1,915 0,07771 . zm1 5,263e+00 4,356e-01 12,083 1,92e-08 *** zm2 3,562e-01 7,351e-02 4,845 0,00032 *** Z uwagi na to, że dla b0 a = 0,05 < 0,07771 nie ma podstaw do odrzucenia hipotezy zerowej. Oznacza to, że parametr b0 nieistotnie różni się od zera. Z uwagi na to, że dla b1 a = 0,05 >1,92e - 08 (0,0000000192) hipotezę zerową odrzucamy. Oznacza to, że parametr b1 istotnie różni się od zera. Zmienna objaśniająca x1 ma istotny wpływ na zmienną objaśnianą y. Z uwagi na to, że dla b4 a = 0,05 > 0,00032 hipotezę zerową odrzucamy. Oznacza to, że para- metr b4 istotnie różni się od zera. Zmienna objaśniająca x4 ma istotny wpływ na zmienną objaśnia- ną y. Test F F-statistic: 1404 on 2 and 13 DF, p-value: 6,511e-16 Z uwagi na to, że a = 0,05 > 6,511e -16 (UWAGA! e -16 oznacza przesunięcie przecinka w lewo o 16 miejsc) hipotezę zerową należy odrzucić. Oznacza to, że regresja jako całość jest istotna. d) przedstawić wykres płaszczyzny regresji 200000 150000 100000 150000 100000 50000 50000 10000 20000 0 30000 e) wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych [1] Przedziały ufności dla parametrów 2,5 % 97,5 % (Intercept) -356,8646924 5936,3854523 zm1 4,3224163 6,2045676 zm2 0,1973624 0,5149773 5 y 2 zm zm 1 Autor opracowania: Marek Walesiak Z prawdopodobieństwem 0,95 przedział [- 356,865; 5936,385] pokryje nieznaną wartość para- metru b0 z modelu y = b0 + b1x1 + b4x4 +x . Z prawdopodobieństwem 0,95 przedział [4,322; 6,205] pokryje nieznaną wartość parametru b1 z modelu y = b0 + b1x1 + b4x4 +x . Z prawdopodobieństwem 0,95 przedział [0,197; 0,515] pokryje nieznaną wartość parametru b4 z modelu y = b0 + b1x1 + b4x4 +x . Węższe (szersze) przedziały ufności można uzyskać poprzez zmniejszenie (zwiększenie) pozio- mu ufności. f) wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny [1] Wyniki testu Shapiro-Wilka Shapiro-Wilk normality test data: reg$residuals W = 0,9512, p-value = 0,509 Z uwagi na to, że a = 0,05 Ł p - value = 0,509 nie ma podstaw do odrzucenia hipotezy o nor- malności rozkładu składnika losowego. g) sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej współliniowości [1] VIF - czynnik inflacji wariancji zm1 zm2 10,00626 10,00626 Wartości VIFj > 1 informują ile razy wariancja estymatora parametru jest większa od wariancji prawdziwej (tzn. nie zakłóconej współliniowością statystyczną). Wartości VIFj > 20 wskazują na problemy związane ze współliniowością. W analizowanym modelu w zasadzie nie występuje pro- blem związany ze współliniowością zmiennych objaśniających. h) wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność wariancji składników losowych [1] Wyniki testu Goldfelda-Quandta Goldfeld-Quandt test data: reg GQ = 0,472, df1 = 4, df2 = 3, p-value = 0,7594 Nie ma podstaw do odrzucenia hipotezy zerowej, że składnik losowy jest homoskedastyczny (a = 0,05 Ł p - value = 0,7594 ). i) za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie występuje autokorelacja pierwszego stopnia [1] Wyniki testów Durbina-Watsona oraz Breuscha-Godfreya na auto- korelację pierwszego stopnia lag Autocorrelation D-W Statistic p-value 1 -0,1673144 1,991318 0,48 Alternative hypothesis: rho < 0 Breusch-Godfrey test for serial correlation of order 1 data: reg LM test = 0,55, df = 1, p-value = 0,4583 6 Autor opracowania: Marek Walesiak Oba testy potwierdzają brak w modelu autokorelacji reszt pierwszego stopnia, z uwagi na to, że a = 0,05 Ł p - value . j) sprawdzić czy w zbiorze danych występują obserwacje nietypowe (rys. z lewej strony) Mazowieckie Śląskie Mazowieckie 5 10 15 5 10 15 numer obserwacji numer obserwacji Obserwacje nietypowe (outliers) charakteryzują się dużą resztą. Tego typu obserwacje wpływają na pogorszenie dopasowania modelu do danych. Dla szacowanego modelu y = b0 + b1x1 + b4x4 +x jest jedna reszta nietypowa (woj. mazowieckie). W przypadku wystąpienia reszt nietypowych model należy oszacować i zweryfikować powtórnie z pominięciem obserwacji nietypowych. j) sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe (rys. z prawej stro- ny) Obserwacje wpływowe (influential observations) silnie oddziałują na oszacowane parametry strukturalne. Włączenie do zbioru danych tych obserwacji powoduje, że znacznie zmieniają się oszacowane parametry modelu. Dla szacowanego modelu y = b0 + b1x1 + b4x4 +x obserwacje doty- czące woj. mazowieckiego i śląskiego są wpływowe. Należy więc oszacować i zweryfikować po- wtórnie model z pominięciem tych dwóch województw. 7 hat values reszty studentyzowane 0,2 0,4 0,6 0,8 1,0 1,2 -4 -2 0 2 4