Produkcja przemyslowa budowlana

PROJEKT A – MODEL LINIOWY

z co najmniej trzema zmiennymi objaśniającymi

(4-7 potencjalnych zmiennych objaśniających + dobór zmiennych)

Nazwisko i imię studenta 1: Krzysztof Ochab

Kierunek i rok studiów studenta 1: Ekonomia I ROK II-go stopnia

Numer grupy studenta 1: III

Nazwisko i imię studenta : MATYSIAK ANNA

Kierunek i rok studiów studenta :EKONOMIA I ROK II-go stopnia

Numer grupy studenta 2: 03

  1. Zebrać z Roczników Statystycznych co najmniej 12 obserwacji na zmiennej objaśnianej i 4-7 potencjalnych zmiennych objaśniających (dane w postaci szeregów przekrojowych) (2009-2010)

Dane przekrojowe (wg województw Polski w roku 2009)

– produkcja sprzedana przemysłu i budownictwa województwa (ceny bieżące w mln zł)

X1 – pracujący w przemyśle i budownictwie województwa (w tys.),

X2 - inwestycyjne (ceny bieżące) przemysłu i budownictwa województwa (w %),

X3 - wartość brutto środków trwałych w przemyśle i budownictwie województwa (w % ogółem),

X4 - wskaźnik cen towarów i usług konsumpcyjnych (rok poprzedni =100)

Źródło: Rocznik statystyczny GUS

  1. wprowadzić dane statystyczne do programu EXCEL w następującym układzie:

  1. zapisać dane w formacie csv na dysku (podać nazwę pliku Produkcja_przemyslowa_budowlana.csv)

  1. Zastosować przy doborze zmiennych statystyczne kryteria wyboru między modelami re-gresji (kryterium Theila maksymalnego skorygowanego współczynnika determinacji, kryteria bazujące na minimalizacji średniokwadratowego błędu predykcji Mallowsa, kryteria informacyj-ne: Akaike (AIC), Schwartza (BIC)). Wybrać na podstawie jednego z kryteriów zmienne obja-śniające do modelu1. Zastosować w programie R procedurę AIC_BIC_adjr2_Cp.r

Wynik z programu R

[1] "Najlepsza kombinacja zmiennych wg AIC to: 1, 2, 3, 4 z wartością miary: 327,436418925427"

[1] "Najlepsza kombinacja zmiennych wg BIC to: 4 z wartością miary: 329,116038516031"

[1] "Najlepsza kombinacja zmiennych wg adjr2 to: 1, 2, 3, 4 z wartością miary: 0,830140108059294"

[1] "Najlepsza kombinacja zmiennych wg Cp to: 4 z wartością miary: 4,1399555196633"

[1] "Dokładne wyniki w pliku wynik_AIC_BIC_adjr2_Cp.csv"

Do modelu liniowego zostaną wybrane zmienne objaśniające x1, x2, x3, x4. Zatem model ma postać:

y=b0+b­­11+b2x2+b3x3*b4x4+&

  1. Wykorzystując w programie R procedurę Reg_wieloraka_model_liniowy_hiperplaszczyzna_2010.r

a) oszacować metodą najmniejszych kwadratów parametry strukturalne modelu z wybranymi zmiennymi. Zapisać postać modelu z oszacowanymi parametrami podając w nawiasach pod ocenami estymatorów parametrów ich błędy. Podać interpretację parametrów strukturalnych oraz błędów estymatorów parametrów strukturalnych,

b) zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny, współ-czynnik determinacji, skorygowany współczynnik determinacji),

c) za pomocą testów t i F sprawdzić istotność współczynników regresji,

d) wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych,

e) wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny,

f) sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej współliniowości,

g) wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność wariancji składników losowych

h) za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie wy-stępuje autokorelacja pierwszego stopnia

i) sprawdzić czy w zbiorze danych występują obserwacje nietypowe

j) sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe

ODPOWIEDZI Z WYKORZYSTANIEM obliczeń w programie R

a) oszacować metodą najmniejszych kwadratów parametry strukturalne modelu z wybranymi zmiennymi

[1] Wyniki estymacji MNK

Call:

lm(formula = y ~ x1 + x2 + x3 + x4, data = d, x = TRUE, y = TRUE)

Residuals:

Min 1Q Median 3Q Max

-22312 -12617 -1544 7036 41085

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1,052e+06 2,120e+06 -0,496 0,630

x1 4,109e+02 4,646e+01 8,843 2,49e-06 ***

x2 6,709e+02 1,498e+03 0,448 0,663

x3 -2,928e+03 2,123e+03 -1,379 0,195

x4 1,061e+04 2,065e+04 0,514 0,617

---

Signif. codes: 0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘ ’ 1

Residual standard error: 21070 on 11 degrees of freedom

Multiple R-squared: 0.908, Adjusted R-squared: 0.8746

F-statistic: 27.16 on 4 and 11 DF, p-value: 1,195e-05

  1. zapisać postać modelu z oszacowanymi parametrami podając w nawiasach pod ocenami estymatorów parametrów ich błędy

y(t) = -1052000 + 410,90x­1 + 670,90x­­2 - 1928,00x3 + 10610,00x4

  1. podać interpretację parametrów strukturalnych oraz błędów estymatorów parametrów strukturalnych

b(t)1 = 410,90 - wzrost (spadek) liczby pracujących w przemyśle i budownictwie województwa (wartości zmiennej objaśniającej x1) o 1 tys., spowoduje wzrost (spadek) produkcji sprzedanej przemysłu i budownictwa województwa (zmienna objaśniana y) średnio o 410,90 mln zł (ceteris paribus);

b(t)2 = 670,90 - wzrost (spadek) wartości nakładów inwestycyjnych (ceny bieżące) przemysłu i budownictwa województwa (wartości zmiennej objaśniającej x2) o 1 tys., spowoduje wzrost (spadek) produkcji sprzedanej przemysłu i budownictwa województwa (zmienna objaśniana y) średnio o 670,90mln zł (ceteris paribus);

b(t)3 = 1928,00 - spadek (wzrost) wartości brutto środków trwałych w przemyśle i budownictwie województwa (wartości zmiennej objaśniającej x3) o 1 % ogółem, spowoduje spadek (wzrost) produkcji sprzedanej przemysłu i budownictwa województwa (zmienna objaśniana y) średnio o 1928,00mln zł (ceteris paribus);

b(t)4 = 10610,00 - wzrost (spadek) wartości wskaźnika cen towarów i usług konsumpcyjnych w przemyśle i budownictwie województwa (wartości zmiennej objaśniającej x4) o 1 % ogółem, spowoduje spadek (wzrost) produkcji sprzedanej przemysłu i budownictwa województwa (zmienna objaśniana y) średnio o 10610,00 zł (ceteris paribus);

b(t)0 = -1052000 (wyraz wolny) – brak w tym przypadku interpretacji ekonomicznej.

S(b0) - szacując parametr b0, gdybyśmy mogli wiele razy pobrać próbę z tej samej populacji generalnej, mylimy się średnio in plus i in minus o 2120000 (b0 = -1052000+/-2120000)

S(b1) - szacując parametr b1, gdybyśmy mogli wiele razy pobrać próbę z tej samej populacji generalnej, mylimy się średnio in plus i in minus o 46,46(b1=410,90 +/-46,46)

S(b2)- szacując parametr b2, gdybyśmy mogli wiele razy pobrać próbę z tej samej populacji generalnej, mylimy się średnio in plus i in minus o 1498,00 (b2=670,90+/-1498,00)

S(b3)- szacując parametr b3, gdybyśmy mogli wiele razy pobrać próbę z tej samej populacji generalnej, mylimy się średnio in plus i in minus o 2123,00 (b3= - 10610,00+/-2123,00)

S(b4)- szacując parametr b4, gdybyśmy mogli wiele razy pobrać próbę z tej samej populacji generalnej, mylimy się średnio in plus i in minus o 20650,00 (b4= - 1928,00+/-20650,00 )

  1. zinterpretować obliczone parametry struktury stochastycznej (standardowy błąd oceny, współczynnik determinacji, skorygowany współczynnik determinacji),

standardowy błąd oceny (Residual standard error: 21070) – wartości empiryczne zmiennej objaśnianej (produkcji sprzedanej przemysłu i budownictwa województwa) odchylają się od wartości teoretycznych przeciętnie o 21070 mln zł.

współczynnik determinacji (Multiple R-Squared: 0.908) – 90,8% zmienności zmiennej objaśnianej (produkcji sprzedanej przemysłu i budownictwa województwa) zostało wyjaśnionych przez zbudowany model.

skorygowany współczynnik determinacji (Adjusted R-squared: 0.8746) – 87,46% wariancji zmiennej objaśnianej (produkcji sprzedanej przemysłu i budownictwa województwa) zostało wyjaśnionych przez zbudowany model.

  1. za pomocą testów t i F sprawdzić istotność współczynników regresji

Test t

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1,052e+06 2,120e+06 -0,496 0,630

x1 4,109e+02 4,646e+01 8,843 2,49e-06 ***

x2 6,709e+02 1,498e+03 0,448 0,663

x3 -2,928e+03 2,123e+03 -1,379 0,195

x4 1,061e+04 2,065e+04 0,514 0,617

Z uwagi na to, że dla b0 α = 0,05 < 0,630 nie ma podstaw do odrzucenia hipotezy zerowej. Oznacza to, że parametr b0 nieistotnie różni się od zera.

Z uwagi na to, że dla b1 α = 0,05 >2,49e-06 hipotezę zerową odrzucamy. Oznacza to, że parametr b1 istotnie różni się od zera. Zmienna objaśniająca x1 ma istotny wpływ na zmienną objaśnianą y.

Z uwagi na to, że dla b2 α = 0,05 <0,663 nie ma podstaw do odrzucenia hipotezy zerowej. Oznacza to, że parametr b2 istotnie różni się od zera. Zmienna objaśniająca x2 nie ma istotnego wpływu na zmienną objaśnianą y.

Z uwagi na to, że dla b3 α = 0,05 < 0,195 nie ma podstaw do odrzucenia hipotezy zerowej. Oznacza to, że parametr b2 istotnie różni się od zera. Zmienna objaśniająca x3 nie ma istotnego wpływu na zmienną objaśnianą y.

Z uwagi na to, że dla b4 α = 0,05 < 0,617 nie ma podstaw do odrzucenia hipotezy zerowej. Oznacza to, że parametr b4 istotnie różni się od zera. Zmienna objaśniająca x42 nie ma istotnego wpływu na zmienną objaśnianą y.

  1. wyznaczyć i zinterpretować przedziały ufności dla parametrów strukturalnych

[1] Przedziały ufności dla parametrów

2,5 % 97,5 %

(Intercept) -5718668,1167 3614630,2251

x1 308,6086 513,1237

x2 -2625,7809 3967,5849

x3 -7601,3049 1744,6054

x4 -34835,6118 56060,7687

Z prawdopodobieństwem 0,975 przedział [-5718668,1167 ; 3614630,225151] pokryje nieznaną wartość parametru b0 z modelu y=b0+b­­11+b2x2+b3x3*b4x4+&

Z prawdopodobieństwem 0,95 przedział 308,6086; 513,1237] pokryje nieznaną wartość parametru b1 z modelu y=b0+b­­11+b2x2+b3x3*b4x4+&

Z prawdopodobieństwem 0,95 przedział -2625,7809; 3967,5849] pokryje nieznaną wartość parametru b2 z modelu y= y=b0+b­­11+b2x2+b3x3*b4x4+&

Z prawdopodobieństwem 0,95 przedział [-7601,3049; 1744,6054] pokryje nieznaną wartość parametru b3z modelu y y=b0+b­­11+b2x2+b3x3*b4x4+&

Z prawdopodobieństwem 0,95 przedział -34835,6118; 56060,7687] pokryje nieznaną wartość parametru b4 z modelu y=b0+b­­11+b2x2+b3x3*b4x4+&

Węższe (szersze) przedziały ufności można uzyskać poprzez zmniejszenie (zwiększenie) poziomu ufności.

  1. wykorzystując test Shapiro-Wilka sprawdzić czy składnik losowy ma rozkład normalny

[[1] Wyniki testu Shapiro-Wilka

Shapiro-Wilk normality test

data: reg$residuals

W = 0,9179, p-value = 0,1560

Z uwagi na to, że  = 0,05 <= p-value = 0,1560 nie ma podstaw do odrzucenia hipotezy o normalności rozkładu składnika losowego.

  1. sprawdzić za pomocą VIF czy w modelu nie występuje problem przybliżonej współliniowości

[[1] VIF - czynnik inflacji wariancji

x1 x2 x3 x4

1,672941 4,813136 7,449432 2,060150

Wartości VIF > 1 informują ile razy wariancja estymatora parametru jest większa od wariancji prawdziwej (tzn. nie zakłóconej współliniowością statystyczną). Wartości VIF > 20 wskazują na problemy związane ze współliniowością. Problem związany ze współliniowością nie występuje w tym modelu.

  1. wykorzystując test Goldfelda-Quandta sprawdzić czy nie występuje niejednorodność wariancji składników losowych

[1] Wyniki testu Goldfelda-Quandta

Goldfeld-Quandt test

data: reg

GQ = 0,0676, df1 = 3, df2 = 3, p-value = 0,9734

Nie ma podstaw do odrzucenia hipotezy zerowej, że składnik losowy jest homoskedastyczny (alfa = 0,05 < równe p-value = 0,9734.

  1. za pomocą testów Durbina-Watsona oraz Breuscha-Godfreya zbadać czy w modelu nie występuje autokorelacja pierwszego stopnia

[1] Wyniki testów Durbina-Watsona oraz Breuscha-Godfreya na autokorelację pierwszego stopnia

lag Autocorrelation D-W Statistic p-value

1 -0,007821122 1,996089 0,453

Alternative hypothesis: rho < 0

Breusch-Godfrey test for serial correlation of order up to 1

data: reg

LM test = 0,0017, df = 1, p-value = 0,9673

Oba testy potwierdzają brak w modelu autokorelacji reszt pierwszego stopnia, z uwagi na to, że Alfa = 0,05 < 0,9673.

  1. sprawdzić czy w zbiorze danych występują obserwacje nietypowe (rys. z lewej strony)

Obserwacje nietypowe (outliers) charakteryzują się dużą resztą. Tego typu obserwacje wpływają na pogorszenie dopasowania modelu do danych. Dla szacowanego modelu y=b0+b­­11+b2x2+b3x3*b4x4+& jest jedna reszta nietypowa (woj. mazowieckie ). W przypadku wystąpienia reszt nietypowych model należy oszacować i zweryfikować powtórnie z pominięciem obserwacji nietypowych.

  1. sprawdzić, które obserwacje są wpływowe, a które nie są wpływowe (rys. z prawej strony)

Obserwacje wpływowe (influential observations) silnie oddziałują na oszacowane parametry strukturalne. Włączenie do zbioru danych tych obserwacji powoduje, że znacznie zmieniają się oszacowane parametry modelu. Dla szacowanego modelu

y=b0+b­­11+b2x2+b3x3*b4x4+& obserwacje dotyczące woj. pomorskiego, są wpływowe. Należy więc oszacować i zweryfikować powtórnie model z pominięciem tego województwa.


Wyszukiwarka

Podobne podstrony:
Produkcja przemyslowa budowlana
Produkcja przemyslowa budowlana
produkcja gipsu budowlanego
Ewidencja i rozliczanie kosztów produkcji przemysłowej(1)
biznes plan produkcja materiałów budowlanych (43 stron) 2WDPSHCT4N5P2VD456MGLOB2VFFGJ6QDZYMLONY
Surowce stosowane w produkcji?ramicznych materiałów budowlanych 1
Towary - Test, test wersja A, Test zaliczeniowy z Towaroznawstwo surowców i produktów przemysłu spoż
Mistrz produkcji w przemysle sa Nieznany
GUS PRODUKCJA PRZEMYSŁOWA 06 2010
T 8 Logistyka przedsiębiorstwa produkcji przemysłowej
produkcja przemysłowa substancji chemicznych
Baszczuk,ekologia w produkcji przemysłowej, ochrona środowiska w prawie międzynarodowym
produkcja przemysłowa II
Sposoby usprawnienia produkcji przemysłowej (30 stron) ODK3ELXHWBO5RXYHUXOMAQRR7NDBNON6JQQCEUI
Produkcja okuć budowlanych i galanterii metalowej analiza zagrożeń
Baszczuk,ekologia w produkcji przemysłowej, ochrona środowiska w prawie międzynarodowym

więcej podobnych podstron