Ekonometryczna analiza ceny wolframu
PLAN PROJEKTU
WSTĘP MERYTORYCZNY
PREZENTACJA DANYCH LICZBOWYCH
ELIMINACJA ZMIENNYCH
quasi-stałe,
zmienne o zbyt niskiej korelacji ze zmienną objaśnianą
OSZACOWANIE PARAMETRÓW MODELU LINIOWEGO METODĄ NAJMNIEJSZYCH KWADRATÓW
WYBÓR POSTACI ANALITYCZNEJ MODELU METODĄ KROKOWĄ FORWARD
BADANIE RESZT (weryfikacja utworzonego modelu):
losowość
symetryczność
normalność (test Kołmogorowa)
autokorelacja (test Durbina - Watsona)
istotność parametrów strukturalnych
współczynnik determinacji R2 korelacji wielorakiej R
równość wariancji reszt w różnych okresach czasu
WYBÓR POSTACI ANALITYCZNEJ MODELU METODĄ KROKOWĄ BACKWARD
BADANIE RESZT (weryfikacja utworzonego modelu):
losowość
symetryczność
normalność (test Kołmogorowa)
autokorelacja (test Durbina - Watsona)
istotność parametrów strukturalnych
współczynnik determinacji R2 korelacji wielorakiej R
równość wariancji reszt w różnych okresach czasu
KOŃCOWA POSTAĆ MODELU
WNIOSKI STATYSTYCZNE I EKONOMICZNE
PROGNOZY NA PRZYSZŁOŚĆ
WSTĘP MERYTORYCZNY
PREZENTACJA DANYCH LICZBOWYCH
Oto jak przedstawiają się ceny wolframu liczone w dolarach za MTU w okresie lat: 1980-97
Rok |
Ceny wolframu |
1997 |
60,0 |
1996 |
59,1 |
1995 |
61,3 |
1994 |
60,6 |
1993 |
57,9 |
1992 |
58,7 |
1991 |
56,9 |
1990 |
80,1 |
1989 |
88,7 |
1988 |
89,6 |
1987 |
90,1 |
1986 |
88,7 |
1985 |
88,6 |
1984 |
88,1 |
1983 |
75,1 |
1982 |
74,7 |
1981 |
77,1 |
1980 |
85,1 |
Tab.1. Próbka badanej zmiennej.
Oto jakie zmienne wybrałem na potencjalnie objaśniające cenę wolframu:
surówki - surówki i żelazostopy - wyprodukowane w Polsce w tysiącach ton,
pługi - ilość wyprodukowanych w Polsce dwuskibowych pługów ciągnikowych w tys. sztuk,
kosiarki - ilość wyprodukowanych w Polsce kosiarek ciągnikowych w tys. sztuk,
obr_do_met - ilość wyprodukowanych w Polsce obrabiarek do metali w tys. sztuk,
obr_skraw - ilość wyprodukowanych w Polsce obrabiarek skrawających w tys. sztuk,
żarówki_il - liczba żarówek oświetleniowych w mln. sztuk,
PKB - wskaźnik Produktu Krajowego Brutto (rok poprzedni = 100),
inwestycje - inwestycje w przemysł (rok poprzedni = 100),
Wartości poszczególnych próbek przedstawia poniższa tabela:
Rok |
surowki |
plugi |
kosiarki |
obr_do_met |
obr_skraw |
zarowki_il |
PKB |
inwestcje |
1997 |
6900 |
13,6 |
9.2 |
17,2 |
11,4 |
348 |
140,1 |
121.6 |
1996 |
6800 |
15,1 |
7.1 |
13,9 |
10,4 |
309 |
126,8 |
119.2 |
1995 |
7546 |
19 |
16.4 |
13,8 |
10 |
277 |
138,4 |
117.1 |
1994 |
7082 |
19,6 |
11.2 |
13,8 |
10,3 |
246 |
128,4 |
120.7 |
1993 |
6298 |
14,1 |
6.6 |
15 |
13 |
216 |
130 |
100.7 |
1992 |
6498 |
13,3 |
11.7 |
17,8 |
16,4 |
201 |
138,5 |
98.3 |
1991 |
6515 |
14,7 |
15.0 |
16,4 |
15,5 |
309 |
155,3 |
97.1 |
1990 |
8658 |
31,1 |
24.2 |
27,6 |
25,8 |
213 |
580,1 |
92.7 |
1989 |
9488 |
40,4 |
17.7 |
48,8 |
44,3 |
183 |
398,5 |
109.0 |
1988 |
9982 |
43,7 |
15.7 |
47 |
39,1 |
176 |
168 |
104.5 |
1987 |
10476 |
47,8 |
13.6 |
46,1 |
38 |
169 |
128,2 |
104.8 |
1986 |
10574 |
66,2 |
16.8 |
51,9 |
43,1 |
171 |
119 |
106.8 |
1985 |
9807 |
84,7 |
15.5 |
57,4 |
48,7 |
169 |
116,4 |
113.8 |
1984 |
9981 |
86,8 |
24.3 |
56 |
47,1 |
158 |
116 |
108.2 |
1983 |
9719 |
72,7 |
46,5 |
48,3 |
39,3 |
153 |
116,6 |
109,4 |
1982 |
8523 |
57,4 |
24,6 |
41,1 |
32,2 |
154 |
218,8 |
87,9 |
1981 |
9351 |
32,9 |
14,6 |
39,1 |
30,5 |
152 |
121,8 |
92,1 |
1980 |
11953 |
30,0 |
11,0 |
38,3 |
28,2 |
154 |
94,0 |
102,1 |
ELIMINACJA ZMIENNYCH
eliminacja zmiennych quasi-stałych
Podstawowym warunkiem uznania różnych wielkości za zmienne objaśniające modelu jest dostatecznie wysoka zmienność. Jako miarę poziomu zmienności przyjąłem współczynnik zmienności vi wyrażony wzorem:
vi= (i=1,2,...,18)
gdzie:
Si - odchylenie standardowe zmiennej Xi
Xśr - średnia arytmetyczna zmiennej Xi
Jako wartość krytyczną współczynnika v* obrałem v*=0,15
Ze zbioru zmiennych eliminuję te zmienne, które spełniają nierówność:
vi≤v*
Zmienne te uznaję, za zmienne quasi-stałe, czyli nie wnoszące żadnych istotnych informacji do mojego modelu.
Poniższa tabela zawiera średnie, wariancje, oraz współczynniki vi moich potencjalnych zmiennych objaśniających.
|
surówki |
pługi |
kosiarki |
obr_met |
obr_skraw |
żarówki_il |
PKB |
inwestycje |
Średnia (Xśr) |
8675,06 |
39,06 |
15,54 |
33,86 |
27,96 |
208,78 |
174,16 |
107,29 |
Odchylenie (Si) |
1715,93 |
25,127 |
5,79859 |
16,56 |
14,1527 |
62,7259 |
121,717 |
8,53208 |
Vi |
0,19780 |
0,64329 |
0,37314 |
0,48907 |
0,50618 |
0,30044 |
0,69888 |
0,07952 |
Wszystkie prawie zmienne mają dość duże wariancje i odchylenia standardowe. Można to zaobserwować już na podstawie próbek, które charakteryzują się dużymi amplitudami wartości.
Dzięki temu jednak, jedynie zmienna ósma - inwestycje posiada współczynnik
vi<0,15 i zostaje odrzucona jako quasi-stała.
korelacja zmiennych
Jedną z metod doboru zmiennych objaśniających do modelu jest analiza macierzy współczynników korelacji .
Polega ona na wybraniu zmiennych silnie skorelowanych ze zmienną objaśnianą i jednocześnie słabo skorelowanych ze sobą.
PIERWSZY KROK
Wybór zmiennych silnie skorelowanych ze zmienną objaśnianą (wolfram)
Najpierw przy poziomie α=0,05 i n-2 stopniach swobody wyznaczę tzw. krytyczną wartość współczynnika korelacji:
r*=
gdzie I* -jest wartością statystyki odczytanej z tablic t-Studenta dla danego α oraz n-2 stopni swobody.
W moim przypadku dla α=0,15 i 16 stopni swobody r*=0,468
Macierz korelacji między zmienną objaśnianą a objaśniającymi przedstawia się następująco:
|
surówki |
pługi |
kosiarki |
obr_met |
obr_skraw |
żarówki_il |
PKB |
ceny |
Wsp. korelacji |
0,9215 |
0,7494 |
0,4793 |
0,9250 |
0,9211 |
-0,7522 |
0,1876 |
1,0000 |
Poziom istot. |
0,0000 |
0,0003 |
0,0441 |
0,0000 |
0,0000 |
0,0030 |
0,4559 |
0,0000 |
Ze zbioru potencjalnych zmiennych objaśniających eliminuję zmienne, dla których:
|ri|≤r*
Tak więc dla r*=0,468 z modelu eliminuję zmienną: PKB.
DRUGI KROK
Teraz spośród potencjalnych zmiennych objaśniających wyeliminuję zmienne zbyt mocno skorelowane ze sobą. W tym celu ze zbioru zmiennych wybieram zmienną o największym współczynniku korelacji (jest nią obr_met) i dla niej buduję jeszcze raz macierz korelacji:
|
surówki |
pługi |
kosiarki |
obr_met |
obr_skraw |
żarówki_il |
wsp. korelacji |
0,8539 |
0,9061 |
0,5700 |
1,0000 |
0,9907 |
0,7434 |
poziom istot. |
0,0000 |
0,0000 |
0,0141 |
0,0000 |
0,0000 |
0,0001 |
Ze zbioru wszystkich zmiennych eliminuję te, które mają korelację>r*, czyli >0,468
Jak widać należy wyeliminować wszystkie pozostałe zmienne, jako nie wnoszące nowych informacji do modelu (powielające jedynie informacje zmiennej obr_met).
OSZACOWANIE PARAMETRÓW MODELI LINIOWYCH METODĄ NAJMNIEJSZYCH KWADRATÓW
Liniowy model z jedną zmienną objaśniającą ma ogólną postać:
Y = β + αX + ε
Wartości ocen a oraz b parametrów strukturalnych α oraz β otrzymuje się w tym wypadku z warunku:
S = Σ (yi - b - axt)2 → min,
Po wyznaczeniu pochodnych cząstkowych funkcji S względem a oraz b i przyrównaniu ich do zera, otrzymujemy tzw. układ równań normalnych. Po ich rozwiązaniu dostajemy następujące wzory na oceny a oraz b:
a=
b=yśr - axśr
Ocenę wariancji odchyleń losowych modelu liniowego z jedną zmienną objaśniającą otrzymujemy ze wzoru:
Se2=
Standardowe błędy S(a) i S(b) szacunku parametrów strukturalnych α i β wyznacza się ze wzorów:
S(a)=
S(b)= Se
Obliczenia zawarłem w poniższej tabeli:
Xi-Xśr |
Yi-Yśr |
(Yi-Yś)(Xi-Xśr) |
(Yt-Yśr)2 |
(Xi-Xśr)2 |
y=35,8+1,14X |
et |
et2 |
X2 |
-16,661 |
-14,467 |
241,031 |
277,593 |
209,284 |
55,44161416 |
-4,558386 |
20,77888 |
295,84 |
-19,961 |
-15,367 |
306,736 |
398,446 |
236,134 |
51,67339769 |
-7,426602 |
55,15442 |
193,21 |
-20,061 |
-13,167 |
264,138 |
402,448 |
173,361 |
51,55920931 |
-9,740791 |
94,883 |
190,44 |
-20,061 |
-13,867 |
278,181 |
402,448 |
192,284 |
51,55920931 |
-9,040791 |
81,7359 |
190,44 |
-18,861 |
-16,567 |
312,466 |
355,742 |
274,454 |
52,92946985 |
-4,97053 |
24,70617 |
225 |
-16,061 |
-15,767 |
253,230 |
257,959 |
248,588 |
56,12674442 |
-2,573256 |
6,621644 |
316,84 |
-17,461 |
-17,567 |
306,734 |
304,890 |
308,588 |
54,52810714 |
-2,371893 |
5,625876 |
268,96 |
-6,261 |
5,633 |
-35,271 |
39,202 |
31,734 |
67,31720545 |
-12,78279 |
163,3998 |
761,76 |
14,939 |
14,233 |
212,630 |
223,170 |
202,588 |
91,52514156 |
2,8251416 |
7,981425 |
2381,44 |
13,139 |
15,133 |
198,835 |
172,630 |
229,018 |
89,46975076 |
-0,130249 |
0,016965 |
2209 |
12,239 |
15,633 |
191,335 |
149,790 |
244,401 |
88,44205536 |
-1,657945 |
2,74878 |
2125,21 |
18,039 |
14,233 |
256,754 |
325,402 |
202,588 |
95,06498127 |
6,3649813 |
40,51299 |
2693,61 |
23,539 |
14,133 |
332,683 |
554,079 |
199,751 |
101,3453421 |
12,745342 |
162,4437 |
3294,76 |
22,139 |
13,633 |
301,827 |
490,130 |
185,868 |
99,74670476 |
11,646705 |
135,6457 |
3136 |
14,439 |
0,633 |
9,145 |
208,482 |
0,401 |
90,95419967 |
15,8542 |
251,3556 |
2332,89 |
7,239 |
0,233 |
1,689 |
52,402 |
0,054 |
82,73263646 |
8,0326365 |
64,52325 |
1689,21 |
5,239 |
2,633 |
13,796 |
27,446 |
6,934 |
80,44886891 |
3,3488689 |
11,21492 |
1528,81 |
4,439 |
10,633 |
47,200 |
19,704 |
113,068 |
79,53536188 |
-5,564638 |
30,9652 |
1466,89 |
-7,8E-14 |
1,71E-13 |
3493,136667 |
4661,963 |
3059,1 |
1340,4 |
-2,42E-13 |
1160,314 |
25300,31 |
a= |
1,141884 |
|
b= |
35,80121 |
|
S(a)= |
0,153968 |
|
S(b)= |
5,772417 |
55063,8 |
Otrzymane przeze mnie oceny parametrów wynoszą:
a=1,141884 i b=35,80121
Szacunkowe błędy oceny tych parametrów wynoszą odpowiedno:
S(a )=0,153968 S(b )=8,772417
Tak więc mój model przyjął postać:
Y = 38,80121 + 1,141884X
Y = 38,80121 + 1,14188obr_do_met |
Oto wykres przedstawiający hipotetyczną i empiryczną zależność ceny wolframu od ilości obrabiarek do metalu:
WYBÓR POSTACI ANALITYCZNEJ MODELU METODĄ FORWARD
Metoda Forward budowy modelu ekonometrycznego polega na wyborze zmiennych objaśniających poprzez dołączanie kolejnych zmiennych do optymalnie wybranego zbioru.
Przyjmując założenie, iż w modelu występuje stała, wynik zastosowania metody Forward do budowy modelu opisywanej cechy przedstawia się następująco:
Model fitting results for: FARO.wolfram
--------------------------------------------------------------------------------
Independent variable coefficient std. error t-value sig.level
--------------------------------------------------------------------------------
CONSTANT 27.688474 4.723427 5.8619 0.0001
FARO.surowki 0.003527 0.000727 4.8502 0.0003
FARO.kosiarki -0.412754 0.158503 -2.6041 0.0218
FARO.obr_do_met 0.517497 0.085961 6.0202 0.0000
FARO.PKB 0.029118 0.006115 4.7621 0.0004
--------------------------------------------------------------------------------
R-SQ. (ADJ.) = 0.9617 SE= 2.624123 MAE= 1.735638 DurbWat= 1.920
Previously: 0.0000 0.000000 0.000000 0.000
18 observations fitted, forecast(s) computed for 0 missing val. of dep. var.
Jak widać zostały przyjęte do modelu zmienne:
surówki, kosiarki, obr_do_met oraz PKB
Współczynnik R2 został ustalony na poziomie 0.9617, co oznacza dość dobrze dobrany model.
Analysis of Variance for the Full Regression
---------------------------------------------------------------------------
Source Sum of Squares DF Mean Square F-Ratio P-value
---------------------------------------------------------------------------
Model 2969.58 4 742.395 107.812 .0000
Error 89.5182 13 6.88602
---------------------------------------------------------------------------
Total (Corr.) 3059.10 17
R-squared = 0.970737 Stnd. error of est. = 2.62412
R-squared (Adj. for d.f.) = 0.961733 Durbin-Watson statistic = 1.91992
Mój model przyjmuje więc postać:
Y = 28,688474 + 0.003527surówki - 0.412754kosiarki + 0.517497obr_do_met + + 0.029118PKB |
BADANIE RESZT
Oto jak przedstawiają się reszty dla tego modelu:
( 1) -1.20843 |
( 2) -0.527497 |
( 3) 2.59389 |
( 4) 1.67532 |
( 5) -0.825699 |
( 6) -0.322564 |
( 7) -0.585123 |
( 8) 0.68836 |
( 9) -2.00512 |
(10) 3.97019 |
(11) 3.48567 |
(12) 0.327236 |
(13) -0.374591 |
(14) 2.88008 |
(15) -5.14602 |
(16) -0.536237 |
(17) -1.32477 |
(18) -2.76469 |
Losowość składnika losowego.
Testuję hipotezy:
H0: składnik losowy jest losowy
H1: składnik losowy nie jest losowy
W celu zbadania losowości składnika losowego użyję testu serii dla mediany.
Mediana reszt wynosi= -0,451044
Przyjmując a dla liczb większych od mediany i b dla mniejszych otrzymujemy następujące serie:
Liczba obserwacji a=9
Liczba obserwacji b=9
Liczba zmian serii Z=9
Odczytując z tablic wartości krańcowe dla α=0,05 z lewej strony i α=0,95 z prawej strony otrzymuję, że
< 9 < 13,
Z czego wnioskuję, że nie ma podstaw do odrzucenia H0
Symetria składnika losowego.
Niech:
m - liczba reszt dodatnich,
n - liczność próbki
Zweryfikowana zostanie hipoteza:
wobec hipotezy alternatywnej:
Do testowania tej hipotezy stosuje się statystykę:
która dla n < 31 ma rozkład Studenta o n — 1 stopniach swobody.
W moim przypadku dla m=7 i n=18 współczynnik ten wyniósł: t=0,9397
Hipotezę H0 należy odrzucić gdy t > tα, w przeciwnym razie nie ma podstaw do jej odrzucenia.
W omawianym przypadku, dla α = 0.05:
m = 7, n = 18, tα = 2.110
zatem:
t = 0,9397 < tα
dlatego brak jest podstaw do odrzucenia hipotezy H0, co świadczy o trafności założenia, iż model ekonometryczny badanej cechy ma postać liniową.
Rozkład teoretyczny składnika losowego.
Przy pomocy testu Kołmogorowa zweryfikowana zostanie hipoteza:
H0: składnik losowy posiada rozkład Normalny
Wynik weryfikacji:
Estimated KOLMOGOROV statistic DPLUS = 0.167008
Estimated KOLMOGOROV statistic DMINUS = 0.115197
Estimated overall statistic DN = 0.167008
Approximate significance level = 0.99981
Zatem na poziomie istotności α = 0.05 brak jest podstaw do odrzucenia hipotezy H0.
Autokorelacja składnika losowego.
Przy użyciu testu Durbina — Watsona zweryfikowana zostanie hipoteza:
o braku autokorelacji składnika losowego stopnia pierwszego
wobec hipotezy alternatywnej:
Wartość d statystyki testowej obliczona przez pakiet STATGRAPHICS wynosi:
Durbin-Watson statistic = 1,920
Dla poziomu istotności = 0.05, liczności próbek n = 18 i k = 4 zmiennych odczytane z tablic wartości krytyczne testu
wynoszą: dL = 0.82, dU = 1,87
Ponieważ zachodzi związek:
dL < d < dU
0,82 < 1,87 < 1,920
to, na poziomie istotności = 0.05, nie ma podstaw do odrzucenia hipotezy H0, o braku autokorelacji.
Metoda Forward budowy modelu ekonometrycznego polega na wyborze zmiennych objaśniających poprzez dołączanie kolejnych zmiennych do optymalnie wybranego zbioru.
e) Istotność parametrów strukturalnych.
Należy zbadać, czy zmienne objaśniające modelu oraz stała a0 wpływają w istotny sposób na zmienną objaśnianą, tzn. czy parametry strukturalne istotnie różnią się od zera.
Stawia się w tym celu następujące hipotezy:
H0: a0 = 0;
H2: a1 = 0;
H3: a2 = 0;
H2: a3 = 0;
H3: a4 = 0;
wobec odpowiednich hipotez alternatywnych:
K0: a0 ≠ 0;
K2: a1 ≠ 0;
K3: a2 ≠ 0;
K2: a3 ≠ 0;
K3: a4 ≠ 0;
Do testu wykorzystuje się następującą statystykę:
gdzie:
ai - oszacowanie parametru strukturalnego;
s(ai) - standardowy błąd szacunku parametru.
Statystyka powyższa ma rozkład t Studenta o n — m — 1 stopniach swobody (gdzie n — liczba obserwacji, m — liczba zmiennych).
Korzystając wyników budowy modelu (Model fitting results for: SKUP.s_og — sig. level) stwierdzić można, że na poziomie istotności α = 0.05 nie ma podstaw do przyjęcia żadnej z hipotez: H0, H1, H2, zatem zmienne objaśniające modelu oraz stała a0 wpływają w istotny sposób na zmienną objaśnianą.
W moim przypadku wartości parametrów ti przedstawiają się następująco:
t0=5.8619
t1=48.5144
t2=2.6040
t3=6.0201
t4=4,7617
natomiast tα odczytane z tablic dla α=0,05 i n-m-1=13 stopni swobody wynosi:
tα=2.160
jak widać wszystkie parametry są większe od tα,, więc nie ma podstaw by twierdzić o małym wpływie którejkolwiek zmiennej objaśniającej w modelu na zmienną objaśnianą.
Współczynniki: determinacji, korelacji wielorakiej.
Miarą stopnia dopasowania modelu do danych empirycznych jest współczynnik determinacji określony wzorem:
informuje on, jaką część całkowitej zmienności zmiennej Yt stanowi zmienność zdeterminowana przez wpływ zmiennych objaśniających modelu. Współczynnik ten przyjmuje wartości z przedziału <0,1>. Im bliższa jedności jest wartość współczynnika, tym lepsze jest dopasowanie modelu do danych.
Dla badanego modelu, obliczony przez pakiet STATGRAPHICS współczynnik wynosi:
R2 = 0.9617
co jest wysokim, mogącym świadczyć o dobrym dopasowaniu modelu do danych empirycznych, wynikiem.
Miarą siły związku liniowego zmiennej objaśnianej Yt z zespołem zmiennych objaśniających modelu ekonometrycznego jest pierwiastek kwadratowy z R2 określany mianem współczynnika korelacji wielorakiej R. Oczywiście współczynnik ten, podobnie jak R2, przyjmuje wartości z przedziału <0,1>.
Dla analizowanego modelu R = 0.980663 należy uznać za wysoce satysfakcjonujące.
BUDOWA MODELU METODĄ KROKOWĄ BACKWARD
Przyjmując założenie, iż w modelu występuje stała, wynik zastosowania metody Backward do budowy modelu opisywanej cechy przedstawia się następująco:
Model fitting results for: FARO.ceny
----------------------------------------------------------------------
Independent variable coefficient std. error t-value sig.level
--------------------------------------------------------------------
CONSTANT 25.266296 4.378066 5.7711 0.0001
FARO.surowki 0.004129 0.000636 6.4921 0.0000
FARO.kosiarki -0.361393 0.151821 -2.3804 0.0333
FARO.obr_skraw 0.5356 0.087167 6.1445 0.0000
FARO.PKB 0.023083 0.005865 3.9359 0.0017
----------------------------------------------------------------------
R-SQ. (ADJ.) = 0.9629 SE=2.584717 MAE=1.695424 DurbWat= 2.158
Previously: 0.0000 0.000000 0.000000 0.000
18 observations fitted, forecast(s) computed for 0 missing val. of dep. var.
Tym razem do modelu zostały przyjęte zmienne: surówki, kosiarki, obr_skraw, PKB
Adjustowany współczynnik R2 wzrósł nieznacznie z 0,9617 do 0,9629
Analysis of Variance for the Full Regression
-------------------------------------------------------------------------
Source Sum of Squares DF Mean Square F-Ratio P-value
-------------------------------------------------------------------------
Model 2972.25 4 743.063 111.224 .0000
Error 86.8499 13 6.68076
---------------------------------------------------------------------------
Total (Corr.) 3059.10 17
R-squared = 0.971609 Stnd. error of est. = 2.58472
R-squared (Adj. for d.f.) = 0.962874 Durbin-Watson statistic = 2.1577
Nowy model przyjął postać:
Y = 25.266296 + 0.004129surówki - 0.361393kosiarki + 0.5356obr_skraw + +0.023083PKB |
|
BADANIE RESZT (WERYFIKACJA POPRAWNOŚCI MODELU)
Oto jak przedstawiają się reszty dla tego modelu:
( 1) 0.228188 |
( 2) -0.175228 |
( 3) 2.25192 |
( 4) 1.65871 |
( 5) -0.949557 |
( 6) -1.14951 |
( 7) -1.73286 |
( 8) 0.621039 |
( 9) -2.27187 |
(10) 3.97132 |
(11) 3.1805 |
(12) 0.0131149 |
(13) -0.329044 |
(14) 2.49895 |
(15) -5.18313 |
(16) 0.835059 |
(17) -0.648174 |
(18) -2.81944 |
Losowość składnika losowego.
Testuję hipotezy:
H0: składnik losowy jest losowy
H1: składnik losowy nie jest losowy
W celu zbadania losowości składnika losowego użyję testu serii dla mediany.
Mediana reszt wynosi= -0,0810565
Przyjmując a dla liczb większych od mediany i b dla mniejszych otrzymujemy następujące serie:
Liczba obserwacji a=9
Liczba obserwacji b=9
Liczba zmian serii Z=10
Odczytując z tablic wartości krańcowe dla α=0,05 z lewej strony i α=0,95 z prawej strony otrzymuję, że
< 10 < 13,
Z czego wnioskuję, że nie ma podstaw do odrzucenia H0
Symetria składnika losowego.
Niech:
m - liczba reszt dodatnich,
n - liczność próbki
Zweryfikowana zostanie hipoteza:
wobec hipotezy alternatywnej:
Do testowania tej hipotezy stosuje się statystykę:
która dla n < 31 ma rozkład Studenta o n — 1 stopniach swobody.
W moim przypadku dla m=9 i n=18 współczynnik ten wyniósł: t=0
(Nie ma więc potrzeby dalszego sprawdzania wartości t z wartością odczytaną z tablic, ale dla formalności:)
Hipotezę H0 należy odrzucić gdy t > tα, w przeciwnym razie nie ma podstaw do jej odrzucenia.
W omawianym przypadku, dla α = 0.05:
m = 9, n = 18, tα = 2.110
zatem:
t = 0< tα
dlatego brak jest podstaw do odrzucenia hipotezy H0, co świadczy o trafności założenia, iż model ekonometryczny badanej cechy ma postać liniową.
Rozkład teoretyczny składnika losowego.
Przy pomocy testu Kołmogorowa zweryfikowana zostanie hipoteza:
H0: składnik losowy posiada rozkład Normalny
Wynik weryfikacji:
Estimated KOLMOGOROV statistic DPLUS = 0.0781163
Estimated KOLMOGOROV statistic DMINUS = 0.0833023
Estimated overall statistic DN = 0.833023
Approximate significance level = 1.0000
Zatem na poziomie istotności α = 0.05 brak jest podstaw do odrzucenia hipotezy H0.
Autokorelacja składnika losowego.
Przy użyciu testu Durbina — Watsona zweryfikowana zostanie hipoteza:
o braku autokorelacji składnika losowego stopnia pierwszego
wobec hipotezy alternatywnej:
Wartość d statystyki testowej obliczona przez pakiet STATGRAPHICS wynosi:
Durbin-Watson statistic = 2.1577
Dla poziomu istotności = 0.05, liczności próbek n = 18 i k = 4 zmiennych odczytane z tablic wartości krytyczne testu
wynoszą: dL = 0.82, dU = 1,87
Ponieważ zachodzi związek:
dL < d < dU
0,82 < 1,87 < 2.1577
to, na poziomie istotności = 0.05, nie ma podstaw do odrzucenia hipotezy H0, o braku autokorelacji.
Metoda Forward budowy modelu ekonometrycznego polega na wyborze zmiennych objaśniających poprzez dołączanie kolejnych zmiennych do optymalnie wybranego zbioru.
e) Istotność parametrów strukturalnych.
Należy zbadać, czy zmienne objaśniające modelu oraz stała a0 wpływają w istotny sposób na zmienną objaśnianą, tzn. czy parametry strukturalne istotnie różnią się od zera.
Stawia się w tym celu następujące hipotezy:
H0: a0 = 0;
H2: a1 = 0;
H3: a2 = 0;
H2: a3 = 0;
H3: a4 = 0;
wobec odpowiednich hipotez alternatywnych:
K0: a0 ≠ 0;
K2: a1 ≠ 0;
K3: a2 ≠ 0;
K2: a3 ≠ 0;
K3: a4 ≠ 0;
Do testu wykorzystuje się następującą statystykę:
gdzie:
ai - oszacowanie parametru strukturalnego;
s(ai) - standardowy błąd szacunku parametru.
Statystyka powyższa ma rozkład t Studenta o n — m — 1 stopniach swobody (gdzie n — liczba obserwacji, m — liczba zmiennych).
Korzystając wyników budowy modelu (Model fitting results for: SKUP.s_og — sig. level) stwierdzić można, że na poziomie istotności α = 0.05 nie ma podstaw do przyjęcia żadnej z hipotez: H0, H1, H2, zatem zmienne objaśniające modelu oraz stała a0 wpływają w istotny sposób na zmienną objaśnianą.
W moim przypadku wartości parametrów ti przedstawiają się następująco:
FARO.surowki 0.004129 0.000636 6.4921 0.0000
FARO.kosiarki -0.361393 0.151821 -2.3804 0.0333
FARO.obr_skraw 0.5356 0.087167 6.1445 0.0000
FARO.PKB 0.023083 0.005865 3.9359 0.0017
t0=5.7711
t1=6.5393
t2=2.3804
t3=6.1445
t4=4.0630
natomiast tα odczytane z tablic dla α=0,05 i n-m-1=13 stopni swobody wynosi:
tα=2.160
jak widać i w tym modelu wszystkie parametry są większe od tα,, więc nie ma podstaw by twierdzić o małym wpływie którejkolwiek zmiennej objaśniającej w modelu na zmienną objaśnianą.
Współczynniki: determinacji, korelacji wielorakiej.
Dla badanego modelu, obliczony przez pakiet STATGRAPHICS współczynnik determinacji wynosi:
R2 = 0.9629
co jest wysokim, mogącym świadczyć o dobrym dopasowaniu modelu do danych empirycznych, wynikiem.
Współczynnik korelacji wielorakiej R = 0.981275, co jest wynikiem wysokim.
Załącznik 13 przedstawia porównanie wartości estymowanych przez model z zaobserwowanymi, natomiast załącznik 14 — powierzchnię regresji.
Wobec niewielkich różnic w ocenach modeli Forward i Backward, jednoznaczne rozstrzygnięcie, których z nich lepiej opisuje badaną zmienną wydaje się być znacznie utrudnione.
III. Prognoza na rok 1995.
Wyznaczone zostaną trzy wartości prognozy wielkości skupu pszenicy na rok 1995.
Wygładzanie
Do wyznaczenia wartości prognozy zastosowana zostanie metoda wygładzania Brown'a przy stopniu wielomianu p = 0 (simple). Współczynnik = 0.5 wydaje się być kompromisem pomiędzy dążeniem do minimalizacji błędu prognozy a minimalizacją samego .
Wynikiem zastosowania tej metody jest następująca wartość prognozy:
Y'1995 = 2629.920 [tys. ton]
obarczona procentowym średnim błędem absolutnym w wysokości: 24.03 %.
Prognoza na podstawie modeli ekonometrycznych.
Do predykcji wielkości skupu pszenicy w roku 1995, posłużyć mogą zbudowane modele ekonometryczne. W tym celu, opierając się na metodzie wygładzania Brown'a (stopień wielomianu p = 0, α = 0.5), wyznaczone zostaną prognozy zmiennych objaśniających modeli:
, przy proc. średnim błędzie absolutnym: 13.04 %
, przy proc. średnim błędzie absolutnym: 7.77 %
, przy proc. średnim błędzie absolutnym: 13.64 %
Widać, że błędy absolutne wygładzania uległy znacznemu zmniejszeniu.
Prognoza w oparciu o model zbudowany metodą Forward.
Zgodnie z tym modelem wartość prognozy wynosi:
Prognoza w oparciu o model zbudowany metodą Backward.
Zgodnie z modelem zbudowanym metodą Backward, wartość prognozy wynosi:
Wniosek:
Wobec otrzymanych wartości przy zastosowaniu różnych metod, każda prognoza wielkości skupu pszenicy w roku 1995 zawarta w zbiorze: <2556.492; 2803.833> wydaje się być rozsądną.
--> [Author:I] Literatura:
Chow G. C., Ekonometria, PWN, Warszawa 1995;
Dąbrowski A. (pr. zb.), Statystyka. 15 godzin z pakietem STATGRAPHICS, Wydawnictwo AR we Wrocławiu, Wrocław 1994;
Galanc T., Metody wspomagania procesu zarządzania. Część II: Decyzyjne modele liniowe i prognozowanie ekonometryczne, Wydawnictwo P.Wr., Wrocław 1993;
Krysicki W. (pr. zb.), Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach. Część II: Statystyka matematyczna, PWN, Warszawa 1994;
Nowak E., Problemy doboru zmiennych do modelu ekonometrycznego, PWN, Warszawa 1984;
Ekonometria - Krzysztof Patra
18