POLITECHNIKA ŚLĄSKA W GLIWICACH
WYDZIAŁ ORGANIZACJI I ZARZĄDZANIA
kierunek: Zarządzanie i Inżynieria Produkcji
Model ekonometryczny
Wykonał: Hubert Skrzypulec
Grupa: ZIP 22
Kształtowanie się ceny litra benzyny bezołowiowej na przestrzeni 15 lat: od 1990 do 2004 roku
Wykonany przez mnie model ma na celu pokazanie jakie elementy miały wpływ na kształtowanie się ceny benzyny w latach 1990 - 2004.
Dane do modelu zebrałem na podstawie informacji źródłowych z Roczników Statystycznych Głównego Urzędu Statystycznego, a przy tworzeniu modelu korzystałem z programu Microsoft Excel.
Tabela 1 Dane do modelu
LATA |
Y |
X1 |
X2 |
X3 |
X4 |
X5 |
1990 |
0,37 |
8839 |
3766 |
5189 |
0,95 |
12,98 |
1991 |
0,51 |
9672 |
3812 |
5940 |
1,07 |
13,67 |
1992 |
0,80 |
10504 |
4301 |
6371 |
1,58 |
14,69 |
1993 |
1,01 |
11337 |
4788 |
6846 |
2,13 |
15,12 |
1994 |
1,18 |
12169 |
4983 |
7012 |
2,44 |
15,53 |
1995 |
1,30 |
13002 |
5426 |
7517 |
2,47 |
16,86 |
1996 |
1,51 |
13834 |
5323 |
8075 |
2,88 |
20,29 |
1997 |
1,80 |
14713 |
5531 |
8533 |
3,52 |
18,68 |
1998 |
1,87 |
15367 |
5032 |
8891 |
3,50 |
12,28 |
1999 |
2,82 |
16022 |
5905 |
9263 |
4,15 |
17,48 |
2000 |
3,09 |
18002 |
5174 |
9991 |
4,35 |
27,60 |
2001 |
3,03 |
17558 |
4746 |
10503 |
4,09 |
23,12 |
2002 |
3,24 |
17789 |
4314 |
11029 |
4,08 |
24,36 |
2003 |
3,37 |
18562 |
4211 |
11244 |
3,89 |
28,10 |
2004 |
3,72 |
17912 |
4198 |
11975 |
3,65 |
36,05 |
Y - Cena litra benzyny w Polsce w [zł]
X1 - Import ropy do Polski [w tys. ton]
X2 - Krajowe zużycie benzyn [w tys. ton]
X3 - Ilość samochodów osobowych w Polsce
X4 - Kurs dolara wyrażony w [zł]
X5 - Cena baryłki ropy na rynku światowym w [$]
Współczynniki korelacji
Aby obliczyć współczynniki korelacji, korzystamy z następujących wzorów:
Otrzymujemy wektor R0 oraz macierz współczynników korelacji:
Tabela 2 Wektor R0
|
Y |
X1 |
0,958793123 |
X2 |
0,022259152 |
X3 |
0,98684332 |
X4 |
0,88132026 |
X5 |
0,816820628 |
Tabela 3 Macierz współczynników korelacji
|
X1 |
X2 |
X3 |
X4 |
X5 |
X1 |
1,0000000 |
0,9287787 |
0,0955419 |
0,6601892 |
0,9114367 |
X2 |
0,9287787 |
1,0000000 |
0,2218621 |
0,5791618 |
0,9938523 |
X3 |
0,0955419 |
0,2218621 |
1,0000000 |
0,4012184 |
0,2699853 |
X4 |
0,6601892 |
0,5791618 |
0,4012184 |
1,0000000 |
0,5684319 |
X5 |
0,9114367 |
0,9938523 |
0,2699853 |
0,5684319 |
1,0000000 |
Metoda Hellwiga
W modelu ekonometrycznym powinny znaleźć się zmienne, które są odpowiednio silnie skorelowane ze zmienną objaśnianą Y. W celu wyeliminowania z modelu zmiennych, które mają słaby wpływ na zmienną objaśnianą, stosuje się metodę Hellwiga.
Na początku obliczam ilość kombinacji zmiennych objaśniających x1, x2, x3, x4, x5 według wzoru L=2n-1, gdzie k to ilość zmiennych objaśniających.
L = 2n-1 = 25-1 = 31 kombinacji
Następnie obliczam indywidualne i integralne pojemności nośników informacji z następujących wzorów (korzystając z wcześniej obliczonych współczynników korelacji):
Liczymy do wartości i=5
0≤HL≤1
Wypisuję wszystkie możliwe kombinacje, obliczam indywidualne pojemności nośników, wchodzących w skład kombinacji, następnie sumuję.
K1={X1}, K2={X2}, K3={X3}, K4={X4}, K5={X5}, K6={X1,X2}, K7={X1,X3}, K8={X1,X4}, K9={X1,X5}, K10={X2,X3}, K11={X2,X4}, K12={X2,X5}, K13={X3,X4}, K14={X3,X5}, K15={X4,X5}, K16={X1,X2,X3}, K17={X1,X2,X4}, K18={X1,X2,X5}, K19={X1,X3,X4}, K20={X1,X3,X5}, K21={X1,X4,X5}, K22={X2,X3,X4}, K23={X2,X4,X5}, K24={X3,X4,X5}, K25={X2,X3,X5}, K26={X1,X2,X3,X4}, K27={X1,X2,X3,X5}, K28={X1,X3,X4,X5}, K29={X2,X3,X4,X5}, K30={X1,X2,X4,X5}, K31={X1,X2,X3,X4,X5}
Po zsumowaniu indywidualnych pojemności nośników otrzymałem integralne pojemności nośników informacji:
H1 |
0,919284254 |
H2 |
0,00049547 |
H3 |
0,973859739 |
H4 |
0,776725401 |
H5 |
0,667195939 |
H6 |
0,773182879 |
H7 |
0,967030599 |
H8 |
0,865575427 |
H9 |
0,949092694 |
H10 |
0,971442 |
H11 |
0,546613314 |
H12 |
0,17738145 |
H13 |
0,938377744 |
H14 |
0,898944761 |
H15 |
0,951326315 |
H16 |
0,925222445 |
H17 |
0,961342009 |
H18 |
0,838672173 |
H19 |
0,935034869 |
H20 |
0,966726325 |
H21 |
0,967700563 |
H22 |
0,861097116 |
H23 |
0,774834645 |
H24 |
0,972502744 |
H25 |
0,852030262 |
H26 |
0,880016296 |
H27 |
0,861921216 |
H28 |
0,976724795 |
H29 |
0,894388562 |
H30 |
0,865871457 |
H31 |
0,71657578 |
Wybieram kombinację, która ma najwyższą wartość; jest to tzw. kombinacja optymalna
H MAX = |
0,976724795 |
Z metody Hellwiga wynika, że do modelu wchodzą zmienne x1, x3, x4, x5, ponieważ H osiągnęło wartość maksymalną dla K28={x1, x3, x4, x5}. Oznacza to, że zmienne x1, x3, x4, x5 mają duży wpływ na zmienną objaśnianą.
Równanie modelu ma postać:
yi=α0+α1x1i+α2x3i+α3x4i+α4x5i +εi
Metoda grafów
Wykorzystując wektor R0 oraz macierz współczynników korelacji dokonuję wyboru zmiennych za pomocą metody grafów.
n |
15 |
α |
0,05 |
n-2=15-2 |
13 |
Liczę krytyczną wartość współczynnika korelacji, korzystając przy tym z tablic rozkładu t-Studenta.
tα- odczytujemy z tablic tα=2,160
tα2= 4,6656
r*= 0,513912942
W macierzy współczynników korelacji należy zastąpić zerami wszystkie współczynniki korelacji, które są mniejsze od r*. W ten sposób otrzymuję macierz R*
|
X1 |
X2 |
X3 |
X4 |
X5 |
X1 |
1 |
0 |
0,9576878 |
0,9594013 |
0,6715756 |
X2 |
0 |
1 |
0 |
0 |
0 |
X3 |
0,9576878 |
0 |
1 |
0,8655442 |
0,8255356 |
X4 |
0,9594013 |
0 |
0,8655442 |
1 |
0,5177982 |
X5 |
0,6715756 |
0 |
0,8255356 |
0,5177982 |
1 |
Na podstawie danych z powyższej macierzy buduję graf:
Zgodnie z założeniami metody grafów do modelu wchodzi zmienna x2 jako wektor zerowy oraz zmienna x3, gdyż jest najsilniej skorelowana ze zmienną objaśnianą.
Klasyczna Metoda Najmniejszych Kwadratów (KMNK)
Aby oszacować parametry strukturalne, korzystam ze wzoru:
Następnie tworzę macierze X i Y
|
|
X1 |
X3 |
X4 |
X5 |
1 |
|
|
Yt |
|
1 |
8839 |
5189 |
0,95 |
12,98 |
1 |
|
1 |
0,37 |
|
2 |
9672 |
5940 |
1,07 |
13,67 |
1 |
|
2 |
0,51 |
|
3 |
10504 |
6371 |
1,58 |
14,69 |
1 |
|
3 |
0,8 |
|
4 |
11337 |
6846 |
2,13 |
15,12 |
1 |
|
4 |
1,01 |
|
5 |
12169 |
7012 |
2,44 |
15,53 |
1 |
|
5 |
1,18 |
X= |
6 |
13002 |
7517 |
2,47 |
16,86 |
1 |
Y= |
6 |
1,3 |
|
7 |
13834 |
8075 |
2,88 |
20,29 |
1 |
|
7 |
1,51 |
|
8 |
14713 |
8533 |
3,52 |
18,68 |
1 |
|
8 |
1,8 |
|
9 |
15367 |
8891 |
3,5 |
12,28 |
1 |
|
9 |
1,87 |
|
10 |
16022 |
9263 |
4,15 |
17,48 |
1 |
|
10 |
2,82 |
|
11 |
18002 |
9991 |
4,35 |
27,6 |
1 |
|
11 |
3,09 |
|
12 |
17558 |
10503 |
4,09 |
23,12 |
1 |
|
12 |
3,03 |
|
13 |
17789 |
11029 |
4,08 |
24,36 |
1 |
|
13 |
3,24 |
|
14 |
18562 |
11244 |
3,89 |
28,1 |
1 |
|
14 |
3,37 |
|
15 |
17912 |
11975 |
3,65 |
36,05 |
1 |
|
15 |
3,72 |
Obliczam kolejno:
|
3242566230,00 |
1936883626,00 |
693490,02 |
4508621,97 |
215282,00 |
XTX= |
1936883626,00 |
1159810967,00 |
413326,24 |
2710526,97 |
128379,00 |
|
693490,02 |
413326,24 |
152,04 |
956,52 |
44,75 |
|
4508621,97 |
2710526,97 |
956,52 |
6521,09 |
296,81 |
|
215282,00 |
128379,00 |
44,75 |
296,81 |
15,00 |
(XTX)-1= |
0,0000007 |
-0,0000006 |
-0,0009293 |
-0,0000151 |
-0,0020204 |
|
-0,0000006 |
0,0000007 |
0,0004673 |
-0,0000267 |
0,0009840 |
|
-0,0009293 |
0,0004673 |
1,6569085 |
0,0523268 |
3,3592053 |
|
-0,0000151 |
-0,0000267 |
0,0523268 |
0,0086021 |
0,1183065 |
|
-0,0020204 |
0,0009840 |
3,3592053 |
0,1183065 |
8,2799153 |
|
476259,670 |
XTY= |
286176,850 |
|
105,076 |
|
678,627 |
|
29,620 |
Podstawiając do wzoru, otrzymuję wektor parametrów strukturalnych:
|
-0,0000130 |
|
0,0003469 |
a= |
0,2633600 |
|
0,0277677 |
|
-2,1427346 |
Równanie modelu ma zatem postać:
Ŷt=-0,0000130+0,0003469X1t+0,2633600X3t+0,0277677X4t-2,1427346x5t
Następnie obliczam:
- wariancję Su2
- odchylenie standardowe reszt Su
- współczynnik zmienności resztowej Wu
- współczynnik determinacji R2
- współczynnik zbieżności φ2
Obliczam wariancję Su2 oraz odchylenie standardowe Su ze wzorów:
Su2 = |
0,040302145 |
Su = |
0,200753943 |
Współczynnik zmienności resztowej Vs.
Vs= 10,16647244%
Uzyskana wartość informuje nas, że 10,16% ogólnej zmienności została wyjaśniona przez model.
Ocena dopasowania modelu do danych empirycznych ma na celu sprawdzenie, czy model w wystarczającym stopniu wyjaśnia kształtowanie się zmiennej objaśnianej. Dopasowanie można obliczyć za pomocą następujących współczynników, które przyjmują wartości z przedziału <0,1>:
Współczynnik determinacji R2 informuje, jaka część zmiennej objaśnianej Y została objaśniona przez zbudowany model teoretyczny. Dopasowanie modelu do danych empirycznych jest tym lepsze, im współczynnik determinacji bliższy jest wartości 1. Obliczam go korzystając ze wzoru:
R2 = 0,9776. Model jest dopasowany do danych empirycznych w ok. 97,76%
Współczynnik zbieżności φ2 informuje, jaka część zmienności zmiennej objaśnianej Y nie została wyjaśniona przez zbudowany model teoretyczny (jest spowodowana przez czynnik losowy). Dopasowanie modelu do danych empirycznych jest tym lepsze, im współczynnik zbieżności jest bliższy 0. Obliczam go, korzystając ze wzoru:
φ 2 = 0,022338982
Model jest niedopasowany do danych empirycznych w ok. 2,23%
MACIERZ WARIANCJI I KOWARIANCJI OCEN PARAMETRÓW STRUKTURALNYCH
Z macierzy wariancji i kowariancji, wyrażonej poniższym wzorem, szacuję średnie błędy szacunku parametrów:
|
0,0000001 |
0,0000000 |
-0,0000805 |
-0,0000013 |
-0,0001749 |
D2(a)= |
0,0000000 |
0,0000001 |
0,0000405 |
-0,0000023 |
0,0000852 |
|
-0,0000805 |
0,0000405 |
0,1434602 |
0,0045306 |
0,2908502 |
|
-0,0000013 |
-0,0000023 |
0,0045306 |
0,0007448 |
0,0102433 |
|
-0,0001749 |
0,0000852 |
0,2908502 |
0,0102433 |
0,7169002 |
Następnie obliczam błędy szacunku parametrów strukturalnych
|
|
|
|
|
|
Postać modelu przy uwzględnieniu błędów strukturalnych:
Ŷt=-0,0000130+0,0003469X1t+0,2633600X3t+0,0277677X4t-2,1427346x5t
(-12,84792119) (0,497175799) (0,981213654) ( 0,67054104) (-0,269593017)
TEST ISTOTNOŚCI WSPÓŁCZYNNIKA KORELACJI WIELORAKIEJ (próba Fishera)
Stawiam hipotezy:
H0 : R2 = 0
H1 : R2 ≠ 0
Obliczam F ze wzoru:
F = 125,3164843
Dla α=0,05, k=4 i n-k-1=10 odczytuję F* z tablic Fishera
F* = 3,48
F > F* - odrzucamy hipotezę H0
WERYFIKACJA MODELU
Po oszacowaniu modelu należy zbadać, czy zbudowany model dobrze opisuje badane zależności, a dzieje się to za sprawą weryfikacji modelu.
TEST SERII
Test serii ma na celu zbadanie trafności doboru zmiennych do modelu.
Stawiam hipotezę:
H0 : rozkład jest liniowy
H1 : rozkład jest nieliniowy
Następnie tworzę serie, czyli przyporządkowuję każdej reszcie dodatniej literę a, zaś każdej reszcie ujemnej literę b.
0,10 |
a |
I |
-0,07 |
b |
II |
-0,09 |
b |
|
-0,20 |
b |
|
-0,18 |
b |
|
-0,28 |
b |
|
-0,47 |
b |
|
-0,46 |
b |
|
-0,33 |
b |
|
0,17 |
a |
III |
-0,15 |
b |
IV |
-0,19 |
b |
|
-0,19 |
b |
|
-0,19 |
b |
|
-0,25 |
b |
|
Otrzymałem 4 serie, czyli k = 4
Następnie obliczam ilość dodatnich i ujemnych reszt:
a = 2 = n1 b = 13 = n2
Z tablic testu liczby serii odczytuję wartości krytyczne Kl (0,025) i Kp (0,975) dla:
α=0,05, n1 i n2
Kl = 2
Kp = 5
Kl ≤ K ≤ Kp Rozkład reszt jest liniowy. Nie ma podstaw do odrzucenia hipotezy H0.
Postać modelu została poprawnie dobrana.
TEST NA NORMALNOŚĆ ROZKŁADU SKŁADNIKA LOSOWEGO ZA POMOCĄ TESTU SHAPIRO-WILKA
Stawiam hipotezę:
H0: składnik losowy ma rozkład normalny
H1: składnik losowy nie ma rozkładu normalnego
n |
et |
et uporządkowane rosnąco |
et2 |
en-t+1-et |
an-t+1 |
an-t+1(en-t+1-et) |
1 |
0,1019991 |
-0,4704586 |
0,2213313 |
0,6414276 |
0,5150000 |
0,3303352 |
2 |
-0,0692955 |
-0,4631891 |
0,2145441 |
0,5651882 |
0,3306000 |
0,1868512 |
3 |
-0,0914516 |
-0,3344032 |
0,1118255 |
0,2651077 |
0,2495000 |
0,0661444 |
4 |
-0,2030234 |
-0,2836603 |
0,0804631 |
0,1922086 |
0,1878000 |
0,0360968 |
5 |
-0,1836373 |
-0,2538259 |
0,0644276 |
0,1085607 |
0,1353000 |
0,0146883 |
6 |
-0,2836603 |
-0,2030234 |
0,0412185 |
0,0193861 |
0,0880000 |
0,0017060 |
7 |
-0,4704586 |
-0,1942862 |
0,0377471 |
0,0042746 |
0,0433000 |
0,0001851 |
8 |
-0,4631891 |
-0,1926854 |
0,0371277 |
|
0,0000000 |
0,0000000 |
9 |
-0,3344032 |
-0,1900116 |
0,0361044 |
|
|
|
10 |
0,1709690 |
-0,1836373 |
0,0337227 |
|
|
|
11 |
-0,1452652 |
-0,1452652 |
0,0211020 |
|
|
|
12 |
-0,1900116 |
-0,0914516 |
0,0083634 |
|
|
|
13 |
-0,1942862 |
-0,0692955 |
0,0048019 |
|
|
|
14 |
-0,1926854 |
0,1019991 |
0,0104038 |
|
|
|
15 |
-0,2538259 |
0,1709690 |
0,0292304 |
|
|
|
∑ |
-2,8022251 |
-2,8022251 |
0,9524134 |
|
|
0,6360069 |
korzystam ze wzoru:
W= |
0,424715541 |
Z tablic wartości krytycznych dla testu Shapiro - Wilka odczytuję wartość krytyczną dla a=0,05 i n=15:
Wa,n= |
0,881 |
|
W < Wa,n - odrzucam H0 |
Składnik losowy nie ma rozkładu normalnego
BADAM HOMOSCEDASTYCZNOŚĆ SKŁADNIKA LOSOWEGO ZA POMOCĄ TESTU HARRISONA-MC CABE`A
H0: σt2 = const
H1: σt2 ≠ const
b < bL => H0 odrzucamy
bL ≤ b ≤ bU => brak decyzji
b > bU => brak podstaw do odrzucenia H0
n |
et |
et uporządkowane rosnąco |
et2 |
1 |
0,1019991 |
-0,4704586 |
0,2213313 |
2 |
-0,0692955 |
-0,4631891 |
0,2145441 |
3 |
-0,0914516 |
-0,3344032 |
0,1118255 |
4 |
-0,2030234 |
-0,2836603 |
0,0804631 |
5 |
-0,1836373 |
-0,2538259 |
0,0644276 |
6 |
-0,2836603 |
-0,2030234 |
0,0412185 |
7 |
-0,4704586 |
-0,1942862 |
0,0377471 |
8 |
-0,4631891 |
-0,1926854 |
0,0371277 |
9 |
-0,3344032 |
-0,1900116 |
0,0361044 |
10 |
0,1709690 |
-0,1836373 |
0,0337227 |
11 |
-0,1452652 |
-0,1452652 |
0,0211020 |
12 |
-0,1900116 |
-0,0914516 |
0,0083634 |
13 |
-0,1942862 |
-0,0692955 |
0,0048019 |
14 |
-0,1926854 |
0,1019991 |
0,0104038 |
15 |
-0,2538259 |
0,1709690 |
0,0292304 |
∑ |
|
|
0,9231830 |
Statystyka Harrisona - Mc Cabe'a ma postać:
b= 0,835757639
Dla a=0,05 z tablic Fishera - Snedecora odczytuję wartość dla F1 i F2:
F1= 8,85
F2= 4,12
Obliczam wartości krytyczne korzystając ze wzoru:
bL=0,04065
bU=0,298126
b>bu brak podstaw do odrzucenia Ho
ZA POMOCĄ TESTU BOXA - LJUNGA BADAM AUTOKORELACJĘ SKŁADNIKA LOSOWEGO
Stawiam hipotezę:
H0: nie występuje autokorelacja określonego rzędu
H1: występuje autokorelacja, ale nie jest określone jakiego rzędu
n |
et |
et-1 |
et-2 |
et*et-1 |
et*et-2 |
et2 |
1 |
0,1019991 |
|
|
|
|
0,0104038 |
2 |
-0,0692955 |
0,1019991 |
|
-0,0070681 |
|
0,0048019 |
3 |
-0,0914516 |
-0,0692955 |
0,1019991 |
0,0063372 |
-0,0093280 |
0,0083634 |
4 |
-0,2030234 |
-0,0914516 |
-0,0692955 |
0,0185668 |
0,0140686 |
0,0412185 |
5 |
-0,1836373 |
-0,2030234 |
-0,0914516 |
0,0372827 |
0,0167939 |
0,0337227 |
6 |
-0,2836603 |
-0,1836373 |
-0,2030234 |
0,0520906 |
0,0575897 |
0,0804631 |
7 |
-0,4704586 |
-0,2836603 |
-0,1836373 |
0,1334504 |
0,0863938 |
0,2213313 |
8 |
-0,4631891 |
-0,4704586 |
-0,2836603 |
0,2179113 |
0,1313883 |
0,2145441 |
9 |
-0,3344032 |
-0,4631891 |
-0,4704586 |
0,1548919 |
0,1573229 |
0,1118255 |
10 |
0,1709690 |
-0,3344032 |
-0,4631891 |
-0,0571726 |
-0,0791910 |
0,0292304 |
11 |
-0,1452652 |
0,1709690 |
-0,3344032 |
-0,0248358 |
0,0485771 |
0,0211020 |
12 |
-0,1900116 |
-0,1452652 |
0,1709690 |
0,0276021 |
-0,0324861 |
0,0361044 |
13 |
-0,1942862 |
-0,1900116 |
-0,1452652 |
0,0369166 |
0,0282230 |
0,0377471 |
14 |
-0,1926854 |
-0,1942862 |
-0,1900116 |
0,0374361 |
0,0366124 |
0,0371277 |
15 |
-0,2538259 |
-0,1926854 |
-0,1942862 |
0,0489085 |
0,0493149 |
0,0644276 |
|
|
|
|
0,6823177 |
0,5052796 |
0,9524134 |
Statystyka Boxa - Ljunga ma postać:
λ=2
a=0,05
Z tablic rozkładu χ2 dla a=0,05 i λ=2 odczytuję wartość:
χ20,05;2= 5,991
r1=0,716409216
r2=0,530525506
Q=15,58833591
Q > χ20,05;2 Występuje autokorelacja, ale nie jest określone jakiego rzędu
Zmienne są zbyt silnie skorelowane ze sobą.
PODSUMOWANIE
Model postaci:
Ŷt=-0,0000130+0,0003469X1t+0,2633600X3t+0,0277677X4t-2,1427346x5t
(-12,84792119) (0,497175799) (0,981213654) ( 0,67054104) (-0,269593017)
Gdzie:
Y - Cena litra benzyny w Polsce w [zł]
X1 - Import ropy do Polski [w tys. ton]
X3 - Ilość samochodów osobowych w Polsce
X4 - Kurs dolara wyrażony w [zł]
X5 - Cena baryłki ropy na rynku światowym w [$]
Jest dopasowany do danych empirycznych w 97,76%.
Z szeregu przeprowadzonych testów wynika, że:
Co najmniej jedna zmienna jest istotna
Rozkład reszt modelu jest liniowy
Składnik losowy nie ma rozkładu normalnego
Pomiędzy zmiennymi występuje autokorelacja - należy przeanalizować proces doboru zmiennych
Model jest homoskedastyczny - wszystkie zmienne losowe posiadają tę samą, skończoną wariancję
Strona 16 z 16
X1
X2
X3
X4
X5