Wstęp
Do analizy, jako zmienną objaśnianą, wybrałem produkcję w przemyśle tytoniowym w milionach złotych. Jako potencjalne zmienne objaśniające w modelu występują:
powierzchnia zasiewów tytoniu ( w tys. zł )
cena wyrobów tytoniowych (wskaźnik cen)
zachorowania na nowotwory złośliwe ( w liczbach bezwzględnych)
podatek akcyzowy ( w mln zł )
przeciętne miesięczne wynagrodzenie brutto ( w zł )
pogoda (dobra = 1; zła = 0 )
zbiory i plony ( w tys. Ton )
Poniższe wartości pochodzą z dwunastu okresów, zabranych na podstawie danych z lat 1990 - 2001.
|
1990 |
1991 |
1992 |
1993 |
1994 |
1995 |
1996 |
1997 |
1998 |
1999 |
2000 |
2001 |
|
915 |
904 |
866 |
2200 |
3041,9 |
1816,3 |
2253,2 |
3105,5 |
3672,7 |
3963 |
3796,3 |
2912,4 |
|
28 |
28 |
23 |
19 |
25 |
19 |
19 |
17 |
18 |
16 |
14 |
13 |
|
642,1 |
189,4 |
154,6 |
130,5 |
130,5 |
142,5 |
142,6 |
123,2 |
120,8 |
116,3 |
111 |
101,1 |
|
83378 |
92552 |
98631 |
103459 |
103167 |
105186 |
105395 |
105849 |
106001 |
106356 |
106678 |
107021 |
|
0 |
0 |
0 |
495,2 |
1531,6 |
2700,2 |
3852,4 |
4563,8 |
14086,4 |
36721,1 |
27312 |
28860,5 |
|
187,5 |
216,8 |
289,7 |
390,4 |
525 |
690,9 |
874,3 |
1011,4 |
1232,7 |
1528,2 |
1893,7 |
2045,1 |
|
1 |
1 |
1 |
0 |
1 |
1 |
0 |
0 |
0 |
1 |
0 |
0 |
|
59 |
57 |
45 |
36 |
43 |
40 |
38 |
32 |
38 |
44 |
30 |
24 |
Dobór zmiennych do modelu
Potrzebne dane :
wektor współczynników korelacji zmiennej objaśnianej z potencjalnymi zmiennymi objaśniającymi
macierz współczynników korelacji pomiędzy potencjalnymi zmiennymi objaśniającymi
Wyznaczam wartość krytyczną współczynnika korelacji przy poziomie istotności
0,01 i dla
. Wartość odczytuję z tablic test t - Studenta.
0,01
12
10
a zatem:
3,169
Ze zbioru potencjalnych zmiennych objaśniających eliminuje te wszystkie zmienne, dla których zachodzi nierówność
, czyli :
0,7079.
W pierwszej kolejności ze zbioru potencjalnych zmiennych objaśniających eliminuje zmienne
,
i
. Jako zmienna objaśniająca do modelu wchodzi ta zmienna
, dla której wartość współczynnika korelacji
ze zmienną objaśnianą jest największa. W tym przypadku jest to zmienna
(
0,79413).
Następnie ze zbioru pozostałych zmiennych objaśniających eliminuję te, dla których współczynnik korelacji pomiędzy
a pozostałymi zmiennymi objaśniającymi przyjmuje wartość większą niż
. Zmienne te spełniają zatem nierówność :
.
Oprócz zmiennej
do modelu należy wprowadzić także zmienną
, a zatem model ma postać:
ε
Estymacja - szacowanie parametrów modelu
Potrzebne dane:
Macierz wartości zmiennych objaśniających X
Wektor obserwacji zmiennej objaśnianej Y
Y=
Zatem model ma postać:
0,06539
- jeżeli liczba zachorowań na nowotwory złośliwe wzrośnie o jedną jednostkę, to spowoduje to wzrost produkcji w przemyśle tytoniowym o 0,06539 mln zł, przy założeniu, że przeciętne wynagrodzenie brutto nie ulegnie zmianie;
0,9084
- jeżeli przeciętne wynagrodzenie brutto wzrośnie o jedną jednostkę, to spowoduje to wzrost produkcji w przemyśle tytoniowym o 0,9084 mln zł, przy założeniu, że liczba zachorowań na nowotwory złośliwe nie ulegnie zmianie;
Weryfikacja modelu
|
|
|
915 |
584,25 |
330,74 |
904 |
1210,76 |
-306,76 |
866 |
1674,48 |
-808,485 |
2200 |
2081,66 |
118,341 |
3042 |
2185 |
857,1 |
1816 |
2468 |
-651,2 |
2253 |
2648 |
-394,6 |
3106 |
2802 |
303,5 |
3672,7 |
3012,99 |
659,712 |
3963 |
3304,62 |
658,379 |
3796,3 |
3657,68 |
138,619 |
2912,4 |
3817,63 |
-905,23 |
Wariancja składnika resztowego
Odchylenie standardowe reszt
rzeczywiste wartości produkcji w przemyśle tytoniowym różnią się od wartości teoretycznych średnio o 665,41 mln ton
Średnie błędy szacunku parametrów
Współczynnik zmienności losowej
odchylenie standardowe składnika losowego stanowi 27% średniej arytmetycznej zmiennej objaśnianej, taka wartość tego współczynnika świadczy o niskim dopasowaniu modelu do danych empirycznych
Współczynnik zbieżności
|
|
|
|
1990 |
915 |
-1538,83 |
2367997,769 |
1991 |
904 |
-1549,83 |
2401973 |
1992 |
866 |
-1587,83 |
2521204 |
1993 |
2200 |
-253,83 |
64429,7 |
1994 |
3042 |
588,1 |
345826,325 |
1995 |
1816 |
-637,5 |
406444,5009 |
1996 |
2253 |
-200,6 |
40252 |
1997 |
3106 |
651,7 |
424673,789 |
1998 |
3672,7 |
1218,87 |
1485644 |
1999 |
3963 |
1509,17 |
2277594 |
2000 |
3796,3 |
1342,47 |
1802226 |
2001 |
2912,4 |
458,57 |
210286 |
27,8 % zmienności zmiennej objaśnianej nie zostało wyjaśnione przez model, świadczy to o dobrym dopasowaniu modelu do danych empirycznych , około 30% zmienności zmiennej objaśnianej uzależnione jest od czynników przypadkowych nie uwzględnionych w modelu
Współczynnik determinacji
otrzymany model w 72,2% wyjaśnia kształtowanie się zmiennej objaśnianej, w badanym okresie produkcja w przemyśle tytoniowym w 72,2% została wyjaśniona przez zachorowania na nowotwory złośliwe oraz przez przeciętne wynagrodzenie brutto
Współczynnik korelacji wielorakiej
wysoka wartość współczynnika korelacji wielorakiej świadczy o wysokiej sile zależności liniowej pomiędzy zmienną objaśnianą a zmiennymi objaśniającymi
Badanie istotności parametrów strukturalnych modelu
W celu zbadania istotności parametrów strukturalnych modelu, posłużę się testem
Fishera - Snedecora. Test ten bada istotność parametrów z wyłączeniem wyrazu wolnego. Test opiera się na statystyce:
Weryfikuję hipotezę:
co najmniej jeden z parametrów
, i = 1,2 jest różny od 0
Statystyka
przy prawdziwości hipotezy zerowej ma rozkład
o
oraz
stopni swobody.
Z tablic
dla
i
stopni swobody oraz dla poziomu istotności
odczytuję wartość krytyczną
na poziomie istotności
hipotezę
należy odrzucić na rzecz hipotezy
, oznacza to że zmienne objaśniające w istotny sposób wpływają na kształtowanie się zmiennej objaśnianej, czyli zachorowania na nowotwory złośliwe oraz przeciętne wynagrodzenie brutto w istotny sposób wpływają na kształtowanie się produkcji w przemyśle tytoniowym
Przedziały ufności dla parametrów strukturalnych modelu
Z tablic t-Studenta dla
stopni swobody oraz poziomu istotności
odczytuję wartość krytyczną dla zmiennej losowej
.
z prawdopodobieństwem równym 99% można stwierdzić, iż przedział
pokrywa rzeczywistą wartość szacowanego parametru
z prawdopodobieństwem równym 99% można stwierdzić, iż przedział
pokrywa rzeczywistą wartość szacowanego parametru
z prawdopodobieństwem równym 99% można stwierdzić, iż przedział
pokrywa rzeczywistą wartość szacowanego parametru
Test istotności współczynnika korelacji
Weryfikuję hipotezę:
|
|
|
|
|
|
1990 |
330,74 |
-------- |
-------- |
-------- |
-------- |
1991 |
-306,76 |
330,74 |
-101457,8 |
94101,7 |
109388,94 |
1992 |
-808,48 |
-306,76 |
248009,3 |
653636,9 |
94101,69 |
1993 |
118,34 |
-808,48 |
-95675,5 |
14004,3 |
653639,91 |
1994 |
857,07 |
118,34 |
101425,6 |
734568,98 |
14004,35 |
1995 |
-651,25 |
857,07 |
-558166,8 |
424126,6 |
734568,98 |
1996 |
-394,6 |
-651,25 |
256983,2 |
155709,16 |
424126,56 |
1997 |
303,47 |
-394,6 |
119749,3 |
92094,04 |
155709,16 |
1998 |
659,71 |
303,47 |
200202,2 |
435217,3 |
92094,04 |
1999 |
658,38 |
659,71 |
434339,9 |
433464,2 |
435217,28 |
2000 |
138,62 |
658,38 |
91264,6 |
19215,5 |
433464,22 |
2001 |
-905,23 |
138,62 |
-125482,99 |
819441,35 |
19215,5 |
|
|
|
331692,41 |
3875583,03 |
3165530,3 |
Z tablic t-Studenta odczytuję wartość krytyczną
dla poziomu istotności
oraz
stopni swobody.
na poziomie istotności
nie ma podstaw do odrzucenia hipotezy
, oznacza to, że współczynnik autokorelacji
jest nieistotny a w modelu nie występuje zjawisko autokorelacji odchyleń losowych I rzędu
Badanie symetrii składnika losowego
Weryfikuję hipotezę:
- liczba reszt odchylających się in plus
- liczba wszystkich obserwacji
=
= 0,5584
Z tablic t-Studenta odczytuję wartość krytyczną
dla poziomu istotności
oraz
stopni swobody.
oznacza to, iż nie ma podstaw do odrzucenia hipotezy
, składnik resztowy ma rozkład symetryczny
Badanie losowości reszt
Weryfikuję hipotezę:
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
|
330,74 |
-306,76 |
-808,48 |
118,34 |
857,07 |
-651,24 |
-394,61 |
303,47 |
659,71 |
658,38 |
138,62 |
-905,23 |
a b b a a b b a a a a b |
liczba (a)
liczba (b)
z tablic rozkładu serii odczytuję wartości
i
nie ma podstaw do odrzucenia
, rozkład odchyleń losowych jest losowy, a postać analityczna modelu została dobrana prawidłowo
Homoskedastycznośc
Weryfikuję hipotezę:
|
|
|
|
|
|
|
|
|
1990 |
330,74 |
407,46 |
166023,65 |
|
1996 |
-394,6 |
-471,32 |
222142,54 |
1991 |
-306,76 |
-230,04 |
52918,401 |
|
1997 |
303,47 |
226,75 |
51415,562 |
1992 |
-808,48 |
-731,76 |
535472,69 |
|
1998 |
659,71 |
582,99 |
339877,34 |
1993 |
118,34 |
195,06 |
38048,403 |
|
1999 |
658,38 |
581,66 |
338328,35 |
1994 |
857,07 |
933,99 |
872337,32 |
|
2000 |
138,62 |
61,9 |
3831,61 |
1995 |
-651,25 |
-574,53 |
330084,72 |
|
2001 |
-905,23 |
-981,95 |
946225,8 |
|
|
|
1994885 |
|
|
|
|
1919821,2 |
na poziomie istotności
nie ma podstaw do odrzucenia hipotezy
, oznacza to, iż wariancja odchyleń losowych jest stała w czasie a w modelu występuje zjawisko homoskedastyczności składnika losowego
(3626,066) (0,03794) (0,42187)