MODELOWANIE ZALEŻNOŚCI EKONOMICZNYCH
OCENA JAKOŚCI MODELU
Weryfikacja statystyczna pozwala na ocenę jakości modelu, skonstruowanego na podstawie posiadanej próby. Przy wyciąganiu wniosków odnośnie badanej zależności należy pamiętać, że na każde badane zjawisko ekonomiczne, obok czynników systematycznych (zmiennych objaśniających), działają czynniki losowe (przypadkowe), określane mianem składnika losowego modelu. Przez składnik losowy rozumieć będziemy:
nieuwzględnione w modelu zmienne objaśniające
złą postać analityczną modelu
błędy pomiaru wartości zmiennych
czynniki czysto przypadkowe.
Działanie składnika losowego ma bardzo istotne znaczenie dla badania zjawisk ekonomicznych, pociąga bowiem za sobą dwie ważne konsekwencje:
Obserwowane wartości zmiennej Y zawsze odbiegają od wartości wynikających z modelu hipotetycznego (model hipotetyczny to pewien "ideał").
Szacując model opisujący badaną zależność na podstawie różnych prób otrzymujemy za każdym razem inne oceny parametrów tego modelu. Oznacza to dalej, że dla każdego parametru istnieje zbiór możliwych ocen, nazywany estymatorem.
A. Dobroć dopasowania modelu do obserwacji
Współczynnik determinacji:
.
Określa, jaka część zmienności Y zaobserwowanej w próbie została wyjaśniona za pomocą oszacowanego modelu, czyli za pomocą przyjętych zmiennych objaśniających.
Ocena odchylenia standardowego składnika losowego:
Ocena ta obliczana jest na podstawie wzoru:
gdzie T - K to tzw. liczba stopni swobody modelu.
Wartość s wyrażona jest w taki samych jednostkach, w jakich mierzona jest zmienna objaśniana. Mierzy przeciętne odchylenie obserwowanych wartości zmiennej Y od jej wartości wynikających z modelu. Postuluje się, by wartość s była "jak najmniejsza" w stosunku do obserwowanych wartości Y.
Szacunkowe błędy średnie parametrów:
Dla parametru
błąd ten opisuje formuła:
,
gdzie
oznacza k-ty element diagonalny w macierzy
.
Błąd ten informuje, o ile przeciętnie oceny parametru (uzyskiwane dla różnych zbiorów obserwacji) odchylają się od jego nieznanej rzeczywistej wartości.
Parametr jest tym precyzyjniej oszacowany im jego błąd jest mniejszy w stosunku do uzyskanej oceny, czyli im większą wartość przyjmuje relacja:
.
Badanie istotności zmiennych objaśniających w modelu
Po zbudowaniu modelu ekonometrycznego, do którego zmienne objaśniające dobraliśmy na podstawie posiadanej wiedzy o badanym zjawisku, pojawia się pytanie, czy zmienne te okazały się (w świetle uzyskanych wyników) istotne w sensie statystycznym.
Procedura weryfikacyjna:
Stawiamy dwie, wzajemnie się wykluczające hipotezy:
Ho:
(zmienna Xk nie ma istotnego wpływu na kształtowanie Y)
H1:
(zmienna Xk istotnie wpływa na kształtowanie Y)
Obliczamy tzw. sprawdzian hipotezy
.
Wartość tego sprawdzianu zależy od precyzji oszacowania parametru(!)
W rozkładzie t - Studenta wyszukujemy tzw. wartość krytyczną
.
Porównujemy wartość sprawdzianu hipotezy z wartością krytyczną.
Jeżeli zachodzi:
, to nie ma podstaw do odrzucenia Ho.
Jeżeli zachodzi:
, to odrzucamy Ho na rzecz H1.
Przedział ufności dla parametru
Jest to oszacowany na podstawie obserwacji przedział liczbowy, który z odpowiednio dużym prawdopodobieństwem (tzw. poziomem ufności u = 1 - α ) pokrywa rzeczywistą wartość danego parametru
. Przedział ten szacowany jest na podstawie wzoru:
.
Uwaga: Przedział ufności może być wykorzystany do zweryfikowania istotności zmiennej objaśniającej w modelu.
Szacowanie parametrów modelu -
EXCEL/ NARZĘDZIA/ ANALIZA DANYCH/ REGRESJA
Kolumna z wartościami zmiennej objaśnianej
Kolumny z wartościami zmiennych
objaśniających (zwarty obszar!)
tytuły - tę opcję znaznaczamy, gdy chcemy,
by na wyrduku pojawiły się nasze nazwy zmiennych
2. Przykłady
Oszacować poniższe przykłady (dane z tabelek przenieść do Excela). Przy deklaracji regresji w zakresach danych podawać także „tytuły” (nazwy zmiennych). Zastanowić się na odpowiedziami na pytania. Przynieść wydruki na wykład. Będziemy je szczegółowo omawiać na zajęciach.
Przykład 1. Sieć sklepów Deuce Hardware chce prognozować wielkość miesięcznej sprzedaży poszczególnych placówek handlowych (w $) na podstawie informacji o ich powierzchni (stopy2) oraz miesięcznych wydatków na reklamę (w $). Zebrano dane dla 10 sklepów:
Sklep |
Miesięczna sprzedaż |
Powierzchnia sklepu |
Miesięczne wydatki na reklamę |
1 |
20100 |
3050 |
350 |
2 |
14900 |
1300 |
980 |
3 |
16800 |
1890 |
830 |
4 |
9100 |
1750 |
760 |
5 |
15500 |
1010 |
930 |
6 |
26700 |
2690 |
770 |
7 |
34600 |
4210 |
440 |
8 |
7200 |
1950 |
570 |
9 |
21800 |
2830 |
310 |
10 |
23400 |
2030 |
920 |
Na podstawie powyższych danych w arkuszu kalkulacyjnym Excel oszacowano parametry modelu liniowego, opisującego powiązanie sprzedaży poszczególnych sklepów z rozważanymi dwoma czynnikami i otrzymano:
Statystyki regresji |
|
|
|
|
|
|
Wielokrotność R |
0,893 |
|
|
|
|
|
R kwadrat |
0,798 |
|
|
|
|
|
Dopasowany R kwadrat |
0,740 |
|
|
|
|
|
Błąd standardowy |
4168,371 |
|
|
|
|
|
Obserwacje |
10 |
|
|
|
|
|
|
|
|
|
|
|
|
ANALIZA WARIANCJI |
|
|
|
|
|
|
|
df |
SS |
MS |
F |
Istotność F |
|
Regresja |
2 |
4,81E+08 |
2,4E+08 |
13,82944 |
0,0037025 |
|
Resztkowy |
7 |
1,22E+08 |
17375318 |
|
|
|
Razem |
9 |
6,02E+08 |
|
|
|
|
|
|
|
|
|
|
|
|
Współczynniki |
Błąd standardowy |
t Stat |
Wartość-p |
Dolne 95% |
Górne 95% |
Przecięcie |
-22978,615 |
10546,497 |
-2,179 |
0,066 |
-47917,117 |
1959,886 |
Powierzchnia sklepu |
11,416 |
2,294 |
4,976 |
0,002 |
5,991 |
16,842 |
Miesięczne wydatki na reklamę |
23,414 |
8,636 |
2,711 |
0,030 |
2,994 |
43,835 |
Podaj równanie modelu teoretycznego i oceń jego jakość.
Jaka informacja na temat czynników kształtujących wielkość sprzedaży wynika z powyższego modelu dla właścicieli sieci.
W jaki sposób można by spróbować „ulepszyć” otrzymany model? (dodatkowe czynniki: liczba mieszkańców miasta, przeciętny dochód mieszkańców, liczba konkurencyjnych sieci, stopa bezrobocia, koszt składania zamówień, struktura demograficzna sąsiedztwa, udział ludności miejskiej).
Przykład 2. Jakościowa zmienna objaśniająca (zero-jedynkowa)
Postawiono hipotezę, ze dochód brutto z filmu (w mln $) zależy od trzech zmiennych: całkowitego kosztu produkcji (w mln $), całkowitego kosztu działalności promocyjnej (w mln $) oraz od zmiennej, która uwzględnia wpływ faktu, czy film został oparty na znanej powieści, czy też nie.
DOCHÓD |
KOSZT PROD |
KOSZT PROMOCJI |
POWIEŚĆ |
28 |
4,2 |
1 |
NIE |
35 |
6 |
3 |
TAK |
50 |
5,5 |
6 |
TAK |
20 |
3,3 |
1 |
NIE |
75 |
12,5 |
11 |
TAK |
60 |
9,6 |
8 |
TAK |
15 |
2,5 |
0,5 |
NIE |
45 |
10,8 |
5 |
NIE |
50 |
8,4 |
3 |
TAK |
34 |
6,6 |
2 |
NIE |
48 |
10,7 |
1 |
TAK |
82 |
11 |
15 |
TAK |
24 |
3,5 |
4 |
NIE |
50 |
6,9 |
10 |
NIE |
58 |
7,8 |
9 |
TAK |
63 |
10,1 |
10 |
NIE |
30 |
5 |
1 |
TAK |
37 |
7,5 |
5 |
NIE |
45 |
6,4 |
8 |
TAK |
72 |
10 |
12 |
TAK |
Na podstawie powyższych obserwacji oszacuj parametry modelu liniowego, uwzględniającego wpływ scenariusza na dochody z filmu.
Podaj interpretację uzyskanych ocen parametrów. Czy uzyskane wyniki są rozsądne merytorycznie?
Oceń wpływ czynników losowych na kształtowanie dochodu z filmów.
Czy przyjmując poziom istotności α = 0.01 mamy podstawy, by uznać, że uwzględnione w modelu zmienne mają istotnie wpływ na kształtowanie dochodu (brutto) z filmu? Czy dla dochodu z filmu ma istotne znaczenie, na jakiej powieści został on oparty?
Wielokrotność R |
0,983 |
R kwadrat |
0,967 |
Dopasowany R kwadrat |
0,960 |
Błąd standardowy |
3,690 |
Obserwacje |
20 |
ANALIZA WARIANCJI |
|
|
|
|
|
|
|
df |
SS |
MS |
F |
Istotność F |
|
Regresja |
3 |
6325,15 |
2108,38 |
154,887 |
4,96E-12 |
|
Resztkowy |
16 |
217,798 |
13,6124 |
|
|
|
Razem |
19 |
6542,95 |
|
|
|
|
|
|
|
|
|
|
|
|
Współczynniki |
Błąd standard |
t Stat |
Wartość-p |
Dolne 95% |
Górne 95% |
Przecięcie |
7,836 |
2,333 |
3,358 |
0,004 |
2,890 |
12,783 |
KOSZT PROD |
2,848 |
0,392 |
7,258 |
0,000 |
2,016 |
3,679 |
KOSZT REKL |
2,278 |
0,253 |
8,989 |
0,000 |
1,741 |
2,815 |
POWIEŚĆ |
7,166 |
1,818 |
3,942 |
0,001 |
3,312 |
11,020 |
Przykład 3. W pewnym zakładzie badano zależność czasu wytwarzania przez robotników pewnego wyrobu (w godz.) od ich stażu pracy (w latach) i czasu szkolenia (w tygodniach). Otrzymano następujące dane:
Czas wytwarzania |
13 |
11 |
10 |
8 |
7 |
8 |
Czas szkolenia |
0 |
0 |
1 |
1 |
2 |
2 |
Staż pracy |
0 |
1 |
0 |
2 |
1 |
0 |
Przyjęto hipotezę, że rozpatrywaną zależność opisuje model liniowy
.
Szacując parametry tego modelu otrzymano następujące wyniki:
PODSUMOWANIE - WYJŚCIE |
|
|
|
|
||
|
|
|
|
|
|
|
Statystyki regresji |
|
|
|
|
|
|
Wielokrotność R |
0,991137 |
|
|
|
|
|
R kwadrat |
0,982353 |
|
|
|
|
|
Dopasowany R kwadrat |
0,970588 |
|
|
|
|
|
Błąd standardowy |
0,387298 |
|
|
|
|
|
Obserwacje |
6 |
|
|
|
|
|
|
|
|
|
|
|
|
ANALIZA WARIANCJI |
|
|
|
|
|
|
|
df |
SS |
MS |
F |
Istotność F |
|
Regresja |
2 |
25,05 |
12,525 |
83,5 |
0,0023443 |
|
Resztkowy |
3 |
0,45 |
0,15 |
|
|
|
Razem |
5 |
25,5 |
|
|
|
|
|
|
|
|
|
|
|
|
Współczynniki |
Błąd standardowy |
t Stat |
Wartość-p |
Dolne 95% |
Górne 95% |
Przecięcie |
12,55 |
0,287228 |
43,69349 |
2,64E-05 |
11,635911 |
13,464089 |
Czas szkolenia |
-2,25 |
0,193649 |
-11,619 |
0,001369 |
-2,8662787 |
-1,6337213 |
Staż pracy |
-1,2 |
0,212132 |
-5,65685 |
0,010938 |
-1,8750994 |
-0,5249006 |
Podaj otrzymane równanie modelu teoretycznego i interpretację uzyskanych ocen parametrów.
Oceń dobroć dopasowania modelu do danych empirycznych.
Ile wynosi odchylenie standardowe składnika losowego. O czym wielkość ta nas informuje?
Przyjmując poziom istotności = 0.01 sprawdź, czy czas wytwarzania wyrobu zależy od czasu szkolenia robotników i ich stażu pracy.
Podaćj przedział ufności dla parametru mierzącego wpływ czasu szkolenia na wydajność pracy robotników (dla poziomu ufności u = 0.95). Co na podstawie tego przedziału powiedzieć można o istotności odpowiedniej zmiennej objaśniającej?
Jakiego czasu wytwarzania należy się spodziewać u robotnika, który ma już trzyletni staż pracy, lecz nie przeszedł jeszcze żadnego szkolenia?
Wiedząc, że dla tego modelu
ustal, jaki jest błąd ustalonej prognozy i jak go należy interpretować?
Ustal, czy postawiona prognoza jest dopuszczalna?
Ustal prognozę przedziałową dla u = 0,99, przyjmując tα = 5,841.
Podaj interpretację ustalonej prognozy przedziałowej
Przykład 4. Dobór zmiennych objaśniających do modelu
Przypuszcza się, że liczba osób zwiedzających Międzynarodowe Targi Poznańskie zależy od: powierzchni wystawowej (X1 w tys. m2), liczby wystawców i producentów (X2 w tys.), indeksu zmiany przeciętnego miesięcznego wynagrodzenia realnego netto (X3, rok 1991 = 100) oraz liczby miejsc noclegowych w Poznaniu i obszarze w promieniu 20 km (X4).
Poniższa tabela przedstawia odpowiednie dane dla lat 1989-2000.
Rok |
1989 |
1990 |
1991 |
1992 |
1993 |
1994 |
Y |
311 |
385,7 |
334,6 |
357,4 |
285,3 |
203,9 |
X1 |
127,8 |
125,9 |
16,7 |
134,2 |
125,4 |
126,5 |
X2 |
3,76 |
4,23 |
4,26 |
4,32 |
4,29 |
4,15 |
X3 |
102,6 |
96,5 |
100 |
109 |
75,6 |
99,7 |
X4 |
5137,4 |
5079,1 |
5015,7 |
4761,7 |
4058,2 |
3609,4 |
Rok |
1995 |
1996 |
1997 |
1998 |
1999 |
2000 |
Y |
149,4 |
117,8 |
104,1 |
88,6 |
79 |
42,3 |
X1 |
125,2 |
124 |
116,5 |
116 |
109,8 |
92 |
X2 |
4,01 |
3,57 |
3,14 |
2,33 |
2,5 |
2,28 |
X3 |
97,3 |
97,1 |
100,5 |
103 |
105,7 |
107,3 |
X4 |
3401,2 |
3317,4 |
3740,8 |
3750,4 |
3755,8 |
3762,3 |
Na podstawie danych dla lat 1989-2000 oszacowano model przyczynowo-skutkowy ze wszystkimi potencjalnymi zmiennymi objaśniającymi opisujący kształtowanie się liczby zwiedzających MTP i otrzymano następujące wyniki:
Statystyki regresji |
||||||||||||||
R kwadrat |
0,982 |
|||||||||||||
Dopasowany R kwadrat |
0,972 |
|||||||||||||
Błąd standardowy |
20,531 |
|||||||||||||
Obserwacje |
12 |
|||||||||||||
ANALIZA WARIANCJI |
|
|
|
|
||||||||||
|
df |
SS |
MS |
F |
Istotność F |
|||||||||
Regresja |
4 |
164181,4 |
41045,34 |
97,378307 |
3,24E-06 |
|
||||||||
Resztkowy |
7 |
2950,528 |
421,504 |
|
|
|
||||||||
Razem |
11 |
167131,9 |
|
|
|
|
||||||||
|
Współczynniki |
Błąd standardowy |
t Stat |
Wartość-p |
Dolne 95% |
Górne 95% |
||||||||
Przecięcie |
-507,606 |
103,395 |
-4,909 |
0,002 |
-752,096 |
-263,117 |
||||||||
POW |
0,323 |
0,205 |
1,576 |
0,159 |
-0,162 |
0,807 |
||||||||
WYST |
79,125 |
10,381 |
7,622 |
0,000 |
54,576 |
103,673 |
||||||||
WYNAGR |
-0,824 |
0,862 |
-0,956 |
0,371 |
-2,863 |
1,215 |
||||||||
NOCLEGI |
0,116 |
0,011 |
10,180 |
0,000 |
0,089 |
0,143 |
Statystyki regresji |
||||||||||||||
R kwadrat |
0,980 |
|||||||||||||
Dopasowany R kwadrat |
0,973 |
|||||||||||||
Błąd standardowy |
20,420 |
|||||||||||||
Obserwacje |
12 |
|||||||||||||
ANALIZA WARIANCJI |
|
|
|
|
||||||||||
|
df |
SS |
MS |
F |
Istotność F |
|||||||||
Regresja |
3 |
163796,2 |
54598,75 |
130,9454 |
3,87E-07 |
|
||||||||
Resztkowy |
8 |
3335,664 |
416,958 |
|
|
|
||||||||
Razem |
11 |
167131,9 |
|
|
|
|
||||||||
|
Współczynniki |
Błąd standard |
t Stat |
Wartość-p |
Dolne 95% |
Górne 95% |
||||||||
Przecięcie |
-593,864 |
50,200 |
-11,830 |
0,000 |
-709,625 |
-478,104 |
||||||||
POW |
0,325 |
0,204 |
1,593 |
0,150 |
-0,145 |
0,795 |
||||||||
WYST |
84,401 |
8,745 |
9,652 |
0,000 |
64,235 |
104,567 |
||||||||
NOCLEGI |
0,112 |
0,011 |
10,510 |
0,000 |
0,087 |
0,137 |
Statystyki regresji |
||||||||||||||||
R kwadrat |
0,974 |
|||||||||||||||
Dopasowany R kwadrat |
0,968 |
|||||||||||||||
Błąd standardowy |
22,095 |
|||||||||||||||
Obserwacje |
12 |
|||||||||||||||
ANALIZA WARIANCJI |
|
|
|
|
||||||||||||
|
df |
SS |
MS |
F |
Istotność F |
|||||||||||
Regresja |
2 |
162738,3 |
81369,15 |
166,6793 |
7,74E-08 |
|
||||||||||
Resztkowy |
9 |
4393,602 |
488,178 |
|
|
|
||||||||||
Razem |
11 |
167131,9 |
|
|
|
|
||||||||||
|
Współczynniki |
Błąd standardowy |
t Stat |
Wartość-p |
Dolne 95% |
Górne 95% |
||||||||||
Przecięcie |
-544,251 |
42,598 |
-12,776 |
0,000 |
-640,615 |
-447,887 |
||||||||||
WYST |
86,854 |
9,314 |
9,325 |
0,000 |
65,783 |
107,925 |
||||||||||
NOCLEGI |
0,107 |
0,011 |
9,748 |
0,000 |
0,082 |
0,131 |
Rozkład t-Studenta
6