WYKŁAD 1 08.03.2011
Literatura:
Nowak, Edward. Zarys metod ekonometrii. Zbiór zadań. PWN.
Ekonometria. Metody, przykłady, zadania. Praca zbiorowa pod red. Józefa Dziechciarza. Wyd. AE Wrocław.
Osińska, Magdalena. Ekonometria współczesna. Toruń 2007.
Konsultacje: poniedziałki. 118P.
Egzamin: I część - pytania testowe prawda-fałsz.
II część - zadania z zakresu ekonometrii. (3-4 zadania)
Rozwój metod ekonometrycznych:
Prawdopodobny twórca nazwy „ekonometria” - Frisch (1936 r.)
Dawna definicja ekonometrii: „unifikacja ekonomii, statystyki i matematyki”
Frisch przeprowadził doświadczenie zakłóconego ruchu wahadła
Ekonometria - mierzenie w ekonomii - zastosowanie metod statystycznych i matematycznych do analizy danych ekonomicznych celu nadania teoriom ekonomicznym kontekstu empirycznego oraz ich potwierdzenia bądź odrzucenia.
Ma zastosowanie praktycznie, nie powstają modele teoretyczne. Modele praktyczne mają wspomagać przewidywanie przyszłości i podejmowanie decyzji.
Historia metod ekonometrycznych:
Era 1
Era klasycznej metody najmniejszych kwadratów.
Era modeli N.Tinbergena
Era 2
Rozwój metod estymacji 2MNK, 3MNK, metoda zmiennych instrumentalnych. Powstały modele gospodarek Kleina I oraz II, Kleina-Goldbergera (1955 r.)
Model Kleina-Goldbergera złożony był z 23 równań. Jeden z nich służył opisaniu rozwoju gospodarki USA w okresie 1929-1952 z wyłączenie lat wojny 1942-1945 (USA kolebką ekonometrii jak Wielka Brytania kolebką statystyki).
Era 3
Zastosowanie analizy mnożnikowej - postać końcowa dynamicznego modelu ekonometrycznego.
Era 4
Wprowadzenie analizy spektralnej do ekonometrii. Prekursorzy analizy spektralnej to Jevons i Moore. Lata sześćdziesiąte to ponowne wprowadzenie analizy spektralnej.
Era 5
Powszechna komputeryzacja
Powstają makromodele będące podstawą symulacji i prognozowania. Metody input-output.
Era 6
Rozwój makromodelowania. Budowa modeli międzynarodowych obejmujących całe kontynenty, jak również świat. Tego typu modele zaliczane są do modeli budowanych w ramach systemu LINK (Link Project Forecast 1983 r.)
Model ekonomiczny a model ekonometryczny
Model ekonomiczny to zbiór założeń, które w sposób przybliżony opisują zachowanie się gospodarki/sektora gospodarki.
Model ekonometryczny to:
zbiór równań behawioralnych
deklaracja czy obserwowane zmienne zawierają błędy obserwacji
specyfikacja błędów pomiaru - zakłóceń
Model ekonomiczny:
Ekonomiczne modelowanie ceny
q = α + βp β<0 gdzie q - popyt
p - cena
β<0
Równanie przy pewnych założeniach nie musi tak działać w rzeczywistości.
Teoria ekonomii rzadko daje odpowiedź na temat postaci funkcyjnej proponowanych zależności - są to przemyślenia, teoria.
Równanie behawioralne
zmienne obserwowane
/ \
q = α + βp + u zakłócenie losowe
część deterministyczna
Zakłócenie losowe zbiera zakłócenia modelu, skupia błędy; to część stochastyczna modelu. Zakłada się, że realizacje składnika losowego pochodzą z rozkładu normalnego.
Zakłócenie losowe u
Specyfikacja rozkładu prawdopodobieństwa zmiennej u:
1) E (u | p) = 0 („cena nie jest skorelowana z zakłóceniem losowym”)
2) wartości zmiennej u dla różnych obserwacji mają wzajemnie niezależne rozkłady normalne ze średnimi równymi 0 i wariancjami równym
.
Cele ekonometrii:
formułowanie modeli ekonometrycznych - formułowanie modeli ekonomicznych w postaci nadającej się do weryfikacji empirycznej (istotne są moce obliczeniowe)
estymacja i weryfikacja modeli ekonometrycznych
zastosowanie modeli do prognozowania i symulacji (i również opisu sytuacji w sensie statycznym, w określonym momencie czasu)
Ekonometryczna analiza budowy:
Teoria ekonomiczna lub model - model ekonometryczny, dane - estymacja - testowanie specyfikacji oraz weryfikacja modelu (diagnostyka) - czy model jest odpowiedni?
Konkluzje
ekonometria nie ma wyraźnie określonych granic.
należy rozważać ją w powiązaniu z:
ekonomią matematyczną - zajmującą się matematycznym formułowaniem teorii ekonomicznych
teorią ekonometrii - konstrukcja modeli ekonometrycznych i opisu danych
statystyką ekonomiczną - zbieranie, gromadzenie i organizacja danych statystycznych
Jednorównaniowy model ekonometryczny:
Specyfikacja modelu - pewien proces - określa się poniższe elementy:
Y = f(x1, … xk, ξ )
zmienna endogeniczna (w naszych rozważaniach zawsze będzie ilościowa, choć ogólnie nie musi być)
cel badania (np. bezrobocie, płace, populacja ludności)
x1, … xk, - zmienne objaśniające (zbiór nigdy nie jest zamknięty)
ξ - ksi - składnik losowy
f - postać analityczna modelu (wybierana w momencie analizy statystycznej)
Rozpatrując budowę modelu można wyróżnić następujące jego części:
część deterministyczna część stochastyczna modelu
Yt = a1X1t + a0 + ξt
\ /
parametry strukturalne modelu parametr wolny
Jest to model przyczynowo-skutkowy - pokazuje zależności miedzy Y i X.
Etapy budowy modelu ekonometrycznego
Określenie celu oraz zakresu badania.
Specyfikacja modelu ekonometrycznego (baza danych, wybór równania, etc.).
Zgromadzenie odpowiednich danych statystycznych.
Estymacja parametrów modelu ekonometrycznego.
Weryfikacja oszacowanego modelu.
Praktyczne wykorzystanie modelu ekonometrycznego.
Klasyfikacja modeli ekonometrycznych.
Ze względu na cele budowy modelu ekonometrycznego oraz typy modeli:
modele analityczno-opisowe (opisują stan podmiotu czy celu naszego badania)
modele prognostyczny (większość modeli dynamicznych)
symulacje i sterowania (związane z cybernetyką)
Miary jakości modelu ekonometrycznego:
stopień dopasowania modelu do danych empirycznych
dokładność parametrów modelu
wartość informacyjna modelu
sensowność interpretacji parametrów (jest jeden aekonomiczny model, pozbawiony sensownej interpretacji parametrów - model wektorowo-autoregresyjny, badający co dzieje się z podmiotem po uderzeniach losowych, kiedy podmiot dociera do swojej zwyczajowej ścieżki)
wartość prognostyczna modelu (jak daleko w przyszłość możemy przewidywać)
Klasy modeli
- liniowy
Yt = α1X1t + α2X2t + α3X3t + α0 + ξ
regresji trzech zmiennych
liniowy
dynamiczny
Yt = βtYt-1 + α1X1t + α2X2t + α0 + ξ
opóźniona w czasie zmienna - a więc model dynamiczny
sytuacja autoregresyjna - zmienna sama na siebie wpływa
- hiperboliczny - model nieliniowy, sprowadzany do postaci liniowego
- kwadratowy niezupełny
- krzywe logistyczne (trend logistyczny)
Ze względu na udział czynnika czasu modele ekonometryczne dzielimy na statyczne i dynamiczne.
Yt = α1t + α0 + ξt
trend liniowy (tendencja rozwojowa)
DOBÓR ZMIENNYCH OBJASNIAJĄCYCH DO MODELU EKONOMETRYCZNEGO
METODA ANALIZY WSPÓŁCZYNNIKÓW KORELACJI
Jest to metoda dla analizy danych, których przebiegi mają charakter liniowy.
Badanie poziomu zróżnicowania zmiennych
„nie zawsze zmienna jest zmienną”; zmienna musi wykazywać zróżnicowanie wewnętrzne
Współczynnik zmienności dany następującą formułą:
gdzie
Si - odchylenie standardowe zmiennej
- średnia arytmetyczna zmiennej
Można przyjąć a priori pewien poziom krytyczny dla współczynnika zmienności .Zwykle jest to
V*=0,1
Więc jeżeli Vi < V* to wewnętrzne zróżnicowanie jest zbyt niewielkie, by wykorzystać ją w modelu ekonometryczny - brak zróżnicowania więc brak możliwości stosowania metod ilościowych.
Współczynnik korelacji liniowej Pearsona
Wartości współczynnika korealni Pearsona zawiera się w przedziale [-1, 1] i dany jest następującą formułą:
kowariancja
odchylenia standardowe
Wykresy rozrzutu:
dodatnia zależność liniowa między zmiennymi (x rośnie, y rośnie)
ujemna zależność liniowa między zmiennymi (x rośnie, y maleje);
brak zależności
zależność krzywoliniowa.
Badanie istotności współczynnika korelacji liniowej:
H0: rxy = 0
H1: rxy ≠ 0
Sprawdzianem hipotezy jest statystyka testowa testu Studenta, dana jako:
W momencie testu nie interesuje nas kierunek zależności, a jedynie jej siła.
Interpretacja:
Jeżeli tα ≥ t nie ma podstaw do odrzucenia hipotezy zerowej - brak istotnej korelacji
Jeżeli tα < t to hipotezę zerową należy odrzucić na korzyść hipotezy alternatywnej.
Zasady wyboru zmiennych:
Zmienna endogeniczna yt jest istotnie z punktu widzenia statystycznego skorelowana z poszczególnymi zmiennymi objaśniającymi.
Zmienne objaśniające z punktu widzenia statystycznego są między sobą nieistotnie skorelowane (x1, x2 etc. nie są ze sobą skorelowane - inaczej tak samo wpływałyby na y; jeśli są skorelowane, wybiera się tą, która wpływa na y silniej)
Przykład
Macierz współczynników korelacji:
kwadratowa
symetryczna
Sprawdzamy czy korelacja między x1 i x2 jest istotna:
Przyjmijmy, że poziom istotności 5 % (α=0,05 - na 100 decyzji 5 razy popełnimy błąd).
Wartość krytyczna dla α=0,05 oraz n - 2=18 (18 stopni swobody, przy założeniu, że n- liczba realizacji zmiennych - to 20): tα = 2,101
Hipotezy są dane jako:
H0:
= 0
H1:
≠ 0
Statystyka testowa dana jest jako:
Brak podstaw do odrzucenia hipotezy zerowej. Zmienne x1 i x2 są od siebie niezależne, mogą pełnić role zmiennych objaśniających (odniesienie do drugiej zasady).
Estymacja parametrów strukturalnych modelu ekonometrycznego
Klasyczna Metoda Najmniejszych Kwadratów (KMNK).
Idea KMNK
Wyznaczenie ocen a1, a2,… ak parametrów strukturalnych parametrów (alfa)1, (alfa)2, (alfa)3 strukturalnych aby suma kwadratów odchyleń zaobserwowanych wartości zmiennej endogenicznej Yt od jej wartości teoretycznych obliczonych na podstawie oszacowanego modelu była najmniejsza..
Jeżeli mamy kilka modeli, to wybrać należy ten, dla którego ta suma jest jak najmniejsza.
Dany jest jednorównoaniowy model ekonometryczny:
Yt = a1X1t + a2X2t +…+ ak-1X(k-1)t + ak + ξt
t=1,2,…,n
Przy czym k-ta zmienna objaśniająca przyjmuje zawsze wartość 1 (tak więc parametr występujący przy niej jest nazywany parametrem wolnym)
Kryterium MNK ma następującą postać:
Czysty świat teoretyczny to wzór po eliminacji czynnika losowego.
Ostatecznie postać funkcji kryterium KMNK dana jest jako:
WYKŁAD 2 22.03.2011
Zastosowanie KMNK wymaga spełnienia następujących założeń (założenia klasyczne):
postać modelu jest liniowa względem parametrów (bądź sprowadzalna do liniowej)
zmienne objaśniające są wielkościami nielosowymi
zmienne objaśniające nie wykazują współliniowości - co oznacza brak dokładnej zależności liniowej
Składnik losowy -> ξ - > E(ξ) = 0
D2 (ξ) = σ2
Nie występie autokorelacja składnika losowego:
E(ξ i, ξ j) = 0 dla i ≠ j
Jest to miara pamięci czynnika losowego, która w czasie zanika.
Jeśli autokorelacja występuje, oznacza to, że realizacje są zależne od siebie; model musi zostać poprawiony.
Kowariancja składnika losowego nie zależy od zmiennych objaśniających - składnik losowy nie jest skorelowany ze zmiennymi objaśniającymi.
Przykład. Jedna zmienna objaśniająca. Regresja jednej zmiennej.
Na podstawie danych statystycznych zamieszczonych w tablicy oszacować parametry strukturalne modelu produkcji:
Yt = α1X1t + α0 + ξt
Yt - produkcja [tys. szt.]
X1t - zatrudnienie [osoby]
Z wykresu można zobaczyć znak zależności dodatnią oraz siłę, która jest tym większa, im bardziej punkty są skupione. Nachylenie wykresu mniej więcej 45 stopni. Jeśli dorysowałoby się linię regresji, powinna ona przebiegać jak najbliżej każdego z tych punktów.
Następnie można rozpisać wykres produkcji w czasie; świat teoretyczny modelu, który generujemy, ma być jak najbardziej podobny do modelu świata rzeczywistego, widocznego na wykresie.
Kolumnowy wektor realizacji zmiennej endogenicznej oraz macierz X realizacji zmiennych objaśniających dane są jako:
35,2 28 1
33,8 24 1
Y = : X = : :
46, 8 32 1
Stosując formułę na wektor ocen parametrów strukturalnych czyli:
a = (X' X)-1 X' Y
18 537 597 0,0014 - 0,0417
X'X = (X' X)-1 =
597 20 - 0,0417 1,2935
Główna przekątna dodatnia - na niej wariancje estymatorów.
26772,3 1,3203
X' Y = a = Yt = 1,3203 X1t + 3,8483 + ut
865,2 3,8483
parametr wolny
Trzeba się upewnić czy możemy interpretować model.
Parametr musi mieć taki sam znak, jak współczynnik korelacji Pearsona.
Zagadnienie koincydencji.
Dany jest model:
Yt = 1,3203 X1t + 3,8483 + ut
oraz współczynnik korelacji liniowej Pearsona miedzy produkcją a zatrudnieniem.
r = 0,9349
Więc zmienna jest koincydentalna.
Jeśli parametr ma inny znak niż współczynnik korelacji Pearsona, oznacza to, że zbieżność jest pozorna.
Zasady koincydencji głosi, że
sgn (rx,y) ≡ sgn (ai)
stąd wynika, że:
sgn (rX1t,Yt) ≡ sgn (a1)
Wzrost zatrudnienia o jeden etat spowoduje przeciętny wzrost wielkości produkcji o 1,32 tys. szt.
a0 = 3,8483 tys. szt. Taką przeciętną wartość przyjmie wielkość produkcji w przypadku gdy zatrudnienie będzie równe zero. Nawet przy braku sensownej interpretacji, podaje się ją i tak.
Weryfikacja modelu.
Wartości teoretyczne modelu dane są następująca formułą:
Yt* = 1,3203 X1t + 3,8483
wartości teoretyczne modelu
Zatem mamy:
Y1* = 1,3203 * 28 + 3,8483 = 40,8174
Y2* = 1,3203 * 24 + 3,8483 = 35,5361
: : : : :
Y20* = 1,3203 * 32 + 3,8483 = 46,0979
Sprawdzamy czy na wykresie wartości teoretyczne i empiryczne są podobne; szczególnie w ostatnim okresie ważne jest, żeby wartości te były możliwie bliskie, a nie rozbieżne (gdy są rozbieżne, w przyszłości model może dawać niedopuszczalną prognozę - niezgodną z rzeczywistością). Należy też przyjrzeć się elastyczności modelu - kiedy model zareagował na zmianę.
Efekt postarzania informacji - kiedy najstarsza informacja ma wpływ na wynik. W niektórych modelach można eliminować ten wpływ (np. przypisując wagi do obserwacji, mniejsze wagi obserwacjom starszym, a większe obserwacjom młodszym). Przeciwdziałamy temu, ponieważ wolimy prognozować na podstawie jak najmłodszych danych.
Reszty modelu.
Reszta modelu dana jest następującą formułą:
ut = yt - yt*
Składniki resztowe powinny być symetryczne ze względu na znak (podobna ilość reszt dodatnich i ujemnych).
stąd
u1 = 35,2 - 40,8174 = - 5,6174
u2 = 33,8 - 35,5361 = - 1,7361
: : : :
u20 = 46,8 - 46,0987 = 0,7013
Jeśli suma jest < 0 można powiedzieć, że w danym punkcie model jest przeszacowany (świat teoretyczny większy od rzeczywistego), jeśli jest > 0 możemy mówić, że w danym punkcie model jest niedoszacowany (świat teoretyczny mniejszy od rzeczywistego). Sytuacja idealna - gdy reszty wynoszą 0.
Miarą, która pokazuje syntetycznie przeciętny poziom błędu i jakie jest je zróżnicowanie jest wariancja resztowa.
Wykres przebiegu reszt w czasie - widzimy, że reszty są symetryczne w czasie względem osi OX.
Przy podzieleniu wykresu na dwie części wariancje z I i II części wykresu powinny być równe (nie powinny być zmienne w czasie).
Jeżeli wariancje są różne w czasie i różnica między nimi jest statystycznie istotna, mamy do czynienia z heteroskedastycznością składnika losowego. Jest to odejście od założeń KMNK, model trzeba poprawić, nie można stosować KMNK. Niestety, czasem po usunięciu heteroskedastyczności model przestaje być interpretowalny.
Jeśli różnicy nie ma, mamy do czynienia z homoskedastycznym składnikiem losowym.
Własność heteroskedastyczności wykorzystywana jest w analizie ryzyk, analizie finansowych szeregów czasowych.
Drugi odstępstwem od założeń KMNK jest autokorelacja. Gdy realizacje reszt są na przemian, spodziewamy się autokorelacji ujemnej, gdy nie są - autokorelacji dodatniej.
Wariancja (błąd) może być wysoki, byle był stały.
Miary struktury stochastycznej.
Wariancja resztowa i odchylenie standardowe reszt:
n = 20; k = 20
stąd
su2 = 9,9930 [tys. szt.]2
su = 3,1612 [tys. szt.]
Interpretacja ekonometryczna Su: rzeczywiste realizacje zmiennej endogenicznej yt odchylają się średnio rzecz biorąc in plus bądź in minus o 3,1612 tys. szt. od wartości teoretycznych, wyznaczonych przez model.
Macierz wariancji i kowariancji oraz średnie błędy szacunku:
0,0139 - 0,4163
D2(u) = = su2 * (X' X)-1
- 0,4163 12,9258 (wyskalowana macierz (X' X)-1 )
Średnie błędy szacunku:
Yt = 1,3203 Xt + 3,8483 + ut
(0,1181) (3,5952)
Jest to badanie precyzji oszacowania parametrów modelu.
Jeśli chodzi o parametr zmiennej X1t błąd jest niski; parametr będzie istotnie różny od zera w modelu (i tym samym statystycznie istotny).
Parametr wolny ma błąd istotny, prawdopodobnie będzie statystycznie nieistotny.
Jeśli parametr przy zmiennej X1t jest wysoki i parametr tym samym będzie nieistotny, usuwa się ten regresor (parametr) z modelu (bo nie wpływa istotnie na Y).
Parametr wolny często jest nieistotny.
Badanie istotności parametrów wpływa na interpretację modelu.
Miary dopasowania modelu do danych empirycznych
(badanie jakości modelu)
Współczynniki zbieżności
_
Y = 46,32 [tys. szt.]
Suma kwadratów reszt wg KMNK musi być minimalna.
stąd:
φ2 = 12,59 [%]
mówi o poziomie wariancji zmiennej Y (zróżnicowania Y), jaki nie został wyjaśniony przez model
W tym przypadku dość duża część zmian nie została wyjaśniona przez model, ponieważ:
pominięcie istotnych czynników objaśniających - nie uwzględniono wszystkich istotnych czynników, które wpływają na poziom produkcji (np. ze względu na brak danych)
błędy w estymacji
Zatem współczynnik determinacji wynosi:
R2 = 87,4 [%]
87,4 % przeciętnego poziomu zmiennej endogenicznej Yt zostało wyjaśnione przez model ekonometryczny.
W modelach klasycznych nie jest to dobry wynik; dobry wynik to 95% i więcej.
Przy zbyt niskim R2 model nie może być wykorzystywany do prognozowania.
Miarę tą charakteryzuje również pewien błąd (wzrasta wraz z liczbą zmiennych objaśniających skorelowanych z y). By tego uniknąć, należy liczyć skorygowany wskaźnik R2.
Współczynnik zmienności losowej wynosi:
Vs = 7,3 [%]
Vs to poziom wahań przypadkowych zmiennej endogenicznej Yt.
Jest to miara uzupełniająca do R2, nie funkcjonuje samodzielnie. Jeśli jest niskie R2, prawdopodobnie Vs będzie wysokie.
Random walk - jeśli mamy proces, który jest błądzeniem przypadkowym, nie jesteśmy w stanie zbudować modelu, nie da się przebiegu tych procesów prognozować.
Regresja wielu zmiennych - dwuczynnikowa funkcja produkcji.
Na podstawie danych statystycznych zamieszczonych w tablicy oszacować parametry strukturalne modelu produkcji:
Yt = α1X1t + α2X2t + α0 + ξ
Yt - produkcja [tys. szt.]
X1t - zatrudnienie [osoby]
X2t - majątek [tys. zł.]
Spodziewamy się, zgodnie z koincydencją, przy obu współczynnikach regresji dodatnich, parametrów dodatnich.
35,2 28 34 1
33,8 24 41 1
Y = : X = : : :
46, 8 32 55 1
x1 x2 parametr wolny
Stosując formułę na wektor ocen parametrów strukturalnych, czyli:
a = (X' X)-1 X' Y
18 537 36 194 597 0,0100 - 0,0024 - 0,1653
X'X = 74 359 1 125 (X' X)-1 = 0,0006 0,0339
20 3,0769
26772,3000 1,1085
X' Y = 52207,3000 a = 0,0581
865,200 6,9042
Stąd model po oszacowaniu przyjmie następującą postać:
Yt = 1,1085 X1t + 0,0581 X2t + 6,9042 + ut
Wzrost zatrudnienia X1t o 1 osobę spowoduje przeciętny wzrost produkcji Yt o 1,1085 tys. szt. pod warunkiem, że majątek X2t nie ulegnie zmianie.
Wzrost majątku X2t o 1 tys. zł. spowoduje przeciętny wzrost produkcji o Yt o 0,0581 tys. szt. pod warunkiem, że zatrudnienie X1t nie ulegnie zmianie.
a0 = 6,9042 taką średnią wartość przyjmie wielkość produkcji Yt w przypadku gdy zatrudnienie X1t i majątek X2t będą równie 0.
Zagadnienie koincydencji - podwójne, związane z X1t i z X2t. Obie zmienne są koincydentne. Zmienną koincydentną trzeba usunąć z modelu i jeszcze raz oszacować model.
Weryfikacja modelu
Wartości teoretyczne modelu dane są następującą formułą:
Yt* = 1,1085 X1t + 0,0581 X2t + 6,9042
Y1* = 1,1085 * 28 + 0,0581 * 34 + 6,9042 = 39,9165
: : : : :
Y20* = 1,1085 * 32 + 0,0581 * 55 + 6,9042 =
WYKŁAD 3 05.04.2011
T: WŁASNOŚCI ESTYMATORÓW
Własność 1. Estymator nieobciążony.
Estymator jest nieobciążony jeżeli jego wartość oczekiwana (nadzieja matematyczna) jest równa estymowanemu parametrowi (nieznanemu parametrowi α)
E(a) = α
Dla modelu danego jako:
y = Xa + ξ
Wektor parametrów strukturalnych dany jest jako:
a = (X'X)-1X'Y
Wektor ocen parametrów jest nieobciążonym, czyli:
E(a) = E[(X'X)-1X'Y] = E[(X'X)-1X'*(Xα + ξ)
Jeśli model tak wygląda, każda wielkość będzie wielkością oczekiwaną.
Ponieważ zmienne X (objaśniające) są nielosowane, więc:
E(α) = α
E(ξ) = 0
Wartość współczynnika losowego równa jest zero. Z punktu widzenia poziomu przeciętnego wartości ξ są takie same.
Stąd estymator parametrów strukturalnych jest nieobciążony, jeżeli:
Zmienne objaśniające są nielosowe - kowariancja składnika losowego nie zależy od zmiennych objaśniających.
E(Xξ) = 0
Nie występuje zależność między zmiennymi i losowymi a składnikiem losowym
Składnik losowy ma wartość oczekiwaną równą zero:
E(ξ) = 0
Własność 2. Estymator zgodny.
Estymator parametru α jest zgodny jeżeli jest stochastycznie zbieżny do szacowanego nieznanego parametru α.
Im więcej obserwacji, tym lepiej. Przeładowanie modelu informacjami może jednak narazić nas na efekty postarzania informacji etc.
Oznacza to, że przy wzroście liczby obserwacji do nieskończoności jego wartość dąży stochastycznie do prawdziwej wartości parametru
W tym momencie wariancja składnika losowego będzie coraz mniejsza - popełniamy coraz mniejszy błąd między teoretycznym modelem a rzeczywistością.
Jeżeli wraz ze wzrostem liczebności próby oczekiwana wartość rozkładu estymatora zmierza do wartości szacowanego parametru, a jednocześnie wariancja estymatora zmierza do zer, to estymator taki jest zgodny.
Własność 3. Estymator efektywny.
Przy danych kilku estymatorach zgodnych i nieobciążonych estymatorem najefektywniejszym jest ten, który posiada najmniejszą wariancję.
Zastosowanie estymatora powoduje generowanie określonych błędów; zwraca się uwagę na procedury testowania estymatorów, by błąd z estymacji był jak najmniejszy, szczególnie w modelach finansowych.
Jeżeli spełnione są założenia klasycznej metody najmniejszych kwadratów (dotyczące składnika losowego oraz zmiennych objaśniających) to estymator:
a = (X'X)-1X'Y
Jest najefektywniejszym spośród estymatorów liniowych, gdzie jego wariancja dana jest następującą formułą:
D2(α) = σ2 (X'X)-1
Wynikiem jest symetryczna macierz wariancji-kowariancji - na głównej przekątnej znajdują się wariancje estymatorów. Pierwiastki z nich to odchylenia standardowe, przyporządkowane parametrom na poziomie przeciętnym. Nazywa się to średnimi błędami szacunku i mówi o tym jak dobrze oszacowaliśmy model. W estymatorze zgodnym odchylenia te będą miały wartość 0. Generuje on idealny model teoretyczny.
Założenia klasyczne MNK w odniesieniu do własności estymatorów:
jeżeli zmienne objaśniające są współliniowe, to nie istnieje estymator dany formułą:
a = (X'X)-1X'Y
ponieważ nie istnieje macierz odwrotna do macierzy X'X, ponieważ wyznacznik macierzy jest równy zero, czyli: det(X'X) = 0
Zdarza się to gdy wprowadzamy zmienne sztuczne, naśladujące.
jeżeli wariancja składnika losowego nie jest stała (model nie spełnia zależności klasycznych modeli), to:
a = (X'X)-1X'Y
jest nieobciążony i zgodny, ale nie jest już najefektywniejszy.
jeżeli składnik losowy jest zależny:
cov(ξt,ξt+1) ≠ 0
a w zbiorze zmiennych objaśniających nie ma zmiennej endogenicznej opóźnionej w czasie, to:
a = (X'X)-1X'Y
jest nieobciążony i zgodny, ale nie jest już najefektywniejszy.
jeżeli składnik losowy jest zależny
cov(ξt,ξt+1) ≠ 0
a w zbiorze zmiennych objaśniających istnieje zmienna endogeniczna opóźniona w czasie, to:
a = (X'X)-1X'Y
nie jest zgodny; nie dążymy do prawdziwej realizacji parametru
jeżeli wariancja składnik losowego jest funkcją zmiennych objaśniających, to estymator:
a = (X'X)-1X'Y
nie jest zgodny.
Klasyczne założenia dotyczące składnik losowego
Dana jest macierz wariancji i kowariancji składnika losowego:
D2(ξ1) E(ξ1 ξ2) E(ξ1 ξ3) … E(ξ1 ξn)
E(ξ2 ξ1) D2(ξ2) E(ξ2 ξ3) … E(ξ2 ξn)
E(ξ ξ') = … … … … …
E(ξn ξ1) E(ξn ξ2) E(ξn ξ3) … D2(ξn)
Macierz wariancji i kowariancji składnika losowego jest:
macierzą kwadratową i symetryczną o wymiarach (n*n)
na głównej przekątnej znajdują się wariancje składników losowych poszczególnych okresów (w przypadku szeregów czasowych) natomiast poza główną przekątną znajdują się kowariancje między składnikami losowymi poszczególnych okresów.
Można wyróżnić cztery sytuacje ze względu na macierz wariancji i kowariancji składnika losowego.
One właśnie podlegają weryfikacji:
Sytuacja 1. Spełnione założenia MNK.
wariancja jest jednorodna (jedna, stała w czasie)
D2(ξ1) = D2(ξ2) = … = D2(ξn) = σ2
brak autokorelacji, czyli składnik losowy jest niezależny (autokorelacji rzędu pierwszego)
E(ξt,ξt+τ) = 0 dla każdego τ > 0
Wówczas macierz wariancji i kowariancji ma następującą postać:
σ2 0 … 0
0 σ2 … 0 σ2 - wariancje składnika losowego
… … … … = σ2 In In - macierz jednostkowa
0 0 … σ2
Sytuacja 2. Nie jest spełnione założenie o jednorodności wariancji składnika losowego.
W takiej sytuacji - odstępstwa od założeń MNK - można udoskonalić model przez doestymowanie modelu, stosując uogólnioną metodę MNK - zminimalizuje to niestałość wariancji w czasie (bo model ma być modelem prognostycznym i gdy wystąpi wysoka wariancja, jest zagrożenie dużego błędu w przyszłości).
Oznacza to, iż
D2(ξ1) ≠ D2(ξ2) ≠ … ≠ D2(ξn) ≠ σ2
A składnik losowy jest niezależny nie występuje autokorelacja składnika losowego, tzn.
E(ξt, ξt+τ) = 0 dla każdego τ > 0
Wówczas macierz wariancji i kowariancji składnika losowego jest macierzą diagonalną ma postać:
D2(ξ1) 0 0 … 0
E(ξ ξ') = 0 D2(ξ2) 0 … 0
… … … … …
0 0 0 … D2(ξn)
Wariancja ma tendencje do tego, że niskie poziomy wariancji grupują się razem, a wysokie poziomy wariancji - również razem.
Sytuacja 3. Jeżeli spełnione jest założenie o jednorodności wariancji składnika losowego, czyli
D2(ξ1) = D2(ξ2) = … = D2(ξn) = σ2
(homoschedastyczny składnik losowy)
a składnik losowy jest zależny (występuje autokorelacja składnika losowego) trzeba zastanowić się co może powodować autokorelację,
Autokorelacja może występować wskutek:
pominięcia istotnej zmiennej objaśniającej w modelu
nieprawidłowego określenia opóźnień zmiennych objaśniających
Poprawianie modelu:
uzupełnienie brakującej zmiennej
korekta opóźnień
Jeśli to nie pomoże - doszacowanie modelu uogólnioną metodą MNK; po poprawieniu model traci jednak na efektywności.
Wówczas macierz wariancji i kowariancji składnika losowego jest macierzą symetryczną i ma następującą postać:
1 ρ12 ρ13 … ρ1n
E(ξ ξ') = ρ21 1 ρ23 … ρ2n
… … … … …
ρn1 ρn2 ρn3 … 1
(współczynniki autokorelacji miedzy składnikiem losowym i-tego i j-tego okresu)
Sytuacja 4. Jeżeli nie jest spełnione założenie o jednorodności wariancji składnika losowego czyli
D2(ξ1) = D2(ξ2) = … = D2(ξn) = σ2
oraz nie jest spełnione założenie o braku autokorelacji, czyli występuje sytuacja, w której
E(ξt, ξt+τ) ≠ 0
Wówczas macierz wariancji i kowariancji składnika losowego jest macierzą symetryczną i ma następującą postać:
D2(ξ1) E(ξ1 ξ2) E(ξ1 ξ3) … E(ξ1 ξn)
E(ξ2 ξ1) D2(ξ2) E(ξ2 ξ3) … E(ξ2 ξn)
E(ξ ξ') = … … … … …
E(ξn ξ1) E(ξn ξ2) E(ξn ξ3) … D2(ξn)
W tej sytuacji należy poprawić autokorelację
Modele nieliniowe sprowadzalne do liniowych
Model hiperboliczny
Oszacować model o postaci:
Na podstawie danych statystycznych zamieszczonych w tablicy, gdzie:
Yt - wielkość sprzedaży [sztuki]
X1t - cena [100 PLN]
Interpretuje się zawsze parametry postaci nieliniowej!
Model należy sprowadzić do postaci liniowej:
Stąd model będzie liniowy ze względu na zmienną Gt
Nigdy nie interpretuje się parametru przy zmiennej Gt.
Stosując metodę MNK:
a = (X'X)-1X'Y
Powstaje macierz realizacji X i Y, ostatecznie otrzymuje się wektor ocen parametrów strukturalnych. Można przejść do postaci nieliniowej przez postać liniową lub bezpośrednio.
Ostatecznie otrzymujemy:
Postać pierwsza:
NIE INTERPRETUJEMY WSPÓŁCZYNNIKA PRZY G!
Postać druga i ostateczna:
Wzrost ceny o jednostkę spowoduje spadek wielkości sprzedaży o 1,17 jednostki.
W modelach hiperbolicznych weryfikuje się postać liniową i jeśli wynik jest pozytywny, można przenieść wyniki na model nieliniowy.
Weryfikacja modelu ekonometrycznego
Oznacza to:
zbadanie czy oszacowany model jest zgodny z rzeczywistością (kierunek wpływu zmiennych objaśniających jest zgodny z rzeczywistością)
zbadanie czy model ekonometryczny jest wystarczająco precyzyjny,
zbadanie czy zmienne objaśniające istotnie wpływają na zmienną endogeniczną - gdy badamy jakość modelu i liczymy współczynnik determinacji, możemy go spierwiastkować i uzyskać współczynnik korelacji wielorakiej i możemy testować na istotność (współczynnik korelacji wielorakiej mówi o łącznym wpływie zmiennych objaśniających na zmienną endogeniczną)
zbadanie czy spełnione są założenia MNK
brak jednego, sprawdzonego sposobu na weryfikację modelu ekonometrycznego, ale część elementów należy do procedury standardowej.
Miary struktury stochastycznej:
Wariancja resztowa i odchylenie standardowe reszt
Przy spełnionych warunkach MNK nieobciążonym estymatorem wariancji reszto wje jest wariancja resztowa wyznaczona według następującej formuły:
Im wariancja resztowa jest mniejsza, tym lepiej.
Reszta ujemna - przeszacowanie - wartość teoretyczna wyższa od rzeczywistej.
Reszta dodatnia - niedoszacowanie - wartość teoretyczna niższa od rzeczywistej.
Reszty powinny być symetryczne ze względu na znak (tyle samo niedoszacowań i przeszacowań).
Pierwiastek kwadratowy z wariancji resztowej daje tzw. odchylenie standardowe reszt czyli:
Interpretacja odchylenia standardowego
Odchylenie standardowe informuje o ile średnio rzecz biorąc In plus bądź In minus odchylają się rzeczywiste realizacje zmiennej endogenicznej od wartości teoretycznych wyznaczonych przez model.
Macierz wariancji i kowariancji oraz średnie błędy szacunku
Przy spełnionych warunkach MNK macierz wariancji i kowariancji dana jest następującą formuła:
D2(a) = σ2 (X'X)-1
gdzie
σ2 = Su2
D2(α) = Su2 (X'X)-1
Miary struktury stochastycznej (wariancja resztowa oraz macierz wariancji i kowariancji) modelu związane są ze zmienną ξt.
Miarą precyzji estymacji parametrów strukturalnych αt są średnie błędy szacunku
Kwadraty błędów szacunku znajdują się na głównej przekątnej macierzy wariancji i kowariancji. Pierwiastek wariancji estymatora daje zatem średni błąd szacunku dla danego parametru ai
Miary dopasowania modelu do danych empirycznych
Jest to badanie jakości modelu:
Współczynnik zbieżności
Dany jest następującą formułą:
przyjmuje wartości z przedziału <0,1>
im φ2 jest bliższe bądź równe 1 tym słabiej wyjaśniona została wariancja zmiennej Yt (tym gorzej model wyjaśnia zmienność Y)
Współczynnik determinacji
Jest miarą alternatywną w stosunku do współczynnika zbieżności i dany jest następującą formułą:
R2=1 - φ2
przyjmuje wartości z przedziału <0,1>
im bliżej bądź równy 1 tym lepiej wyjaśniona została wariancja zmiennej Yt
po spierwiastkowaniu uzyskuje się współczynnik korelacji wielorakiej czyli łączny wpływ wszystkich zmiennych endogenicznych na zmienną Yt i podlega testowaniu
wada: im więcej zmiennych w modelu tym wyższe R2, nawet jeśli wprowadzone dodatkowe zmienne nie są istotne dla modelu
Skorygowany współczynnik determinacji:
n - liczba obserwacji
m- liczba zmiennych objaśniających
Skorygowane R2 jest zawsze niższe od R2
Liczy się go najczęściej gdy model ma mieć zastosowanie prognostyczne.
Współczynnik zmienności losowej
Dany jest następującą formuła:
Jest to miara uzupełniająca do miary jakości modelu. Im wyższe Vs tym niższe R2.
Współczynnik zmienności losowej informuje jaką część średniego poziomu zmiennej endogenicznej stanowią wahania przypadkowe.
R2 stosujemy wyłącznie dla modeli liniowych.
Dla modeli nieliniowych istnieją inne wskaźniki.
WYKŁAD 4 19.04.2011
WERYFIKACJA MODELI EKONOMETRYCZNYCH
Przedział ufności dla parametru strukturalnego modelu dany jest następującą formułą:
{ ai - tα * D(ai) < ai < ai + tα * D(ai) } = γ
Przykład
Oszacowano model ekonometryczny i uzyskano następujące wyniki:
Yt = 2X1t - 5X2t + 1 + ut
(1) (2) (0,5)
n = 20 n-k = 20 -3 =17 α = 0,05 tα = 2.11
tα przy n-k stopni swobody, przedziale istotności α.
Przedział ufności dla parametru stojącego przy zmiennej X1t
{2 - 2,11 * 1 < a1 < 2 + 2,11 *1} = 0,95
{ -0,89 < a1 < 4,11 } = 0,95
Przedział ufności - na 100 przedziałów 95 razy przedział pokryje prawdziwą wartość parametru strukturalnego.
Przedział istotności - na 100 przedziałów 5 razy przedział nie pokryje prawdziwej wartości parametru strukturalnego.
Przyczyny nieistotności wpływu zmiennych objaśniających na zmienną endogeniczną:
mała dokładność lub nieodpowiedniość danych statystycznych
mała dokładność technik estymacji
niewłaściwa postać analityczna modelu
pominięcie istotnych zmiennych objaśniających
przyczyny wynikające z losowości próby
Test Fishera Snedecora - test F
Dotyczy wszystkich parametrów łącznie, z pominięciem wyrazu wolnego:
H0 - parametry nieistotne
H1 - parametry są istotne
H0: α = … = αk = 0
H1: α ≠ … ≠ αk ≠ 0
Statystyka testu dana jest następującą formułą:
r1 = K r2 = N - K - 1
Gdzie
N - liczba obserwacji
K - liczba zmiennych objaśniających
R2 - współczynnik determinacji
Statystyka F - założony poziom istotności 0,05; wychodzą bardzo wysokie wyniki.
Decyzja:
F ≥ Fα - hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej, co oznacza, że przynajmniej jedna zmienna objaśniająca wpływa na zmienną endogeniczną; (czyli i tak trzeba przeprowadzić test dokładniejszy, by odrzucić te, które nie wpływają)
F < Fα - brak podstaw do odrzucenia hipotezy zerowej, co oznacza, że wszystkie zmienne nieistotnie wpływają na zmienną endogeniczną
Przykład
Oszacowano model ekonometryczny i uzyskano następujące wyniki:
Yt = 2X1t - 5X2t + 1 + ut
(1) (2) (0,5)
n = 20 α = 0,05
R2 = 0,65 (słabe)
H0: α, α1 = 0
H1: α, α1 ≠ 0
r1 = K = 2 r2 = N - K - 1 = 20 - 2 - 1 = 17
Fα = 3,59 (z tablic)
Decyzja: F > Fα
Test t-Studenta
Przy spełnionych założeniach metody najmniejszych kwadratów (składnik losowy pochodzi z rozkładu normalnego) sprawdzianem hipotezy zerowej:
H0: ai = 0
Wobec hipotezy alternatywnej:
H1: ai różne 0 (ai < 0; ai > 0)
Jest statystyka t-Studenta o n-k stopniach swobody, dana jako
i = 1, 2, … k
czyli parametr podzielony przez średni błąd szacunku
Decyzje
| t | > tα hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej na poziomie istotności
α = 1 - γ
| t | < tα brak podstaw do odrzucenia hipotezy zerowej na poziomie istotności
α = 1 - γ
Przykład
Oszacowano model ekonometryczny i uzyskano następujące wyniki:
Yt = 2X1t - 5X2t + 1 + ut
(1) (2) (0,5)
n = 20 n-k = 20 -3 =17 α = 0,05 tα = 2.11
Badanie istotności parametru przy zmiennej objaśniającej X1t
Ho: a1 = 0
H1: a1 ≠ 0
Brak podstaw do odrzucenia hipotezy zerowej, głoszącej, że a1 jest równe zero, co oznacza, że parametr strukturalny a1 jest nieistotny statystycznie, a zmienna przy nim stojąca X1t nieistotne wpływa na zmienną yt i należy ją usunąć z modelu. Zmienna X1t nie przechodzi przez ten test na poziomie istotności 0,05.
Badanie istotności parametru przy zmiennej objaśniającej X2t
Ho: a2 = 0
H1: a2 ≠ 0
Hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej, głoszącej że a 2 jest różne od zera, co oznacza, że parametr a2 jest istotny statystycznie, zmienna objaśniająca X2t istotnie wpływa na zmienną yt i powinna pozostać w modelu.
Po usunięciu nieistotnej zmiennej trzeba ponownie oszacować i zweryfikować model.
Test Durbina - Watsona na istotność autokorelacji rzędu pierwszego.
Przyczyny występowania autokorelacji rzędu pierwszego:
niewłaściwa postać analityczna modelu,
błędnie dobrane opóźnienia przy zmiennych objaśniających w modelu
pominięcie istotnej zmiennej objaśniającej w modelu.
Graficzna identyfikacja znaku autokorelacji pierwszego rzędu:
(-) autokorelacja ujemna; znaki mniej więcej na przemian
(+) autokorelacja dodatnia; znaki nie na przemian
Jeśli występuje autokorelacja (wyniki wczorajsze wpływają na dzisiejsze) tracimy na losowości składnika losowego.
Jeśli reszty pochodzą z rozkładu normalnego, są symetryczne ze względu na znak i można zobaczyć, czy układają się na przemian czy też nie.
Procedura testu Durbina-Watsona (DW)
Hipotezy testu mają następującą postać:
H0: ρ1 > 0
H1: ρ1 < 0
Testy inaczej przebiegają zależnie od znaku autokorelacji.
Statystyka testu dana jest jako:
współczynnik autokorelacji rzędu I
0 ≤ d ≤ 4
Jeżeli H1: ρ1 < 0 to: d' = 4 - d
Jeżeli autokorelacja jest dodatnia - liczymy d i podejmujemy decyzję. Jeśli stwierdzamy ujemną autokorelację, należy doliczyć d' i porównać ją z wartościami teoretycznymi.
Określanie znaku autokorelacji:
znajomość r1 - współczynnika autokorelacji Pearsona, r1 e <-1 ; 1 >
jeżeli d > 0 i d < 2 autokorelacja dodatnia
jeżeli d = 2 w przybliżeniu brak autokorelacji r = 0
jeżeli d > 2 i d < 4 autokorelacja ujemna
d = 0 r przybliżeniu 1
d = 4 r w przybliżeniu - 1
Zatem w współczynnik autokorelacji rzędu pierwszego przyjmuje wartości z przedziału <-1, 1>
Współczynnik autokorelacji jest współczynnikiem korelacji liniowej Pearsona między resztami modelu ut a resztami odpowiedni opóźnionymi o okres τ
W przypadku autokorelacji pierwszego rzędu τ = 1
Tablice publikowane są najczęściej dla dwóch poziomów istotności: 0,01 i 0,05.
Decyzja:
Na poziomie istotności 0,05 lub 0,01 odczytywane są dolna i górna wartość krytyczna z tablic wartości krytycznych rozkładu DW, czyli:
d1 oraz du
Decyzja dla H1: ρ1 > 0
d ≤ d1 hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej
d1 < d < du obszar niekonkluzywności testu
d ≥ du - brak podstaw do odrzucenia hipotezy zerowej
Decyzja dla H1: ρ1 < 0
d' ≤ d1' hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej
d1' < d' < du' obszar niekonkluzywności testu
d' ≥ du' - brak podstaw do odrzucenia hipotezy zerowej
Najgorszą sytuacją jest niekonkluzywność testu, model trzeba poprawić.
próba znalezienia źródła w przyczynach autokorelacji (poprawa opóźnienia, sprawdzenie modelu analitycznego)
doszacowanie modelu przez uogólnioną metodę najmniejszych kwadratów (strata na efektywności, ale eliminacja autokorelacji)
Integracyjna statystyka testu Durbina-Watsona
Statystyka testu dana jest następującą formułą:
Jeżeli ρ = 1 to wartość statystyki IDW jest bliska 0
W zastosowaniach empirycznych stosowane są następujące zasady:
wartości statystyki mniejsze od 0,5 traktuje się jako świadczące o istnieniu pierwiastka jednostkowego,
wartości statystyki bliskie 2 świadczą o integracji stopnia 0 czyli proces jest stacjonarny w zakresie wariancji
Najprostszym sposobem doprowadzenia procesu niestacjonarnego do stacjonarnego jest obliczenie pierwszych różnic. Powinny być one stacjonarne w zakresie wariancji i wariancja będzie stała w czasie
Testowanie poprawności postaci analitycznej modelu poprzez pryzmat losowości reszt modelu
TEST SERII
Hipotezy:
H0: [Yt* = f (X1t, X2t, …, Xkt)]
H1: [Yt* ≠ f (X1t, X2t, …, Xkt)]
Zerowa - model właściwy, mamy losowe reszty
Alternatywna - reszty są nielosowe, postać analityczna modelu jest błędna.
W teście analizie podlegają reszty modelu, z tym, że:
jeżeli model był budowany na podstawie danych dynamicznych (np.: model tendencji rozwojowej) to reszty są uporządkowane w sposób naturalny zgodnie z upływem czasu (kolejnymi realizacjami zmiennej czasowej t).
jeżeli model był budowany na postawie danych przekrojowych, to reszty modelu porządkowane są według rosnących wartości dowolnie wybranej zmiennej objaśniającej.
Serią jest każdy podciąg reszt, złożony wyłącznie z elementów dodatnich bądź ujemnych. Reszty równe zero nie są brane pod uwagę.
Niech:
ut > 0 to „a”
ut < 0 to „b”
Stąd określamy liczbę serii, tzw. k empiryczne
Z tablic liczby serii odczytujemy:
n1 - dla liczby symboli „a”
n2 - dla liczby symboli „b”
na poziomie istotności α
P { k ≤ kα } = α
Decyzja:
k ≤ kα - to hipotezę zerową należy odrzucić na korzyść hipotezy alternatywnej. Postać analityczna modelu nie jest właściwa, reszty nie są losowe.
k > kα - brak podstaw do odrzucenia hipotezy zerowej; postać właściwa, reszty są losowe.
Przykład:
Podejmowanie decyzji bez pomocy tablic statystycznych
|
Parametry |
Średnie błędy szacunku |
Statystyka t-Studenta |
p-value |
Parametr wolny |
- 11,54 |
3,32 |
-3,48 |
0,00 |
X1t |
0,48 |
0,18 |
2,62 |
0,02 |
X2t |
5,39 |
0,74 |
7,33 |
0,00 |
X3t |
-0,08 |
0,19 |
-0,39 |
0,70 |
X1t, X2t - wartość p mniejsza od 0,05 (czyli od α ) - odrzucenie hipotezy zerowej na korzyść alternatywnej - parametr istotny statystycznie
X3t - α < p - brak podstaw do odrzucenia hipotezy alternatywnej - parametr nieistotny statystycznie
WYKŁAD 5 31.05.2011
T: PROGNOZY NA PODSTAWIE MODELU EKONOMETRYCZNEGO
Prognozy zmiennych objaśniających:
- podane przez grupy ekspertów
- prognozowane na podstawie modelu
PRZYKŁAD
Model tendencji rozwojowej
Zgromadzono następujące dane:
Yt - zgony niemowląt na 1000 urodzeń żywych
X1t - spożycie wódki czystej i gatunkowej w przeliczeniu na alkohol 100% w litrach na osobę w ciągu roku
X2t - PKB na jednego mieszkańca w $
Błędy w doborze zmiennych:
- ogólne zmienne objaśniające
- brak zmiennych objaśniających o charakterze medycznym
Dane
1992 |
17,3 |
3,5 |
2198 |
1993 |
161 |
3,8 |
2233 |
1994 |
15,1 |
3,8 |
2402 |
1995 |
13,6 |
3,5 |
3293 |
1996 |
12,2 |
2,9 |
3724 |
1997 |
10,2 |
2,8 |
3725 |
1998 |
9,5 |
2,4 |
4098 |
1999 |
8,9 |
2,1 |
4014 |
2000 |
8,1 |
2 |
4078 |
Można by było zastosować model tendencji rozwojowej liniowy, bo widać z wykresu Yt, że zmienne układają się w prostą, skierowaną w dół; nie trzeba modelu ekonometrycznego, zwłaszcza, jeśli nie interesuje nas wpływ zmiennych objaśnianych, a jedynie prognoza.
Spadek alkoholizmu - zmniejszanie zgonów.
Wzrost PKB - zmniejszanie zgonów.
Na podstawie materiału statystycznego oszacowano model ekonometryczny o postaci:
Yt = α1X1t + α2X2t + α0
I uzyskano następujące wyniki
Yt = 1,79X1t - 0,0026X2t + 15,46 + ut
(1,048) (0,000913) (5,998)
Błąd zmiennej alkoholizmu wskazuje, że trzeba tą zmienną usunąć.
n = 9
k = 3
Su2 = 0,796954
Su = 0,892723
Istotność parametrów strukturalnych - test t-Studenta
α = 0,2
Na 100 przypadków 20 razy się mylimy - przy poziomie istotności 0,05 model trzeba by było zmieniać.
t α = 1,415
wartości sprawdzianu:
t α1 = 1,7118 t α2 = -2,8073
utrzymano parametry w modelu
1,098 0,0008 - 6,134
D2(a) = 0,0008 8,32E - 0,7 - 0,005
- 6,134 - 0,005 35,986
Miary dopasowania modelu do danych:
φ2 = 5,28835
R2 = 94,71165
Vs = 7,24
Autokorelacja
n = 9
k = 2
H0: r1 = 0
d = 2,077122 H1: r1 <0
d'= 1,922878
d1' = 0,629
du' = 1,699
d' > du'
Prognoza przyszłych wartości zmiennych objaśniających.
(na rok 2001)s
Prognozy przyszłych wartości zmiennych objaśniających budowane będą na podstawie modelu tendencji rozwojowej o postaci liniowej.
Prognoza zmiennej X1t
X1t = Ytx1t
Ytx1t = α1+ α0 + ξ1
t = 1,2,…9
Ytx1t = - 0,24t + 4,19 + ut
(0,032) (0,18)
(dobre parametry)
R2 = 89% (słaby model do prognozowania)
Prognoza dla t = 10
Prognoza zmiennej X2t
X2t = Ytx2t
Ytx2t = α1+ α0 + ξ1
t = 1,2,…9
Ytx2t = 278,12t + 1916,64 + ut
(38,74) (217,98)
R2 = 88%
Prognoza dla t = 10
Ostatecznie:
Przyszłe realizacje zmiennej objaśniającej:
X1t =1,79
X2t =4697,84
Model ekonometryczny:
Yt = 1,79X1t - 0,0026X2t + 15,46 + ut
(1,048) (0,000913) (5,998)
Zatem
Podstawiając przyszłe realizacje zmiennej objaśniającej do modelu, otrzymamy prognozę zmiennej endogenicznej:
Yp T=2001 = 1,79*1,79 - 0,0026*4697,84 + 15,46 + ut
Średni błąd predykcji:
1,098 0,0008 - 6,134
D2(a) = 0,0008 8,32E - 0,7 - 0,005
- 6,134 - 0,005 35,986
Su2 = 0,796954
Yt = 1,79X1t - 0,0026X2t + 15,46 + ut
1,79
XT = 4697,84
1
V = 1,08962
(błąd)
Rzeczywiste realizacje zmiennej prognozowanej Yt odchylają się średnio rzecz biorąc in plus bądź in minus o 1,08 zgonów niemowląt na 1000 urodzeń żywych od postawionych prognoz.
Prognozy - w liczbie mnogiej - bo jest cały zbiór prognoz. Wartości parametrów są prognozami ex post. Prognozą ex ante jest wartość na 2001 r.
Względny średni błąd predykcji wynosi:
V* = 16,41 %
V* = (V : Yt ) * 100%
W 2001 r. faktycznie było 7,7 zgonów na 1000 urodzeń żywych.
Współczynnik Janusowy - jeśli jest mniejszy od 1, model jest aktualny i struktury modelu nie trzeba zmieniać.
TEMAT: MODELE ADAPTACYJNE
Cechy ogólne i zastosowania:
dostosowanie do przebiegu proces - naśladowanie procesu (model będzie się dostosowywał)
budowa prognoz krótkookresowych
prosta budowa
możliwość prowadzenia symulacji
możliwość uwzględniania wahań przypadkowych, trendu oraz wahań sezonowych (można stosować te modele w każdych warunkach prognostycznych)
minimalna liczba obserwacji w przypadku modeli bez wahań sezonowych: 8-35 (lub do 40); w przypadku modeli z wahaniami sezonowymi niezbędna jest wiedza na temat 3 pełnych cykli
Ogólna postać modeli adaptacyjnych:
Yt - zmienna prognozowana
Yt = ηt + ut ηt - funkcja trendu (nieznana postać analityczna trendu)
ut - błąd
ut to nie reszta modelu; nie musi spełniać warunków obowiązujących dla reszt, ut nie muszą sumować się do zera!
Wady:
trudności w ustalaniu początkowych wartości do symulacji
strata informacji (brak pierwszych prognoz; zostają utracone, szereg czasowy teoretyczny po zastosowaniu modelu będzie skrócony; o kilka pierwszych obserwacji lub (w wahaniach sezonowych) o jeden pełny cykl
założenie o liniowości zmian zmiennej prognozowanej w przyszłości
postarzanie informacji
Symulacja
W przypadku modeli adaptacyjnych symulacja polega na takim doborze parametrów wygładzania, by zminimalizować dowolnie wybrany błąd ex post prognoz wygasłych.
Wybór błędu do minimalizowania: taki, którego zasadę działania dobrze rozumiemy.
Model wyrównywania wykładniczego Browna
Zastosowanie: zmienna prognozowana wykazuje trend oraz wahania przypadkowe (nie ma sezonowości).
Wady modelu: straty informacji, problem z doborem wartości początkowych.
Zalety: łatwość prowadzenia obliczeń.
Ocena trendu na moment t:
mt = αyt + (1-α) mt-1
mt - ocena trendu na okres bieżący t
α - parametr wygładzania
yt - realizacja zmiennej prognozowanej w momencie t
mt-1 - ocena trendu na moment poprzedni t-1
parametr wygładzania: 0≤ α ≤ 1
Jeżeli szereg (zmienna prognozowana) wykazuje bardzo szybkie tempo zmian, to parametr (alfa) dąży do jedności bądź jest równy 1. Jeśli tempo zmian jest niskie, parametr wygładzania jest bliski 0 lub równy 0.
Dokładność parametru: do 2-4 miejsc po przecinku.
Równanie prognozy:
YTp = mt + (mt - mt-1)h
h - horyzont prognozy
Gdyby nie uwzględniać horyzontu prognozy, prognozy na kolejne okresy miałyby cały czas tę samą wartość, rokrocznie byłyby stałe.
Jeśli parametr wygładzania równy jest zero, ocena trendu z momentu bieżącego jest równa ocenie trendu z momentu poprzedniego. Zasada prognozy naiwnej - „to co wczoraj, to dzisiaj, to co dzisiaj, to jutro”.
Wartości początkowe do symulacji:
m1 = y1
pierwsza ocena trendu jest równa pierwszej realizacji y
lub
m1 = ẏ (średnie y)
Pierwsza ocena trendu jest równa średniej z realizacji y.
Model Holta - postać klasyczna
Bardziej zaawansowany, dwa parametry wygładzania dobierane jednocześnie.
Zastosowanie: zmienna prognozowana wykazuje trend oraz wahania przypadkowe (nie ma sezonowości).
Wady modelu: straty informacji, problem z doborem wartości początkowych.
Zalety: łatwość prowadzenia obliczeń.
Musimy mieć wartość początkową; straty w informacjach
Ocena trendu:
Ft-1 = αyt-1 + (1 - α) (Ft-2 + St-2)
(wygładzona wartość przyrostu trendu)
St-1 = β (Ft-1 - Ft-2) + (1 - β) St-2
parametr wygładzania: 0≤ α,β ≤ 1
YTp = Fn + Sn (t - n) gdzie t > n
(wyprzedzenie czasowe
- horyzont prognozy)
Wartości początkowe do symulacji:
F1 = y1 lub Yt* = a1t + a0 + ut
parametr wolny
z modelu trendu
Model generuje wartości od F2
S1 = y2 - y1 lub Yt* =a1t + a0 + ut
Model Wintersa - postać addytywna
Wady modelu: straty informacji, problem z doborem wartości początkowych.
Zalety: łatwość prowadzenia obliczeń.
Ocena trendu:
Ft-1 = α(yt-1 - Ct-1-r) + (1 - α) (Ft-2 + St-1)
Ct-1-r - wskaźnik sezonowości w sensie Wintera
r - długość cyklu
wyrównana wartość przyrostu trendu:
St-1 = β (Ft-1 - Ft-2) + (1 - β) St-2
Ocena wskaźnika sezonowości:
Ct-1 = γ (yt-1 - Ft-1) + (1 - γ) Ct-1-r
parametr wygładzania: 0≤ α,β,γ ≤ 1
Wartości początkowe do symulacji:
F1 = y1 lub F1 = y średnie
S1 = y2 - y1
(średnia z przyrostów y)
Δyt = yt - yt-1
Jeden parametr za cykliczność.
Równanie prognozy dane jest jako:
YTp = Fn + Sn (t - n) + C1-r
Wada: ograniczenie co do horyzontu prognozy (prognoza na jeden pełny cykl)
t > n (wyprzedzenie czasowe)
Model Wintersa - postać multiplikatywna
Ocena trendu:
Wyrównana wartość przyrostu trendu:
Ocena wskaźnika sezonowości:
Parametry wygładzone:
0≤ α,β,γ ≤ 1
Jeśli bardzo głębokie cykle: γ bliskie 1
Jeśli bardzo płytkie cykle: γ bliskie 0
Równanie prognozy dla modelu multiplikatywnego:
YTp = [Fn + Sn (t - n)] * Ct-r
t > n
Jeśli zmiany zachodzą wolno, parametry wygładzania są bliskie 0, jeśli zmiany zachodzą szybko, parametry wygładzania są bliskie 1.