EKONOMETRIA I PROGNOZOWANIE PROCESÓW GOSPODARCZYCH wykłady
Procesy stochastyczne i szeregi czasowe
Modele jest dynamiczny zawsze wtedy gdy, zmienne są identyfikowane po czasie i występują z różnymi odstępami czasowymi
Definicja 1. Procesem stochastycznym nazywamy funkcję losową zmiennych losowych X oraz nielosowego argumentu t, oznaczającego czas. (jakikolwiek przebieg zmiennej losowej traktujemy jako proces stochastyczny)
Dla oznaczenia procesów stochastycznych przyjmuje się następujące symbole: lub odpowiednio symbole X(t), Y(t).
Kiedy zmienne są indeksowane po czasie i występują z różnymi odstępami czasowymi mówimy, że model jest dynamiczny.
Definicja 2. Szereg czasowy jest realizacją procesu stochastycznego, oznaczamy go przez .
Definicja 3. Proces stochastyczny jest stacjonarny w szerszym sensie, jeżeli:
E()=const 2.1 wartość oczekiwana (średnia) stała w czasie
2.2 wariancja tego procesu jest stała (przedział jest stały w czasie dla całej realizacji)
2.3 funkcja kowariancyjna (kowariancja)– obserwowana w czasie t i s, 2 różna momenty czasowe t≠ lubt1≠t2s; odstępy pomiędzy kolejnymi obserwacjami powinny być stałe
Ważne jest żeby proces był stacjonarny ponieważ można wtedy zastosować narzędzia statystyczne standardowe (np. estymacja KMNK), w ekonomii większość jest niestacjonarna.
Niespełnienie jednego z warunków (2.1 – 2.2) oznacza, że proces jest niestacjonarny w zakresie jednego z parametrów rozkładu tzn. wartości oczekiwanej, wariancji oraz funkcji kowariancyjnej, odpowiednio.
Procesy niestacjonarne, zwłaszcza w zakresie wariancji i funkcji kowariancyjnej nie mają ściśle określonej trajektorii przebiegu, dlatego wnioskowanie na ich podstawie może prowadzić do błędów.
Stacjonarne: modele AR (ale nie zawsze)
Niestacjonarne: modele trendu i sezonowości
Definicja 4.Biały szum jest to stacjonarny proces stochastyczny spełniający następujące warunki:
2.4 (średnia = 0)
2.5 (stała wariancja)
, dla s – t >0 2.6 (kowariancja zależeć ma od odstępu: s – t; brak autokorelacji)
Najlepiej jeżeli biały sum jest procesem resztowym.
W przypadku dynamicznych modeli ekonometrycznych własności białego szumu są najbardziej pożądane dla składników resztowych tych modeli.
Zwykle kiedy pojawia się autokorelacja dodajemy opóźnienia zmiennej objaśnianej, dopasowujemy je tak żeby znaleźć model bez autokorelacji.
Modele stacjonarnych procesów stochastycznych
Ogólnym modelem opisującym stacjonarny proces stochastyczny jest model ARMA(p,q). Model ARMA procesu stochastycznego ma postać:
(2.7)
gdzie:
- jest operatorem autoregresji rzędu p
- jest operatorem średniej ruchomej rzędu q
- jest białym szumem
u – operator przesunięcia wstecz, używamy symboli B, L lub u
itd.
(2.8)
Model 2.7 stanowi kombinację dwóch modeli rozważanych także oddzielnie: modelu autoregresji rzędu p (oznaczamy AR(p) lub ARMA (p,d)) postaci:
α(B)Yt = εt
oraz modelu średniej ruchomej rzędu q (oznaczamy MA(q) lub ARMA(0,q)) postaci:
Yt = β(B)εt
WADA: Modelu ARMA nie możemy szacować za pomocą KMNK bo mamy ε ale można metodą MNW (największej wiarygodności)
Własności modelu ARMA(p,q)
Proces opisany równaniem 2.7 jest:
- STACJONARNY: może być stacjonarny jeżeli wszystkie pierwiastki zespolone równania charakterystycznego α(B)=0 (α(u)=0) nie leżą na okręgu jednostkowym (sprawdzanie testem statystycznym)
- KAUZALNY: jeżeli wszystkie pierwiastki równania charakterystycznego α(B)=0 leżą na zewnątrz okręgu jednostkowego
- ODWRACALNY - jeśli wszystkie pierwiastki równania charakterystycznego β(B)=0 leżą na zewnątrz okręgu jednostkowego
Stacjonarność modelu ARMA jest pojęciem szerszym niż jego kauzalność. Stacjonarny proces (2.7) można zapisać w postaci nieskończonej średniej ruchomej MA(∞) tzn:
$Y_{t} = \alpha^{- 1}{\left( B \right)\beta(B)\varepsilon}_{t} = \sum_{j = 0}^{\infty}{\psi_{j}\varepsilon_{t - j}}$ (2.9)
ponieważ operator średniej ruchomej jest nieskończony każde jej odwrócenie skutkuje zapisaniem w postaci nieskończonej
gdzie:
ψ0 = 1
$$\psi_{j} = \sum_{i = 1}^{min(p,j)}{d_{1}\psi_{j = 1}{- \beta}_{j}};\ \ \ \ \ \ \ \ j > q \Rightarrow \beta_{j} = 0;\ \ \ \ \ \ \ \ \ \ \ j = 1,2$$
Minimalna reprezentacja ARMA.W celu uniknięcia nadmiernej parametryzacji modelu ARMA definiuje się tzw. reprezentację minimalną tego modelu.
Własności są istotne dlatego, że jeżeli proces jest stacjonarny dana reprezentacja jest reprezentacją minimalną czyli najmniejszą z możliwych dla danej próby. Nie przesadzać z opóźnieniami.
Identyfikacja modelu ARMA(p,q)
Podstawowym narzędziem służącym do identyfikacji modeli są:
funkcja autokorelacji (ACF) oraz funkcja autokorelacji cząstkowej (PACF).
Funkcja autokorelacji procesu stochastycznego przy odstępie wyrażona jest wzorem:
(2.11)
gdzie:
- jest funkcją kowariancyjną (lub autokowariancyjną)
K(0) – jest wariancją procesu
W próbie wykorzystuje się odpowiednie oszacowania funkcji kowariancyjnej oraz wariancji.
Estymator współczynnika autokorelacji jest dany jako:
(2.12)
gdzie:
- oznacza estymator funkcji kowariancyjnej przy odstępie =0,1,…,p; postaci:
(2.13)
gdzie:
j=1,2,…, i
UWAGA:
Funkcja autokorelacji informuje o autozależności czyli tzw. pamięci procesu stochastycznego, ozn. to, że wpływ impulsu dowolnego w czasie t może trwać dłużej lub krócej zależnie od liczby niezależnych współczynników autokorelacji.
Funkcja autokorelacji cząstkowej PACF jest zdefiniowana za pomocą następujących równań:
α(0) = 1 (2.14)
α(τ) = φττ , r ≥ 1 (2.15)
nie powinno przekraczać 20% długości szeregu, czyli jeżeli T=100 to max=20
W praktyce współczynniki autokorelacji cząstkowej są współczynnikami regresji w równaniu Yt względem stałej i opóźnionych wartości . Określenie korelacji między Yt i Yt-1 przy pominięciu wpływu wszystkich pozostałych opóźnień.
Funkcja autokorelacji informuje o autozależności, czyli tzw. pamięci procesu stochastycznego.
W praktyce najczęściej stosowanym testem do badania autokorelacji dowolnego rzędu jest test Boxa-Ljunga.
Zasady identyfikacji:
- jeśli proces jest typu AR(p) to funkcja autokorelacji maleje wykładniczo lub jest sinusoidą tłumioną, natomiast funkcja autokorelacji cząstkowej urywa się (równa się zero) po odstępie p
- jeśli proces jest typu MA(q) to funkcja autokorelacji urywa się po odstępie q a funkcja autokorelacji cząstkowej maleje wykładniczo lub jest sinusoidą tłumioną.
-jeśli proces jest typu ARMA(p,q) to zarówno funkcja autokorelacji jak i autokorelacji cząstkowej łagodnie znika, w taki sposób, że funkcja autokorelacji procesu mieszanego ARMA(p,q) po q-odstępach jest sumą zanikających funkcji wykładniczych i tłumionych sinusoid a funkcja autokorelacji cząstkowej po p-q odstępach jest zdominowana przez zanikające funkcje wykładnicze i tłumione sinusoidy.
Test Quinoillea (znać)
Kryteria informacyjne jako metoda identyfikacji modelu ARMA w empirycznych szeregach czasowych
W celu wyznaczenia rzędu opóźnień modelu ARMA przyjmuje się relatywnie wysokie p i q (np. ARMA(3,3)); szacuje się modele zawierające wszystkie możliwe kombinacje p3, q3.
Następnie wylicza się jedno z kryteriów:
Kryterium informacyjne Akaike’a (AIC) najstarsze i najgorsze
gdzie:
T – liczba obserwacji
k – liczba szacowanych parametrów
- jest to estymator największej wiarygodności wariancji reszt
Wybrany zostaje model, dla którego utrata informacji jest najmniejsza tzn. taki model, dla którego AIC przyjmuje wartość najmniejszą. Kryterium to może przyjąć wartość ujemną, lepsze jest to bliższe 0.(wartość najmniejszą ale najbliższą 0)
wykorzystuje też wariancję resztową ale modyfikuje na t – k, bierzemy też poprawę na liczbę obserwacji i mamy k – czyli liczbę szacowanych parametrów i logarytm z różnicy
Beyesowskie rozszerzenie minimum AIC (BIC)
$$BIC = \left( T - K \right)\ln\frac{{\hat{\sigma}}_{\varepsilon}^{2}}{T - K} + TlnT + Kln\frac{{\hat{\sigma}}_{Z}^{2} - {\hat{\sigma}}_{\varepsilon}^{2}}{K}$$
gdzie:
${\hat{\sigma}}_{\varepsilon}^{2}$ - estymator wariancji szeregu
z - estymator wariancji danego szeregu czasowego
Wybrany zostaje model, dla którego BIC jest najmniejsze. Jeśli BIC i AIC mają minima dla różnych rzędów p i q, to w wyborze kierujemy się kryterium BIC. Kryterium BIC jest modyfikacją kryterium AIC i koryguje skłonność AIC do używania zbyt dużej liczby parametrów.
Wybieramy względnie wysoki rządz np.3. Metoda największej wiarygodności-wybieram ten model gdzie wartość najbliższa „0”.
Beyesowskie kryterium Schwartz’a (SC)
$$SC = T\ ln{\hat{\sigma}}_{\varepsilon}^{2} + \ k\text{\ lnT}$$
Wybór modelu jest dokonywany na podstawie minimalnej wartości kryterium.
Estymacja parametrów modelu ARMA(p,q). Metody estymacji parametrów modelu ARMA(p,q) można podzielić na 2 grupy:
Metoda estymacji parametrów modelu ARMA (p,0)- faktycznie modeli autoregresyjnych: równania Yule’a-Walkera, Klasyczna Metoda Najmniejszych Kwadratów (KMNK), Metoda Największej Wiarygodności (MNW);
Metoda estymacji parametrów modelu ARMA(p,q) oraz ARMA(O,q)- czyli modeli średniej ruchomej: MNW. Do estymacji parametrów ARMA nie można zastosować metody najmniejszych kwadratów, ponieważ zmienne występujące w części MA mają charakter zmiennych nieobserwowalnych.
yt = α0 + α1yt − 1 + α1yt − 2 + εt + β1εt − 1 + β1εt − 2
εt − bialy szum nieosiagalny
Metoda Największej Wiarygodności (MNW)
Do estymacji parametrów modelu ARMA(p,q) stosuje się MNW.
Logarytm funkcji wiarygodności dany jest wzorem: $\ln{\mathbf{L}\left( \mathbf{\alpha,\beta,}\mathbf{\sigma}_{\mathbf{\varepsilon}}^{\mathbf{2}} \right)\mathbf{= \ - \ }\frac{\mathbf{T}}{\mathbf{2}}\ln{\mathbf{2}\mathbf{\prod}}}\mathbf{\sigma}_{\mathbf{\varepsilon}}^{\mathbf{2}}\mathbf{- \ }\frac{\mathbf{S(\alpha,\beta)}}{\mathbf{2}\mathbf{\sigma}_{\mathbf{\varepsilon}}^{\mathbf{2}}}$ (2.28)
Gdzie $S\left( \alpha,\beta \right) = \sum_{t = - M}^{n}\left\lbrack E(\left( \varepsilon_{t} \middle| \alpha,\beta,z \right) \right\rbrack$^2
M- dostatecznie duż liczba całkowita taka, że dla t ≤ (M + 1) wartość E(zt|α,β,z)- E(zt − 1|α,β,z) jest mniejsza od ustalonej z góry wartości ε.
Wybrane zostają te oceny wartości parametrów α, β, dla których funkcja (2.28) osiąga maksimum. Zatem należy zminimalizować S(α,β). Estymacja parametrów modelu ARMA dzieli się na dwa etapy.
*W pierwszym etapie uzyskuje się oszacowania początkowe parametrów,
*w drugim modyfikuje się początkowe wartości parametrów tak, aby zminimalizować sumę kwadratów reszt.
Modele procesów niestacjonarnych w zakresie wariancji oraz funkcji kowariancyjnej
Model ARIMA
Podstawową klasą opisującą procesy niestacjonarne w zakresie wariancji są modele ARIMA(p,d,q). Model ARIMA (autoregresyjny (p), zintegrowany (d), proces średniej ruchomej (q)) opisuje proces zintegrowany i może być zapisany jako:
(2.42)
gdzie:
A(B)(1 − B)dYt = B(β)εt
(1−B)dYt = Xt
(1−B)d - operator różnicowy (sprowadza proces do stacjonarności)
Xt - proces stacjonarny np. d=1
(1−B)Yt = Xt
Yt − Yt − 1 = Xt - procesy stają się stacjonarne po jednokrotnym zróżnicowaniu
Model ARIMA (p,d,q) po obliczeniu różnic rzędu d (d – krotnym różnicowaniu szeregu czasowego) otrzymujemy proces stacjonarny ARMA(p,q) stąd metodologia dotycząca modelu ARMA nie traci na aktualności.
Modele ARMA należą do klasy procesów zintegrowanych rzędu d, co się często oznacza
~I(d).
Procesy makroekonomiczne są głównie niestacjonarne w wariancji.
Niestacjonarność wariancji nie wyklucza niestacjonarności w średniej ani jej nie opisuje.
Model błądzenia przypadkowego (losowego)
Szczególny przypadek ARIMA stanowi model błądzenia przypadkowego (random walk) (jest procesem zintegrowanym rzędu pierwszego)
gdzie: - jest białym szumem
Inne zapisy tego modelu są następujące:
Model błądzenia przypadkowego jest w istocie modelem ARIMA(0,1,0).
Cechy procesu błądzenia przypadkowego (ACF, PACF)
Szereg generowany przez model błądzenia przypadkowego charakteryzuje się dłuższą pamięcią aniżeli stacjonarny szereg AR, MA, ARMA.
Funkcja autokorelacji maleje liniowo, zatem spadek ten następuje wolniej niż w przypadku szeregów stacjonarnych. Funkcja autokorelacji cząstkowej wskazuje jednoznacznie na jedno opóźnienie autoregresyjne.
proces niestacjonarny
proces stacjonarny
Interesuje nas .
Identyfikacja procesów niestacjonarnych w wariancji
Podstawowe testy na obecność pierwiastka jednostkowego:
TEST DICKEY’A – FULLERA
Jest to najpopularniejszy i najczęściej stosowany test na obecność pierwiastków jednostkowych. Niestety nie posiada on dużej mocy w związku z czym zbyt często faworyzuje hipotezę o istnieniu pierwiastka jednostkowego. Tym nie mniej może być stosowany jako jedno z narzędzi identyfikacji pierwiastka jednostkowego w szeregach finansowych.
(Yt−|Yt − 1) = εt 1-B=0 B=1 → |B| > 1 stąd nazwa pierwiastka jednostkowego - zakłóca on- mamy wtedy proces niestacjonarny
Przyjmijmy, że model szeregu czasowego dany jest wzorem:
Hipoteza zerowa mówi o istnieniu co najmniej jednego pierwiastka jednostkowego w badaniu szeregu, natomiast hipoteza alternatywna o jego braku. Odpowiednie hipotezy mają postać:
W celu uczynienia testu operacyjnym przedstawmy model w postaci:
(2.64)
yt = ∂yt − 1 + εt (2.65)- równanie przekształcające hipotezę zerową
czyli:
(2.66) gdzie:
Odpowiednie hipotezy mają postać:
szereg zintegrowany w stopniu 1 (co najmniej) stacjonarny zintegrowany w stopniu I, co ozn. że po wyliczeniu pierwszych różnic sprowadzany jest do stacjonarności
(1−B)Yt → stacjonarny Yt ∼ I(1)
(1 − B)2Yt → stacjonarny Yt ∼ I(2)
Zintegrowany w stopniu 0 oznacza, że jest stacjonarny
Odpowiednie modyfikacje będą miały postać:
lub
Dołączenie kolejnych elementów do równania ma określone konsekwencje dla rozkładu testu DF, ADF co można zauważyć także w tablicach wartości krytycznych. (opracowane specjalne tablice dla DF nie stosujemy tablic t-studenta)
Obszar krytyczny testu DF jest lewostronny.
Test Dickey’a – Fullera ma postać:
Statystyka DF, mimo prostej formy posiada niestandardowy rozkład, lewostronnie asymetryczny.
Kryteria wyboru:
- odrzucamy , szereg jest zintegrowany rzędu 0, czyli stacjonarny w wariancji i procedura się kończy.
- nie ma podstaw do odrzucenia , szereg jest zintegrowany co najmniej rzędu 1, należy badać dalej dla d.
W dalszej kolejności obliczamy drugie różnice i uzależniamy od pierwszych różnic:
Szacujemy KMNK.
d=1
d=2
Hipoteza zerowa oznacza, że szereg zawiera co najmniej 2 pierwiastki jednostkowe, zaś hipoteza alternatywna, że jest dokładnie 1. Hipotezy mają postać:
Jeżeli
- odrzucamy , szereg jest zintegrowany rzędu 1.
- nie ma podstaw do odrzucenia , szereg jest zintegrowany co najmniej rzędu 2, należy powtórzyć procedurę dla I(3).
UWAGA:
Zwykły test DF sprawdza się w przypadku, gdy ARIMA(0,d,0). (i nie ma autokorelacji)
Gdy mamy do czynienia z modelem ARIMA(p,d,q) musimy uwzględnić autokorelację. (Sygnałem że występuje autokorelacja jest niska wartość statystyki Durbina-Watsona w równaniu 2.66, wtedy należy zastosować test ADF)
TEST ADF (rozszerzony test Dickey’a-Fullera)
Równania podlegające testowaniu są następujące:
przy hipotezach:
H0 : δ = 0 − − → Yt ∼ I(1)
H1 : δ < 0 − − → Yt ∼ I(0)
oraz
przy hipotezach:
H0 : δ = 0 − − → Yt ∼ I(2)
H1 : δ < 0 − − → Yt ∼ I(1)
Do równań można dołączyć: stałą, trend deterministyczny lub sezonowość.
TEST KPSS (odwrotnie niż DF)
Szereg zawiera trend deterministyczny, proces błądzenia losowego oraz składnik losowy
H0 : Yt ∼ I(0)
H1 : Yt ∼ I(1)
Kointegracja procesów stochastycznych
Engle i Granger (1987) Nagroda Nobla
Pomiędzy procesami ekonomicznymi da się wyznaczyć pewną długookresową ścieżkę równowagi, niezależną od czasu (ang. steady state), natomiast wartości znajdujące się poza nią stanowią krótkookresowe odchylenia od stanu równowagi, które zależą od czasu.
Definicja
Dwa procesy i są skointegrowane rzędu d, b, tzn. , jeżeli:
są one zintegrowane tego samego rzędu d
istnieje kombinacja liniowa tych procesów:
, która jest zintegrowana rzędu d-b a b>0
reszty z modelu długookresowego, da się znaleźć takie parametry, które powodują, że kombinacja liniowa redukuje rząd niestacjonarności z d do b; jeżeli mamy szeregi pytamy na ile pozostają w stabilnym systemie równowagi .
Wektor [ nazywa się wektorem kointegrującym.
Kointegracja mówi, ze mają wspólny trend czyli wspólną ścieżkę równowagi, która będzie długookresowa, o odchylenia od ścieżki będą stacjonarne.
Powyższą definicję można uogólnić na dowolną liczbę procesów.
Kointegracja wielu procesów stacjonarnych
Definicja
Niech będzie wektorem procesów o wymiarach n x 1. Jeśli każda składowa tego wektora jest zintegrowana rzędu d(I(d)) oraz istnieje wektor taki, że , b>0, wtedy elementy wektora są skointegrowane rzędu d, b, czyli . d mogłoby być większe od 1 ale zdarza się to rzadko
Jeżeli procesy i są zintegrowane rzędu 1 (I(1)) i ich kombinacja liniowa może być wyrażona jako
lub (tutaj przy y nie ma literki t –nie zależne od czasu-równowaga długookresowa)
To równanie ostatnie może być traktowane jako równanie opisujące długookresową ścieżkę równowagi procesów i .
Dla dwóch procesów występują następujące możliwości w zakresie kointegracji:
a) , zatem procesy nie są skointegrowane
b) , zatem procesy nie są skointegrowane
c)
, procesy nie są skointegrowane
, procesy są skointegrowane
d) , procesy nie są skointegrowane, kointegracja nie ma sensu.
REGRESJA POZORNA
Regresja pozorna- procesy bez ko integracji
yt = α0 + α1xt + εt
yt ∼ I(1)i xt ∼ I(1)
To cechy regresji pozornej:
wysoka istotność parametru α1w sensie statystyki t-Studenta
wysokie R2; R2 → 1
niski Durbin-Watson DW→0 czyli bardzo silna autokorelacja (istotny wskaźnik)
jeśli R2 > DWwtedy możemy mieć podejrzenie regresji pozornej, trzeba testować ko integracje
jeśli R2 < DWbrak regresji pozornej
Testowanie kointegracji szeregów czasowych
W przypadku testowania kointegracji szeregów czasowych stosuje się test Dickey’a – Fullera, rozszerzony test DF, a także inne testy np. KPSS
Testy te będziemy stosować do szeregu reszt z równania kointegrujacego.
lub
Dla przykładu stosując test DF dla reszt z regresji za podstawę przyjmujemy równanie:
kointegracja – reszt zintegrowane w stopniu zerowym
brak kointegracji
kointergracja
W przypadku wyraźnej autokorelacji reszt stosujemy test ADF
Etapy testowania kointegracji:
Testowanie rzędu integracji procesów Xi i Yt
Jeżeli rząd d jest równy
– szacowanie równania długookresowego
Testowanie rzędu integracji i reszt ut
ut ~ I(d −b) gdzie b>0
Jednorównaniowy model korekty błędem
Jednorównaniowy model dla skointegrowanych szeregów czasowych jest modelem z mechanizmem korekty błędem . Model ten składa się z 2 równań:
równania długookresowego
równania krótkookresowego opartego na przyrostach badanych szeregów
Rozważmy następujące szeregi czasowe yt ∼ I(1), xt ∼ I(1) yt, xt ∼ CI(1, 1)
Model korekty błędem budujemy wg procedury dwustopniowego tworzenia modelu Engle’a i Grangera (1987):
definiujemy równanie kointegrujace
którego parametry przyjmujemy na poziomie z góry zadanym lub szacujemy na podstawie danych za pomocą klasycznej MNK. Przyjęcie parametrów jako danych odbywa się w oparciu o hipotezy teoretyczne.
Np. inwestycje = oszczędnościom
budujemy równanie krótkookresowe dla przyrostów wybranych zmiennych
yt = β0 + β1xt + γ(y−α0−α1x)t − 1 + ηt
=β0 + β1xt + γut − 1 + ηt
=β0 + β1xt + γECMt − 1 + ηt
wyliczamy zrównania długookresowego reszty i wstawiamy je do równania krótkookresowego, ale opóźniamy je o 1 okres
Równanie 2 oznacza korektę w krótkim okresie w stosunku do długookresowej ścieżki. γ powinien być istotny statystycznie oraz ujemny dlatego, że korygowanie do ścieżki długookresowej powoduje raz spadki a następnie wzrosty w kolejnym okresie, dalej spadek itd. γ ujemny powoduje że występują dostosowania wokół ścieżki równowagi. - równanie równowag długookresowej. Czyli zapewnia stabilność, oscyluje wokół równowagi długookresowej
Mechanizm korekty błędem jest z okresu poprzedniego ponieważ znamy poziom równowagi z okresu wcześniejszego.
Model z kroku 2 jest w istocie modelem dla procesów stacjonarnych, ponieważ zarówno przyrosty badanego szeregu jak i wyrażenie w nawiasie są procesami I(0). Wyrażenie w nawiasie reprezentuje relację długookresową (stan równowagi długookresowej) i nazywa się mechanizmem korekty błędem ECM
Mechanizm korekty błędem występuje z indeksem t-1 ozn. to stan równowagi w okresie poprzednim w stosunku do t.
Model ten może zawierać różne elementy:
Δyt= β0+β1xt+γ(y−α0−α1x)t − 1+ ut – to na pewno musi być aby był to model korekty błędem
model zawiera zasadniczą część równanie oraz część dodatkową która może zawierać takie elementy jak trend, opóźnienia itp. zależnie od tego czego potrzebujemy w naszym modelu
Przyrosty zmiennych są indeksowane w czasie t co sprawia że parametry stojące przy przyrostach zmiennych - w tym przypadku β1 informują o dostosowaniach krótkookresowych w czasie t do stanu równowagi w czasie t-1.
W interpretacji modelu ważny jest znak parametru γ, jest ujemny (γ<0) gdyż tylko taka relacja zapewnia dochodzenie do poziomu równowagi z okresu na okres.
W przypadku gdy w modelu występuje autokorelacja należy zmodyfikować go do postaci
gdzie: εt – biały szum
Model ECM może także zawierać składniki deterministyczne takie jak trend czy sezonowość oraz zmienne zero-jedynkowe.
Przykład – budowa modelu ECM opisującego bezrobocie w Polsce (dane kwartalne) – zmienne w postaci logarytmowanej- interpretacja parametrów jest elastycznościowa.
Konstrukcja modeli ekonometrycznych dla jakościowej zmiennej zależnej
Zmienne jakościowe – zmienne opisujące takie cechy jednostek jak np. wykształcenie (podstawowe, średnie, wyższe), miejsce zamieszkania (miasto, wieś), a także decyzje jednostek (zakup samochodu, mieszkania, kredyt bankowy itp.)
Zmiennymi typu jakościowego mogą być np.:
zmienna dwumianowa (binarna, dychotomiczna):
„upadłość” – w danym roku spółka jest: (a) upadła, (b) nie–upadła;
2) zmienna wielomianowa (polichotomiczna) nieuporządkowana:
„finansowanie rozwoju” – inwestycje firmy są finansowane: (a) z kredytu, (b) z emisji akcji, (c) z własnych środków obrotowych;
zmienna wielomianowa uporządkowana:
„jakość kredytu” – kredyt klienta banku jest:
normalny, (b) poniżej standardu, (c) wątpliwy, (d) stracony;
zmienna licznikowa:
„liczba niespłaconych rat” – liczba rat miesięcznych kredytu konsumpcyjnego, z którymi zalega dany klient banku;
zmienna ograniczona:
„stopa dywidendy” – wartość dywidendy na 1 akcję wypłacona przez daną spółkę; jest równa 0, jeśli spółka zdecydowała o nie wypłaceniu dywidendy.
Najczęstszym reprezentantem tych zmiennych jest zmienna zero-jedynkowa.
Model ekonometryczny cech opisowych reprezentowanych przez zmienne zero-jedynkowe ma następującą postać: (1)
Y – zmienna endogeniczna
gdy spełniony jest zespół warunków V
w przypadku przeciwnym
- zmienne egzogeniczne
- składnik losowy
i = 1,2,…,n
V – zespół warunków, jakie mogą spełniać lub nie, obserwacje zebrane w próbie
Model daje możliwość szacowania prawdopodobieństwa pojawienia się zespołu warunków V na podstawie częstości ich pojawienia się. Pozwala ocenić wpływ każdej ze zmiennych objaśniających (j=1,…,k) na częstość występowania warunków V.
Dana zmienna (j=1,…,k) umożliwia oszacowanie zarówno kierunku jej oddziaływania na prawdopodobieństwo zaistnienia zmiany (spadku lub wzrostu) tego prawdopodobieństwa pod wpływem jednostkowego przyrostu wartości zmiennej .
Model (1) nazywać będziemy więc przyczynowo-opisowym modelem częstości występowania warunków V. Model (1) zalicza się do grupy tzw. modeli z ograniczonymi zmiennymi zależnymi, do których możemy zaliczyć jako najważniejszy: model probitowy, logitowy i tobitowy.
Konstrukcja modelu logitowego
Oznaczmy przez F( ) dystrybuantę rozkładu logistycznego i zdefiniujemy y za pomocą uwikłanej funkcji F(y) = p, gdzie p – prawdopodobieństwo
(2)
Wartości funkcji odwrotnej do F będziemy nazywać logitami i oznaczać przez L
(3)
Nazwa logit pochodzi od związku wyrażenia (3) w modelowaniu ekonometrycznym z krzywą logistyczną.
Jeżeli model ekonometryczny zapiszemy w postaci:
(4)
i uzyskamy rozwiązanie ze względu na P, to otrzymamy funkcję logistyczną, postaci:
(5)
Model (4) posiada poziom nasycenia wynoszący . Dla zbioru argumentów (j=1,…,h) zmieniających się od zera do + prawdopodobieństwo P zmienia się od 0,5 do 1.
Monotoniczne przekształcenie prawdopodobieństwa P do postaci powoduje przejście z przedziału [0,5 , 1] do przedziału [0, +). Natomiast dla p<0,5 jest ujemny, czyli z przedziału [0, 0,5] do przedziału (-, 0].
Zatem przedział zmienności logitu wyrażonego równaniem (3) wynosi (-,+), przy czym dla p=0,5 mamy .
PRZYKŁADY:
model logitowy dla makrodanych (Cieślak – Prognozowanie gospodarcze) -200 gosp dom
Y : O- nie kupił magnetofonu, 1-kupił magnetofon – zmienne:wysokość dochodu, liczba gosp dom…
model logitowy dla mikrodanych
Empiryczny model logitowy dla klientów oddziału banku X – E.Stefanowska
Dane pochodzą z wniosków kredytowych złożonych przez klientów indywidualnych do banku X w latach 2003-2004.
zmienna dychotomiczna
$$y_{t}^{*} = \left\{ \begin{matrix}
1 & \text{udzielono\ kredytu} \\
0 & \text{nie\ udzielono\ kredy}\text{tu} \\
\end{matrix} \right.\ $$
po oszacowaniu metoda największej wiarygodności modelu pozostawiono zmienne które okazały się być istotne:
x1t – liczba członków w rodzinie
x2t – wnioskowana kwota kredytu w tys. zł
x3t – suma dochodów netto wszystkich osób ubiegających się o kredyt w tys. zł
x5t – zmienna zero-jedynkowa 1 gdy długość okresu kredytowania 10 lat lub więcej, 0 gdy mniej niż 10 lat
x6t – suma zaciągniętych innych kredytów i pożyczek
|
współczynnik | interpretacja |
---|---|---|
|
4,61 | |
|
-0,3687 | liczba osób w rodzinie ujemnie wpływa na uzyskanie kredytu, wzrost o 1 liczby osób w rodzinie powoduje spadek prawdopodobieństwa o 0,36 |
|
-3,5787E-05 | z każdym wzrostem o 1000 zł kwoty kredytu prawdopodobieństwo otrzymania nieznacznie spada |
|
0,0012 | wraz ze wzrostem dochodu o 1000 zł prawdopodobieństwo otrzymania kredytu rośnie o 0,0012 |
|
-3,038 | jeżeli okres kredytowania jest większy niż 10 lat spada prawdopodobieństwo otrzymania kredytu, ale ponieważ zmienna jest zero-jedynkowa 3,038 nie jest wartością spadku prawdopodobieństwa |
|
-4,37983E-05 | zaciągnięte kredyty nieznacznie obniżają prawdopodobieństwo otrzymania kredytu |
liczba przypadków poprawnej predykcji =176 (88%) na 200
McFallera pseudo R2=0,3295 – nie musi być tak wysokie jak zwykłe R2
Metody szacowania parametrów modelu z zero-jedynkową zmienną
UMNK (Uogólniona Metoda Najmniejszych Kwadratów) – dla przypadku makro danych
MNW (Metoda Największej Wiarygodności) – dla przypadku mikro danych
Miary dopasowania modelu logitowego
R- kwadrat McFaddena, zwane też pseudo R – kwadrat; miara ta oparta jest na następującym wzorze:
- wartość funkcji wiarygodności dla pełnego modelu
- wartość funkcji wiarygodności dla modelu z wyzerowanymi parametrami, oprócz wyrazu wolnego
W analizowanym przypadku miara ta wynosi 0,329858. Nie jest to wysoka wartość, ale niski poziom wyjaśnienia zmienności jest cechą modeli logitowych, więc uzyskaną wielkość można uznać za satysfakcjonującą.
Współczynnik korelacji zmiennej z wartościami teoretycznymi modelu
W przypadku analizowanego modelu współczynnik wynosi 0,3955.
Istotność współczynnika korelacji bada się za pomocą testu t-Studenta
$$H_{0}:\ r\left( y_{i};\hat{p_{i}} \right) = 0$$
$$H_{1}:\ r\left( y_{i};\hat{p_{i}} \right) \neq 0$$
sprawdzianem hipotezy alternatywnej jest statystyka
$$I = \frac{\left( y_{i};\hat{p_{i}} \right)\sqrt{n}}{\sqrt{{1 - r}^{2}\left( y_{i};\hat{p_{i}} \right)}}$$
wartość krytyczną I* odczytuje się z tablic t-Studenta do poziomu istotności γ i n stopni swobody
$$I = \frac{0,3955\sqrt{200}}{\sqrt{{1 - (0,3955)}^{2}}}$$
Prognozowanie na podstawie modeli logitowych
Tablica trafności i prognoza standardowa
Bezpośrednią prognozę prawdopodobieństwa można otrzymać opierając się na oszacowanym modelu dwumianowym. Prognozę wartości wykorzystuje się do prognozowania wartości , którą nazywamy mikroprognozą (dla pojedynczej jednostki obserwacji) bądź prognozą dyskretną.
W przeciwieństwie do prognozy opartej na szeregach czasowych, która odnosi się do przyszłego stanu tego szeregu, prognoza zmiennych jakościowych ma na celu ocenę stanu tych zmiennych, np. czy klient banku wywiąże się ze zobowiązań zawartych w umowie kredytowej, czy też nie.
Na podstawie modeli dwumianowych można otrzymać następujące prognozy:
Prognozę prawdopodobieństwa
Prognozę wartości (1 lub 0) – mikroprognozę dla i – tej jednostki obserwacji
Trafność prognozy przedstawia się za pomocą tablicy trafności, która ma postać:
Tablica trafień
Faktyczne | Przewidywane | Razem |
---|---|---|
Y=1 | n11 | n10 |
Y=0 | n01 | n00 |
Razem | n.1 | n.0 |
n11 oraz n00 – liczba przypadków prognoz trafnych (było 1 wyszło 1; było 0 wyszło 0)
n10 oraz n01 – liczba przypadków prognoz nietrafnych
(gdy mamy zbliżoną liczbę 0 i 1 możemy ustalić prawdopodobieństwo na 0,5)
Podstawową zasadą przy prognozowaniu jest:
* =1, gdy > 0,5
* =0, gdy 0,5
Uważa się również, że należy przewidywać =1, jeśli bardziej prawdopodobne jest wystąpienie „1” niż „0”. Wartość graniczną na poziomie 0,5 ustala się, gdy:
wielkość =0 określa decyzję, którą należy podjąć
obie możliwe sytuacje mają ten sam koszt błędnej decyzji:
* =1 przy =0
* =0 przy =1
budujemy tablicę trafień – tam gdzie mamy 0,5 lub mniej przypisujemy 0
yi | pi | ||
---|---|---|---|
1 | 0,4 | 0 | nietrafne |
1 | 0,7 | 1 | trafne |
0 | 0,3 | 0 | trafne |
1 | 0,5 | 0 | nietrafne |
0 | 0,8 | 1 | nietrafne |
0 | 0,2 | 0 | trafne |
1 | 0,1 | 0 | nietrafne |
1 | 0,7 | 1 | trafne |
Uważa się również, że należy przewidywać yi=1 jeśli bardziej prawdopodobne jest wystąpienie 1 lub 0. Wartość trafności na poziomie 0,5 ustala się gdy:
wielkość $\hat{y_{i}}$=0 określa decyzję którą należy podjąć
obie możliwe sytuacje mają ten sam koszt błędnej decyzji $\hat{y_{i}}$=1 przy y=0; $\hat{y_{i}}$=0 przy y=1
Zasada prognozowania w przypadku próby niezbilansowanej
W przypadku, gdy liczba wartości =0 znacznie różni się od liczby wartości =1, mamy do czynienia z próbą niezbilansowaną.
W takiej sytuacji standardowa zasada prognozowania jest zmodyfikowana i ma następującą postać:
=1, gdy > P*
=0, gdy P*
przy czym P* - nowa wartość graniczna.
Jeden ze sposobów wyznaczenia wartości P* został zaproponowany przez Cramera. Przyjeto założenie, że , co przedstawia udział jedynek w próbie. udział 1 w próbie =α
Prawdopodobieństwo wystąpienia danego wyniku w i-tej obserwacji modelu
$$P_{r}\left( i \right) = y_{i}\hat{P_{i}} + {(1 - y}_{i})({1 - \hat{P}}_{i})$$
W modelu zerowym tzn. w którym istnieje tylko wyraz wolny wartość ${\hat{\mathbf{P}}}_{\mathbf{i}} = \alpha$, a co za tym idzie prawdopodobieństwo wystąpienia yi = 1 osiąga wartość α a prawdopodobieństwo wystąpienia yi = 0 wynosi 1 − α.
W przypadku modelu ze zmiennymi obserwacjami X dąży się do poprawy Pr(i) w stosunku do modelu zerowego. Zwiększenie prawdopodobieństwa Pr(i) pokazuje nieujemny wskaźnik jakości dla i-tej obserwacji
$$W_{j}\left( i \right) = y_{i}\frac{\hat{P_{i}}}{\alpha} + {(1 - y}_{i})\frac{1 - {\hat{P}}_{i}}{1 - \alpha}$$
Maksimum Wj(i) dla danego ${\hat{P}}_{i}$ gwarantuje najlepsze dopasowanie ${\hat{y}}_{i}$ do ${\hat{P}}_{i}$, aby to uzyskać trzeba ustalić odpowiednią wartość graniczną p*. Jeżeli wykona się podstawiając ${\hat{y}}_{i}\ $za yi to p*= α. W takim przypadku zasada prognozowania przy wykorzystaniu optymalnej wartości granicznej ma postać:
$${\hat{y}}_{i} = 1\ gdy\ {\hat{P}}_{i} > \alpha$$
$$\ {\hat{y}}_{i} = 0\ gdy\ {\hat{P}}_{i} \leq \alpha$$
Miary trafności prognoz a mierniki dopasowania modelu
Mierniki dokładności prognoz modelu dychotomicznego mówią o dopasowaniu tego modelu. Do podstawowych miar jakości prognoz należą:
Procentowa trafność prognoz
Trafność prognoz najczęściej jest przedstawiana w postaci tablicy trafności, natomiast trafność prognozowania poszczególnych wartości otrzymuje się na podstawie poniższych wyliczeń:
* n11/n1. dla =1
* n00/n0. dla =0
* (n11+n00)/n dla „jedynek” i „zer” łącznie
Iloraz szans
Wyrażony jest jako stosunek iloczynu liczb przypadków z trafnymi prognozami do iloczynu liczb prognoz nietrafnych:
Jeżeli IS >1 to klasyfikacja wykonana na podstawie przedstawionego modelu jest lepsza od klasyfikacji przypadkowej.
Zliczeniowy
Mówi o udziale przypadków poprawnie prognozowanych w łącznej liczbie przypadków.
$\text{ZR}^{2} = \frac{n11 + n00}{N}\text{\ \ \ \ \ \ \ \ \ \ \ \ \ }$N=n11+n00+n01+n10
Skorygowany zliczeniowy (-kor)
Stosuje się go w przypadku próby niezbilansowanej. Korekta zliczeniowego polega na tym, że od mianownika i licznika tego wyrażenia odejmuje się liczbę najczęściej występujących kategorii (0 lub 1). Wyrażenie to interpretuje się w następujący sposób: znajomość zmiennych objaśniających modelu w porównaniu jedynie z informacjami o wartościach y, zmniejsza błąd prognozy o wielkość (-kor)*100%.
R – kwadrat Ben-Akivy i Lermana
Jest to średnia wartość prawidłowej prognozy prawdopodobieństwa.
Miara Cramera
- średnia prognoza prawdopodobieństwa dla wartości y=1
- średnia prognoza prawdopodobieństwa dla wartości y=0
W mierniku tym czyni się założenie, że wartości y=1 występują w próbie częściej niż y=0. Miara ta nie jest wrażliwa na wielkość niezbilansowania próby.
Analiza wielowymiarowych szeregów czasowych
(reprezentacja modelowa wielowymiarowych procesów stochastycznych)
Model VAR - model wektorowej autoregresji, który należy do szerszej klasy modelu VARMA (wektorowe modele ARMA)
Ekonometryczne modelowanie wielowymiarowych szeregów czasowych opiera się na następujących zasadach (Sims 1980):
Nie istnieje a priori żadne rozróżnienie między zmiennymi endogenicznymi i egzogenicznymi,
Nie istnieją żadne uzasadnione ograniczenia co do wartości parametrów modelu , w tym zwłaszcza założenie, że niektóre parametry muszą być równe zeru,
Nie istnieje ścisła i pierwotna dla modelowania teoria ekonomiczna, na podstawie której model jest budowany.
Reprezentacja VAR
Podstawowy model VAR: $\mathbf{Z}_{\mathbf{t}}\mathbf{=}\sum_{\mathbf{i = 1}}^{\mathbf{q}}{\mathbf{A}_{\mathbf{i}}\mathbf{Z}_{\mathbf{t - 1}}\mathbf{+}\mathbf{\varepsilon}_{\mathbf{t}}}$ (8.1)
Zt – kolumnowy wektor obserwacji bieżących wartości badanych procesów o wymiarach Nx1
Ai- są macierzami autoregresyjnych operatorów poszczególnych procesów, w których a priori nie zakłada się żadnych elementów zerowych,
εt- wektor procesów resztowych, w odniesieniu do którego przyjmuje się, ze poszczególne składowe są jednocześnie skorelowane ze sobą, ale nie zawierają autokorelacji.
q – rząd modelu VAR
Przykład: Dwuwymiarowy (N=2) model VAR(2)
$\begin{bmatrix} \mathbf{Z}_{\mathbf{1}\mathbf{t}} \\ \mathbf{Z}_{\mathbf{2}\mathbf{t}} \\ \end{bmatrix}\mathbf{=}\begin{bmatrix} \mathbf{A}_{\mathbf{11,1}} & \mathbf{A}_{\mathbf{12,1}} \\ \mathbf{A}_{\mathbf{21,1}} & \mathbf{A}_{\mathbf{22,1}} \\ \end{bmatrix}\begin{bmatrix} \mathbf{Z}_{\mathbf{1}\mathbf{t - 1}} \\ \mathbf{Z}_{\mathbf{2}\mathbf{t - 1}} \\ \end{bmatrix}\mathbf{+}\begin{bmatrix} \mathbf{A}_{\mathbf{11,2}} & \mathbf{A}_{\mathbf{12,2}} \\ \mathbf{A}_{\mathbf{21,2}} & \mathbf{A}_{\mathbf{22,2}} \\ \end{bmatrix}\begin{bmatrix} \mathbf{Z}_{\mathbf{1}\mathbf{t - 2}} \\ \mathbf{Z}_{\mathbf{2}\mathbf{t - 2}} \\ \end{bmatrix}\mathbf{+}\begin{bmatrix} \mathbf{\varepsilon}_{\mathbf{1}\mathbf{t}} \\ \mathbf{\varepsilon}_{\mathbf{2}\mathbf{t}} \\ \end{bmatrix}$ (8.2)
Własności modelu VAR (analogia jak AR):
Jest odwracalny – posiada reprezentację wektorowej średniej ruchomej VAR(∞): $Z_{t} = \sum_{i = 0}^{\infty}{\Psi_{i}\varepsilon_{t - i}}$ (oznacza, że można zapisać ten model w postaci średniej ruchomej)
Stacjonarny – pierwiastki równania wyznacznikowego |I−A1B−A2B2−…−AqBq| = 0
(wymagany jest warunek, aby pierwiastki równania wyznacznikowego leżały poza okręgiem jednostkowym)
Identyfikacja modelu – kryterium Akaike’a lub Schwarza
Model VAR - przykład postaci zredukowanej modelu wielorównaniowego (nie zawiera żadnych jednoczesnych powiązań między zmiennymi endogenicznymi)
Model VAR ze składnikiem deterministycznym:
Gdy trendowo-stacjonarne: $\mathbf{Z}_{\mathbf{t}}\mathbf{=}\mathbf{A}_{\mathbf{0}}\mathbf{D}_{\mathbf{t}}\mathbf{+}\sum_{\mathbf{i = 1}}^{\mathbf{q}}{\mathbf{A}_{\mathbf{i}}\mathbf{Z}_{\mathbf{t - i}}\mathbf{+}\mathbf{\varepsilon}_{\mathbf{i}}}$ (8.3)
gdzie:
- składnik zawierający średnią procesu, deterministyczny trend lub/i deterministyczną sezonowość
- macierz odpowiednich parametrów, zaś pozostałe oznaczenia tak jak w modelu wcześniejszym.
Strukturalny model VAR
Postać zredukowana Zt = A0Dt + A1Zt − 1 + A2Zt − 2 + … + AqZt − q + εt i cov(ε1t, ε2t) ≠ 0 (8.4)
Gdy spełniony warunek niezerowych kowariancji pomiędzy składnikami losowymi poszczególnych równań – to możliwe jest przeniesienie tych powiązań bezpośrednio na wektor Zt.
Model postaci: FZt = G0Dt + G1Zt − 1 + G2Zt − 2 + … + GqZt − q + εt (8.5)
gdzie:
Ѳ- macierz parametrów stojących przy nieopóźnionych wartościach składowych wektora Zt
G0- macierz parametrów przy składnikach deterministycznych
Gi(i=1,2,3,…q)- macierze parametrów przy opóźnionych wartościach systemu
εt-wektor składników resztowych (losowych)
nazywamy strukturalnym modelem VAR.
Gdy istnieje macierz odwrotna do Ѳ to:
Zt = F−1G0Dt + F−1G1Zt − 1 + F−1G2Zt − 2 + … + F−1GqZt − q + F−1ξt
Oznaczając:
i=1,2,…,q
otrzymujemy model:
Zt = A0 + A1Zt − 1 + A2Zt − 2 + … + AqZt − q + εt
Przykład modelu z czterema opóźnieniami
Podstawowy model VAR jest bardzo ogólny i może nie być właściwy dla konkretnej sytuacji ekonomicznej. Wynika to z jednej strony z konieczności szacowanej dużej liczby parametrów, a z drugiej – z dążenia badacza do wykrycia bądź potwierdzenia prawidłowości gospodarczych. Procedury dostosowawcze polegają na testowaniu ograniczeń na parametry.
Badanie zależności przyczynowych opisywanych przez model VAR
Zależność przyczynową charakteryzują następujące cechy: obiektywność, powtarzalność i siła sprawcza
Jeżeli natomiast związek przyczynowy będziemy rozpatrywać jako reakcję to jej najważniejszymi cechami są przeciw zwrotność, asymetryczność i przechodniość. Cechy, które mogą być wykryte w drodze obserwacji to powtarzalność oraz asymetryczność.
Pierwszym spośród testów prowadzących do ekonomicznej interpretacji modelu VAR jest test przyczynowości.
Pojęcie przyczynowości w sensie Grangera
Niech będzie zbiorem procesów stochastycznych stacjonarnych w szerszym sensie.
Niech oznacza odpowiednie wartości tych procesów pochodzące z przeszłości, natomiast zawiera dodatkowo ich wartości bieżące. Oznaczenia są analogią do oznaczeń .
Oznaczmy dalej przez nieobciążony predyktor wartości wyznaczony metodą najmniejszych kwadratów warunkowo względem ciągu wartości , oraz przez wariancję błędu predykcji.
Niech oznacza wszystkie informacje dostępne w czasie t i niech oznacza te same informacje z wykluczeniem zawartych w procesie .
Definicja 1
Jeżeli wówczas jest przyczyną (w sensie Grangera).
Oznacza to, że włączenie do modelu informacji o zmiennej X poprawia jakość predykcji w porównaniu z sytuacją, gdy tą zmienną pomijamy.
Definicja 2
Jeżeli to mówimy, że jest jednoczesną przyczyną . Możemy wnioskować o współzależności między zmiennymi.
Definicja 3
Jeżeli zachodzi równocześnie i to mówimy, że miedzy procesami i zachodzi sprzężenie zwrotne.
Definicje 1 i 2 dotyczą jednokierunkowej zależności przyczynowej tzn. .
Testowanie przyczynowości w sensie Grangera
Ekonometryczne modele procesów stochastycznych jako podstawa konstrukcji testów.
- podejście modelowe. Założenia:
2 procesy: proces-skutek Yt oraz proces-przyczyna Xt stanowią wszystkie dostępne informacje,
Rozpatrywane procesy Yt, Xt są procesami stacjonarnymi w szerszym sensie, niedeterministycznymi oraz posiadają reprezentację autoregresyjną postaci:
A(B) Yt = εyt,
B(B) Xt = εxt,
przy czym A(B)=0 i B(B)=0 leżą poza okręgiem jednostkowym oraz E(Yt − 1, εyt)=0 i E(Xt − 1,εxt) = 0
Zależność między badanymi procesami jest liniowa,
Kryterium porównań modeli stanowi średni błąd kwadratowy reszt.
Testowanie przyczynowości w powyższym zakresie możliwe jest w odniesieniu do procesów stacjonarnych.
W przypadku procesów niestacjonarnych możliwe gdy niestacjonarność może być usunięta przez wprowadzenie składowych deterministycznych (trend, sezonowość) lub przez transformację procesów (np. obliczenie przyrostów)- dopuszczalne, jeżeli niestacjonarność może być usunięta. Szczególny przypadek: kointegracja.
Hipoteza zerowa mówiąca, że wektor Xt nie jest przyczyną Yt w sensie Grangera jest spełniona, gdy zachodzi A12, i=0 dla wszystkich i=1,2,…,q. Z kolei, aby Yt nie był przyczyną Xt potrzeba i wystarczy, żeby A21, i=0 dla wszystkich i=1,2,…,q.
H0: Xt nie jest przyczyną Yt A12,i=0
H1: Xt jest przyczyną Yt A21,i=0
TEST GRANGERA
- oparty na koncepcji modelowej i wynika wprost z definicji przyczynowości
Przypadek dwuwymiarowy
Niech:
oznaczają modele oszacowane za pomocą KMNK, z których pierwszy jest modelem AR(p) dla szeregu , natomiast drugi model jest modelem autoregresyjnym z rozłożonymi opóźnieniami zawierającym strukturę autoregresyjną szeregu , przy czym: . Hipoteza zerowa dla jednokierunkowej zależności przyczynowej zakłada, że nie jest przyczyną , tzn. co jest równoważne zapisowi lub .
Przypadek dwuwymiarowy: (KMNK)
H0: B(B) = 0 $\varepsilon_{t} = \eta_{t}\overset{\Leftrightarrow}{}$ A(B)=Г(B)
H1: B(B) ≠ 0
Przykład:
: nie jest przyczyną
: jest przyczyną
tzn. że przynajmniej jeden lub oba parametry są 0.
Załóżmy, że i są estymatorami odpowiednich wariancji resztowych w równaniach.
Test można przedstawić w postaci trzech najczęściej stosowanych wariantów:
Test Walda $T_{G}^{W} = \frac{T(S^{2}\left( \varepsilon_{t} \right) - S^{2}(\eta_{t}))}{S^{2}(\eta_{t})}$
Test wychodzi najmocniejszy, najbardziej odporny na błąd II rodzaju
Wariant ilorazu wiarygodności $T_{G}^{\text{LR}} = \frac{T(S^{2}\left( \varepsilon_{t} \right))}{S^{2}(\eta_{t})}$
Wariant mnożnika Lagrange’a $T_{G}^{\text{LM}} = \frac{T(S^{2}\left( \varepsilon_{t} \right) - S^{2}(\eta_{t}))}{S^{2}(\varepsilon_{t})}$
Wszystkie powyższe statystyki są asymptotycznie zbieżne do χ2(q).
Statystyki mogą być stosowane do dużej próby (szeregi czasowe powinny mieć co najmniej 100 obserwacji). Dla próby małej należy zastąpić mnożenie przez T, mnożeniem przez wyrażenie T-$\frac{\mathbf{k}}{\mathbf{q}}$, co oznacza sprowadzenie statystyki do postaci testu F(q,T-k) gdzie:
q - liczba parametrów dla których przyjmujemy wartości zero,
T – liczebność próby,
k – liczba wszystkich szacowanych parametrów modelu.
Model dla jednoczesnej przyczynowości:
Yt = G(B)Yt + B1(B)Xt + ηt
gdzie B1(B)= $\sum_{i = 0}^{q}{\beta_{i}B^{i}}$
Hipotezę zerową można zapisać jako β0=O a H1: β0≠0.
Gdy analizowane jest sprzężenie zwrotne między procesami, wówczas oddzielnie należy testować hipotezy: Xt nie jest przyczyną Yt oraz Yt nie jest przyczyną Xt. Należy zmodyfikować modele.
Analiza egzogeniczności w modelu VAR
Kolejnym przybliżeniem modelu jest podział zmiennych modelu na endogeniczne i egzogeniczne. Można tego dokonać w oparciu o koncepcję Engle’a, Hendry’ego i Richarda (1983). Problem polega na takim podziale wektora na dwa podwektory, aby procesy resztowe które powstaną w jego wyniku były nieskorelowane ze sobą. (podział musi być taki, żeby x nie był potrzebny w systemie jako kolejne równanie)
Model VAR – to model prosty : postać zredukowana dla modelu dwurównaniowego
Z1t = α11Z1t − 1 + α12Z2t − 1 + ε1t
Z1t = α21Z1t − 1 + α22Z2t − 1 + ε2t
model warunkowy:
występują wartości zmiennej Y od wartości X także bieżącej
model brzegowy:
modelowanie w oparciu tylko o zmienne opóźnione
Niech łączna funkcja gęstości prawdopodobieństwa modelu będzie dana wzorem:
gdzie:
- odpowiedni wektor parametrów
- warunkowa gęstość prawdopodobieństwa procesu
- brzegowa gęstość prawdopodobieństwa procesu
Oznaczamy wszystkie parametry biorące udział w badaniu przez .
Ze względu na pojęcie egzogeniczności rozróżnić można następujące typy procesów:
Procesy, które zawierają wszystkie niezbędne informacje dla efektywnej estymacji modeli
Procesy, których wartości muszą być znane, aby możliwe było prognozowanie na podstawie oszacowanych modeli
Ze względu na cel badania, którym jest estymacja lub predykcja, można mówić odpowiednio o słabej lub silnej egzogeniczności.
Słaba egzogeniczność
Proces jest słabo egzogeniczny dla wektora parametrów , jeżeli brzegowa gęstość prawdopodobieństwa
nie zawiera istotnych informacji dla estymacji parametrów , tzn. jeśli do ich oszacowania wystarczy model odpowiadający gęstości warunkowej, tj.
zmienne egzogeniczneyt = α0 + α1x1 + α2x2t + α3x3t + εt
jedno z założeń KMNK E(X ε)=0, zmienne objaśniające nieskorelowane ze składnikiem losowym
Silna egzogeniczność
Dla określenia silnej egzogeniczności wymaga się dodatkowo, aby proces nie był przyczyną w sensie Grangera procesu .
Testowanie słabej egzogeniczności
Procedura polega na oszacowaniu następujących równań:
- warunkowego dla
gdzie: oznaczają odpowiednie macierze parametrów
- brzegowego (składającego się tylko z 2 opóźnień x i y) dla
przy czym w równaniu brzegowym zależy tylko od wcześniejszych wartości i .
W hipotezie zerowej zakłada się, że . Testowanie polega na zastosowaniu procedury polegającej na oszacowaniu parametrów modelu brzegowego i wyliczeniu reszt , a następnie wstawieniu ich do równania warunkowego jako zmiennej objaśniającej i testowanie istotności stosującego przy nich parametru.
$x_{t} = \sum_{}^{}d_{i}y_{t - i} + \sum_{}^{}\beta_{i}x_{t - 1}{+ v}_{t} \rightarrow {\hat{v}}_{t}$ - warunek brzegowy
szacuje się model warunkowy, który musi zawierać:
$$y_{t} = \gamma_{0} + \text{γx}_{t} + \sum_{}^{}\alpha_{i}y_{t - i} + \sum_{}^{}\beta_{i}x_{t - 1}{+ \ \delta\hat{v}}_{t} + \ w_{t}$$
H0 : δ = 0 ≡ E(wtvt) = 0
H1 : δ ≠ 0
$$t = \frac{\hat{\delta}}{S(\hat{\delta})}$$
Testowanie silnej egzogeniczności polega na sekwencyjnym zastosowaniu testu słabej egzogeniczności, a następnie jednego z testów przyczynowości.
Analiza odpowiedzi na impuls (zbliżona do analizy mnożnikowej)
Załóżmy model VAR(q) postaci:
gdzie:
Reprezentacja średniej ruchomej dla powyższego modelu jest następująca: (wektorowa średnia ruchoma)
8.34
gdzie: ,
W powyższej reprezentacji nie ma podziału na zmienne endogeniczne i egzogeniczne, stąd macierze parametrów mogą być interpretowane jako dynamiczne mnożniki modelu, wyrażające reakcję modelu na jednostkowy szok każdej ze zmiennych. Poszczególne elementy macierzy: tworzą funkcję odpowiedzi zmiennej na impuls ze strony zmiennej . Jeżeli w systemie 8.33 możemy wyróżnić bloki zmiennych ściśle egzogenicznych, to nie będą one reagowały na szoki ze strony zmiennych endogenicznych.
Ponieważ pomiędzy składnikami resztowymi poszczególnych równań systemu zachodzi , to wyznaczone w powyższy sposób mnożniki mogą być błędne. W celu oczyszczenia składników losowych ze wzajemnych powiązań jednoczesnych załóżmy, że macierz wariancji-kowariancji składników losowych ma postać: .
Niech przy czym S i S’ oznaczają odpowiednio dolną i górną macierz trójkątną z dodatnimi elementami (na ogół równymi 1) na głównej przekątnej.
Wektor składników losowych przekształcony za pomocą macierzy S ma postać:
, przy czym .
Tak przekształcone szoki systemu są wzajemnie ortogonalne. Przekształcając równanie VMA (8.34) w postać rekursywną, a więc wskazując kierunek zależności otrzymujemy:
8.35
przy czym macierz są dolnymi macierzami trójkątnymi.
Funkcja odpowiedzi na impuls ma teraz postać:
gdzie: 8.36
przy czym i są wektorami wyboru o wymiarach Nx1, zawierającymi 1 w i-tym lub w j-tym miejscu i 0 w pozostałych.
Stosowanie powyższej dekompozycji, zwanej dekompozycją Choleskiego wymaga znajomości bądź przyjęcia założenia co do powiązań strukturalnych pomiędzy składowymi wektora , które pozwalają na ograniczenie mniej ważnych sprzężeń zwrotnych.
Można wykazać, że macierz S powinna mieć taką samą strukturę powiązań jak macierz z postaci strukturalnej. Analogiczne badania można przeprowadzić w oparciu o model VARMA(q,p)
Koniec