Mariola Piłatowska*
Porównanie kryteriów informacyjnych i predykcyjnych w
wyborze modelu
Wstęp
Wśród różnych metod wyboru modelu ekonometrycznego, jako dominują-
ce, wymienia się podejście bazujące na sekwencji testów statystycznych, podej-
ście informacyjne bazujące na kryteriach informacyjnych typu Akaike a oraz
podejście bazujące na kryteriach predykcyjnych. Pokreślić jednak należy, że
wybór modelu powinien odbywać się w zależności od przyjętego celu modelo-
wania. W podejściu do modelowania ekonometrycznego rozważa się najczę-
ściej dwa cele, tj. poszukiwanie prawdziwego modelu i poszukiwanie najlep-
szego modelu prognostycznego. Niestety w literaturze ekonometrycznej niezbyt
wiele robi się, aby oddzielić wyraznie te dwa cele modelowania, a co więcej
zauważa się tendencję do zacierania się różnic miedzy tymi celami. Jest to wi-
doczne po pierwsze w przesadnej dbałości o spełnienie wszystkich kryteriów
statystycznych modelu (ang. misspecification tests) w sytuacji prognostycznej,
podczas gdy model nie w pełni spełniający te wymogi może dać dobre progno-
zy, a po drugie w przekonaniu, że dokładna predykcja (przydatność w progno-
zowaniu) jest głównym przejawem jakości modelu.
Znaczną trudnością przy wyborze modelu jest fakt, że mechanizm działa-
nia złożonej i dynamicznie zmieniającej się ekonomicznej rzeczywistości jest
ukryty. Każdy zatem model jest jedynie uproszczeniem lub aproksymacją rze-
czywistości i stąd nigdy nie będzie odzwierciedlać jej w pełni, a jedynie stano-
wić analityczną charakterystykę łącznego rozkładu prawdopodobieństwa ba-
danych zmiennych losowych, która dostarcza pewnej informacji o tym, jak
działa dana gospodarka [Grassa, 1989, s. 1; Bhatti, 2006, s. 67]. Poznanie peł-
nej prawdy (rzeczywistości) czy też tzw. modelu prawdziwego jest nieosią-
galne. W związku z tym, że żaden z rozważanych modeli nie może stanowić
pełnego odkrycia rzeczywistości, to sugeruje się zakończenie debaty o poszu-
kiwaniu modelu prawdziwego na rzecz szukania modelu użytecznego pod
pewnym względem, tzn. opisu danej rzeczywistości lub optymalizacji predyk-
cji.
W podejściu zakładającym wybór najlepszego modelu prognostycznego
porzuca siÄ™ cel wyboru prawdziwego modelu na rzecz poszukiwania modelu,
który pozwoli otrzymać prognozy o najmniejszych błędach prognoz. Przy tak
ustawionym celu modelowania mniej rygorystycznie podchodzi się do spełnie-
nia wymogów statystycznych dobrego modelu jak w przypadku szukania mode-
lu najlepiej opisującego daną rzeczywistość ekonomiczną. Chociaż z drugiej
*
Dr hab., prof. UMK, Katedra Ekonometrii i Statystyki, Wydział Nauk Ekonomicznych i Zarzą-
dzania, Uniwersytet Mikołaja Kopernika w Toruniu, Mariola.Pilatowska@umk.pl
500
Mariola Piłatowska
strony, oczekuje się też, że dobry model pod względem estymacji, identyfikacji
czy testowania hipotez statystycznych powinien dać dobre prognozy.
Celem artykułu jest porównanie zachowania kryteriów informacyjnych
(AIC i BIC) i predykcyjnych (tradycyjnych miar dokładności predykcji oraz
skumulowanego błędu prognoz na jeden okres naprzód, APE) w wyborze mo-
delu w przypadku znanego i nieznanego modelu generujÄ…cego z punktu widze-
nia dwóch celów modelowania: poszukiwania modelu prawdziwego i wyboru
najlepszego modelu prognostycznego. Wybór modelu (spośród trzech modeli:
AR(1), MA(1) i ARMA(1, 1)) za pomocÄ… kryterium AIC i MSE w przypadku
znanego modelu generującego (ARMA(1, 1)) będzie zilustrowany za pomocą
eksperymentu symulacyjnego przywoływanego za Kunstem (2003). W ekspe-
rymencie symulacyjnym dokonuje się wyboru modelu z uwzględnieniem
dwóch celów modelowania, tj. znalezienia modelu prawdziwego i wyboru naj-
lepszego modelu prognostycznego. Natomiast w przykładzie empirycznym ze
względu na nieznajomość modelu generującego dane bierze się pod uwagę tyl-
ko drugi cel, tj. wybór modelu prognostycznego. Wybór modelu prognostycz-
nego spośród czterech modeli (AR, ARIMA, ARFIMA i RW) dokonuje się z
wykorzystaniem kryteriów informacyjnych (AIC, BIC) oraz predykcyjnych
(APE oraz MSE, MAPE, U). Poprawność wyboru modelu według różnych kry-
teriów jest sprawdzana poza próbą przez ocenę trafności otrzymanych prognoz.
1. Kryteria informacyjne i predykcyjne
Do najczęściej używanych kryteriów informacyjnych przy wyborze mode-
lu należą:
kryterium Akaike'a: AIC =ð -ð2ln L(qðĆ) +ð 2K,
2K(K +ð1)
kryterium Akaike'a skorygowane: AICc =ð AIC +ð ,
n -ð K -ð1
kryterium Schwarza (bayesowskie): BIC =ð -ð2ln L(qðĆ) +ð K ln(n),
kryterium Hannana-Quinna: HQ =ð -ð2ln L(qðĆ) +ð 2K ln(lnn),
gdzie L(qðĆ) oznacza funkcjÄ™ wiarygodnoÅ›ci dla danego modelu, która jest kory-
gowana różnie definiowaną funkcją straty (czy 'kary'), która jest funkcją liczby
parametrów K modelu oraz liczby obserwacji n. Jeśli 'kara' jest duża, to prefe-
rowane są oszczędnie sparametryzowane modele, natomiast jeśli 'kara' jest ma-
ła, to mniej oszczędnie sparametryzowane modele.
Stosując kryteria informacyjne do wyboru modelu spośród zbioru modeli-
kandydatów wybiera się ten model, któremu odpowiada minimalna wartość
danego kryterium informacyjnego.
Do tradycyjnych kryteriów predykcyjnych wykorzystywanych przy ocenie
dokładności predykcji, jak też wyborze modelu prognostycznego, należą:
T
Średni błąd bezwzględny
| et |
åð
t=ð1
(Mean Absolute Error) MAE =ð ,
T
501
Porównanie kryteriów informacyjnych i predykcyjnych w &
T
Błąd średniokwadratowy
e2
åð
t=ð1 t
(Mean Square Error) MSE =ð ,
T
Pierwiastek błędu średniokwadratowego
RMSE =ð MSE,
(Root Mean Square Error)
T
Średni bezwzględny błąd procentowy
| et / yt |
åð
t=ð1
(Mean Absolute Percentage Error) MAPE =ð 100%,
T
Współczynnik nierówności Theila
RMSE('nowy'model)
U =ð ,
(Theil's Inequality Coefficient)
RMSE('benchmark'model)
gdzie et oznacza bÅ‚Ä…d prognozy, et =ð yt -ð wt , yt - realizacja zmiennej y w
okresie t, wt - prognoza zmiennej y na okres t.
Stosując tradycyjne mierniki dokładności prognoz, wybiera się model,
któremu odpowiada najmniejsza wartość danego miernika.
Natomiast współczynnik nierówności Theila wskazuje, czy dany model
jest gorszy (U > 1), czy lepszy (U < 1) niż model błądzenia przypadkowego
( wt+ð1 =ð yt ), który stanowi punkt odniesienia.
Warto zauważyć, że wybór miernika dokładności predykcji może wpłynąć
na ranking metod prognostycznych, a zatem i modeli [Armstrong, 2001; Arm-
strong i Fildes, 1995]. Dlatego zaleca się prezentowanie wyników dla kilku
mierników, a nie tylko jednego, najczęściej MSE, który jest wrażliwy na skalę
wartości zmiennych, co ujawnia się szczególnie w przypadku, gdy dane zawie-
rają wartości odstające (nietypowe). Z tego powodu proponuje się inne miary1,
np. MAPE czy miary relatywne takie jak współczynnik nierówności Theila U.
Wybór modelu prognostycznego można również przeprowadzić z wyko-
rzystaniem skumulowanego błędu prognoz na jeden okres naprzód (ang. Accu-
mulative Prediction Error, APE) [Rissanen, 1986]. Według metody APE naj-
bardziej użyteczny jest model, któremu odpowiada najmniejszy skumulowany
błąd prognoz ex post na jeden okres naprzód.
Wyznaczenie skumulowanego błędu prognoz ex post, APE, obywa się
przez obliczanie w sposób sekwencyjny prognoz na jeden okres naprzód, bazu-
jąc na stopniowo powiększanej liczebności szeregu. Dla modelu Mj odbywa się
to nastÄ™pujÄ…co [Wagenmaker, Grünwald, Steyvers, 2006]:
1. Ustala się najmniejszą liczbę s obserwacji (długości szeregu), dla której
model jest możliwy do estymacji. Ustalmy i = s + 1, stąd i 1 = s.
Ć
2. BazujÄ…c na pierwszych i 1 obserwacjach oblicza siÄ™ prognozÄ™ pi dla na-
stępnej obserwacji i.
3. Oblicza się błąd prognozy dla obserwacji i, np. kwadrat różnicy między
Ć
zaobserwowaną wartością xi a prognozą pi .
1
Mentzer i Kahn (1995) pokazali, na podstawie ankiety mailowej kierowanej do kierowników
działów prognoz 207 firm w USA, że najczęściej używanym miernikiem jest MAPE (52% bada-
nych), podczas gdy na miarę RMSE wskazało tylko 10% badanych.
502
Mariola Piłatowska
4. Zwiększa się i o jeden i powtarza się kroki 2) i 3) aż do i = n.
5. Sumuje się błędy prognoz ex post na jeden okres naprzód wynik daje
APE.
Dla modelu Mj skumulowany błąd prognoz ex post jest równy:
n
Ć
APE(M ) =ð d[xi ,( pi xi-ð1)],
åð
j
i=ðs+ð1
gdzie d oznacza specyficzną funkcję straty, która mierzy rozbieżność między
obserwacjami a prognozami.
W przypadku prognoz punkowych jako funkcję straty d najczęściej używa
Ć
siÄ™ bÅ‚Ä™du kwadratowego (xi -ð pi )2 , ale może to również być inna funkcja stra-
Ć Ć
ty, np. absolutny bÅ‚Ä…d xi -ð pi , czy też ogólnie funkcja straty typu Ä…, xi -ð pi að ,
gdzie Ä… " [1, 2] [Rissanen, 2003].
2. Eksperyment symulacyjny
W celu oceny zachowania kryterium predykcyjnego MSE oraz kryterium
informacyjnego AIC w zależności od celu modelowania (tj. wyboru najlepszego
modelu prognostycznego i znalezienia modelu prawdziwego) zostanÄ… przedsta-
wione wyniki eksperymentu symulacyjnego Kunsta (2003), które będą stanowić
tło dla rozważań empirycznych w podrozdziale 3.
W eksperymencie symulacyjnym dane zostały wygenerowane z modelu
ARMA(1, 1) na podstawie 100+100+10 obserwacji dla różnych wartości para-
metrów2 fð i qð. Wykonano 100 powtórzeÅ„. Oszacowano trzy modele: AR, MA i
ARMA, na podstawie obserwacji 101-200 (pierwsze 100 obserwacji zostało
pominięte) oraz wyznaczono prognozę na 1 okres naprzód (na okres 201) i błąd
prognozy. Następnie okno o długości 100 obserwacji przesuwano o jeden i po-
nownie przeprowadzano procedurÄ™ estymacji i predykcji. Krok ten powtarzano
aż do wyczerpania obserwacji z generowanej próby.
Jeżeli celem był wybór najlepszego modelu prognostycznego, to modele
były wybierane z wykorzystaniem kryterium MSE, a jeżeli celem było znale-
zienie modelu prawdziwego, to było stosowane kryterium AIC.
W przypadku kryterium MSE wyznaczono kwadratowe błędy prognoz dla
10 obserwacji (poza próbę), a następnie uśredniono je dla wszystkich powtó-
rzeń. Model z najniższym MSE (spośród modeli: AR, MA, ARMA) był wybie-
rany jako najlepszy model prognostyczny.
W przypadku kryterium AIC obliczono indywidualne kryteria informacyj-
ne AIC dla trzech modeli: AR, MA, ARMA. Wybierano model z najniższym
kryterium AIC jako najlepszy model opisujÄ…cy dane zjawisko.
Wyniki prezentują rysunki 1-3 oraz 4-6, na których oznaczenie phi odnosi
sie do parametrów fð modelu AR, a theta - do parametrów qð modelu MA.
Rysunek 1 pokazuje, że zarówno dla parametrów fð, jak i qð czÄ™stość wybo-
ru modelu autoregresyjnego według kryterium najmniejszego błędu MSE jest
2
Parametry przyjmowaÅ‚y nastÄ™pujÄ…ce wartoÅ›ci: fð = qð =0, 0.1, 0.2,...,0.9, 1.
503
Porównanie kryteriów informacyjnych i predykcyjnych w &
równa ok. 0.2 i stopniowo zwiÄ™ksza siÄ™ w miarÄ™ jak fð roÅ›nie. Warto zauważyć,
że najwiÄ™ksza czÄ™stość wyboru modelu AR jest osiÄ…gana nie dla qð = 0, ale na
skoÅ›nym 'grzbiecie' dla parametrów biegnÄ…cych od (fð, qð) = (0, 0.5) do (fð, qð) =
(1, 0). Model AR dominuje również dla fð = qð = 1, prawdopodobnie w zwiÄ…zku
z niezadowalającym zachowaniem się estymatora według metody największej
wiarygodności w tym obszarze.
Rysunek 1. Częstość wyboru modelu Rysunek 2. Częstość wyboru modelu
AR(1) za pomocÄ… predykcyjnego kryte- MA(1) za pomocÄ… predykcyjnego kryte-
rium MSE rium MSE
Rysunek 3. Częstość wyboru modelu
ARMA(1, 1) za pomocÄ… predykcyjnego
kryterium MSE
yródło: R. M. Kunst (2003), Testing for Relative Predictive Accuracy: A Critical Viewpoint,
Reihe Ökonomie, 130.
Na podstawie rysunku 2 widać, że otrzymanie modelu MA jest mało
prawdopodobne dla fð = 1, ponieważ czÄ™stość wystÄ™powania modelu MA spada
do zera. Natomiast model MA jest wybierany w więcej niż 40% przypadków
przy fð = 0.
504
Mariola Piłatowska
Częstość występowania modelu ARMA(1, 1) - por. rysunek 3 - rośnie w
miarÄ™ jak parametry fð i qð rosnÄ…, z wyjÄ…tkiem obszaru wokół fð = qð = 1, w któ-
rym występują wcześniej wspomniane problemy w procedurze estymacyjnej.
Otrzymane wyniki pokazują, że jeżeli celem jest wybór najlepszego mode-
lu prognostycznego, to dla pewnego obszaru wartoÅ›ci parametrów fð i qð kryte-
rium MSE wybiera model 'fałszywy', czyli model AR czy MA, który jednak
pozwala otrzymać prognozy o mniejszych błędach, a nie model ARMA(1, 1),
czyli model 'prawdziwy'.
Rysunek 4. Częstość wyboru modelu Rysunek 5. Częstość wyboru modelu
AR(1) za pomocÄ… kryterium informa- MA(1) za pomocÄ… kryterium informa-
cyjnego AIC cyjnego AIC
Rysunek 6. Częstość wyboru modelu
ARMA(1, 1) za pomocÄ… kryterium in-
formacyjnego AIC
yródło: R. M. Kunst (2003), Testing for Relative Predictive Accuracy: A Critical Viewpoint,
Reihe Ökonomie, 130.
Wyniki wyboru modelu z wykorzystaniem kryterium informacyjnego AIC
przedstawiajÄ… rysunki 4-6.
505
Porównanie kryteriów informacyjnych i predykcyjnych w &
Na podstawie rysunku 4 widać wyraznie, że kryterium AIC preferuje mo-
del AR dla niskich wartoÅ›ci parametrów qð i wysokich wartoÅ›ci parametrów fð.
Natomiast model MA jest wybierany przez kryterium AIC, gdy wartości para-
metrów qð sÄ… wysokie, a wartoÅ›ci parametrów fð sÄ… niskie (por. rysunek 5). Mo-
del ARMA(1, 1) jest wybierany w 100% przypadków, gdy zarówno parametry
fð, jak i qð sÄ… wystarczajÄ…co wysokie (por. rysunek 6).
Warto podkreślić, że wyniki wyboru modelu za pomocą kryterium predyk-
cyjnego MSE oraz kryterium informacyjnego AIC są dość podobne, tj. dla po-
dobnych obszarów parametrów fð i qð zarówno kryterium MSE, jak i AIC, wy-
biera model niewłaściwy (AR czy MA), a także dla podobnych wartości para-
metrów fð i qð kryteria te wybierajÄ… model ARMA(1, 1). Różnice wystÄ™pujÄ… je-
dynie w częstości występowania danego typu modelu.
Wyniki otrzymane w eksperymencie symulacyjnym stały się podstawą
sformułowania zalecenia [Kunst, 2003], aby kryterium predykcyjne MSE sto-
sować wtedy, gdy celem modelowania jest wybór najlepszego modelu progno-
stycznego, a kryterium informacyjne AIC - gdy celem jest wybór modelu praw-
dziwego. O ile to pierwsze zalecenie jest dość naturalne, o tyle to drugie jest
trudne do spełnienia w praktyce ekonomicznej ze względu na nieznajomość
modelu generującego. W związku z tym warto zastanowić się, na ile przydatne
w wyborze modelu prognostycznego mogą być kryteria informacyjne oraz na
ile wyniki wyboru modelu według kryteriów predykcyjnych i informacyjnych
są zbieżne w sytuacji, gdy analizuje się dane rzeczywiste. Rozważaniom tym
poświęcony jest kolejny podrozdział.
3. Przykład empiryczny
W celu porównania zachowania się kryteriów informacyjnych i predyk-
cyjnych w odniesieniu do wyboru modelu, gdy nie jest znany model generujÄ…cy,
wykorzystano dane o wskazniku cen dóbr konsumpcyjnych i usług (CPI) w
Polsce (analogiczny okres roku poprzedniego = 100)3 w latach 1998:01-
2010:12.
Kluczowym zagadnieniem przy wyborze modelu jest kwestia określenia
początkowego zestawu modeli (kandydatów). W prezentowanym przykładzie
zestaw ten obejmował 4 modele: ARIMA(12,1,0), AR(12), ARFIMA i błądze-
nia przypadkowego (RW, ang. random walk)4. Wybór takiego zestawu modeli
jest odzwierciedleniem długiej (i nierozstrzygniętej) debaty5 w literaturze eko-
3
Dane pochodzÄ… z Biuletynu Statystycznego GUS.
4
Rząd autoregresji q = 12 został przyjęty jako potencjalnie najwyższy rząd autoregresji przy
założeniu miesięcznego charakteru danych.
5
Do prac poruszających kwestię wyboru między trendem stochastycznym (niestacjonarność w
wariancji) a trendem deterministycznym (niestacjonarność w średniej) należą m.in. Nelson, Plos-
ser, 1982; Stock, Watson, 1986; Quah, 1987; Perron, Phillips,1987; Christiano, Eichen-
baum,1990; Rudebusch,1993; Diebold, Senhadji, 1996; Murray, Nelson, 1998. Wskazuje siÄ™
[Haubricha, Lo, 2001], że powodem nierozstrzygnięcia tej debaty jest błędne założenie o praw-
dziwości jednej w powyższych hipotez. W ten sposób uwzględnia się jedynie możliwość wystą-
pienia w badanych szeregach zależności o charakterze trwałego trendu (niestacjonarność w wa-
506
Mariola Piłatowska
nometrycznej dotyczącej typu niestacjonarności procesów ekonomicznych, a w
związku z tym postaci modelu szeregu czasowego. Jeżeli CPI jest procesem o
stacjonarnych przyrostach (czyli procesem niestacjonarnym w wariancji, o
trwałym wpływie zakłóceń na proces, a tym samym nie mającym zdolności
powrotu do średniej), to właściwym modelem jest model ARIMA. Natomiast,
jeżeli CPI jest procesem o stacjonarnych odchyleniach wokół pewnej stałej czy
trendu deterministycznego (czyli CPI jest niestacjonarny w średniej), to po-
prawnym modelem jest model trendu deterministycznego i/lub autoregresji.
Jeżeli jednak CPI wykazuje tzw. długą pamięć, to właściwym modelem jest
model ARFIMA. Model błądzenia przypadkowego (RW) został przyjęty jako
punkt odniesienia (benchmark model).
W celu wyboru najlepszego modelu prognostycznego, spośród modeli:
ARIMA, AR, ARFIMA i RW, zastosowano kryteria informacyjne: AIC i BIC
oraz kryterium predykcyjne: skumulowany błąd prognoz na jeden okres na-
przód (APE), przy czym jako funkcję straty przyjęto błąd kwadratowy (ozna-
czenie APE_SE) oraz błąd absolutny (oznaczenie APE_AE), jak również stan-
dardowe kryteria predykcyjne (MSE, RMSE, U, MAPE). Modele były szaco-
wane w sposób iteracyjny, począwszy od liczby obserwacji 30 (1999:02-
2001:07) powiększanej w każdym kroku o jedną obserwację aż do końca próby
(2010:12). Na każdym etapie były wyznaczane prognozy z poszczególnych
modeli oraz skumulowane błędy prognoz ex post na jeden okres naprzód
(APE_SE i APE_AE). Wyniki, w formie różnic między kryteriami informacyj-
nymi (AIC, BIC) i kryteriami predykcyjnymi (APE) dla poszczególnych par
modeli w zależności od liczby obserwacji, prezentują rysunki 7 i 8. Różnice
poszczególnych kryteriów dla par modeli należy interpretować następująco:
dodatnia różnica oznacza przewagę (wybór) drugiego modelu w parze, a różni-
ca ujemna - pierwszego modelu w parze. Ze względu na poszukiwanie najlep-
szego modelu prognostycznego wybór modelu został dokonany na podstawie
wskazań różnic poszczególnych kryteriów pod koniec badanego okresu.
Rysunek 7 (panel 1A) pokazuje, że różnice kryteriów AIC dla par modeli:
ARIMA vs. AR oraz ARIMA vs. RW sÄ… ujemne, a zatem model ARIMA jest
lepszy w sensie kryterium AIC i można oczekiwać, że model ten będzie mieć
przewagę prognostyczną nad modelami AR i RW. Natomiast dodatnie różnice
kryteriów AIC dla pary ARIMA vs. ARFIMA wskazują na wybór modelu AR-
FIMA. Model ARFIMA jest również wybierany jako model lepszy spośród par
modeli: AR vs. ARFIMA (panel 2B; różnice kryteriów AIC są dodatnie) oraz
ARFIMA vs. RW (panel 2C; różnice kryteriów AIC są ujemne). Podsumowując
zatem, model ARFIMA ma przewagę w sensie kryterium AIC na pozostałymi
modelami.
Śledząc przebieg różnic kryteriów BIC dla poszczególnych par modeli
otrzymujemy odmienne decyzje co do wyboru modelu. Model ARIMA jest
lepszy tylko od modelu AR (por. rysunek 7, panel 2A, ujemne różnice BIC),
riancji) i przejściowych fluktuacji (niestacjonarność w średniej), a pomija się zależności o charak-
terze pośrednim (tzw. długa pamięć), które można by opisać przez ułamkowy proces ARFIMA.
507
Porównanie kryteriów informacyjnych i predykcyjnych w &
natomiast od pozostałych modeli, tj. ARFIMA i RW, jest gorszy w sensie kryte-
rium BIC (panel 2A, dodatnie różnice BIC). Ze względu na to, że model RW
jest lepszy zarówno od modelu AR (rysunek 7, panel 2B), jak i ARFIMA (rysu-
nek 7, panel 2C), to model ten jest wybierany jako model najlepszy według
kryterium BIC.
Rysunek 7. Porównanie kryteriów informacyjnych (AIC kolumna 1, BIC ko-
lumna 2) dla par modeli (ARIMA vs. [AR, RW, ARFIMA] wiersz A, AR vs.
[RW, ARFIMA] wiersz B, ARFIMA vs. RW wiersz C) w wyborze modelu.
Przebieg różnic kryteriów predykcyjnych APE_SE (z kwadratowym błę-
dem jako funkcją straty) wskazuje na wybór modelu ARIMA jako modelu naj-
lepszego w sensie APE, czyli z najmniejszym błędem prognoz ex post na jeden
okres naprzód, ponieważ różnice kryteriów APE_SE są ujemne dla par modeli:
ARIMA vs. AR, ARIMA vs. RW, ARIMA vs. ARFIMA (por. rysunek 8, panel
1A). Natomiast na podstawie przebiegu różnic kryteriów predykcyjnych
APE_AE (z absolutnym błędem jako funkcją straty) widać, że model RW jest
508
Mariola Piłatowska
lepszy niż model ARIMA (rysunek 8, panel 2A), AR (rysunek 8, panel 2B) i
ARFIMA (rysunek 8, panel 2C). Różnica w wyborze modelu według kryteriów
predykcyjnych APE_SE i APE_AE wskazuje, że wybór ten zależy od postaci
przyjętej funkcji straty.
Rysunek 8. Porównanie kryteriów predykcyjnych (APE_SE kolumna 1, APE_AE
kolumna 2) dla par modeli (ARIMA vs. [AR, RW, ARFIMA] wiersz A, AR vs.
[RW, ARFIMA] wiersz B, ARFIMA vs. RW wiersz C) w wyborze modelu.
Pełne wyniki dotyczące wyboru modelu za pomocą kryteriów informacyj-
nych i predykcyjnych (APE) zawarte sÄ… w tablicy 1.
Podsumowując zatem, wybór najlepszego modelu prognostycznego według
różnych kryteriów jest następujący: kryterium informacyjne AIC wskazuje mo-
del ARFIMA, kryterium informacyjne BIC - model RW, kryterium predykcyjne
APE_SE - model ARIMA i kryterium predykcyjne APE_AE - model RW.
509
Porównanie kryteriów informacyjnych i predykcyjnych w &
Tablica 1. Wybór modelu prognostycznego dla CPI na podstawie kryteriów pre-
dykcyjnych i informacyjnych
Pary modeli Kryteria wyboru
AIC BIC APE_SE APE_AE
ARIMA vs. AR ARIMA ARIMA ARIMA ARIMA
ARIMA vs. RW ARIMA RW ARIMA RW
ARIMA vs. ARFIMA ARFIMA ARFIMA ARIMA ARIMA
AR vs. RW AR RW RW RW
AR vs. ARFIMA ARFIMA ARFIMA AR AR
ARFIMA vs. RW ARFIMA RW RW RW
yródło: opracowanie własne.
Tablica 2. Miary dokładności prognoz CPI na 1 okres naprzód w Polsce w okresie
próby 1999:02-2010:12
Miary MODELE
dokładności prognoz ARIMA(12,1,0) AR(12) RW ARFIMA
MSE 0,135 0,156 0,142 0,167
RMSE 0,368 0,395 0,377 0,408
U 0,952 1,095 1,000 1,172
MAPE 0,2802% 0,2860% 0,2795% 0,3161%
yródło: opracowanie własne.
Jeżeli zastosuje się standardowe kryteria predykcyjne (MSE, RMSE, U, MAPE)
dla okresu próby, tj. 1999:02-2001:07, do wyboru modelu, to jako najlepszy
model prognostyczny według kryterium MSE, RMSE i U otrzymuje sie model
ARIMA, a według procentowego błędu MAPE - model RW (por. tablica 2).
Oznacza to zgodność wyboru najlepszego modelu z wyborem otrzymanym we-
dług kryteriów predykcyjnych APE.
W celu sprawdzenia poprawności wyboru modelu przez kryteria informa-
cyjne i predykcyjne wyznaczono prognozy CPI na jeden okres naprzód poza
badaną próbę, tj. na okres 2011:01-2011:06, oraz obliczono miary dokładności
prognoz ex post (por. tablica 3).
Tablica 3. Miary dokładności prognoz CPI na 1 okres naprzód w Polsce w okresie
prognostycznym 2011:01-2011:06
Miary MODELE
dokładności prognoz ARIMA(12,1,0) AR(12) RW ARFIMA
MSE 0,306 0,338 0,292 0,318
RMSE 0,554 0,582 0,541 0,564
U 1,048 1,158 1,000 1,088
MAPE 0,4595% 0,4583% 0,4485% 0,4492%
yródło: opracowanie własne.
Na podstawie tablicy 3 można zauważyć, że prognozy z modelu RW mają
najmniejsze błędy prognoz, na co wskazują wszystkie miary dokładności. Po-
twierdzałoby to wybór modelu dokonany według kryterium informacyjnego
BIC oraz kryterium predykcyjnego APE_AE (por. rysunek 7 i 8), jak też we-
510
Mariola Piłatowska
dług MAPE (por. tablica 2). Należy jednak podkreślić, że błędy ex post prognoz
otrzymanych z modelu ARIMA są nieznacznie większe niż z modelu RW, czyli
przewaga prognostyczna modelu RW nad modelem ARIMA jest nieznaczna.
Zaprezentowany przykład empiryczny pokazuje, że w wyborze najlepsze-
go modelu prognostycznego bardziej poprawny wybór otrzymuje się korzysta-
jąc z kryteriów predykcyjnych APE. Niemniej jednak na uwagę zasługuje in-
formacyjne kryterium BIC, które również poprawnie wskazało najlepszy model
prognostyczny. Stosowanie kryterium informacyjnego AIC daje odmienne de-
cyzje co do wyboru modelu w porównaniu z kryterium BIC, jak i kryteriami
predykcyjnymi, i dlatego należy z ostrożnością podchodzić do wyboru modelu
według tego kryterium.
Zakończenie
Zalecenia Kunsta (2003), aby stosować kryteria predykcyjne do wyboru
najlepszego modelu prognostycznego jest dość naturalne, natomiast zlecenie,
aby stosować kryteria informacyjne, gdy celem jest znalezienie prawdziwego
modelu, jest trudne do utrzymania w praktyce ekonomicznej ze względu na
nieznajomość mechanizmu tworzącego dane (czyli modelu prawdziwego). Nie
oznacza to jednak braku użyteczności kryteriów informacyjnych w wyborze
modelu. Przedstawiony przykład empiryczny wskazuje na większą przydatność
kryterium BIC niż AIC, ponieważ wybór modelu według kryterium BIC był
zgodny z wyborem modelu według kryteriów predykcyjnych (APE_AE, MA-
PE) i znajdował on potwierdzenie poza próbą w postaci najniższych błędów
prognoz otrzymanych na podstawie modelu RW. Wybór modelu według kryte-
rium AIC był rozbieżny z wyborem otrzymanym według kryteriów predykcyj-
nych. Jednak dla uogólnienia takiego zachowania kryteriów informacyjnych i
predykcyjnych potrzebne sÄ… dalsze analizy empiryczne.
Warto podkreślić przydatność skumulowanego błędu prognoz (APE) w
wyborze najlepszego modelu prognostycznego wyrażającego się w poprawnym
wyborze modelu w kontekście informacji spoza próby. Dodatkowo śledzenie
zmian w przebiegu APE może stanowić podpowiedz co do dezaktualizacji da-
nego modelu i konieczności zastąpienia go nowym. Zaznaczyć jednak trzeba, że
wybór modelu prognostycznego z wykorzystaniem APE może różnić się w za-
leżności od przyjętej funkcji straty.
Literatura
1. Akaike H. (1973), Information Theory as an Extension of the Maximum
Likelihood Principle, w: Petrov B. N., Csaki F., Second International Sym-
posium on Information Theory, Akademia Kiado, Budapest.
2. Armstrong J. S. (2001), Principles of Forecasting, Springer, New York.
3. Armstrong J. S., Fildes R. (1995), On the Selection of Error Measures for
Comparisons Among Forecasting Methods, Journal of Forecasting , vol.
14.
511
Porównanie kryteriów informacyjnych i predykcyjnych w &
4. Bhatti M. I., Al-Shanfari H., Hossain M. Z. (2006), Econometric Analysis
of Model Selection and Model Testing, Ashgate.
5. Burnham K. P., Anderson D. R. (2002), Model Selection and Mulitmodel
Inference, Springer.
6. Christiano L. J., Eichenbaum M. (1990), Unit Roots in Real GNP: Do We
Know and Do We Care?, Carnegie-Rochester Conference Series on Public
Policy , nr 32.
7. Diebold F. X., Senhadji A. (1996), Deterministic vs. Stochastic Trend in
U.S. GNP. Yet again, NBER Working Papers, nr 5481.
8. Grasa A. A. (1989), Econometric Models Selection: A New Approach,
Kluwer Academic Press, Boston.
9. Haubrich J. G., Lo A. W. (2001), The source and nature of long-term
memory in aggregate output, Federal Reserve Bank of Cleveland Econom-
ic Review , QII.
10. Mentzer J. T., Kahn K. B. (1995), Forecasting Technique Familiarity, Satis-
faction, Usage, and Application, Journal of Forecasting , vol. 14.
11. Murray C., Nelson C. (1998), The Uncertain Trend in U.S. GNP, Discus-
sion Papers in Economics at the University of Washington, nr 0074.
12. Nelson, Plosser (1982), Trends and Random Walks in Macroeconomic
Time Series: Some Evidence and Implications, Journal of Monetary Eco-
nomics , vol. 10(2).
13. Perron P., Phillips P. C. B. (1987), Does GNP Have a Unit Root? Econom-
ics Letters , vol. 23.
14. Piłatowska M. (2010), Kryteria informacyjne w wyborze modelu ekonome-
trycznego, Studia i Prace Uniwersytetu Ekonomicznego w Krakowie.
15. Quah D. (1987), What do we Learn from Unit Roots in Macroeconomic
Series?, NBER Working Papers nr 2450.
16. Rissanen J. (1986), Order estimation by Accumulated Prediction Errors,
Journal of Applied Probability , 23A.
17. Rissanen J. (2003), Complexity of Simple Nonlogarithmic Loss Function,
IEEE Transactions on Information Theory , 49, 476 484.
18. Rudebusch G. D. (1993), The Uncertain Unit Root in Real GNP, American
Economic Review , 83(1), 264 272.
19. Sugiura N. (1978), Further Analysis of the Data by Akaike s Information
Criterion and the Finite Corrections, Communications in Statistics, Theory
and Methods , A7, 13 26.
20. Stock J., Watson M. (1986), Does GNP Have a Unit Root?, Economics
Letters , 22(2/3), 147 151.
21. Wagenmaker E-J., Grünwald P., Steyvers M. (2006), Accumulative Predic-
tion Error and the Selection of Time Series Models, Journal of Mathemati-
cal Psychology , 50, 149 166.
512
Mariola Piłatowska
Streszczenie
Celem artykułu jest porównanie zachowania kryteriów informacyjnych i predyk-
cyjnych w wyborze modelu w przypadku znanego i nieznanego modelu generujÄ…cego z
punktu widzenia dwóch celów modelowania: poszukiwania modelu prawdziwego i
wyboru najlepszego modelu prognostycznego. Przypadek znanego modelu generujÄ…ce-
go będzie zilustrowany za pomocą eksperymentu symulacyjnego, a przypadek niezna-
nego modelu generującego - za pomocą przykładu empirycznego. Wyniki uzyskane na
podstawie przykładu empirycznego wskazują, że przy wyborze modelu prognostyczne-
go oprócz kryteriów predykcyjnych użyteczną rolę może odgrywać kryterium informa-
cyjne BIC ze względu na zgodność decyzji, co do wyboru najlepszego modelu progno-
stycznego według tych dwóch rodzajów kryteriów, znajdującą potwierdzenie poza pró-
bą (w postaci najniższych błędów prognoz otrzymanych na podstawie wybranego mo-
delu).
Comparison of information and predictive criteria in model selection
(Summary)
The purpose of the paper is to compare the performance of information and pre-
dictive criteria in model selection in the case of known and unknown data generating
model taking into account two goals of modeling: searching for a true model and select-
ing the best forecast model. The case of known data generating model will be illustrated
by simulation experiment, and the case of unknown data generating model by an empir-
ical example. The results obtained from the empirical example indicate that information
criteria may be useful in selecting the forecast model like predictive criteria. Especially
the BIC criterion is worth considering due to the similar choice of model in comparison
with the model selection made by predictive criteria and at the same time the selected
model is the most accurate in making the genuine out-of-sample forecasts.
Wyszukiwarka
Podobne podstrony:
informacja o wyborze oferty na promocjęinform kryteriainformacje porownanie skal twardosciKryteria oceniania z przedmiotu informatyka Gim 4KRYTERIA TECHNOLOGIA INFORMTeoria i metodologia nauki o informacjiplan nauczania technik informatyk wersja 1t informatyk12[01] 02 101informatyka w prawnicza testyWyk6 ORBITA GPS Podstawowe informacjeInformacja komputerowaPodstawowe informacje o RybnieZagrożenia bezpieczeństa informacjiwięcej podobnych podstron