2. Błędy prognoz i ich analiza
2.1 Rodzaje błędów prognoz
W trakcie poprzedniego wykładu stwierdziliśmy, że prognozy ekonomiczne, z uwagi na stochastyczny charakter procesów generujących zmienne ekonomiczne, obarczone będą błędami. Błędy prognozowania mogą być analizowane ex post i ex ante.
Schemat 2.1 Rodzaje błędów prognoz - kryterium obserwowalności
Źródło: opracowanie własne
Błędy ex post, tj. błędy zaobserwowane są analizowane przy pomocy znanych narzędzi statystyki opisowej oraz statystyki matematycznej. Statystyka opisowa oferuje narzędzia dające możliwość wyznaczenia miar położenia oraz miar rozproszenia. Statystyka matematyczna oferuje możliwości testowania hipotez statystycznych parametrów rozkładu błędów prognoz. W konsekwencji w szczególnych przypadkach analiza błędów ex post prowadzi do zdefiniowania poprawek prognostycznych, np. poprawek ze względu na obciążenie, czy autokorelację.
Błędy ex ante, nieobserwowalne w chwili wyznaczania prognozy, są analizowane drogą dedukcyjną. Określany jest ich rozkład w warunkach przyjętych założeń odnośnie do modelu generującego obserwacje zmiennej prognozowanej. Parametry rozkładu błędu ex ante mogą być oszacowane, nawet w przypadku, gdy błędy ex post nie są zaobserwowane.
Dla różnych celów definiować można błędy prognoz w różny sposób i odnosić je do różnych okresów/przedziałów czasu. Stąd też istnieje potrzeba klasyfikacji błędów prognoz.
Ze względu na sposób definiowania, błędy prognozy, zarówno ex post jak i ex ante, podzielić można na dwa rodzaje:
błędy bezwzględne, wyznaczone jako różnice, bądź kwadraty różnic między zmienną prognozowaną a prognozą, wyrażone w jednostkach tej zmiennej,
błędy względne, wyrażone jako stosunki błędów bezwzględnych do wartości prognoz, wyrażone zwykle w procentach.
Błędy bezwzględne, ponieważ wyrażone są w jednostkach zmiennej prognozowanej, nie mogą służyć do porównywania dokładności prognozowania różnych zmiennych. Błędy względne nie zależą od jednostek w jakich zmienne prognozowane są wyrażone. Mogą zatem służyć do celów porównawczych.
Schemat 2.2 Rodzaje błędów prognoz - kryterium sposobu definiowania
Źródło: opracowanie własne
2.2 Analiza błędów prognoz ex post
Przejdźmy obecnie do analizy błędów prognoz ex post, a więc błędów, które zostały zaobserwowane w pewnym przedziale czasu w przeszłości, zwanym przedziałem empirycznej weryfikacji prognozy. W przedziale tym zastosowano wybraną metodę prognozowania do wyznaczenia prognoz zmiennej
z wyprzedzeniem
okresów, co oznacza, że prognozy wyznaczone zostały w każdym z okresów
na okresy
. Zatem zarówno prognozy jak i błędy prognoz będą odrębnie analizowane dla różnych wyprzedzeń czasowych. W ogólnym przypadku można przypuszczać, że wraz ze wzrostem wyprzedzenia czasowego dokładności prognoz powinny być coraz mniej dokładne.
Schemat 2.3 ukazuje rodzaje błędów prognoz ex post klasyfikowane według kryterium okresu/przedziału czasu dla którego są wyznaczane. Zgodnie z tym kryterium wyróżniamy: błędy danego (indywidualnego) okresu czasu, błędy skumulowane oraz błędy średnie.
Schemat 2.3 Rodzaje błędów prognoz - kryterium okresu, którego dotyczą
Źródło: opracowanie własne
Zarówno błędy bezwzględne jak i względne są obliczane dla każdego okresu, na który została wyznaczona prognoza. Można powiedzieć, że jeśli metoda prognozowania jest dobrze dobrana wtedy błędy prognoz ex post powinny oscylować wokół zera. Pierwszą zatem metodą analizy błędów prognoz ex post jest wstępna analiza szeregu czasowego błędów, w szczególności analiza wykresów błędów prognoz na osi czasu. Taka wstępna analiza pozwala na ocenę:
czy błędy prognoz oscylują wokół zera,
czy występują nietypowe co do wielkości błędy prognoz.
Analiza wstępna nie jest jednak wystarczająca. Trudno jest bowiem na jej podstawie precyzyjnie określić charakter zmian błędów prognoz w czasie, w szczególności określić parametry rozkładu błędów prognoz. Można powiedzieć, że do statystycznej analizy błędów prognoz ex post wykorzystać można wszystkie narzędzia oferowane przez statystykę opisową oraz statystykę matematyczną, szczególnie wtedy, gdy ciąg zaobserwowanych błędów prognoz ex post jest relatywnie długi.
Przejdźmy obecnie do zdefiniowania podstawowych błędów bezwzględnych i względnych.
Błąd prognozy ex post
(bezwzględny) jest definiowany jako różnica między zmienną prognozowaną
, zaobserwowaną w tym okresie, a prognozą tej zmiennej
, wyznaczoną w okresie
, na okres
:
,
(2.1)
gdzie
jest kolejnym okresem próby historycznej,
oznacza liczebność próby historycznej, natomiast
oznacza realne wyprzedzenie czasowe prognozy. Błąd prognozy jest wyrażony w takich samych jednostkach jak zmienna prognozowana. Jeśli zmienną prognozowaną jest indeks zmian lub stopa zmian, wyrażone w procentach, wtedy błąd prognozy jest również wyrażony w procentach.
Realizacje błędów prognoz
mogą być dodanie, jeśli prognozy niedoszacowują realizacje zmiennej prognozowanej, ujemne jeśli prognozy przeszacowują realizacje zmiennej prognozowanej. W szczególnym przypadku realizacją błędu prognozy ex post może być liczba zero, jeśli
.
Możemy zatem powiedzieć, że dysponując szeregiem
obserwacji historycznych oraz wyznaczając prognozy na kolejne okresy
, otrzymamy ciąg liczący
prognoz i odpowiadających im błędów prognoz.
Absolutny błąd prognozy ex post
jest definiowany jako wartość bezwzględna błędu bezwzględnego:
,
. (2.2)
Absolutny błąd prognozy przyjmuje zatem wartości nieujemne i jest wykorzystywany do oceny rzędu odchyleń zmiennej prognozowanej od prognozy.
Podobne znaczenie posiadają kwadratowe błędy prognozy ex post, definiowane jako:
,
. (2.3)
Błędy kwadratowe przyjmują wartości nieujemne. Są wyznaczane i analizowane w celu umożliwienia wstępnej oceny, czy wariancja błędu prognozy jest stała, czy zmienia się w czasie.
Procentowy, względny błąd prognozy ex post
definiujemy jako procentowy udział bezwzględnego błędu prognozy w wartości prognozy:
,
. (2.4)
Błąd ten określa jaki procent wartości prognozy w danym okresie czasu stanowił błąd tej prognozy. Podobnie jak błąd bezwzględny błąd względny może przyjmować wartości ze zbioru liczb rzeczywistych.
Błąd ten obliczamy wtedy, gdy zmienna prognozowana jest wyrażona w innych jednostkach niż procenty.
Absolutny procentowy, względny błąd prognozy ex post
jest definiowany jako wartość bezwzględna błędu procentowego:
,
. (2.5)
Podobnie jak absolutny błąd prognozy, omawiany błąd prognozy może przyjmować wartości nieujemne. Błąd ten wykorzystamy do oceny dopuszczalności prognoz ex post. Zakładając, że satysfakcjonuje nas dokładność prognozowania nie mniejsza niż
przyjmiemy następującą regułę decyzyjną:
prognozę dla której
, nazywać będziemy prognozą dopuszczalną (wystarczająco dokładną),
prognozę dla której
, nazywać będziemy prognozą niedopuszczalną.
Wybór liczby
powinien uwzględniać rodzaj szeregu czasowego zmiennej prognozowanej, wyprzedzenie czasowe prognozy oraz cel dla którego prognoza jest wyznaczana. W przypadku szeregów czasowych o wysokiej częstotliwości, przyjęte kryterium prognozy dopuszczalnej może być mniej rygorystyczne (
może być większe), inaczej niż w przypadku danych rocznych. Mniej rygorystyczne kryterium dopuszczalności prognozy możemy zaakceptować dla prognoz z większym wyprzedzeniem czasowym. Również mniej rygorystyczne kryterium dopuszczalności można przyjąć w przypadku, gdy prognozy nie są wykorzystywane do podejmowania bieżących decyzji operacyjnych, bardziej rygorystycznie natomiast powinny być oceniane prognozy wykorzystywane do podejmowania bieżących decyzji gospodarczych.
Drugą grupę błędów stanowią błędy skumulowane. Są one definiowane jako cząstkowe sumy błędów prognoz liczonych dla kolejnych indywidualnych okresów czasu. W trakcie wykładów rozpatrywać będziemy skumulowane błędy bezwzględne oraz procentowe (względne). Błędy skumulowane pokazują ,,ewolucję procesu prognozowania'' w okresie próby. Wszystkie błędy skumulowane można traktować jako bezpośrednie lub pośrednie miary obciążenia błędów prognozy.
Skumulowane, cząstkowe błędy prognozy ex post
definiowane są jako:
,
, (2.6)
tzn. jako cząstkowe sumy bezwzględnych błędów prognoz lub w odniesieniu do względnych błędów procentowych jako:
,
. (2.7)
Skumulowane cząstkowe błędy prognoz pokazują, czy wykorzystywana metoda ma tendencję do przeszacowania/niedoszacowania realizacji zmiennej prognozowanej.
Miarą obciążenia błędu prognozy dla całej próby jest średnia arytmetyczna bezwzględnych błędów prognoz
, definiowana jako:
,
, (2.8)
gdzie:
jest średnią arytmetyczną zmiennej prognozowanej, natomiast
jest średnią prognoz z wyprzedzeniem
okresów.
Miarą obciążenia, liczoną w oparciu o błędy względne, jest średnia arytmetyczna błędów względnych
:
,
. (2.9)
Średni absolutny błąd prognozy
jest definiowany jako średnia arytmetyczna błędów absolutnych:
,
. (2.10)
Średni absolutny procentowy, względny błąd prognozy ex post
jest definiowany jako średnia arytmetyczna procentowych błędów prognozy:
,
. (2.11)
Średnie błędy absolutne
oraz
nie są miarami obciążenia (przyjmują tylko wartości nieujemne). Należy je traktować jako miary rozproszenia.
Przejdźmy obecnie do klasycznych miar rozproszenia (zmienności) błędów prognoz.
Średni kwadratowy błąd prognozy
definiować będziemy jako średnie kwadratowe odchylenie zmiennej prognozowanej od prognozy tej zmiennej lub ekwiwalentnie jako średnie kwadratowe odchylenie błędu prognozy z wyprzedzeniem
okresów od zera. Możemy zatem zapisać, że:
,
. (2.12)
Warto w tym miejscu wyjaśnić różnicę pomiędzy średnim kwadratowym błędem prognozy
a wariancją błędu prognozy
. Prawdziwa jest równość:
, (2.13)
gdzie:
jest wariancją błędu prognozy ex post.
Można zatem stwierdzić, że średni kwadratowy błąd prognozy jest sumą wariancji błędu prognozy oraz kwadratu obciążenia prognozy. Jeżeli obciążenie prognozy jest równe zero
, wtedy:
. (2.14)
Różnica w interpretacji obu miar zmienności wynika z przyjęcia różnych punktów odniesienia. W przypadku średniego kwadratowego błędu prognozy, punktem odniesienia jest zero, natomiast w przypadku wariancji jest nim średnia wartość błędów prognoz (obciążenie).
Średni błąd prognozy
wyznaczać natomiast będziemy jako pierwiastek kwadratowy ze średniego kwadratowego odchylenia:
(2.15)
i interpretować jako przeciętne in plus in minus odchylenie błędu prognozy od zera lub ekwiwalentnie jako przeciętne in plus in minus odchylenie zmiennej prognozowanej od prognozy tej zmiennej.
Jest oczywiste, że wyznaczyć można również odchylenie standardowe błędu prognozy jako pierwiastek z wariancji, zgodnie z:
. (2.16)
Odchylenie standardowe błędu prognozy definiuje przeciętne in plus in minus odchylenie błędu prognozy od średniej wartości tego błędu (obciążenia). Widać zatem wyraźnie, że jeśli obciążenie błędu prognozy jest zerowe wtedy obie miary zmienności równają się.
Dla oceny relatywnej dokładności prognozowania można obliczyć dodatkowo przeciętny względny błąd prognozy
zdefiniowany jako:
. (2.17)
Błąd ten określa procentowy udział średniego błędu prognozy w średniej wartości prognoz z wyprzedzeniem
okresów.
Wprowadzimy obecnie współczynnik dokładności prognoz ex post, związany z pojęciem prognozy dopuszczalnej. Oznaczmy przez
współczynnik sprawdzalności prognoz, który zdefiniujemy jako:
(2.18)
gdzie:
oznacza liczbę prognoz dopuszczalnych (tj. spełniających
), natomiast
oznacza liczbę wszystkich prognoz ex post. Współczynnik
oznacza zatem jaki procent wszystkich prognoz stanowiły prognozy dopuszczalne. Jest oczywiste, że współczynnik ten przybiera wartości z przedziału
.
Wprowadzimy ponadto kolejny współczynnik dokładności prognoz ex post, związany z jakością prognozowania zmian kierunków realizacji zmiennej prognozowanej. Rozważymy dwa przypadki:
pierwszy, gdy zmienna prognozowana przyjmuje wartości nieujemne, tzn. jest wyrażona w jednostkach naturalnych lub jest indeksem procentowym,
drugi, gdy zmienna prognozowana może przyjmować wartości rzeczywiste, tzn. jest procentową stopą zmian wyrażoną w procentach lub jest przyrostem wyrażonym w jednostkach naturalnych.
W pierwszym przypadku obliczymy pierwsze przyrosty zmiennej prognozowanej oraz pierwsze przyrosty prognoz tej zmiennej. Następnie obliczymy liczbę przypadków, w których przyrosty zmiennej prognozowanej mają takie same znaki jak przyrosty prognoz. Liczbę tę oznaczymy
.
W przypadku drugim obliczmy liczbę przypadków, w których realizacje zmiennej prognozowanej mają taki sam znak jak prognozy. Liczbę tę oznaczymy
.
Współczynnik poprawności
przepowiadania kierunków zmian definiujemy jako procentową frakcję liczby prognoz zgodnych (w sensie znaków) w ogólnej liczbie prognoz (lub ich przyrostów), co zapiszemy:
. (2.18)
Jest oczywiste, że również ten współczynnik przybiera wartości z przedziału
.
Inną miarą zgodności kierunków realizacji zmiennej prognozowanej i prognoz jest współczynnik korelacji liniowej Pearsona, definiowany jako:
(2.19)
gdzie:
- jest wariancją zmiennej prognozowanej,
,
- jest wariancją prognoz,
,
- jest kowariancją pomiędzy zmienną prognozowaną a prognozą tej zmiennej.
Współczynnik ten przybiera wartości z przedziału
. Bliskie jedności wartości tego współczynnika, świadczą o zgodności kierunków zmian realizacji zmiennej prognozowanej z ich prognozami.
Dysponując oszacowaniem obciążenia błędów prognoz
oraz odchyleniem standardowego
możemy testować hipotezę dotyczącą istotności obciążenia. Odpowiednie hipotezy statystyczne zapiszemy w następujący sposób:
;
. (2.20)
Jeżeli błędy prognoz mają rozkłady normalne, to odpowiednią statystyką testu jest:
(2.21)
o rozkładzie t-Studenta i
stopniach swobody. Duże co do modułu wartości statystyki
upoważniają do odrzucenia hipotezy zerowej, małe natomiast nie dają podstaw do jej odrzucenia. W szczególności dla przyjętego ryzyka wnioskowania (poziomu istotności
) regułami podejmowania decyzji są:
jeżeli
- podejmujemy decyzję o braku podstaw do odrzucenia hipotezy zerowej, stwierdzamy zatem, że obciążenie błędów prognoz z wyprzedzeniem
okresów statystycznie nieistotnie różni się od zera,
jeżeli
- podejmujemy decyzję o odrzuceniu hipotezy zerowej na rzecz hipotezy alternatywnej, stwierdzamy zatem, że obciążenie błędów prognoz z wyprzedzeniem
okresów statystycznie istotnie różni się od zera.
Jeśli obciążenie błędów prognoz jest statystycznie istotnie różne od zera można zdefiniować prognozę skorygowaną
ze względu na obciążenie. Można w takim przypadku zapisać, że:
. (2.22)
2.3 Diagram prognostyczny i linia prognoz dokładnych
Diagramem prognostycznym nazywać będziemy wykres zależności pomiędzy zmienną prognozowaną a jej prognozami (dla zadanego wyprzedzenia czasowego prognozy). Rysunek 2.1 przedstawia diagram prognostyczny w którym na osi rzędnych zaznaczono wartości prognoz z wyprzedzeniem
, natomiast na osi odciętych zaznaczono wartości zmiennej prognozowanej. Dane dotyczą kwartalnej stopy inflacji w Polsce i będą wykorzystywane w trakcie wykładów.
Źródło: opracowanie własne
Źródło: opracowanie własne
Źródło: opracowanie własne
Jak widać z rysunku 2.1 realizacje zmiennej prognozowanej i prognoz nie pokrywają się, tzn. występują niezerowe błędy prognoz. Tym nie mniej realizacje te skupione są wokół pewnej prostej. Gdyby prognozy nie były obarczone błędami, realizacje zmiennej prognozowanej i prognoz leżałyby na ,,linii prognoz dokładnych'', którą zamieszczono na rysunku 2.2. Linia ta przechodzi przez początek układu współrzędnych. Niestety jednak, jak pokazuje rysunek 2.3, empiryczna liniowa zależność pomiędzy zmienną prognozowana a prognozami tej zmiennej odbiega od linii prognoz dokładnych.
Rozważmy liniową zależność pomiędzy zmienną prognozowaną a prognozą, zapisaną jako:
,
(2.23)
gdzie:
,
parametry,
- składnik zakłócający, o którym zakładamy, że jest generowany przez proces czysto losowy. Zakładamy zatem, że
,
;
.
Oszacowaniami MNK parametrów tego modelu są:
, (2.24)
. (2.25)
Wariancje błędów ocen parametrów
,
znajdziemy w następujący sposób:
, (2.26)
(2.27)
gdzie
jest wariancją reszt w modelu (2.23), przy czym
, natomiast wartość teoretyczna zmiennej prognozowanej
, jest wyznaczona jako:
,
. (2.28)
Dysponując oszacowaniami MNK parametrów
,
możemy testować następujące hipotezy statystyczne dotyczące linii prognoz dokładnych:
;
(2.29)
;
. (2.30)
Oznaczmy oszacowania MNK parametrów
,
jako:
,
, natomiast ich średnie błędy jako:
,
. Odpowiednie statystyki t-Studenta mają postacie:
;
. (2.31)
Jeśli błędy prognoz mają rozkłady normalne wtedy statystyki
,
mają rozkłady t-Studenta o
stopniach swobody. Duże co do modułu wartości statystyk
;
uprawniają do odrzucenia hipotez zerowych na korzyść hipotez alternatywnych, małe zaś na przemawiają na korzyść hipotez zerowych. W szczególności dla akceptowanego poziomu ryzyka
reguły podejmowania decyzji są następujące:
jeżeli
,
- podejmujemy decyzję o braku podstaw do odrzucenia hipotez zerowych, stwierdzamy zatem, empiryczna linia (2.23) statystycznie nieistotnie różni się od linii prognoz dokładnych,
jeżeli
,
- podejmujemy decyzję o odrzuceniu hipotez zerowych na rzecz hipotez alternatywnych, stwierdzamy zatem, empiryczna linia (2.23) statystycznie istotnie różni się od linii prognoz dokładnych.
Współczynnik determinacji
dla liniowej relacji (2.23) jest definiowany zgodnie z:
(2.32)
Współczynnik ten może być wykorzystywany jako kryterium oceny jakości prognoz.
2.4 Dekompozycje średniego kwadratowego błędu prognoz Theila
Średni kwadratowy błąd prognozy oraz średni błąd prognozy są naturalnymi, najczęściej stosowanymi miernikami dokładności prognoz ex post. Prognozy są tym bardziej dokładne im miary te są bliższe zeru. H. Theilowi zawdzięczamy bardziej szczegółowe analizy, zwane dekompozycjami Theila, które umożliwiają określenie przyczyn powstawania błędów prognoz. Omówimy dwie dekompozycje średniego kwadratowego błędu prognozy.
Drogą bezpośredniego sprawdzenia wykazać można, że prawdziwa jest następująca równość (pierwsza dekompozycja Theila):
, (2.33)
gdzie: symbole występujące po prawej stronie równości zdefiniowano w poprzednich częściach wykładu.
Dzieląc obie strony równości zapisanej wyżej przez
otrzymamy:
. (2.34)
Wprowadźmy oznaczenia:
,
,
, (2.35)
gdzie:
nazywać będziemy współczynnikiem udziału błędów z tytułu wariancji,
nazywać będziemy współczynnikiem udziału błędów kierunków tytułu niezgodności kierunków realizacji,
natomiast nazywać będziemy współczynnikiem udziału błędów z tytułu obciążenia.
Współczynnik
określa, jaki jest udział błędów wynikających różnicy zmienności zmiennej prognozowanej i prognoz tej zmiennej w średnim kwadratowym błędzie prognozy. Duże wartości tego współczynnika wskazują na małą lub zbyt dużą elastyczność elastyczność metody prognozowania, zastosowanej w badanym przypadku prognozowania. W przypadku zbyt małej elastyczności tj.
, szereg czasowy zmiennej prognozowanej wykazuje dużą zmienność, natomiast metoda prognozowania daje prognozy wygładzone. W przypadku zbyt dużej elastyczności tj.
szereg czasowy zawiera regularne zmiany (inercyjne), natomiast wykorzystana jest metoda prognozowania wrażliwa na zmiany najnowszych obserwacji. Jest oczywiste, że
, jeśli
.
Współczynnik
określa, jaki jest udział błędów wynikających z niezgodności kierunków realizacji zmiennej prognozowanej i prognoz tej zmiennej. Współczynnik ten równa się zero
, jeśli
. Im bardziej empiryczny współczynnik korelacji odbiegać będzie od jedności, tym większe wartości przyjmować będzie współczynnik
.
Współczynnik
określa, jaki jest udział błędów spowodowanych obciążeniem prognozy w średnim kwadratowym błędzie prognozy. Współczynnik ten przyjmie wartość zero
jeśli
, tzn.
. Duży udział błędów z tytułu obciążenia wskazuje na systematyczne przeszacowanie, bądź nieoszacowanie prognoz. Jest to zwykle sygnałem do zmiany modelu prognostycznego, wykorzystywanego w prognozowaniu.
Wszystkie omawiane współczynniki są unormowane w przedziale
oraz sumują się do jedności:
. (2.36)
Podobnie jak w przypadku omawianym wyżej, również obecnie, drogą bezpośredniego sprawdzenia wykazać można, że prawdziwa jest równość (druga dekompozycja Theila):
, (2.37)
przy czym oznaczenia pozostają niezmienione.
Dzieląc obie strony tej równości przez
otrzymamy:
. (2.38)
Wprowadzając oznaczenia:
,
,
(2.39)
otrzymamy:
. (2.40)
Współczynnik
określać będziemy jako współczynnik udziału błędów z tytułu odchyleń od linii prognoz dokładnych. Jak pokazaliśmy w poprzedniej części wykładu oszacowaniem współczynnika kierunkowego linii (2.23) jest
. Oszacowanie to jest równe jedności,
, jeśli
. W takim przypadku
. Zatem im większa jest różnica
, tym większe jest odchylenie współczynnika
od jedności, tym większe wartości przyjmuje współczynnik
.
Współczynnik
nazywać będziemy współczynnikiem udziału błędów z tytułu niedopasowania relacji (2.23). Ponieważ
jest współczynnikiem zbieżności obliczonym dla modelu (2.23), określa zatem jaka część zmienności realizacji zmiennej prognozowanej nie została wyjaśniona przez zmienność prognoz. Jeśli zatem
, wtedy
znieważ wtedy
.
Współczynnik udziału błędów z tytułu obciążenia
omówiono poprzednio.
2.5 Skorelowanie w czasie błędów prognoz ex post
Kolejnym etapem analizy błędów prognoz ex post może być badanie autokorelacji (skorelowania w czasie) tych błędów. Jest zrozumiałe, że analiza autokorelacji ma uzasadnienie wtedy, gdy dysponujemy stosunkowo długim szeregiem czasowym obserwowalnych błędów prognoz. Skorelowanie w czasie błędów prognoz może być wynikiem wielu przyczyn. Jedną z nich może być na przykład błąd konstrukcji modelu prognostycznego (ekonometrycznego). Niezależnie od przyczyn powodujących skorelowanie w czasie błędów prognoz, informacje o rodzaju tego skorelowania mogą być wykorzystane do skonstruowania poprawki prognozy ze względu na autokorelację.
Dla uproszczenia zapisów rozpatrzmy przypadek autokorelacji rzędu pierwszego
. Oszacowaniem tego współczynnika na podstawie ciągu
zaobserwowanych błędów prognoz ex post jest:
. (2.41)
Współczynnik ten informuje o sile i kierunku skorelowania w czasie kolejnych błędów prognoz z wyprzedzeniem
okresów. Można testować hipotezę istotności tego współczynnika wykorzystując statystykę Box-Pierce'a lub Ljung-Boxa. Jeśli okaże się, że współczynnik autokorelacji jest istotnie różny od zera, wtedy uzasadnienie ma wyznaczenie prognozy skorygowanej:
. (2.42)
2.6 Prognozowanie bez wygładzania
Rozważmy obecnie tzw. naiwną metodę prognozowania, polegającą na wyznaczeniu prognozy na okres następny na poziomie poprzedniej realizacji zmiennej prognozowanej. Mimo nazwy sugerującej niezbyt mocne uzasadnienia tej metody, pokażemy, że wzmiankowana metoda prognozowania ma mocne podstawy teoretyczne.
Rozważmy liniowy model błądzenia przypadkowego, który zapiszemy w następujący sposób:
;
, (2.43)
gdzie
jest czysto losowym zakłóceniem, spełniającym:
,
;
.
Jeżeli wyjściowa obserwacja jest zadana (ustalona) jako
, wtedy poziom zmiennej
w dowolnym momencie czasu jest wyznaczony przez ustaloną wartość początkową oraz wszystkie zakłócenia jakie zrealizowały się do momentu
włącznie, co zapiszemy:
(2.44)
gdzie
jest definiowane jako trend stochastyczny.
Realizacja zmiennej w okresie
generowanej przez proces błądzenia przypadkowego różnić się będzie o czysto losowe (,,nieprognozowalne'') zakłócenie losowe, co zapiszemy:
. (2.45)
Można zadać pytanie: jaka jest najlepsza prognoza zmiennej
wyznaczona w okresie
? Nie ulega wątpliwości, że w takim przypadku najlepszą prognozą tej zmiennej jest:
;
. (2.46)
W tym przypadku wyprzedzenie czasowe prognozy wynosi
. Błędem prognozy ex post jest:
. (2.47)
Ponieważ wariancja składnika zakłócającego wynosi
, zatem wariancja błędu prognozy z wyprzedzeniem jednego okresu wynosi:
. (2.48)
Można powiedzieć, że wariancja składnika zakłócającego jest minimalnym średnim kwadratowym błędem, jaki można popełnić prognozując zmienną
, jeśli ta zmienna jest generowana przez model błądzenia przypadkowego. Zastosowanie jakiejkolwiek innej metody prognozowania nie powinno przynieść prognoz o średnim kwadratowym błędzie mniejszym niż
. W takim przypadku nie opłaca się ponosić kosztów na przygotowanie prognoz przy pomocy najbardziej skomplikowanych metod, gdyż prognozy otrzymane metodą naiwną będą porównywalnie dokładne.
Zauważmy, że na efektywnych rynkach (finansowych i towarowych) ceny dóbr są generowane przez procesy błądzenia przypadkowego. Zatem na rynkach efektywnych wykorzystywanie specjalnych metod prognozowania nie przynosi zmniejszenia ryzyka, gdyż rynek efektywny dyskontuje natychmiast wszystkie informacje, których efekty ,,zawarte są w ostatnio zaobserwowanej cenie''.
Dla metod prognozowania stosowanych w dalszych częściach zajęć obliczać będziemy współczynnik prognozowalności
, będący ilorazem średniego kwadratowego błędu rozpatrywanej metody do średniego kwadratowego błędu dla metody bez wygładzania. Definicja tego współczynnika jest następująca:
(2.49)
gdzie
jest średnim kwadratowym błędem dla rozpatrywanej metody prognozowania,
jest średnim kwadratowym błędem dla metody bez wygładzania.
Jeśli
, to analizowana metoda prognozowania jest ,,nie lepsza'' niż metoda bez wygładzania.
Inną, ale podobną w interpretacji miarą porównawczą, jest współczynnik
Thiela. Ma on następującą definicję:
(2.50)
W liczniku zapisanego w (2.50) wyrażenia znajduje się suma kwadratów relatywnych (procentowych) błędów prognoz podzielona przez liczbę prognoz. Jest to odpowiednik
znajdującego się w liczniku wyrażenia (2.49). W mianowniku wzoru (2.50) natomiast znajduje się suma kwadratów relatywnych błędów prognoz dla metody bez wygładzania, tj odpowiednik
ze wzoru (2.49). Zatem jeśli
, to analizowana metoda prognozowania jest ,,nie lepsza'' od metody bez wygładzania, natomiast gdy
analizowana metoda daje prognozy obarczone średnio mniejszym relatywnym błędem niż metoda bez wygładzania.
Materiał dydaktyczny do wykorzystania przez studentów uczestniczących w wykładach z Prognozowania, prowadzonych przez Tadeusza W. Bołta.
W literaturze przedmiotu wykorzystuje się dwa rodzaje oznaczeń błędów prognoz: pierwszy, stosowany w trakcie wykładów, zawiera literkę
od angielskiego ,,error'', drugi natomiast zawieram literkę
, od angielskiego ,,deviation''. Na przykład dla oznaczenia średniego kwadratowego błędu prognozy stosuje się dwa oznaczenia:
(Mean Squared Error) lub
(Mean Squared Deviation).
Alternatywną definicją tego błędu jest:
, określający procentowy udział błędu prognozy w zaobserwowanej wartości zmiennej prognozowanej.
W literaturze przedmiotu niekiedy skumulowane błędy oznaczane są jako CUSUM (Cumulative Sum), natomiast skumulowane błędy kwadratowe jako CUSUMSQ (Cumulative Sum of Squares). Zob. np. R.L.Brown, J.Durbin, J.M.Evans, Techniques for testing the constancy of regression relations over time (with discussion), Journal of the Royal Statistical Society B, vol. 37, str. 149-192.
Alternatywnym średniego stosunku do (2.21) sposobem definiowania średniego kwadratowego błędu prognozy jest:
. Dla dużych prób oba sposoby dają w przybliżeniu takie same wyniki. Pierwszy z nich może być traktowany jako nieobciążony estymator odpowiedniego parametru rozkładu błędu prognozy, drugi natomiast jako obciążony, ale zgodny estymator największej wiarygodności. Zob. np. H.Theil, Zasady ekonometrii, PWN, Warszawa 1979, str. 111-112. Ten drugi wykorzystywać będziemy w prezentowanych w następnych częściach dekompozycjach Theila.
Prawdziwy jest następujący ciąg przekształceń tożsamościowych:
Drugi składnik sumy można zapisać następująco:
. Dla dużej liczebności próby
i przybliżenie (2.13) jest bardzo dokładne, np. dla
iloraz ten wynosi
. Trzeci składnik tej równości zeruje się, gdyż suma odchyleń od średniej jest równa zeru:
, co prowadzi do wyniku zapisanego w równaniu (2.13).
Alternatywną formą tego współczynnika jest:
, określający procentowy udział średniego błędu prognozy w średniej wartości zmiennej prognozowanej.
Możemy oczywiście weryfikować hipotezy jednostronne. W przypadku układu zdań
;
hipoteza zerowa jest odrzucana na korzyść hipotezy alternatywnej, która stwierdza, że występuje istotne nieoszacowanie prognoz. W przypadku układu zdań
;
hipoteza zerowa jest odrzucana na korzyść hipotezy alternatywnej, która stwierdza, że występuje istotne przeszacowanie prognoz.
Zob. np. J.Jóźwiak, J.Podgórski, Statystyka opisowa od podstaw, PWE, Warszawa 1997, str. 245.
W sprawie klasycznej metody najmniejszych kwadratów zob. np. H.Theil, Zasady ekonometrii, PWN, Warszawa 1979, str. 56-60 oraz str.121-164. Zobacz też T.W. Bołt, Wykłady z ekonometrii, www.wzr.pl .
Zobacz. np. H.Theil, Zasady ekonometrii, PWN, Warszawa 1979, str.124-125. Zobacz też T.W. Bołt, Wykłady z ekonometrii, www.wzr.pl .
W trakcie wykładu rozpatrywać będziemy tylko indywidualne hipotezy dotyczące parametrów
,
. Nie jest jednak trudno testować obie hipotezy łącznie, korzystając ze statystyk o rozkładzie
oraz Fishera-Snedecora.
Zob. np. H.Theil, zasady ekonometrii, PWN, Warszawa 1979, str.
Zob. H.Theil, Applied economic forecasting, North-Holland Publishing Company, Amsterdam 1961, str. 25-39.
W sprawie autokorelacji zobacz np. H.Theil, Zasady ekonometrii, PWE, Warszawa 1979, str. 257-261.
Zob. G.E.P.Box, D.A.Pierce, Distribution of residual autocorrelations in autoregressive-integreted moving average time series models, Journal of the American Statistical Association, vol. 65, 1970, str. 1509-1526, G.M.Ljung, G.E.P.Box, On a measure of lack of fit in time series models, Biometrica, vol.65, 1978, str. 297-303.
Zob. np. J.B.Gajda, Prognozowanie i symulacja a decyzje gospodarcze, Wydawnictwo C.H.Beck, Warszawa 2001, str. 176-180.
Założenie to może być testowane przy pomocy statystyki Ljunga -Boxa.
To czy dany szereg czasowy jest generowany przez proces błądzenia przypadkowego jest przedmiotem wnioskowania statystycznego. Najbardziej znanym testem jest test Dickey-Fullera. Przegląd problemów z tym związanych można znaleźć w książce: G.S.Maddala, Introduction to econometrics, MacMillan Publishing Company, New York 1992, str. 580-588. Z uwagi na charakter wykładu nie rozwijamy szerzej tej problematyki.
Szereg czasowy, którego wyrazy są generowane przez proces błądzenia przypadkowego jest niestacjonarny, gdyż wariancja, autokowariancje (
) i współczynniki autokorelacji (
) dla takiego szeregu są zmienne w czasie.
Możemy pokazać, że
;
;
;
.
Zob. np. E.J.Elton, M.J.Gruber, Nowoczesna teoria portfelowa i analiza papierów wartościowych, WIG Press, Warszawa 1998, str.497-540.
Prognozowanie, Tadeusz W.Bołt,
1
Błędy
prognoz
Ex ante
Ex post
Błędy prognoz
wygasłych
Błędy prognozy
będących wynikiem
eksperymentów
prognostycznych
Błędy
prognoz
Błędy
bezwzględne
Błędy
względne
Błędy
prognoz
Błędy prognoz
danego okresu
Błędy skumulowane/
błędy średnie