PROGNOZOWANIE
Podstawy prognozowania
zdarzenie nastąpi, ponieważ wystąpiło w przeszłości
zdarzenie nastąpi, ponieważ wskazuje na to częstość jego występowania
zdarzenie nastąpi, ponieważ wskazuje na to silne powiązanie z innym zdarzeniem/zdarzeniami, które wystąpiło
Etapy prognozowania
Etap 1 sformułowanie zdarzenia prognostycznego
Etap 2 określenie przesłanek prognostycznych
Etap 3 zebranie i statystyczna obróbka danych
Etap 4 wybór metody prognozowania
Etap 5 konstrukcja prognozy
Etap 6 ocena dopuszczalności prognozy
Etap 7 zastosowanie prognozy
Etap 8 ocena trafności prognozy
METODY MECHANICZNE
Prognoza naiwna
UWAGA
Metody takie jak prognoza naiwna i średnia ruchoma umożliwiają budowę prognoz tylko na jeden okres przyszłości.
Zastosowanie metody naiwnej
w przypadku, gdy zmienna prognozowana wykazuje stały przeciętny poziom przy niewielkich wahaniach przypadkowych, których poziom mierzony jest współczynnikiem zmienności.
Zalety metody naiwnej
prostota obliczeń
brak efektu postarzania informacji
Wady metody naiwnej
możliwa jest budowa jedynie prognoz krótkoterminowych
metody naiwnej nie stosuje się w przypadku gdy zmienna prognozowana wykazuje wahania sezonowe
Metoda naiwna dana jest następującą formułą
Yt* = Yt − 1
Współczynnik zmienności dany jest jako
$$V = \frac{S}{\overset{\overline{}}{Y}} \times 100$$
gdzie
S - odchylenie standardowe zmiennej prognozowanej
$\overset{\overline{}}{Y}$ - średnia arytmetyczna zmiennej prognozowanej
zatem:
$$\overset{\overline{}}{Y} = \frac{1}{n}\sum_{t = 1}^{n}Y_{t},\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ S^{2} = \frac{1}{n - 1}\sum_{t = 1}^{n}\left( Y_{t} - \overset{\overline{}}{Y} \right)^{2}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ S = \sqrt{S^{2}}$$
Lata | Yt |
---|---|
1990 | 105 |
1991 | 110 |
1992 | 106 |
1993 | 100 |
1994 | 101 |
1995 | 100 |
1996 | 108 |
1997 | 104 |
1998 | 98 |
1999 | 103 |
2000 | 108 |
2001 | 104 |
2002 | 103 |
2003 | 100 |
2004 | 98 |
2005 | 102 |
2006 | 101 |
2007 | 104 |
2008 | 105 |
Należy:
wykreślić przebieg w czasie zmiennej prognozowanej
ocenić możliwość zastosowania metody naiwnej
zbudować prognozę na rok 2009
ocenić trafność prognozy
Ocena możliwości zastosowania metody naiwnej
$$\overset{\overline{}}{Y} = 103,1579$$
S2 = 11, 3626 V = 3, 27[%]
S = 3.3706
Prognoza naiwna dana jest jako
Lata | Yt |
Yt* |
|
---|---|---|---|
1990 | 105 | - | |
1991 | 110 | 105 | |
1992 | 106 | 110 | |
1993 | 100 | 106 | |
1994 | 101 | 100 | |
1995 | 100 | 101 | |
1996 | 108 | 100 | |
1997 | 104 | 108 | |
1998 | 98 | 104 | |
1999 | 103 | 98 | |
2000 | 108 | 103 | |
2001 | 104 | 108 | |
2002 | 103 | 104 | |
2003 | 100 | 103 | |
2004 | 98 | 100 | |
2005 | 102 | 98 | |
2006 | 101 | 102 | |
2007 | 104 | 101 | |
2008 | 105 | 104 | |
2009 | - | 105 | ← prognoza naiwna na rok 2009 |
Wykres wartości rzeczywistych i prognozowanych
Okres weryfikacji prognoz zawiera prognozy rzeczywiste i teoretyczne (ex post)
Wraz ze wzrostem odległości w przyszłość błąd będzie wzrastał.
Prognoza dopuszczalna – występuje wówczas jeżeli decydent, który z niej chce skorzystać akceptuje błąd.
Ocena trafności prognozy – błąd ex post
Błąd ex post dany jest następującą formułą
$$\Psi_{t} = \frac{Y_{t} - Y_{t}^{*}}{Y_{t}} \times 100$$
UWAGA
Przyjmijmy, że prognozę uznamy za trafną jeżeli błąd ex post nie będzie większy od 5%
W roku 2009 rzeczywista realizacja zmiennej prognozowanej Yt wyniosła 106. Zatem mamy:
$\Psi_{t} = \frac{Y_{t} - Y_{t}^{*}}{Y_{t}} \times 100\ \rightarrow \frac{106 - 105}{106} \times 100 = 0,94\left\lbrack \% \right\rbrack$ ← prognoza jest/była trafna
Prognoza naiwna – prognoza naśladująca rzeczywistość
ŚREDNIA RUCHOMA
Filtruje rzeczywistość, doprowadza proces Y to takiego stanu o którym jesteśmy w stanie coś więcej powiedzieć.
Zastosowanie średniej ruchomej
w przypadku gdy zmienna prognozowana wykazuje trend i wahania przypadkowe
Zalety średniej ruchomej
prostota obliczeń
umożliwia wygładzenie szeregu czasowego
stanowi wstępną metodę obróbki szeregu czasowego
brak efektu postarzania informacji
Wady średniej ruchomej
możliwa jest budowa jedynie prognoz krótkoterminowych
średniej ruchomej nie stosuje się w przypadku gdy zmienna prognozowana wykazuje wahania sezonowe
Prognoza uzyskana metodą średniej ruchomej ma postać
$$Y_{t}^{*} = \frac{1}{k}\sum_{i = t - 1}^{t - 1}y_{i}$$
gdzie
k – okres średniej ruchomej
UWAGA
im wyższy okres k średniej ruchomej, tym gładszy, ale zatem krótszy szereg teoretyczny
im niższy okres k średniej ruchomej, tym słabiej wygładzony szereg czasowy, ale jednocześnie odpowiednio długi
okres k średniej ruchomej wybierany jest w oparciu o kryterium minimalizacji dowolnego błędu ex post prognoz wygasłych
Przykład
Lata | Yt |
Yt* |
3 - okresowa | ||
---|---|---|---|---|---|
1990 | 105 | - | - | $Y_{4}^{*} = \frac{1}{3}\left( 105 + 110 + 106 \right) = 107,00$ | |
1991 | 110 | 105 | - | ||
1992 | 106 | 110 | - | ||
1993 | 100 | 106 | 107,00 | ||
1994 | 101 | 100 | 105,33 | $$Y_{5}^{*} = \frac{1}{3}\left( 110 + 106 + 100 \right) = 105,33$$ |
|
1995 | 100 | 101 | 102,33 | ||
1996 | 108 | 100 | 100,33 | ||
1997 | 104 | 108 | 103,00 | ||
1998 | 98 | 104 | 104,00 | ||
1999 | 103 | 98 | 103,33 | ||
2000 | 108 | 103 | 101,67 | ||
2001 | 104 | 108 | 103,00 | ||
2002 | 103 | 104 | 105,00 | ||
2003 | 100 | 103 | 105,00 | ||
2004 | 98 | 100 | 102,33 | $Y_{T = 20}^{p} = \frac{1}{3}\left( 101 + 104 + 105 \right) = 103,33$ | |
2005 | 102 | 98 | 100,33 | ||
2006 | 101 | 102 | 100,00 | ||
2007 | 104 | 101 | 100,33 |
|
|
2008 | 105 | 104 | 102,33 | ||
2009 | - | 105 | 103,33 |
Okres weryfikacji prognoz zaczyna się w roku 1993
Okres weryfikacji prognoz kończy się w roku 2008
Stosując średnią ruchomą z okresem k=5 zbudować prognozę na rok 2009
Lata | Yt |
Yt* |
3 - okresowa | 5 - okresowa | ||
---|---|---|---|---|---|---|
1990 | 105 | - | - | - | ||
1991 | 110 | 105 | - | - | ||
1992 | 106 | 110 | - | - | ||
1993 | 100 | 106 | 107,00 | - | ||
1994 | 101 | 100 | 105,33 | - | ||
1995 | 100 | 101 | 102,33 | 104,40 | ||
1996 | 108 | 100 | 100,33 | 103,40 | ||
1997 | 104 | 108 | 103,00 | 103,00 | ||
1998 | 98 | 104 | 104,00 | 102,60 | ||
1999 | 103 | 98 | 103,33 | 102,20 | ||
2000 | 108 | 103 | 101,67 | 102,60 | ||
2001 | 104 | 108 | 103,00 | 104,20 | ||
2002 | 103 | 104 | 105,00 | 103,40 | ||
2003 | 100 | 103 | 105,00 | 103,20 | ||
2004 | 98 | 100 | 102,33 | 103,60 | $$Y_{T = 20}^{p} = \frac{1}{5}\left( 98 + 102 + 101 + 104 + 105 \right) = 102,00$$ |
|
2005 | 102 | 98 | 100,33 | 102,60 | ||
2006 | 101 | 102 | 100,00 | 101,40 | ||
2007 | 104 | 101 | 100,33 | 100,80 | ||
2008 | 105 | 104 | 102,33 | 101,00 | ||
2009 | - | 105 | 103,33 | 102,00 |
BŁĘDY EX POST
Cechy charakterystyczne błędów ex post
wartość błędu nie ulega zmianie wraz ze wzrostem horyzontu prognozy
błędy ex post liczone są zawsze na postawie prognoz wygasłych
istnieją modele dla których nie można obliczyć niektórych błędów ex post z uwagi na założenia teoretyczne modelu
m – tzw. wartość sparowana
ME (mean error) średni błąd ex post ← nie dla modeli ekonometrycznych
$$ME = \frac{1}{m}\sum_{t \in I_{\text{ep}}}^{}\left( Y_{t} - Y_{t}^{*} \right)$$
MAE (mean absolute error) średni absolutny błąd ex post
$$MAE = \frac{1}{m}\sum_{t \in I_{\text{ep}}}^{}\left| Y_{t} - Y_{t}^{*} \right|$$
MSE (mean squared error) średni kwadratowy błąd ex post
$$MSE = \frac{1}{m}\sum_{t \in I_{\text{ep}}}^{}\left( Y_{t} - Y_{t}^{*} \right)^{2}$$
RMSE (root mean squared error) pierwiastek błędu ex post
$$RMSE = \sqrt{\text{MSE}}$$
MPE (mean percentage error) średni błąd procentowy ex post
$$MPE = \frac{1}{m}\sum_{t \in I_{\text{ep}}}^{}\frac{Y_{t} - Y_{t}^{*}}{Y_{t}} \times 100$$
MAPE (mean absolute percentage error) średni absolutny błąd procentowy prognoz ex post
$$MPE = \frac{1}{m}\sum_{t \in I_{\text{ep}}}^{}\frac{\left| Y_{t} - Y_{t}^{*} \right|}{Y_{t}} \times 100$$
Porównanie błędów ex post dla średniej ruchomej 3 i 5-cio okresowej
Średnia ruchoma 3 – okresowa
Prognoza wynosi 103,33
Błędy ex post:
ME = −0, 3958
MAE = 3, 5208
MSE = 17, 6458
RMSE = 4, 2007
MPE = −0, 0049
MAPE = 3, 4381 [%] ← dopuszczalność prognozy
Średnia ruchoma 5-cio – okresowa
Prognoza wynosi 102,00
Błędy ex post:
ME = −0, 0286
MAE = 2, 7429
MSE = 11, 5029
RMSE = 3, 3916
MPE = −0, 0012
MAPE = 2, 6755 [%] ← dopuszczalność prognozy
PROGNOZOWANIE NA PODSTAWIE TRENDU
Model tendencji rozwojowej
Przyjmijmy, że poszukiwana funkcja trendu ma postać liniową, czyli:
f(t) = α0 + α1t ← trend deterministyczny
To model szeregu czasowego ma postać
Proces stochastyczny Yt z czasem dyskretnym o nielosowym parametrze t.
Funkcja losowa z nielosowym czasem t.
Szacowanie parametrów
Postać macierzowa modelu ma następującą postać
y = Xα + ξ
gdzie:
$y = \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \\ \end{bmatrix}$ $X = \left\lbrack \begin{matrix} 1 \\ 1 \\ \vdots \\ 1 \\ \end{matrix}\begin{matrix} 1 \\ 2 \\ \vdots \\ n \\ \end{matrix} \right\rbrack$ $\alpha = \begin{bmatrix} \alpha_{0} \\ \alpha_{1} \\ \end{bmatrix}$ $\xi = \begin{bmatrix} \xi_{1} \\ \xi_{2} \\ \vdots \\ \xi_{n} \\ \end{bmatrix}$
Wektor ocen parametrów strukturalnych dany jest jako
a = (X′X)−1X′Y
gdzie
$$X^{'}X = \begin{bmatrix}
n & \sum_{t = 1}^{n}t \\
\sum_{t = 1}^{n}t & \sum_{t = 1}^{n}t^{2} \\
\end{bmatrix}\text{\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ }X^{'}y = \begin{bmatrix}
\sum_{t = 1}^{n}y_{t} \\
\sum_{t = 1}^{n}\text{ty}_{t} \\
\end{bmatrix}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ a = \begin{bmatrix}
a_{0} \\
a_{1} \\
\end{bmatrix}$$
Przy czym det (X′X)≠0
WERYFIKACJA MODELU
Wariancja resztowe
$$\text{Su}^{2} = \frac{1}{n - k}\sum_{t = 1}^{n}\left( y_{t} - y_{t}^{*} \right)^{2}$$
Stąd
Odchylenie standardowe
$$Su = \sqrt{\text{Su}^{2}}$$
Średnie błędy szacunku czyli:
Macierz wariancji i kowariancji
D2(a) = Su2(X′X)2
↓
$D\left( a_{0} \right) = \sqrt{\frac{\text{Su}^{2}\sum_{t = 1}^{n}t^{2}}{n\sum_{t = 1}^{n}\left( t - \overset{\overline{}}{t} \right)^{2}}}\ $ $D\left( a_{1} \right) = \frac{\text{Su}^{2}}{\sqrt{\sum_{t = 1}^{n}\left( t - \overset{\overline{}}{t} \right)^{2}}}$
lub
$$D^{2}\left( a \right) = \begin{bmatrix}
\sqrt{\left( . \right)} & \\
& \sqrt{\left( . \right)} \\
\end{bmatrix}$$
Prognoza punktowa dana jest jako
BŁĘDY EX ANTE
Błędy ex ante biorą pod uwagę przyszłe prognozy
Średni błąd predykcji dany jest jako
$V = \sqrt{{X^{'}}_{T}D^{2}\left( a \right)X_{T} + \text{Su}^{2}}$
X′T - transponowany wektor przyszłych realizacji zmiennych
D2(a) - macierz wariancji i kowariancji
XT - kolumnowy wektor przyszłych realizacji zmiennych objaśniających
Su2 - wariancja resztowa
Względny średni błąd predykcji dany jest jako
(ujęcie procentowe błędu stanowi odnośnik do teorii prognoz)
$$V^{*} = \frac{V}{y_{T}^{p}} \times 100$$
Prognoza przedziałowa budowana wokół prognozy punktowej
Pr(yTp−uV<yTp<yTp+uV) = γT
V - średni błąd predykcji
γT - poziom wiarygodności prognozy
u - wartość krytyczna odczytana z rozkładu wartości krytycznych T-Studenta (na odpowiednim poziomie istotności przy odpowiednim stopniu swobody) lub rozkładu normalnego
poziom wiarygodności prognozy = poziom istotności
Bezrobocie w Polsce – przykład trendu liniowego
Na podstawie danych o bezrobociu w Polsce [tyś] zamieszczonych w tablicy oszacować funkcję trendu o postaci.
Yt = α0 + α1t + ξt
Lata | Yt |
---|---|
1995 | 67,10 |
1996 | 62,10 |
1997 | 73,70 |
1998 | 86,60 |
1999 | 82,00 |
2000 | 87,80 |
2001 | 106,00 |
2002 | 97,60 |
Dane wejściowe w postaci wektora i macierzy są następujące:
$y = \begin{bmatrix} 67,1 \\ 62,1 \\ 73,1 \\ 80,6 \\ 82,0 \\ 87,8 \\ 106,0 \\ 97,6 \\ \end{bmatrix}$ $X = \left\lbrack \begin{matrix} 1 \\ 1 \\ 1 \\ 1 \\ 1 \\ 1 \\ 1 \\ 1 \\ \end{matrix}\begin{matrix} 1 \\ 2 \\ 3 \\ 4 \\ 5 \\ 6 \\ 7 \\ 8 \\ \end{matrix} \right\rbrack$
Stosując formułę na wektor ocen parametrów strukturalnych MNK a = (X′X)−1X′Y mamy
$X^{'} = \left\lbrack \begin{matrix} 1 & 1 & 1 \\ 1 & 2 & 3 \\ \end{matrix}\ \begin{matrix} \ \ \ \ 1 & 1 & 1 \\ \ \ \ \ 4 & 5 & 6 \\ \end{matrix}\begin{matrix} \ \ \ \ \ 1 & 1 \\ \ \ \ \ \ 7 & 8 \\ \end{matrix} \right\rbrack$ $X'X = \begin{bmatrix} 8 & 36 \\ 26 & 204 \\ \end{bmatrix}$
${X^{'}X}^{- 1} = \begin{bmatrix} 0,607 & - 0,107 \\ - 0,107 & 0,238 \\ \end{bmatrix}$ $X^{'}y = \begin{bmatrix} 656,9 \\ 3194,4 \\ \end{bmatrix}$
Stąd
$$a = \begin{bmatrix}
56,575 \\
5,675 \\
\end{bmatrix}$$
Model można zapisać jako:
Yt = 56, 575 + 5, 675t + ut
Interpretacja
W latach 1995-2002 bezrobocie w Polsce wzrastało z roku na rok średnio rzecz biorąc o 5,675 tyś osób.
W roku 1994 przeciętny poziom bezrobocia wynosił 56,575 tyś osób
(parametr wolny interpretuje się jako prognozę z okresu przed prognozą – prognoza dotyczy przeszłości)
Wartości teoretyczne dane są jako:
y1* = 56, 575 + 5, 675 × 1 = 62, 25
y2* = 56, 575 + 5, 675 × 2 = 67, 925
⋮ ⋮ ⋮ ⋮ ⋮
y8* = 56, 575 + 5, 675 × 8 = 101, 975
Miary struktury stochastycznej
Wariancja reszt i odchylenie standardowe
$$\text{Su}^{2} = \frac{189,1325}{8 - 2} = 31,52208\ \left\lbrack tys \right\rbrack^{2}$$
$$Su = \sqrt{31,52208} = 5,6144\ \left\lbrack tys \right\rbrack$$
Średnie błędy szacunku
$$D^{2}\left( a \right) = \begin{bmatrix}
19,1384 & - 3.3776 \\
- 3,3776 & 0,7505 \\
\end{bmatrix}$$
D(a0) = 4, 3747
D(a1) = 0, 8663
Yt = 56, 575 + 5, 675t + ut
(4,3747) (0, 8663)
Dopasowanie modelu do danych empirycznych
Lata | Yt |
$$\left( Y_{t} - \overset{\overline{}}{Y} \right)^{2}$$ |
---|---|---|
1995 | 67,10 | 225,375156 |
1996 | 62,10 | 400,500156 |
1997 | 73,70 | 70,7701562 |
1998 | 86,60 | 2,28765625 |
1999 | 82,00 | 0,01265625 |
2000 | 87,80 | 32,347 |
2001 | 106,00 | |
2002 | 97,60 |
φ2 = 0, 1226 → 12, 26 [%]
R2 = 0, 8774 → 87, 74 [%]
Prognoza punktowa na rok 2003
T = 9 przyszła realizacja zmiennej czasowej
YTp = 2003 = 56, 575 + 5, 675 × 9 = 107, 65 [tys]
Średni błąd predykcji
$$X_{T} = \begin{bmatrix}
1 \\
9 \\
\end{bmatrix}\ \rightarrow V = 7,1176\ \left\lbrack tys \right\rbrack$$
______________________________________________________________________________________
Yt = 56, 575 + 5, 675t + ut
ogólna formuła na prognozę
YTp = 56, 57 + 5, 67T
$X_{T} = \begin{bmatrix} 1 \\ 9 \\ \end{bmatrix}$ przyszła realizacja ślepej zmiennej
Przyszła realizacja T
YTp = 5, 67T + 56, 57
$$X_{T} = \begin{bmatrix}
9 \\
1 \\
\end{bmatrix}$$
______________________________________________________________________________________
żeby policzyć średni błąd predykcji
$V = \sqrt{{X^{'}}_{T}D^{2}\left( a \right)X_{T} + \text{Su}^{2}}$
Interpretacja błędu:
Rzeczywiste realizacje zmiennej prognozowanej Yt odchylają się średnio rzecz biorąc in plus bądź in minus o 7,1176 tyś osób, od wyznaczonych prognoz
Względny błąd predykcji
V* = 6, 61[%]
Interpretacja
Średni błąd predykcji stanowi 6,61% przeciętnego poziomu prognozy
Prognoza przedziałowa na rok 2003
n − k = 8 − 2 = 6 α = 0, 05 u = 2, 447
↓
Pr(107,65−2,447×7,1176<yr<107,65+2,447×7,1176) = 0, 95
↓
Pr(90,2332<yr<125,0668) = 0, 95
Prognozowanie na podstawie modelu ekonometrycznego
Zgromadzono następujące dane
Yt - zgony niemowląt na 1000 urodzeń żywych
X1t - spożycie wódki czystej i gatunkowej w przeliczeniu na alkohol 100% w litrach na osobę w ciągu roku
X2t - PKB na jednego mieszkańca w $
Lata | Yt |
X1t |
X2t |
---|---|---|---|
1992 | 17,3 | 3,5 | 2195 |
1993 | 16,1 | 3,8 | 2233 |
1994 | 15,1 | 3,8 | 2402 |
1995 | 13,6 | 3,5 | 3293 |
1996 | 12,2 | 2,9 | 3724 |
1997 | 10,2 | 2,8 | 3725 |
1998 | 9,5 | 2,4 | 4098 |
1999 | 8,9 | 2,1 | 4014 |
2000 | 8,1 | 2 | 4078 |
Wykresy rozrzutu
Na podstawie materiału statystycznego oszacowano model ekonometryczny o postaci
Yt = α1X1t + α2X2t + α0 + ξt
i uzyskano następujące wyniki
Yt* = 1, 79X1t − 0, 0026X2t + 15, 46 + ut
Interpretacja:
Dla X1t
Wzrost spożycia alkoholu o 1 jednostkę spowoduje wzrost liczby zgonów niemowląt na 1000 urodzeń żywych o 1,79 pod warunkiem, że PKB nie ulegnie zmianie.
Dla X2t
Wzrost PKB o 1 dolara spowoduje spadek liczby zgonów na 1000 urodzeń żywych o 0,0026 pod warunkiem, że spożycie alkoholu nie ulegnie zmianie
Dla parametru wolnego
Taka będzie przeciętna liczba zgonów na 1000 urodzeń żywych w przypadku gdy spożycie alkoholu oraz PKB będzie równe zero
Yt* = 1, 79X1t − 0, 0026X2t + 15, 46 + ut
(1,048) (0,000913) (5, 998)
Miary struktury stochastycznej
n = 9
k = 3
Su2 = 0, 796954
Su = 0, 592723
Istotność parametrów strukturalnych – test T-Studenta
α = 0, 2 tα = 1, 415
Wartości sprawdzianu:
tα1 = 1, 7118 tα2 = −2, 8073
$$D^{2}\left( a \right) = \begin{bmatrix}
1,098 & 0,0008 & - 6,134 \\
0,0008 & 8,32E - 7 & - 0,005 \\
- 6,134 & - 0,005 & 35,986 \\
\end{bmatrix}$$
Miary dopasowania modelu do danych empirycznych
φ2 = 5, 28835 R2 = 94, 71165
oraz
Vs = 7, 24[%]