Wykład 3
Prognozowanie na podstawie klasycznych modeli trendu
Interesuje nas dyskretny proces stochastyczny (Yt)t=1,2,…. Zaobserwowane wartości tego szeregu oznaczamy: y1, y2,… yn i nazywamy szeregiem czasowym. Możemy rozważać szereg czasowy momentów lub okresów. Dodatkowo zakładamy, że odstępy czasowe są równe.
Zdajemy sobie sprawę z tego, że zaobserwowane wartości Y nie musiały wystąpić, mogły być inne bliskie bądź dalekie od zanotowanych. Obserwowany proces jest procesem stochastycznym. Przyjmujemy następujący model opisu obserwowanego procesu. Przyjmujemy, że jest on wypadkową działania:
składowej deterministycznej (składowa systematyczna, przyczyny główne);
trendu
stałego poziomu;
składowej okresowej:
wahań cyklicznych;
wahań sezonowych;
procesu stochastycznego (przyczyn ubocznych, przypadkowych).
Proces wyznaczania składowych szeregu czasowego nazywamy procesem dekompozycji szeregu czasowego. Proces dekompozycji polega na budowie modelu szeregu czasowego.
Wyróżniamy dwa główne typy modelu szeregu czasowego:
addytywny: yt = f(t) + g(t) + h(t) + ξt ; t = 1, 2, … n ;
multiplikatywny: yt = f(t) ⋅ g(t) ⋅ h(t) ⋅ ξt ; t = 1, 2, … n ;
gdzie:
f - funkcja opisująca trend ;
g - funkcja opisująca wahania sezonowe ;
h - funkcja opisująca wahania cykliczne ;
ξt - składnik losowy.
Budując model musimy ustalić postać analityczną funkcji f, g, h. Krokiem w kierunku ustalenia postaci funkcji może być analiza graficzna zaobserwowanych wielkości y1, y2¸ … yn i na tej podstawie próba ustalenia postaci funkcji trendu. (patrz zeszyt Excela „wykład 3”, arkusz „funkcje trendu”)
Przyjmiemy, że funkcja trendu jest funkcją:
liniową, gdy (t, yt) układają się w przybliżeniu wzdłuż linii prostej; (yt = a + bt)
wykładniczą, gdy (t, ln(yt)) układają się w przybliżeniu wzdłuż linii prostej; (yt = a ⋅ bt)
logarytmiczną, gdy (ln(t), yt) układają się w przybliżeniu wzdłuż linii prostej; (yt = a ⋅ ln(t))
potęgową, gdy (ln(t), ln(yt)) układają się w przybliżeniu wzdłuż linii prostej; (yt = a ⋅ tb)
Na podstawie analizy graficznej danych (lub na innej podstawie), wybraliśmy postać analityczną funkcji trendu. Musimy teraz zweryfikować dokonany wybór.
Ad a) Jeśli funkcja trendu ma postać liniową f(t) = a + b⋅t , to przyrosty są stałe (z dokładnością do składnika losowego):
Δyt = yt - yt-1 = b + (ξt - ξt-1) ;
Weryfikujemy hipotezę, o stałości przyrostów zakładając liniowość przyrostów: Δyt = α + β⋅t + εt ;
a następnie weryfikujemy testem t-Studenta hipotezę zerową H0: ( β = 0 ) przeciwko hipotezie alternatywnej H1: ( β ≠ 0 ).
Ad b) Jeśli funkcja trendu ma postać wykładniczą f(t) = a ⋅ bt , to spełniony jest warunek:
( f(t) - f(t-1) ) / f(t-1) = b - 1
A to oznacza, że szereg czasowy ma stałe przyrosty względne (z dokładnością do składnika losowego) lub inaczej mówiąc, że indeksy łańcuchowe dla tego szeregu są stałe z dokładnością do czynnika losowego.
Weryfikujemy hipotezę, o stałości przyrostów zakładając liniowość przyrostów: Δyt / yt-1 = α + β⋅t + εt ;
Testem t-Studenta weryfikujemy hipotezę zerową H0: ( β = 0 ) przeciwko hipotezie alternatywnej H1: ( β ≠ 0 ).
*******************
*******************
Prognozowanie na podstawie trendu.
Rozważmy obecnie modele szeregów czasowych, w których składowa systematyczna ma postać trendu oraz w których występuje składowa losowa. Rozważamy więc modele postaci:
Yt = f(t) + ξt - postać addytywna (A)
Yt = f(t) ⋅ ξt - postać multyplikatywna (M)
dla t = 1, 2, …n
Będziemy obecnie zakładać, że f jest funkcją liniową: f(t) = α0 + α1⋅t
Dodatkowo zakładamy, że :
w modelu (A) addytywnym E(ξt) = 0 ;
w modelu (M) multyplikatywnym E(ξt) = 1 ;
Tak więc model szeregu czasowego ma postać:
yt = α0 + α1⋅t + ξt , t = 1, 2, … n;
Parametry α0 , α1 są nam nieznane. Musimy je oszacować. Szacujemy za pomocą metody najmniejszych kwadratów i jako wynik dostajemy a 0 , a1 .
Szereg czasowy możemy więc przedstawić następująco:
yt = a0 + a1⋅t + et ; t = 1, 2, … n ;
gdzie
to reszty modelu;
zaś
to wartości teoretyczne prognozowanej zmiennej
Model trendu możemy zapisać w postaci macierzowej: y = X α + ξ
gdzie:
,
,
,
.
Przez a oznaczmy oszacowanie wektora α za pomocą metodą najmniejszych kwadratów. Wektor a dany jest więc wzorem:
Zachodzi tożsamość:
y = X a + e
y^ = Xa
gdzie e to wektor reszt: e = y - X a =
zaś
to wektor wartości teoretycznych prognozowanej zmiennej.
Weryfikacja modelu trendu liniowego - ocena dopasowania do danych empirycznych.
Wariancja reszt:
Standardowe odchylenie reszt:
Współczynnik zmienności reszt
Zakładamy z góry pewną wartość krytyczną V* współczynnika zmienności losowej, np. V*=10%. Jeśli zachodzi nierówność:
Ve ≤ V*
to model uważamy za dostatecznie dopasowany do zmiennych empirycznych.
Współczynnik zbieżności ϕ2 :
Współczynnik zbieżności przyjmuje wartości z przedziału [0, 1], informuje on jaka część całkowitej zmienności zmiennej objaśnianej nie jest wyjaśniona przez model. Dopasowanie modelu do danych jest tym lepsze im mniejsze jest ϕ2.
Współczynnik determinacji R2 :
Współczynnik determinacji przyjmuje wartości z przedziału [0, 1], informuje on jaka część całkowitej zmienności zmiennej objaśnianej jest wyjaśniona przez model. Dopasowanie modelu do danych jest tym lepsze im większe jest R2.
Zachodzi równość: ϕ2 + R2 = 1 .
Współczynnik korelacji wielorakiej R:
Dopasowanie modelu do danych empirycznych weryfikuje się poprzez weryfikację hipotezy o istotności współczynnika determinacji (korelacji wielorakiej). Testuje się hipotezę zerową postaci H0 : [R2 = 0] przeciwko hipotezie alternatywnej H1 : [R2 ≠ 0].
Hipotezę testujemy przy pomocy statystyki F Fishera-Snedecora o m1 = k i m2 = (n - k - 1) stopniach swobody, gdzie k to ilość zmiennych objaśniających (u nas obecnie k = 1), n to ilość obserwacji. U nas m1 = 1; m2 = n - 2. Hipotezę testujemy na zadanym poziomie istotności γ (np. γ = 0,05).
Jeśli wykonujemy obliczenia „ręcznie” to dla ustalonego poziomu istotności γ wyznaczamy z tablic wartość krytyczną F* dla m1 , m2 stopni swobody.
Jeśli mamy do dyspozycji arkusz kalkulacyjny Excel to możemy wyznaczyć wartość krytyczną F* przy pomocy funkcji
=ROZKŁAD.F.ODW(γ; m1; m2)
Jeśli F ≤ F* to nie ma podstaw do odrzucenia hipotezy H0 , czyli przyjmujemy, że współczynnik determinacji jest nieistotnie różny od zera. Jeśli F > F* to odrzucamy hipotezę H0 na rzecz hipotezy alternatywnej H1 , współczynnik determinacji jest istotnie różny od zera.
Jeśli mamy do dyspozycji arkusz kalkulacyjny Excel oraz dysponujemy danymi, możemy wykonać wszystkie obliczenia w Excelu.
Weryfikacja modelu polega na weryfikacji hipotez o istotności po kolei każdego parametru. Stawiamy więc hipotezę zerową H0 : [αi = 0] wobec hipotezy alternatywnej H1 : [αi ≠ 0] . Hipotezy weryfikujemy statystyką t-Studenta dla n-2 stopni swobody:
, i= 0, 1 .
Gdzie S(a1), S(a2) to pierwiastki liczb leżących na przekątnej macierzy D2(a) wariancji-kowariancji parametru a.
D2(a) = Se2(XTX)-1 = |
d11 |
d12 |
|
d21 |
d22 |
S(a1) = (d11)0,5 ; S(a2) = (d22)0,5 .
Z tablic t-Studenta dla n-2 stopni swobody (n-k-1 stopni swobody) i danego poziomu istotności γ odczytujemy wartość krytyczną
. Jeżeli:
to odrzucamy hipotezę zerową na rzecz hipotezy alternatywnej. Czyli przyjmujemy, że i-ty parametr jest istotny.
Jeśli mamy do dyspozycji arkusz kalkulacyjny Excel to możemy wyznaczyć wartość krytyczną
przy pomocy funkcji
=ROZKŁAD.T.ODW(γ; ilość stopni swobody)
W przeciwnym wypadku nie mamy podstaw do odrzucenia H0 , czyli parametr strukturalny αi różni się nieistotnie od zera, a to oznacza, że czas czyli zmienna t nie wpływa w sposób istotny na wartość zmiennej objaśnianej Y.
Prognoza punktowa
Wartość prognozy na okres T = n+1, n+2, … obliczamy zgodnie z zasadą predykcji nieobciążonej przez ekstrapolację oszacowanej funkcji trendu:
gdzie c traktujemy jak „kolejny” wiersz macierzy obserwacji X, zaś a to wektor oceny parametrów strukturalnych modelu.
Ocena ex ante średniego błędu predykcji wyliczana jest ze wzoru:
Ocena ex ante względnego błędu predykcji wyliczana jest ze wzoru:
Prognoza przedziałowa
Przedział prognozy na poziomie wiarygodności γT , na okres (moment) T to przedział postaci:
budujemy tak, aby:
gdzie yTP - prognoza punktowa, S(DT) - średni błąd prognozy, γT - wiarygodność prognozy (=0,05 np.), u współczynnik odczytany z tablic dwustronnych t-Studenta dla n-2 stopni swobody i prawdopodobieństwa (1-γT), przy założeniu normalności rozkładu reszt trendu liniowego.
**********************
Przykład 1 (Zeliaś s. 81) (Obliczenia w zeszycie Excela „wykład 3” arkuszach „Zeliaś 1”).
Mamy dane miesięczne z lat 1991 - 1994: średnie kursy $100 USD w złotych.
Chcemy zbudować prognozę średnich kursów na kolejne dwa lata.
Wykonujemy ocenę graficzną zebranych danych.
Przyjmujemy liniową postać funkcji trendu
Yt = 0 + 1·t
Weryfikujemy hipotezę o stałości przyrostów zmiennej Yt .
yt = 0 + 1·t + t
gdzie yt = yt - yt-1
Na podstawie danych w tabeli budujemy liniowy model dla yt
yt = |
2,2981 |
+ |
0,0356·t |
|
(1,1069) |
|
(0,0402) |
Weryfikujemy teraz hipotezę zerową H0 o zerowaniu się parametru 1 przeciwko hipotezie H1 :
H0 : 1 = 0 ;
H1 : 1 ≠ 0 ;
Statystyka t(b1) = b1 / S(b1) ma rozkład t-Studenta z (m-2) stopniami swobody.
A więc t(b1) = 0,0356 / 0,0402 = 0,886
Z tablic rozkładu t wyznaczamy wartość krytyczną na poziomie istotności = 0,05: t 45 ; 0,05 = 2,0142
Ponieważ zachodzi:
t(b1) = 0,886 < t 45 ; 0,05 = 2,0142
Więc nie odrzucamy hipotezy Ho przyjmujemy, że 1 = 0. Tak więc możemy przyjąć liniowość funkcji trendu.
Szacujemy metodą najmniejszych kwadratów parametry funkcji trendu:
Yt = 0 + 1·t + t
Na podstawie danych w tabeli budujemy liniowy model dla yt
yt = |
79,7149 |
+ |
3,3852·t |
|
(2,1915) |
|
(0,0779) |
Ocena dopasowania modelu do danych empirycznych:
Współczynnik zmienności losowej We = Se / yśr = (7,47 / 162,65) = 0,0459
Współczynnik determinacji R2 = 105 569 / 108 138 = 0,9762
Współczynnik zbieżności 2 = 1 - R2 = 0,0238
Ocena ex ante dokładności wnioskowania w przyszłość.
Wariancja prognozy var(DT) = Se2·[1 + cT (XTX)-1c] gdzie cT = (1,T)
Chcemy zbudować prognozę na dwa lata (1995 i 1996) czyli na okresy od 49 do 72.
C47 = (1 ; 49)
Wariancja prognozy ex ante na okres 49 wynosi:
var(D49) = 55,851 · (1 + 0,086) = 60,653
Odchylenie standardowe - średni błąd prognozy wynosi:
S(D49) = 7,788
Względny błąd prognozy wynosi:
V(D49) = S(D49) / y49P = 7,788 / 245,59 =
C47 = (1 ; 72)
Wariancja prognozy ex ante na okres 72 wynosi:
var(D72) = 55,851 · (1 + 0,2638) = 70,693
Odchylenie standardowe - średni błąd prognozy wynosi:
S(D72) = 8,4079
Względny błąd prognozy wynosi:
V(D72) = S(D72) / y72P = 8,4079 / 323,45 = 0,0260
************************
Przykład 2 (Zeliaś s. 89) (Obliczenia w zeszycie Excela „wykład 3” arkuszach „Zeliaś 2”)
Mamy dane roczne z lat 1985 - 1994: produkcja w sztukach kolorowych odbiorników TV na 1000 ludności
Chcemy zbudować prognozę średnich kursów na kolejne dwa lata.
Wykonujemy ocenę graficzną zebranych danych.
Przyjmujemy wykładniczą postać funkcji trendu.
Yt = 0·1t
Weryfikujemy hipotezę o przyrostach zmiennej Yt .
yt / yt-1 = 0 + 1·t + t
gdzie yt = yt - yt-1
Na podstawie danych w tabeli budujemy liniowy model dla yt / yt-1
yt / yt-1 = |
0,06945 |
+ |
0,03474·t |
|
(0,2576) |
|
(0,0458) |
Weryfikujemy teraz hipotezę zerową H0 o zerowaniu się parametru 1 przeciwko hipotezie H1 :
H0 : 1 = 0 ;
H1 : 1 ≠ 0 ;
Statystyka t(b1) = b1 / S(b1) ma rozkład t-Studenta z (m-2) stopniami swobody.
A więc t(b1) = 0,06945/ 0,2576= 0,759
Z tablic rozkładu t wyznaczamy wartość krytyczną na poziomie istotności = 0,05: t 7 ; 0,05 = 2,3646
Ponieważ zachodzi:
t(b1) = 0,759 < t 45 ; 0,05 = 2,3646
Więc nie odrzucamy hipotezy Ho przyjmujemy, że 1 = 0. Tak więc możemy przyjąć wykładniczą postać funkcji trendu.
Szacujemy metodą najmniejszych kwadratów parametry funkcji logarytm (trendu):
ln(yt) = ln(0) + ln(1)·t + t
Na podstawie danych w tabeli budujemy liniowy model dla ln(yt)
ln(yt) = |
1,049 |
· |
2,0t |
|
(0,1398) |
|
(0,0225) |
Ocena dopasowania modelu do logarytmu danych empirycznych :
Współczynnik zmienności losowej We = Se / yśr = (0,2047 / 2,1476) = 0,0953
Współczynnik determinacji R2 = 3,2925 / 3,6277 = 0,9076
Współczynnik zbieżności 2 = 1 - R2 = 0,0924
Budowa prognoz średnioterminowych na lata 1995 - 1997:
T |
prognoza |
|
|
ln(yt)P |
ytP |
1995 |
3,2464 |
25,70 |
1996 |
3,4461 |
31,38 |
1997 |
3,6459 |
38,32 |
***********************
Przykład 3 (Zeliaś Pawełek Wanat s. 93) (przykład z ćwiczeń)
Rozpatrujemy zagadnienie predykcji liczby udzielonych noclegów (w mln) w hotelach w Polsce. Dysponujemy danymi:
Rok |
1990 |
1991 |
1992 |
1993 |
1994 |
1995 |
1996 |
1997 |
1998 |
Okres |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
noclegi (mln) |
6,11 |
6,50 |
6,77 |
7,15 |
7,52 |
8,05 |
8,53 |
8,89 |
9,28 |
Naszym zadanie jest wyznaczenie prognoz punktowych i przedziałowych liczby udzielonych noclegów w hotelach na lata 1999, 2000, 2001.
Prognozy uznamy za dopuszczalne jeśli będą obarczone błędem nie większym niż 4%, zaś wiarygodność prognoz przedziałowych powinna wynosić 95%.
Rozwiązanie
Obliczenia w zeszycie Excela „wykład 3” w arkuszu „Zeliaś 3”
Badamy graficzne przedstawienie danych:
Stwierdzamy, że szereg czasowy ma dwie składowe: trend i wahania losowe. Przyjmujemy, że naszym modelem tendencji rozwojowej będzie liniowa funkcja trendu. Czyli naszym modelem prognostycznym jest :
yt = α0 + α1⋅t + ξt , t = 1, 2, … n;
Przeprowadzimy teraz weryfikację naszego modelu.
Estymacja parametrów
|
t |
yt |
t-tśr |
yt-ytśr |
(t-tśr)2 |
(yt-ytśr)2 |
(t-tśr)(yt-ytśr) |
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
|
1 |
6,11 |
-4 |
-1,5344 |
16 |
2,3545 |
6,1378 |
|
2 |
6,50 |
-3 |
-1,1444 |
9 |
1,3098 |
3,4333 |
|
3 |
6,77 |
-2 |
-0,8744 |
4 |
0,7647 |
1,7489 |
|
4 |
7,15 |
-1 |
-0,4944 |
1 |
0,2445 |
0,4944 |
|
5 |
7,52 |
0 |
-0,1244 |
0 |
0,0155 |
0,0000 |
|
6 |
8,05 |
1 |
0,4056 |
1 |
0,1645 |
0,4056 |
|
7 |
8,53 |
2 |
0,8856 |
4 |
0,7842 |
1,7711 |
|
8 |
8,89 |
3 |
1,2456 |
9 |
1,5514 |
3,7367 |
|
9 |
9,28 |
4 |
1,6356 |
16 |
2,6750 |
6,5422 |
Suma |
45 |
68,8 |
0 |
0,0000 |
60 |
9,8640 |
24,2700 |
Średnia |
5 |
7,6444 |
|
|
|
|
|
Obliczamy:
Oszacowana funkcja trendu ma więc postać:
Weryfikacja modelu:
Ocenę zgodności danych empirycznych z wartościami teoretycznymi (wynikającymi z postaci modelu) dokonamy na podstawie ocen parametrów struktury stochastycznej, odchylenia standardowego składnika resztowego, współczynnika zmienności resztowej, współczynnika zbieżności i współczynnika determinacji liniowej.
|
t |
yt |
yt^ |
et=yt-yt^ |
(yt-yt^ )2 |
|
1 |
2 |
3 |
4 |
5 |
|
1 |
6,11 |
6,0264 |
0,0836 |
0,0070 |
|
2 |
6,50 |
6,4309 |
0,0691 |
0,0048 |
|
3 |
6,77 |
6,8354 |
-0,0654 |
0,0043 |
|
4 |
7,15 |
7,2399 |
-0,0899 |
0,0081 |
|
5 |
7,52 |
7,6444 |
-0,1244 |
0,0155 |
|
6 |
8,05 |
8,0489 |
0,0011 |
0,0000 |
|
7 |
8,53 |
8,4534 |
0,0766 |
0,0059 |
|
8 |
8,89 |
8,8579 |
0,0321 |
0,0010 |
|
9 |
9,28 |
9,2624 |
0,0176 |
0,0003 |
Suma |
45 |
68,8 |
68,8000 |
0,0000 |
0,0468 |
Średnia |
5 |
7,6444 |
|
|
|
Standardowe odchylenie składnika resztowego:
Współczynnik zmienności resztowej
Współczynnik zbieżności ϕ2 :
Współczynnik determinacji R2 :
W arkuszu kalkulacyjnym Excel możemy na wykresie dodać linie trendu i zażądać wyświetlenia równania linii trendu oraz wielkości współczynnika determinacji R2 .
Po zaznaczeniu obiektu wykres wybieramy z menu: Wykres; Dodaj linię trendu; w typie wybieramy liniowy, w opcjach zaznaczamy Wyświetl równanie, Wyświetl R-kwadrat.
W arkuszu kalkulacyjnym Excel możemy wykonać wszystkie obliczenia wywołując odpowiednie polecenie analizy danych. Jeżeli Analiza danych nie jest dostępna to musimy ją doinstalować z płytki i uaktywnić (Dodatki).
Analizę danych uruchamiamy następująco:
Menu: Narzędzia, Analiza danych, Regresja.
W tabeli regresja zaznaczymy zakres y, zakres x, czy są tytuły, gdzie mają być zapisane wyniki.
PODSUMOWANIE - WYJŚCIE |
|
|
|
Statystyki regresji |
|
Wielokrotność R |
0,997624555 |
R kwadrat |
0,995254753 |
Dopasowany R kwadrat |
0,994576861 |
Błąd standardowy |
0,081772526 |
Obserwacje |
9 |
ANALIZA WARIANCJI |
|
|
|
|
|
|
df |
SS |
MS |
F |
Istotność F |
Regresja |
1 |
9,8172 |
9,817215 |
1468,1603 |
2,14606E-09 |
Resztkowy |
7 |
0,0468 |
0,0066867 |
|
|
Razem |
8 |
9,864 |
|
|
|
|
Współcz. |
Błąd standard. |
t Stat |
Wartość-p |
Dolne 95% |
Górne 95% |
Przecięcie |
5,6219444 |
0,059406363 |
94,635392 |
3,876E-12 |
5,481470818 |
5,762418071 |
Zmienna X1 |
0,4045 |
0,010556788 |
38,31658 |
2,146E-09 |
0,379537182 |
0,429462818 |
Prognoza punktowa
Na rok 1999: y10P = 5,6215 + 0,4045 ⋅ 10 = 9,667 mln ,
Na rok 2000: y11P = 5,6215 + 0,4045 ⋅ 11 = 10,071 mln ,
Na rok 2001: y12P = 5,6215 + 0,4045 ⋅ 12 = 10,476 mln ,
Wartości ocen ex ante średnich błędów predykcji obliczonych prognoz:
mln
mln
mln
Wartości ocen ex ante względnych błędów predykcji obliczonych prognoz:
Prognoza przedziałowa:
Wartość współczynnika u odczytujemy z tablic dwustronnych rozkładu t-Studenta dla n-2 = 7 stopni swobody i prawdopodobieństwie (1 - 0,95) = 0,05 . Z tablicy odczytujemy, że u = 2,3646 .
Możemy też odczytać z arkusza Excela:
=ROZKŁAD.T.ODW(0,05;7) = 2,36462
Tak więc prognoza przedziałowa na poziomie wiarygodności 0,95 na kolejne lata wynosi:
Na rok 1999: (9,667 - 2,3646 ⋅ 0,1011 ; 9,667 + 2,3646 ⋅ 0,1011) = ( 9,428 ; 9,906 )
Na rok 2000: (10,071 - 2,3646 ⋅ 0,1069 ; 10,071 + 2,3646 ⋅ 0,1069) = ( 9,819 ; 10,324 )
Na rok 2001: (10,476 - 2,3646 ⋅ 0,1135 ; 10,476 + 2,3646 ⋅ 0,1135) = ( 10,208 ; 10,744 )
ProgSym 3 (2005).doc 2-04-2004
dr P. Zaremba 8/11