Modele sezonowe
Istotną składową szeregów czasowych oprócz trendu są wahania periodyczne. Do ich wyodrębnienia zostaną wykorzystane zmienne zerojedynkowe, przyjmujące wartości 0 lub 1.
Wprowadzamy do modelu tyle nowych zmiennych, ile jest faz w cyklu wahań, np. 4 gdy obserwujemy wahania kwartalne, 12 gdy wahania miesięczne.
Przyjmujemy następującą postać modelu:
$$Y_{t} = f\left( t \right) + \sum_{i = 1}^{r}\alpha_{i}V_{\text{it}} + {\xi_{t}}_{}$$ |
---|
Gdzie:
f(t) funkcja trendu
Vit – i-ta zmienna zero-jedynkowa, przyjmująca wartość jeden dla fazy o numerze i oraz zero dla pozostałych faz cyklu, (np. gdy r = 4 , V1=1 w każdym pierwszym kwartale i V2=V3=V4=0 w pozostałych kwartalach)
r- liczba faz cyklu
Z definicji wahań periodycznych wynika, że: $\sum_{i = 1}^{r}\alpha_{i} = 0$, więc $\alpha_{r} = - \sum_{i = 1}^{r - 1}\alpha_{i}$
Ostatecznie otrzymujemy model:
$$\mathbf{Y}\mathbf{t}\mathbf{= f(t) +}\sum_{\mathbf{i = 1}}^{\mathbf{r}}\mathbf{\alpha}_{\mathbf{i}}\mathbf{(V}_{\mathbf{\text{it}}}\mathbf{-}\mathbf{V}_{\mathbf{\text{rt}}}\mathbf{) +}{\mathbf{\xi}_{\mathbf{t}}}_{}\mathbf{\text{\ \ }}$$ |
---|
Przekształcenie zmiennych zeojedynkowych polega na odjęciu od wszystkich zmiennych (poza ostatnią) wartości zmiennej ostatniej. Parametry modelu możemy oszacować metodą najmniejszych kwadratów.
Na podstawie danych (z tabeli poniżej ) o wykorzystaniu obiektów noclegowych zbiorowego zakwaterowania w Polsce w latach 2004-2008 ( w tys. osób) oszacować odpowiedni model i wyznaczyć prognozy cztery kolejne kwartały.
Rok | Kwartał | Yt |
---|---|---|
I | 2671,6 | |
II | 4336,5 | |
2004 | III | 5513,3 |
IV | 3224,4 | |
I | 2804,8 | |
II | 4596,8 | |
2005 | III | 5769,6 |
IV | 3426 | |
I | 3044,8 | |
II | 4620,7 | |
2006 | III | 5856,8 |
IV | 3762,5 | |
I | 3407,9 | |
II | 5193,2 | |
2007 | III | 6236,5 |
IV | 4109,7 | |
I | 3572,3 | |
II | 5524 | |
2008 | III | 6362,1 |
IV | 4097,7 |
Wybór modelu
Analiza graficzna przebiegu szeregu czasowego danych wskazuje na występowanie w nim trzech składowych: trendu, wahań sezonowych i wahań przypadkowych. Na podstawie tej analizy przyjmujemy, że modelem tendencji rozwojowej może być liniowa funkcja trendu
Wykorzystanie obiektów noclegowych zbiorowego zakwaterowania w Polsce w latach 2004-2008 ( w tys. osób)
Postać modelu jest następująca:
Yt = α0 + βt + α1(V1t−V4t) + 2 (V2t−V4t)+3 (V3t − V4t)+t = a + bt+1 Q1+2Q2+3Q3+t |
---|
gdzie: Qi = Vit − V4t dla i=1, 2, 3
Oszacowany model ma postać:
$${\hat{y}}_{t} = \ 3752,23 + 62,32t - 1212,8Q1 + 478,84Q2 + 1509,94Q3$$
Interpretacja parametrów modelu:
W każdym następnym kwartale możemy się spodziewać średniego wzrostu wykorzystania obiektów noclegowych zbiorowego zakwaterowania o 62 tys. osób.
W kolejnych kwartałach zmienna liczba osób korzystających z obiektów noclegowych odchyla się od linii trendu średnio:
w I kwartale o -1 212 000 (spadek w stosunku do wartości trendu);
w II kwartale o 478 838 (wzrost w stosunku do wartości trendu);
w III kwartale o 1 509 000 (wzrost w stosunku do wartości trendu);
a w IV kwartale obserwujemy spadek średnio o -(-1 212 000+478 838+1 509 000)= -775 975 osób w stosunku do funkcji trendu.
SUMA WSZYSTKICH PARAMETRÓW PRZY ZMIENNYCH V JEST RÓWNA ZERO, PONIEWAŻ W MODELU SĄ TYLKO TRZY PARAMETRY, TO WARTOŚĆ CZWARTEGO OBLICZAMY, JAKO: ZERO MINUS SUMA TRZECH PARAMETRÓW Z OSZACOWANEGO MODELU.
Jak widać z punktu widzenia właścicieli obiektów noclegowych najważniejszy jest obserwowany w III kwartale wzrost liczby gości.
Miary dopasowania modelu do danych i ich interpretacja:
Odchylenie standardowe reszt wynosi Su = 106 671 osób, co oznacza, że szacując wartości liczby osób korzystających z obiektów noclegowych na podstawie modelu mylimy się średnio o +/- 106 671 osób.
Współczynnik determinacji jest równy R2 = 0, 9935, czyli 99, 35% zmienności liczby osób korzystających z obiektów noclegowych zostało wyjaśnione przez model.
Współczynnik zmienności wynosi: V = 4406, 56/106, 671 = 0, 0242, więc odchylenie standardowe reszt stanowi 2, 42% wartości średniej liczby osób korzystających z obiektów noclegowych.
Przedstawione miary świadczą o bardzo dobrym dopasowaniu modelu do danych.
Weryfikacja statystyczna modelu
Wartość prawdopodobieństwa Istotność F = 3, 21E − 16 jest mniejsza od przyjętego poziomu istotności równego 0, 05, czyli wartość współczynnika korelacji wielorakiej R jest istotnie większa od zera.
Współczynniki przy wszystkich zmiennych niezależnych występujących w modelu są istotnie różne od zera, ponieważ wartości prawdopodobieństw p odpowiadające poszczególnym zmiennym są mniejsze od założonego poziomu istotności.
Autokorelacja składnika losowego
Stat. Durbina-Watsona d = 1, 51104, dla n=20 i k` = 5-1 =4, z tablic DW mamy: dL= 0,89 i dU=1,83. Wniosek: trudno jest jednoznacznie stwierdzić, są do odrzucenia hipotezy zerowej o braku autokorelacji składnika losowego.
Wobec powyższych wyników weryfikacji można przyjąć, że model opisany równaniem:
$${\hat{y}}_{t} = 3752,23 + 62,32t - 1212,8Q1 + 478,84Q2 + 1509,94Q3$$
został poprawnie dobrany, wobec czego zostanie wykorzystany do wyznaczenia prognoz na następne 4 kwartały.
Obliczyć prognozy na kolejny rok.