EKONOMETRIA
STANISŁAW BARCZAK
wykład 1 18.02.2014
wielokrotny wybór, brak pkt. ujemnych
literatura w sylabusie,
funkcje ekonometryczne w Excelu
podręczniki :
Magdalena Osińska : „Ekonometria Współczesna” – zadania raczej z komputerem
Edward Nowak : „Zarys Metod Ekonometrii” zbiór zadań – tutaj są zadania rozwiązane krok po kroku, warto ją wypożyczyć.
MODELOWANIE DZIAŁALNOŚCI PRZEDSIĘBIORSTWA
ROZWÓJ METOD EKONOMETRYCZNYCH
Frish (1936r) prawdopodobny twórca nazwy „ekonometria"– unifikacja teorii ekonomii, statystyki i matematyki. Główny cel ekonometrystów to przewidywanie cykli koniunkturalnych. Początek od stworzenia zakłóconego ruchu wahadła (analogia do wahań giełdowych).
Ekonometria czyli mierzenie w ekonomii - zastosowanie metod statystycznych i matematycznych do analizy danych ekonomicznych w celu nadania teoriom ekonomicznym kontekstu empirycznego oraz ich potwierdzenia bądź odrzucenia.
G. S. Maddala
Oznacza to, że Ekonometria nie jest nauką teoretyczną, ona służy zastosowaniom praktycznym.
+ Historia metod ekonometrycznych.
I era – era klasycznej metody najmniejszych kwadratów, modele TIMBERGENA, działy: analiza popytu konsumpcyjnego, podaży, kosztów produkcji, wydajności pracy.
II era – rozwój estymacji 2MNK i 3MNK, metody zmiennych instrumentalnych, powstały modele Kleina, Kleina- Goldbergena, podejście przyczynowo-skutkowe.
III era – zastosowanie analizy mnożnikowej, Goldberger w 1956 roku, powstaje analiza przepływów międzygałęziowych.
Po II WŚ można powiedzieć, że ekonometria jest już nauką.
IV era – wprowadzenie analizy spektralnej do ekonometrii, prekursorzy tego to Jevons i Moore, lata 60te to panowanie analizy spektralnej
V era – komputeryzacja, powstają makromodele będące podstawą symulacji i prognozowania, metody „input-output”.
Możliwe staje się prowadzenie badań o charakterze symulacyjnym.VI era – Rozwój makromodelowania. Budowa modeli międzynarodowych obejmujących całe kontynenty jak i również świat. Tego typu modele zaliczane są do modeli budowanych w ramach systemu LINK (Link Project Forecast 1983)
!!! NIE TRZEBA BYŁO TEGO PISAĆ
Model ekonometryczny a model ekonomiczny.
Model ekonomiczny to zbiór zbiór założeń, które w sposób przybliżony opisują zachowanie sie gospodarki sektora gospodarki
Model ekonometryczny to :
zbiór równań behawioralnych
deklaracja czy obserwowane zmienne zawierają błędy obserwacji
specyfikacja błędów pomiaru - zakłóceń
Model ekonomiczny :
modele MATEMATYCZNE
1) q = α + βp β<0 jeżeli cena wzrośnie o jednostkę, to popyt spadnie o wartość parametru beta
2) q = ApB β<0
q – popyt
p – cena
Konkluzja : teoria ekonomii rzadko daje odpowiedź na temat postaci funkcyjnej proponowanych zależności, ale ona te rzeczy weryfikuje.
Równanie behawioralne, model EKONONOMETRYCZNY
q= α+ βp + u
u – zmienna losowa, zakłócenia losowe,
α,β – parametry nieznane.
ZAKŁÓCENIE LOSOWE : u
(specyfikacja rozkładu prawdopodobieństwa zmiennej losowej u) :
E (u|p) = 0 warunkowa wartość oczekiwana jest równa zero
u – niezależne od regresowa i niezależne od samego siebie.
wartości zmiennej u dla różnych obserwacji mają wzajemnie niezależne rozkłady normalne ze średnimi równymi 0 i wariancjami równymi σ2
CELE EKONOMETRII:
formułowanie modeli ekonometrycznych - formułowanie modeli ekonomicznych w postaci nadającej sie do weryfikacji empirycznej (najważniejszy punkt)
estymacja i weryfikacja modeli ekonometrycznych
zastosowanie modeli do prognozowania i symulacji
Jak wygląda ten proces? (nie trzeba było tego przepisywać)
Teoria ekonomiczna lub model ekonomiczny
Model ekonometryczny Dane
EstymacjaTestowanie specyfikacji oraz
weryfikacja modelu (diagnostyka)
NIE Czy model jest odpowiedni? TAK
Weryfikacja hipotez modelu ekonometrycznego
Wykorzystanie modelu ekonometrycznego
KONKLUZJA: Ekonometria nie ma wyraźnie określonych granic.
Należy rozważać ją w powiązaniu z:
- ekonomią matematyczną - zajmującą się matematycznym formułowaniem teorii ekonomicznych; czyli eksperymentem
myślowym
- teorią ekonometrii - konstrukcja modeli ekonometrycznych i opisu danych
- statystyką ekonomiczną - zbieranie, gromadzenie i organizacja danych statystycznych
PRZEDMIOTEM ANALIZY EKONOMETRYCZNEJ JEST:
konstrukcja modelu ekonometrycznego
estymacja parametru modelu ekonometrycznego
szeroko pojęte wnioskowanie na podstawie modelu ekonometrycznego
DOBÓR ZMIENNYCH OBJAŚNIAJĄCYCH DO MODELU EKONOMETRYCZNEGO
MODEL JEDNEJ ZMIENNEJ
Yt = σ1X1t + σ0 + ξt ξt ~N(0;σ2)
część deterministyczna
modelu
lewa strona - zmienna endogeniczna :
- jest zmienna o charakterze ilościowym - nie reprezentuje procesów jakościowych
- stanowi cel naszego badania
prawa strona - zmienna objaśniająca X1t (regresor/ zmienna niezależna)
- też ma wyłącznie charakter ilościowy
X1t ta zmienna jest zmienną, która wyjaśnia kształtowanie się zmiennej endogenicznej, tak jak na produkcje wpływa kapitał, praca itd.
α1, α0 - nieznane parametry strukturalne modelu , które w drodze estymacji zostaną w przybliżeniu poznane
α0 - parametr wolny modelu
oba parametry są istotne statystycznie i podlegają interpretacji
ξ- jest częścią stochastyczną modelu, jest składnikiem losowym, ξt pochodzi z rozkładu normalnego o średniej zero i pewnej wariancji sigma kwadrat (która jest stała w czasie)
MODEL WIELU ZMIENNYCH :
Yt = α1X1t + α2x2t + α0 + ξt
Yt = α1X1t + α2X2t + α3X3t-1 + α0 + ξt
Model liniowy, regresja 3 zmiennych.
Zasady doboru :
1) Zmienne objaśniające są istotnie skorelowane z punktu widzenia statystycznego ze zmienną endogeniczną Yt
2) Zmienne objaśniające są nieistotnie skorelowane pomiędzy sobą
przykład
Ro = 0,86 oznacza to, że korelacja Y z X1 to 0,86, kierunek korelacji (-) nas nie interesuje na razie.
-0,96 korelacja Y z X2 to -0,97
wektor korelacji pomiędzy
zmienną endogeniczną a poszczególnymi
zmiennymi objaśniającymi
1) Zakładamy, że znamy wartość krytyczną współczynnika korelacji (bo sobie ją policzyliśmy) i to r*=0,6
2) Musimy teraz zbadać 2 zasadę, czy zmienne objaśniające nie są przypadkiem skorelowane między sobą.
Czyli : mogę tutaj stworzyć macierz i będzie ona skonstruowana tak : na głównej przekątnej będę miała korelacje zmiennej z tą
samą zmienną.
R = 1 0,2
0,2 1
Korelacja x1 z x2 jest na poziomie 0,2 i jest mniejsza od 0,6 czyli jest nieistotna statystycznie, czyli to oznacza, że oba regresowy mogą znaleźć się po prawej stronie równania -> dlatego, że z punktu widzenia korelacji one są niezależne od siebie, czyli każda ma swój indywidualny wkład w kształtowanie się Y.
gdyby tam, gdzie jest 0,2 byłoby 0,7 to te dwa regresowy nie mogłyby się znaleźć po prawej stronie równania, bo skoro one są istotnie skorelowane między sobą (to znaczy, że one tak samo wpływają na Y) to niepotrzebne nam są dwa regresowy.
Wybieramy regresor drugi, ostatecznie nasz model wyglądałby w ten sposób : (w tym przypadku z 0,7, w poprzednim oba regresowy by zostały)
Yt = α2x2t + α0 + ξt
Dobór zmiennych objaśniających za pomocą metody wskaźników pojemności informacyjnej
1) Indywidualny wskaźnik pojemności informacyjnej :
2) Integralny wskaźnik pojemności informacyjnej:
Wykład 2 05.03
SZACOWANIE PARAMETRÓW STRUKTURALNYCH MODELU EKONOMETRYCZNEGO - KLASYCZNA METODA NAJMNIEJSZYCH KWADRATÓW
Model ekonometryczny:
Yt = α1X1t+α0 + ξt świat rzeczywisty
Mamy model który chcemy opisać. Mamy zmienną endogeniczną – objaśniającą: X1t to będzie cena.
Jeśli byłaby to sprzedaż to musi być założenie ze alfa 1 < 0. Jeżeli cena wzrośnie o 1 jednostkę to spowoduje to przeciętny spadek sprzedaży o wielkość parametru alfa.
Oszacowania parametrów strukturalnych nigdy nie będą do końca znane, znamy tylko ich szacunki.
** przy modelu matematycznym będziemy znać dokładne wartości parametrów
** przy modelu ekonometrycznym znamy tylko szacunki, które są na poziomie przeciętnym
Mamy dane, które obserwowaliśmy przez jakiś okres czasu.
Y - to nasz świat rzeczywisty (konkretny pomiar) np. dzienna sprzedaż
W momencie, gdy zastosujemy metodę najmniejszych kwadratów i oszacujemy parametry to będziemy w stanie zrealizować to, że model zacznie generować świat teoretyczny.
po oszacowaniu powstaje:
Yt = 2,5 X1t + 1 + Ut
Y*t = 2,5 X1t wartości teoretyczne modelu
sedno metody : od świata rzeczywistego odejmuje teoretyczny i podnoszę to do kwadratu i sumuje i ma być to najmniejsze .
*** jeśli by tego nie potęgować to suma być wyniosła 0. to średnia tez równa 0. Wynika z tego, że średnio rzecz biorąc w ogóle się nie mylę .
*** a przy kwadratach wyjdą jakieś równicę i będzie to wartość oznaczająca możliwą pomyłkę. Będą błędy w odpowiednich punktach
Idea KMNK:
wyznaczenie ocen a1, a2, ..... ak, parametrów strukturalnych, parametrów a1,a2,.... ak strukturalnych, aby suma kwadratów odchyleń zaobserwowanych wartości zmiennej endogenicznej Yt od jej wartości teoretycznych obliczonych na podstawie oszacowanego modelu była najmniejsza.
dany jest jednorodzajowy model ekonometryczny (dynamiczny):
Yt = a1X1t + a2X2 + …. + ak-1 Xk-1t + ak + ξt
przy czym k-ta zmienna objaśniająca przyjmuje zawsze wartości 1
t = 1,2,…n
a1 – parametr wolny
ξt – epsilnion - składnik losowy
Fachowe określenie różnicy między światem rzeczywistym a teoretycznym to RESZTA MODELU
gdy model jest po oszacowaniu z eplinion (ξ - składnika losowego) pojawia się Ut i jest to składnik resztowy
Może on być obliczony dopiero w momencie gdy zostały wygenerowane pewne wartości teoretyczne
Składnik losowy pochodzi z rozkładu normalnego o średniej równej 0 i stałej wariancji ơ2
Składnik resztowy to reprezentacja składnika losowego dla konkretnego modelu (musi spełnić te same założenia co są nałożone na składnik losowy: średnia = 0 i stała wariancja)
Składnik resztowy tak jak i składnik losowy jest niezależny od regresorów (nie zależy od realizacji zmiennej objaśniającej) nie jest autoskorelowany czyli nie zależy sam od siebie oraz nie zależy od X1 (zmiennych objaśniających)
suma kwadratów reszt w metodzie najmniejszym kwadratów ma być minimalna !!!!!!!!!!!
KRYTERIUM METODY NAJMNIEJSZYCH KWADRATÓW NA NASTĘPUJĄCĄ POSTAĆ:
Jest to model po oszacowaniu dla regresji jednej zmiennej
Yt = a1X1 + a2X2 + a0 + Ut jest to zapis za pomocą symboli:
zamiast α a
zamiast ψ Yt
Ψ = Ʃ (Yt – a1X1t – a0) 2
Świat świat
rzeczywisty teoretyczny
Ψ = ∑ (Yt – Yt*)2 min (Yt – Yt*) = ut
RESZTA MODELU
Ψ = Ʃ Ut2 min
Ogólny przypadek
Ψ = ∑ (yt – a1X1t – a2X2t - .... – ak-1 X(k-1)t –ak)2 min.
czyli wartości teoretyczne modelu dane są jako:
Y*t = a1X1t + a2X2t + ... + ak-1 X(k-1)t + ak
Ostateczna postać funkcji kryterium KMNK dana jest jako:
Ψ = ∑ (yt – yt*)2 min
(yt – y*t) = Ut (t =1,2…n)
Mając ten wzór trzeba znaleźć odpowiednie formuły na poszczególne parametry. Gdy mamy jedną zmienną nie jest to większy problem, lecz gdy dodamy do tego modelu kolejna zmienna musimy szukać nowych formuł (stworzyć układ równań i go rozwiązać). Staje się to mało efektywne dlatego lepiej jest rozwiązać ten układ równać w układzie macierzowym. Wówczas uzyskamy jedną formułę dla dowolnej liczby parametrów i nie trzeba za każdym razem liczyć nowej formuły dla innego parametru.
UKŁAD MACIERZOWY:
y1 x11 x12 …. X1,k-1 1
y2 x21 x22 …. X2,k-1 1
y = …. X = … … ... ... ...
yn xn1 xn2 …. Xn,k-1 1
wektor kolumnowy macierz obserwacji dla k-zmiennych
reszty zmiennej objaśniających
endogenicznej
α1 a1 ξ1
α 2 a2 ξ2
a = …. a = …. ξ = ….
α k ak ξn
wektor kolumnowy wektor kolumnowy ocen wektor kolumnowy
parametrów strukturalnych parametrów strukturalnych modelu składników losowych modelu
u1 y*1
u2 y*2
U = …. y* = ….
uk y*k
wektor kolumnowy składników wektor kolumnowy wartości
resztowych modelu teoretycznych modelu
Dochodzenie do formuły ocen parametrów strukturalnych (oszacowanie parametru)
Model dany jest jako
Yt = α1X1t + α2X2t + ... + αk-1X(k-1)t + αk + ξt
Natomiast w zapisie macierzowym ma następującą postać
Y = Xα + ξ
Wektora wartości teoretycznych zmiennej endogenicznej Y ma postać
Y* = Xα
Funkcja kryterium KMNK dana jest jako
Ψ = (y - Xa)’ (y – Xa) min
y – wartości rzeczywiste
Xa – wartości teoretyczne
Prim ‘ - transpozycja
wykonując iloczyn otrzymujemy:
Ψ = y’y - yXa – a’X’y +a’X’ Xa min
*** w układzie macierzowym do formuły dochodzimy raz i zawsze ją już stosujemy
po przekształceniu otrzymamy
y = y’y – 2a’X’y + a’X’Xa
jest to uporządkowany zapis macierzowy
wyznaczamy pochodne cząstkowe względem wektora a i przyrównujemy do zera czyli:
$\frac{\text{δ\ Ψ}}{\text{δ\ a}} = \ - 2\ X^{'}y + 2\left( X^{'}X \right)a = 0$
(X’X)a = X’y
det (X’X) > 0
*** w zapisie skalarnym (nie macierzowym) dla każdego równania musielibyśmy wyznaczyć pochodną cząstkową
i przyrównać ją do zera
po przekształceniu otrzymujemy kolumnowy wektor ocen parametrów strukturalnych modelu czyli
a = (X’X) -1 X’Y
*** czemu takie założenie?
Jeżeli wyznacznik =0 to macierz byłaby osobliwa i nie istniałaby macierz odwrotna i nie istnieje estymator najmniejszych kwadratów ;
ale może się coś takiego zdarzyć
ZASTOSOWANIE KMNK WYMAGA SPŁENIENIA NASTĘPUJACYCH ZAŁOŻEŃ
ZAŁOŻENIA KLASYCZNE
postać modelu jest liniowa względem parametrów (bądź sprowadzalna do liniowej)
zmienne objaśniające są wielkościami nielosowymi
zmienne objaśniające nie wykazują wpsółliniowości - co onzacza brak dokładnej zależności liniowej
współliniowość zdarza się gdy stosujemy sztuczne wartości, które są źle zdefiniowane
2 4
X’X = 4 8 = 2*8 – 4*4 = 0 nie można oszacować parametru strukturalnego modelu
POZOSTAŁE ZAŁOŻENIA
wartość oczekiwana składnika losowego jest równa 0
składnik losowy ξ E(ξ) = 0
Jeżeli model jest dobrze specyfikowany to proces, który badamy jest procesem linowym
Korelacja składnika losowego jest równa D2(ξ) = σ2
składnik losowy pochodzi z rozkładu normalnego (0;1)
σ2 powinna być stała w czasie, aby być pewnym i nie podnosić ryzyka
nie występuje autokorelacja składnika losowego (nie jest zależny sam od siebie)18
autokorelacje zawsze liczymy w czasie
realizacje składnika losowego muszą być losowe jeśli jego realizacja w momencie bieżącym zależałaby od realizacji z momentu poprzedniego to wówczas nie byłby on losowy i występowałaby autokorelacja
kowariancja składnika losowego nie zależy od zmiennych objaśniających składnik losowy nie jest skorelowany ze zmiennymi objaśniającymi
O czym należy pamiętać:
**** model ten służy do prognozowania przyszłości
**** zawsze występuje ryzyko
PRZYKŁAD dla jednej zmiennej objaśniającej
Na podstawie danych statystycznych zamieszczonych w tablicy oszacować parametry strukturalne modelu produkcji:
Yt
y’ niebieska linia - TREND
α1
y α
x x’ Xit
1
(Tabela została pokazana dosłownie na sekundę wiemy tylko, że X to ilość zatrudnionych osób a Y to produkcja w tysiącach sztuk)
Model jest liniowy to korelacja też jest liniowa. Wiemy to na podstawie wykresu rozrzutu.
Jeśli znamy wykres rozrzutu to wiemy jaka będzie interpretacja wyników = czego mogę się spodziewać
INTERPRETACJA WYKRESU ROZRZUTU
rozmieszczenie punktów względem siebie: pas jest zbity, zwarty tolerancja miedzy x a y jest istotna (wysoka)
kształt pasa punktów: przypomina linie proste jest to MODEL LINIOWY
rozmieszczenie punktów względem układu: im dalej od początku układu tym mniej punktów punkty na początku są to wartości najczęstsze, im dalej tym wyższe wartości i są one coraz rzadsze)
rozmieszczenie punktów względem linii trendu: punkty są jak najbliżej trendu odległości między światem teoretycznym a rzeczywistym maja być minimalne
kat pomiędzy linią trendu a osią x: α = 45 ° ; jest tak zazwyczaj i wówczas wzrost Y w stosunku do X jest zrównoważony (zależności są mało elastyczne)
KOMENTARZ DO WYKRESU ROZRZUTU:
wzrost X o 1 jednostkę spowoduje przeciętny wzrost Y o wartość parametru a1
( wzrost - wzrost = zależność dodatnia) parametr „a” będzie ze znakiem "+"
PRZECHODZIMY DO MODELU:
Kolumnowy wektor realizacji zmiennej endogeniczne oraz macierz X realizacji zmiennych objaśniających dane są jako:
Najstarsza realizacja
35,2 28 1 realizacje średniej zmiennej stojące przy parametrze 0
33,8 24 1
y = …. X = … ...
46,8 32 1
Najmłodsza realizacja realizacje zmiennej X1t
z tego okresu
Mamy układ macierzowy możemy zastosować formułę na wektor ocen parametrów strukturalnych:
a = (X’X) -1 X’Y
następuje transpozycja
X’X = 18537 597
587 20
Wyznacznik jest różny od 0
(X’X)’ = 0,0014 - 0,0417
- 0,0417 1,2935
Jest to macierz odwrotna; jest symetryczna do głównej przekątnej, która musi być dodatnia ponieważ pojawi się na niej wariancja (ơ2), która nie może być ujemna
X’X = 26772,3
865,2
a = 1,2303 a1 Yt = 1,3203 X1t + 3,8483 + Ut
3,8483 a0
INTERPRETACJA PARAMETRÓW
Zagadnienie koincydencji
jeżeli policzymy korelacje liniową Pearosna i jest ona dodatnia to taki sam znak musi być przy zmiennej X (bo musi być związek przyczynowo-skutkowy)
dany jest model :
Yt = 1,3203 X1t + 3,8483 + Ut
oraz współczynnik korelacji liniowej Pearosna między produkcją a zatrudnieniem
r=0,9349
zasada koincydencji głosi, że:
sgn (rxy) = sgn (a1)
OSTATECZNA INTERPRETACJA
a1 - wzrost zatrudnienia o 1 osobę (jednostkę) spowoduje przeciętny wzrost produkcji o 1,3203 tysiąca sztuk
3,8483 tysiąc sztuk - taką średnią wartość przyjmie wielkość produkcji w przypadku gdy zatrudnienie X1t będzie równe 0
DODOATKOWE INFORMACJE:
*** zdarza się tak ze parametr wolny ma niewłaściwą interpretacje ekonometryczną
*** jeżeli okaże się, że parametr ten jest nieistotny = nieprecyzyjny, to produkcja będzie równa 0 przy zatrudnieniu wynoszącym 0
Wykład 3 19.03.
Na podstawie danych statystycznych zamieszczonych w tablicy oszacować parametry strukturalne modelu produkcji :
Yt= a1X1t+a2X2t+α0+ξ1
Gdzie
Yt - produkcja (tys. Szt.)
X1t - zatrudnienie (osoby)
X2t - majątek w tys. zł,.
wykres rozrzutu
Y 35,2 X 28 34 1
33,8 24 41 1
... .....
46,8
ostatecznie model przyjmie taka postać : Yt= 1,1085X1t + 0,0581 X2t + 6,9042 + Ut
parametru wolnego nie rozważamy
+ oba parametry są dodatnie, a więc mamy prawo interpretować przyczynowo – skutkowo
Wzrost zatrudnienia X1t o jedną osobę spowoduje(ponieważ parametr jest dodatni) przeciętny wzrost wielkości produkcji o 1,1085 tys. sztuk. -> gdyby to była regresja z jedną zmienną objaśniająca tak wyglądałaby interpretacja, ale musimy dodać - … pod warunkiem, że majątek X2t nie ulegnie zmianie
Wzrost majątku X2t o 1 tys. złotych spowoduje przeciętny wzrost produkcji o 0,0581 tys. sztuk pod warunkiem, że zatrudnienie X1t nie ulegnie zmianie.
a0 małe = 6,9042 tys. sztuk - taką przeciętną wielkość przyjmie produkcja w przypadku, gdy zmienne objaśniające X1t i X2t będą równe zero.
Zagadnienie koincydencji
Dany jest model :
Yt = 1,1085 X1t + 0,0581 X2t + 6,9042 + Ut
oraz współczynnik korelacji liniowej Pearsona między produkcja a zatrudnieniem : r= 0,9349
sgn (rx1t , yt) = sgn (α1)
oraz współczynnik korelacji liniowej Pearsona między produkcją a majątkiem r = 0,8897
sgn ( rx2t yt ) = sgn (σ2)
WERFIKACJA MODELU EKONOMETRYCZNEGO
oznacza :
1) zbadanie, czy oszacowany model jest zgodny z rzeczywistością (kierunek wpływu zmiennych objaśniających jest zgodny z
rzeczywistością)
2) zbadanie czy model ekonometryczny jest wystarczająco precyzyjny - to znaczy, że parametry, które uzyskaliśmy są na
akceptowalnym poziomie precyzji – są z punktu widzenia statystycznego istotne.
3) zbadanie czy zmienne objaśniające istotnie wpływają na zmienną endogeniczną
4) zbadanie czy spełnione są założenia Metody Najmniejszych Kwadratów
- zmienne objaśniające nie są losowe
- składnik losowy nie zależy od zmiennych objaśniających
- suma kwadratów reszt = 0
- reszty pochodzą z rozkładu normalnego o średniej zero i wariancji sigma kwadrat.
Miary struktury stochastycznej
Wariancja resztowa i odchylenie standardowe reszt
Przy spełnionych warunkach MNK nieobciążonym estymatorem wariancji resztowej jest wariancja resztowa wyznaczona według następującej formuły.
$\mathbf{\text{Su}}^{\mathbf{2}}\mathbf{= \ }\frac{\mathbf{1}}{\mathbf{n - k\ }}\mathbf{\text{\ \ }}\sum_{\mathbf{I = 1}}^{\mathbf{n}}{{\mathbf{(}\mathbf{Y}_{\mathbf{t}}\mathbf{- \ }\mathbf{Y}_{\mathbf{t}}^{\mathbf{*}}\mathbf{)}}^{\mathbf{2}}\mathbf{= \ \ }\frac{\mathbf{1}}{\mathbf{n - k}}\sum_{}^{}{\mathbf{U}_{\mathbf{t}}}^{\mathbf{2}}}$
n – liczba obserwacji
k - liczba szacowanych parametrów
Y* - wartość teoretyczna uzyskana na podstawie modelu
Ut – reszta modelu
Pierwiastek kwadratowy z wariancji resztowej daje tzw. odchylenie standardowe reszt czyli : $\mathbf{\text{Su}}\mathbf{= \ }\sqrt{\mathbf{\text{Su}}^{\mathbf{2}}}$
Interpretacja odchylenia standardowego :
Odchylenie standardowe informuje o ile średnio rzeczy biorąc in plus bądź in minus odchylają się rzeczywiste realizacje zmiennej endogenicznej od wartości teoretycznych wyznaczonych przez model.
Macierz wariancji i kowariancji oraz średnie błędy szacunku
- średnie błędy szacunku to badanie precyzji oszacowania parametrów strukturalnych
Przy spełnionych warunkach MNK macierz wariancji i kowariancji dana jest następującą formułą :
D2(α)=φ2(X′X)−1
Gdzie φ2 = Su2
D2(α) = Su2( X′X)−1
Miary struktury stochastycznej (wariancja resztowa oraz macierz wariancji i kowariancji) modelu związane są ze zmienną
Miarą precyzji estymacji parametrów strukturalnych są średnie błędy szacunku
Kwadraty błędów szacunku znajdują się na głównej przekątnej macierzy wariancji i kowariancji. Pierwiastek wariancji estymatora daje zatem średni błąd szacunku dla danego parametru.
Miary dopasowania modelu do danych empirycznych
Współczynnik zbieżności
$\varphi^{2} = \ \frac{\sum_{}^{}(Y_{t} - \ Y_{t}^{*})^{2}}{\sum_{}^{}{(Y_{t} - \overset{\overline{}}{Y})^{2}}}$
- przyjmuje wartości od 0 do 1 bądź od 0-100% - im niższa jego wartość tym lepiej dla nas.
- współczynnik zbieżności informuje nas o tym, w jakim stopniu wariancja zmiennej endogenicznej nie została wyjaśniona przez
model ekonometryczny
Współczynnik determinacji
Jest miarą alternatywną w stosunku do współczynnika zbieżności i dany jest następującą formułą
R2= 1 –ø2
* przyjmuje wartości od 0 do 1 albo od 0 do 100% -> im wyższy współczynnik determinacji tym lepiej
* im więcej mamy zmiennych objaśniających w modelu, tym wyższe jest R kwadrat
1) przyjmuje wartości od 0 do 1
2) współczynnik determinacji jest kwadratem współczynnika korelacji wielorakiej
3) informuje jaka część zmienności zmiennej endogenicznej została wyjaśniona przez model
4) wartość współczynnika determinacji wzrasta wraz ze wzrostem liczby zmiennych objaśniających (przypadek modelu z wieloma
zmiennymi objaśniającymi). Można zatem dodatkowo skorzystać z formuły na skorygowany współczynnik determinacji.
$${\tilde{R}}^{2} = 1 - \ \frac{n - 1}{n - m - 1}\ (\ 1 - \ R^{2})\backslash n$$
Współczynnik zmienności losowej
Dany jest następującą formułą :
$$V_{s} = \ \frac{\text{Su}}{Y}*100\%$$
im wyższy jest współczynnik zmienności losowej tym gorzej dla modelu i tym niższy jest R2
informuje jaki jest poziom wahań przypadkowych (losowych) w przeciętnym poziomie zmiennych endogenicznych
WŁASNOŚCI ESTYMATORÓW:
Estymator nieobciążony jest nieobciążony jeżeli jego wartość oczekiwana (nadzieja matematyczna) jest równa estymowanemu parametrowi
E(a) = α
dla modelu danego jako : Y = Xα + ξ wektor parametrów strukturalnych dany jest jako
a = (X' X) do -1 X' Y
jest estymatorem nieobciążonym czyli
E(a) = E[(X′X)−1X′Y] = E[(X′X)−1X′( Xα + ξ)
ponieważ zmienne X (objaśniające) są nielosowe , więc E(α)= α
Stąd estymator parametrów strukturalnych jest nieobciążony, jeżeli :
1) zmienne objaśniające są nielosowe - kowariancja składnika losowego nie zależy od zmiennych objaśniających
E(Xξ)=0
2) składnik losowy ma wartość oczekiwaną równą zero
E (ξ)=0
2. Estymator zgodny - estymator parametru alfy do szacowanego nieznanego parametru alfa.
Oznacza to, że przy wzroście liczby obserwacji do nieskończoności jego wartość dąży stochastycznie do prawdziwej wartości parametru
p{a−α} < 3 = 1
Jeżeli wraz ze wzrostem liczebności próby oczekiwana wartość rozkładu estymatora zmierza do wartości szacowanego parametru, a jednocześnie wariancja estymatora zmierza do zera, to estymator taki jest zgodny.
3. Estymator efektywny
Przy danych kilku estymatorach zgodnych i nieobciążonych estymatorem najefektywniejszym jest ten, który posiada najmniejszą wariancję.
Jeżeli spełnione są założenia metody klasycznej najmniejszych kwadratów dotyczące składnika losowego oraz zmiennych objaśniających to estymator :
a = (X'X)-1 X ' Y
jest estymatorem najefektywniejszym spośród wszystkich estymatorów liniowych , gdzie jego wariancja dana jest następującą formułą
D2 (a) = odchylenie2 (X'X)-1
Założenia klasyczne MNK W Odniesieniu do własności estymatorów.
1) jeżeli zmienne objaśniające są współliniowe , to nie istnieje estymator dany formułą a = (X'X) do -1 X'Y
Ponieważ nie istnieje macierz odwrotna do macierzy X'X , ponieważ wyznacznik macierzy jest równy zero czyli :
det (X'X)=0
2) jeżeli wariancja składnika losowego nie jest stała to
a = (X'X) do - 1 X'Y jest nieobciążony i zgodny , ale nie jest juz najefektywniejszy
3) jeżeli składnik losowy jest zależny :
cos (ξ1 ,ξ1+τ ) ≠ 0
a w zbiorze zmiennych objaśniających nie ma zmiennej endogenicznej i opóźnionej w czasie to
a = (X'X)-1 X' Y | Yt = α1 Yt-1
jest nieobciążony i zgodny, ale nie jest najefektywniejszy.
4) jeżeli składnik losowy jest zależny
cov (ξ1 ,ξ1+τ) ≠ 0
a w zbiorze zmiennych objaśniających istnieje zmienna endogeniczna opóźniona w czasie to
a = (X'X)-1 X'Y nie jest zgodny,
5) jeżeli wariancja składnika losowego jest funkcją zmiennych objaśniających, to estymator
a= (X’X)-1 X’Y nie jest zgodny.
KLASYCZNE ZAŁOŻENIA DOTYCZĄCE SKŁADNIKA LOSOWEGO
Dana jest macierz wariancji i kowariancji składnika losowego.
Macierz wariancji i kowariancji składnika losowego jest:
macierzą kwadratową i symetryczną wymiarach n*n
na głównej przekątnej znajdują się wariancje składników losowych poszczególnych okresów ( w przypadku szeregów czasowych) , natomiast poza główna przekątna znajdują się kowariancje między składnikami losowymi poszczególnych okresów.
WYKŁAD 4 02.04.
Klasyczne założenia dotyczące składnika losowego:
Dana jest macierz wariancji i kowariancji składnika losowego:
E(ξ , ξ’) = $\begin{bmatrix} {\text{\ \ }D}^{2}\left( \xi_{1} \right)\text{\ \ \ }E\left( \xi_{1,\ \ \ }\xi_{2} \right)\text{\ \ \ \ }E\left( \xi_{1,\ \ \ }\xi_{3} \right)\ \ \ \cdots\ \ \ E\left( \xi_{1,\ \ \ }\xi_{n} \right)\text{\ \ \ } \\ E\left( \xi_{2,\ \ \ }\xi_{1} \right)\text{\ \ \ }D^{2}\left( \xi_{2} \right)\text{\ \ \ \ \ }\text{E\ }\left( \xi_{2,\ \ \ }\xi_{3} \right)\ \ \cdots\ \ \ E\left( \xi_{2,\ \ \ }\xi_{n} \right) \\ \text{\ \ \ \ \ \ }\cdots\ \ \ \ \ \ \ \ \ \ \ \ \ \ \cdots\text{\ \ \ \ \ \ \ \ \ \ \ \ \ \ }\cdots\text{\ \ \ \ \ \ \ \ \ \ }\cdots\ \ \ \ \ \ \ \ \ \ \ \cdots \\ E\left( \xi_{n,\ \ \ }\xi_{1} \right)\text{\ \ \ E}\left( \xi_{n,\ \ \ }\xi_{2} \right)\text{\ \ \ E}\left( \xi_{n,\ \ \ }\xi_{3} \right)\ \ \cdots\text{\ \ }D^{2}\left( \xi_{n} \right) \\ \end{bmatrix}\text{\ \ }$
Główna przekątna – wariancje estymatorów
Pozostałe przekątne – kowariancje estymatorów
Macierz wariancji i kowariancji składnika losowego jest:
Macierzą kwadratową i symetryczną o wymiarach (n*n)
Na głównej przekątnej znajdują się wariancje składników losowych poszczególnych okresów (w przypadku szeregów czasowych)
Natomiast poza główną przekątną znajdują się kowariancje między składnikami losowymi poszczególnych okresów
Można wyróżnić 4 sytuacje ze względu na macierz kowariancji składnika losowego:
Sytuacja 1: SPEŁNIONE ZAŁOŻENIA MNK (Metody Najmniejszych kwadratów)
(w praktyce taka sytuacja nigdy nie będzie miała miejsca)
Wariancja jest jednorodna:
D2(ξ1) = D2(ξ2) = … = D2(ξn) = δ2
Brak autokorelacji, czyli składnik losowy jest niezależny:
E (ξ1 ξ t+τ ) = 0 dla τ > 0
*** choć często będzie nas interesowała tylko autokorelacja rzędu pierwszego gdzie będzie ξ t+1
Macierz wariancji i kowariancji ma postać:
E ( ξ ξ’ ) = $\begin{bmatrix} \delta^{2}\ 0\ 0\ \ldots\ 0 \\ 0\ {\ \delta}^{2\ \ }0\ldots\ 0 \\ \ldots\ldots\ldots\ldots\ldots \\ 0\ \ \ \ 0\ \ \ 0\ \ 0\ \delta^{2} \\ \end{bmatrix}$ = δ2 In
Nie ma tutaj żadnych zależności pomiędzy zmiennymi
Sytuacja 2 : NIE JEST SPEŁNIONE ZAŁOŻENIE O JEDNORODNOŚCI WARIANCJI SKŁADNIKA LOSOWEGO
Niejednorodność wariancji oznacza, że:
D2(ξ1) ≠ D2(ξ2) ≠ … ≠D2(ξn) ≠ δ2
Składnik losowy jest niezależny (nie występuje autokorelacja składnika losowego):
E (ξt ξt+1 ) = 0 dla każdego r > 0
Wówczas macierz wariancji i kowariancji składnika losowego jest macierzą diagonalną i ma postać:
E ( ξ ξ’ ) = $\begin{bmatrix} D^{2}\left( \xi_{1} \right)\ \ \ \ \ \ \ 0\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 0\ \ \ \ \ \ \ldots\ \ \ \ \ \ \ \ \ \ 0 \\ \ \ \ \ 0\text{\ \ \ \ \ \ \ \ \ \ D}^{2}\left( \xi_{2} \right)\ \ \ \ \ \ \ \ \ \ 0\ \ \ \ \ \ \ldots\ \ \ \ \ \ \ \ \ 0 \\ \ \ \ \ \ \ \ldots\ \ \ \ \ \ \ \ \ \ \ldots\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ldots\ \ \ \ \ \ldots\ \ \ \ \ \ \ \ \ \ldots\ \\ \ \ \ \ \ \ \ \ \ \ \ 0\ \ \ \ \ \ \ \ \ \ \ \ 0\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 0\ \ \ \ \ \ \ldots\text{\ \ \ \ \ D}^{2}(\xi_{n}) \\ \end{bmatrix}$
Konsekwencje dla modelu:
Jeżeli mamy niestałą w czasie wariancję, czyli mamy niejednorodny składnik losowy trzeba poprawić model
Aby to zrobić można skorzystać z tzw. Uogólnionej (Ważonej) Metody Najmniejszych Kwadratów gdzie jeszcze raz szacuje się zmienne, ale w taki sposób, że do szacunku dobiera się pewne wagi. Jest taka macierz wagowa - Omega, którą się wprowadza i powoduje to, że niejednorodność wariancji znika
Jeżeli to poprawimy to niestety stracimy na efektywności estymacji, czyli suma reszt z modelu nie będzie już najmniejsza
Nie jest to nic strasznego, ale trzeba mieć tego świadomość
Sytuacja 3 : JEŻELI SPEŁNIONE JEST ZAŁOŻENIE O JEDNORODNOŚCI WARIANCJI SKŁADNIKA LOSOWEGO:
Wariancja jest jednorodna, czyli:
D2(ξ1) = D2(ξ2) = … = D2(ξn) = δ2
A składnik losowy jest zależny (występuje autokorelacja składnika losowego
Wówczas macierz wariancji i kowariancji składnika losowego jest macierzą diagonalną i ma postać:
E ( ξ ξ’ ) = $\begin{bmatrix} \ \ \ 1\ \ \ \ \ \ \ \ p_{12}\text{\ \ \ \ \ \ \ \ }p_{13}\ \ \ \ \ldots\ \ \ \ \ p_{1n}\ \\ p_{21}\ \ \ \ \ \ 1\ \ \ \ \ \ \ \ \ p_{23}\ \ \ \ \ \ldots\ \ \ \ \ \ \ \ \ \\ \ \ \ \ldots\ \ \ \ \ \ldots\ \ \ \ \ \ \ \ \ \ \ \ldots\ \ \ \ \ \ldots\ \ \ \ \ \ldots\ \\ \ p_{n1}\ \text{\ \ }\text{\ \ }p_{n2}\ \text{\ \ }\ p_{n3}\ \ \ \ \ \ldots\ \ \ \ \ \ 1 \\ \end{bmatrix}$
Autokorelacja – przyczyny jej powstawania:
- pominięcie istotnej zmiennej objaśniającej
- nieprawidłowe określenie opóźnień zmiennych objaśniających
Poprawienie modelu:
Doszacowanie modelu – Uogólniona Metoda Najmniejszych Kwadratów
Przebudowanie modelu – zbudowanie go do nowa
??? Która z tych sytuacji jest groźniejsza: 2 - niejednorodność wariancji czy 3 - autokorelacja składnika losowego ???
Oby dwie są groźne
Przy niejednorodności wariacji nie wiemy, co się stanie w przyszłości – wariancja może bardzo spaść lub bardzo wzrosnąć, przez co nie jesteśmy pewni prognoz
Gdy mamy niezależny składnik losowy, ale występuje autokorelacja to nie jest to już zmienna losowa
Sytuacja 4 : JEŻELI NIE JEST SPEŁNIONE ŻADNE ZAŁOĆZENIE CZYLI:
Wariancja nie jest jednorodna:
D2(ξ1) ≠ D2(ξ2) ≠ … ≠D2(ξn) ≠ δ2
Oraz nie jest spełnione założenie o braku autokorelacji, czyli występuje sytuacja, w której:
E (ξt ξt+1 ) ≠ 0
Wówczas macierz wariancji i kowariancji składnika losowego jest macierzą symetryczna i ma następującą postać:
E(ξ , ξ’) = $\begin{bmatrix} {\text{\ \ }D}^{2}\left( \xi_{1} \right)\text{\ \ \ }E\left( \xi_{1,\ \ \ }\xi_{2} \right)\text{\ \ \ \ }E\left( \xi_{1,\ \ \ }\xi_{3} \right)\ \ \ \cdots\ \ \ E\left( \xi_{1,\ \ \ }\xi_{n} \right)\text{\ \ \ } \\ E\left( \xi_{2,\ \ \ }\xi_{1} \right)\text{\ \ \ }D^{2}\left( \xi_{2} \right)\text{\ \ \ \ \ }\text{E\ }\left( \xi_{2,\ \ \ }\xi_{3} \right)\ \ \cdots\ \ \ E\left( \xi_{2,\ \ \ }\xi_{n} \right) \\ \ \ \ \ \ \ \ \cdots\ \ \ \ \ \ \ \ \ \ \ \ \ \ \cdots\ \ \ \ \ \ \ \ \ \ \ \ \ \ \cdots\ \ \ \ \ \ \ \ \ \ \cdots\ \ \ \ \ \ \ \ \ \ \ \cdots \\ E\left( \xi_{n,\ \ \ }\xi_{1} \right)\text{\ \ \ E}\left( \xi_{n,\ \ \ }\xi_{2} \right)\text{\ \ \ E}\left( \xi_{n,\ \ \ }\xi_{3} \right)\ \ \cdots\ \ D^{2}\left( \xi_{n} \right) \\ \end{bmatrix}$
Aby poprawić:
Trzeba zastosować metodą uogólnioną, ale lepiej jest poprawiać autokorelację niż niejednorodność wariancji
ANALIZA STRUKTURY STOCHASTYCZNEJ MODELU
Wariancja resztowa i odchylenie standardowe reszt
Przy spełnionych warunkach MNK nieobciążonym estymatorem wariancji resztowej jest wariancja resztowa wyrażona według następującej formuły:
Su2 = $\frac{\mathbf{1}}{\mathbf{n - k}}$ $\sum_{\mathbf{i = 1}}^{\mathbf{n}}\mathbf{(}$Yt – Yt*)2 = $\frac{\mathbf{1}}{\mathbf{n - k}}$ $\sum_{\mathbf{i = 1}}^{\mathbf{n}}\mathbf{u}$02
Pierwiastek kwadratowy z wariancji resztowej daje tzw. odchylenie standardowe reszt, czyli:
Su = $\sqrt{\mathbf{S}_{\mathbf{u}}^{\mathbf{2}}}$
Interpretacja odchylenie standardowego:
Odchylenie standardowe informuje o ile średnio rzecz biorąc In plus bądź In minus odchylają się rzeczywiste realizacje zmiennej endogenicznej od wartości teoretycznych wyznaczonych przez model
BADANIE PRECYZJI OSZACOWANIA MODELU
Macierz wariancji i kowariancji oraz średnie błędy szacunku
Przy spełnionych warunkach MNK macierz wariancji i kowariancji dana jest następującą formułą:
D2(a) = δ2 (X’ X)-1
Gdzie δ2= Su2
D2(a) = Su2 (X’ X) -1
Miary struktury stochastycznej (Wariancja resztowa oraz macierz wariancji i kowariancji) modelu związane są ze zmienną ξ t
Miara precyzji estymacji parametrów strukturalnych Y są średnie błędy szacunku
Kwadraty błędów szacunku znajdują się na głównej przekątnej macierzy wariancji i kowariancji.
Pierwiastek wariancji estymatora daje, zatem średni błąd szacunku dla danego parametru at
DOPADOWANIA MODELU DO DANYCH EMIRYCZNYCH (badanie jakości modelu)
Współczynnik zbieżności – dany jest formułą:
φ2 = $\frac{\sum_{\mathbf{i = 1}}^{\mathbf{n}}{\mathbf{(\ }\mathbf{Y}_{\mathbf{t}}\mathbf{-}\mathbf{Y}_{\mathbf{t}}^{\mathbf{*}}\mathbf{\ )}}^{\mathbf{2}}}{\sum_{\mathbf{i = 1}}^{\mathbf{n}}{\mathbf{(\ }\mathbf{Y}_{\mathbf{t}}\mathbf{-}\overline{\mathbf{Y}}\mathbf{\ )}}^{\mathbf{2}}}$
Przyjmuje wartości z przedziału <0;1>
Im δ2 jest bliższe, bądź równe 1, tym słabiej wyjaśniona została wariancja zmiennej endogenicznej Yt
mówi o tym, w jakim stopniu model nie opisuje rzeczywistości
Współczynnik determinacji
Jest miarą alternatywną w stosunku do współczynnika zbieżności i dany jest następującą formułą:
R2 = 1 - δ2
Skorygowany współczynnik determinacji
R2 = 1 - $\frac{\mathbf{n}\mathbf{-}\mathbf{1}}{\mathbf{n}\mathbf{-}\mathbf{m}\mathbf{-}\mathbf{1}}$ (1- R2)
Między współczynnikiem determinacji i współczynnikiem skorygowanym determinacji zachodzi następująca nierówność:
R2 > $\tilde{\mathbf{R}^{\mathbf{2}}}$
Współczynnik zmienności losowej
Dany jest następującą formułą:
Vs = $\frac{\mathbf{S}_{\mathbf{u}}}{\overline{\mathbf{Y}}}$ • 100 %
Informuje jaką część średniego parametru zmiennej endogenicznej stanowią wahania przypadkowe
PRZYKŁAD NA PODSTAWOWĄ (TECHNICZNĄ) WERYFIKACJĘ
Na podstawie danych statystycznych zmiennych w tablicach oszacować model:
Yt = a1 X1t + a0 +ξt
szacowanie parametrów strukturalnych: a = (X’X) -1 X’Y
Yt X1t
2 1 2 1
0 Y = 0 X = 0 1
-2 2 -2 1
-1 2 -1 1
(X’X) -1 = 0,114 0,028 X’Y = - 4 a = - 0,31
0,028 0,257 5 1,17
Model po oszacowaniu:
Yt = - 0,31 X1t + 1.17 + Ut
Yt* = - 0,31 X1t + 1.17
Wartości teoretyczne modelu mamy kolejno
Y*1 = -0,31 * 2 +1,17 = 0,542
Y*2 = -0,31 * 0 + 1,17 = 1,17
.......................................
Y*4 = -0,31 * (-1) + 1,17 = 1,485
Yt | X1t | Yt* | Ut = yt – Yt* | Ut2 |
---|---|---|---|---|
1 | 2 | 0,542 | 0,457 | 0,2089 |
0 | 0 | 1,17 | - 1,17 | 1,3722 |
2 | - 2 | 1,8 | 0,2 | 0,04 |
2 | - 1 | 1,485 | 0,514 | 0,2644 |
RAZEM | - | - | 0 | 1,8857 |
CO MOŻNA ODCZYTAĆ Z TABELI:
Kolumna reszt: ile jest znaków ujemnych i dodatnich?
Teoretycznie powinno być ich tyle samo nie licząc tych na poziomie zero; w innym przypadku zawsze to będzie błąd
Jeżeli dominują reszty ujemne to oznacza to, że model ma tendencje średnio rzecz biorąc do przeszacowania rzeczywistości
Jeżeli większość reszt będzie dodatnia to model ma tendencje do niedoszacowania rzeczywistości wartość teoretyczna będzie średnio rzecz biorąc mniejsza niż wartość rzeczywista
Kolumna reszt: ułożenie znaków
Jeżeli znaki reszt nie są na przemian to grozi nam autokorelacja dodatnia
jeżeli są (mniej więcej) na przemian to grozi nam autokorelacja ujemna
Kolumna Ut:
Jeżeli dokładność była by do 3-4 miejsc po przecinku to suma reszt musi być równa 0
Jeżeli tak nie wyjdzie to oznacza to jakiś błąd np. model jest nie liniowy a szacowany jest metodą liniową
Kolumna Ut2 – kwadraty reszt
Gdybyśmy mieli model alternatywny i znali sumę kwadratów reszt to wybralibyśmy ten model, w którym suma kwadratów reszt byłaby mniejsza
Wiemy, że im wariancja mniejsza tym lepsza wybieramy model, dla którego odchylenie standardowe reszt jest mniejsze
Wariancja resztowa:
N = 4 K = 2
Su2 = $\frac{1}{n - k}$ $\sum_{i = 1}^{n}($Yt – Yt*)2 = $\ \frac{1}{4 - 2}*1,8857 = 0,9428$
Odchylenie standardowe reszt:
Su = $\sqrt{S_{u}^{2}}$ = $\sqrt{0,9428\ } = 0,971$
INTERPRETACJA (dwa sposoby):
Rzeczywiste realizacje zmiennej endogenicznej .Yt odchylają się średnio rzecz biorąc in plus lub in minus o 0.971 jednostki od wartości teoretycznych wyznaczonych przez model
Wartość oczekiwana reszt jest na poziomie 0; plus/minus odchylenie standardowe 0,971 w takim stopniu model niedoszacowuje i przeszacowuje
Macierz wariacji i kowariancji:
D2(a) = Su2 (X’ X) -1 = 0,9428 * 0,114 0,028 = 0,107 0,026
0,028 0,257 0,026 0,242
stąd średnie błędy szacunku dane są jako :
D(a1) = $\sqrt{0,1077} = 0,32$
D(a0) = $\sqrt{0,2424\ } = 0,49$
otrzymujemy model:
Yt = - 0.31X1t + 1,17 + ξt
(0,32) (0,49)
INTERPRETACJA:
każdy parametr modelu jest szacowany na poziomie przeciętnym
jeżeli szacujemy pierwszy parametr i wychodzi on - 0,31 z błędem równym 0,32 błąd większy od samego parametru (jest to bardzo złe!!!) (wynikło to z malej ilości obserwacji)
w przypadku parametru wolnego: parametr wynosi 1,17 plus/minus 0,49 tu jest o wiele lepiej
i dzieje się tak:
Yt = 0X1t + 1,17+ ξt Yt = 1,17+ ξt
Y jest na poziomie przeciętnym parametru α0 równym 1,17 z dokładnością
do epsilon (szumów)
Współczynnik zbieżności:
φ2 = $\frac{\sum_{i = 1}^{n}{(\ Y_{t} - Y_{t}^{*}\ )}^{2}}{\sum_{i = 1}^{n}{(\ Y_{t} - \overline{Y}\ )}^{2}}$
średnia zmiennej endogenicznej wynosi:
ӯ = 1,25
jeżeli średnia z Y rzeczywistego jest taka sama co z teoretycznego to model jest NIEOBCIĄŻONY
Yt | X1t | Yt* | Ut2 | (Yt – Ӯ) 2 |
---|---|---|---|---|
1 | 2 | 0,542 | 0,2089 | 0,062 |
0 | 0 | 1,17 | 1,3722 | 1,562 |
2 | - 2 | 1,8 | 0,04 | 0,562 |
2 | - 1 | 1,485 | 0,2644 | 0,562 |
RAZEM | - | - | 1,8857 | 2,75 |
φ2 = $\frac{\sum_{i = 1}^{n}{(\ Y_{t} - Y_{t}^{*}\ )}^{2}}{\sum_{i = 1}^{n}{(\ Y_{t} - \overline{Y}\ )}^{2}}$ = $\frac{1,8857}{2,75} = 0,6857 = 68,57\ \%$
INTERPRETACJA:
68,57 % zmienności zmiennej endogenicznej Yt nie zostało wyjaśnione przez model ekonometryczny oznacza to, że zmienność tej zmiennej zależy od innych czynników niż, te, które są zawarte w modelu
Współczynnik determinacji:
R2 = 1 - δ2 = 1 – 0,6857 = 0,3143 = 31,43%
INTERPRETACJA:
31,43%zmienności zmiennej endogenicznej Yt zostało wyjaśnione przez model ekonometryczny
??? co by było gdyby wyszło 99% (bliskie 1) ???
To bardzo niedobrze, ponieważ w tym momencie może się okazać, że relacja Y do X jest pozorna
Wydaje nam się, że model jest super a tak naprawdę to wszystko jest fikcją
Współczynnik zmienności losowej:
Vs = $\frac{S_{u}}{\overline{Y}}$ • 100 % = $\frac{0,9428}{1,25}*100 = 77,68\ \%$
INTERPRETACJA:
77,68 % przeciętnego poziomu zmiennej endogenicznej Yt stanowią wahania przypadkowe
WERYFIKACJA MODELI EKONOMETRYCZNYCH
Przedział ufności parametrów strukturalnych - BADANIE PRECYZJI OSZACOWNAIA PARAMTETRÓW STRUKTURALNYCH
przedział ufności dla parametru strukturalnego modelu dany jest następującą formułą:
{ ai – tα * D(ai) < ai < ai + tα * D(ai)} = γ (gamma)
ai - ocena i-tego parametru
D(ai) - średni błąd szacunku dla i-tego parametru
tα – wartość krytyczna odczytana z tablic wartości krytycznych rozkładu t-Studenta na poziomie istotności alfa przy (n-k)
stopniach swobody
γ – poziom ufności równy (1 - przyjęty poziom istotności)
??? dlaczego rozkład t-Studenta ???
Dla klasycznych modeli ekonometrycznych takich jak ten liczba obserwacji mimo wszystko nie jest aż tak duża
(w tablicach do ok 120 obserwacji)
Gdyby było powyżej 120 obserwacji należałoby korzystać z rozkładu normalnego
Przykład:
oszacowano model ekonometryczny na podstawie 20 obserwacji uzyskano następujące wyniki:
n=20 n-k = 20-3 = 17 α = 0,05 tα = 2,11
Yt = 2X1t – 5X2t + 1 + Ut
(1) (2) (0,5)
przedział ufności dla parametru stojącego przy zmiennej X1t:
{ 2 – 2,11 * 2 < ai < 2 + 2,11 * 2} = 0,95
INTERPRETACJA DLA PRZEDZIŁU UFNOŚCI:
na 100 takich przedziałów 95 z pośród nich pokryje rzeczywista realizację parametru a1
BADANIE ISTOTNOŚCI PARAMETRÓW STRUKTURALNYCH MODELU
Przyczyny nieistotności wpływów zmiennych objaśniających na zmienna endogeniczną :
mała dokładność lub nieodpowiedniość danych statystycznych
mała dokładność technik estymacji
niewłaściwa postać analityczna modelu
pominięcie istotnych zmiennych objaśniających
przyczyny wynikające z losowości próby
DOKŁADNOŚĆ = dobre źródło
NIEODPOWIEDNIOŚĆ – gdy my popełnimy błąd i jest to nasza wina
DOKŁADNOŚC TECHNIK ESTYMACJI – sam proces estymacji obciąża nam dokładność modelu
NIEWŁAŚCIWA POSTAC MODELU – nasz błąd = kompletnie nie wiemy co liczyć
POMINIĘCEI ZMIENNY – mogą być różne przyczyny
LOSOWOŚĆ PRÓBY – przypadkowość Y
TEST FISHERA SNEDECORA - TEST F
badanie wszystkich parametrów łącznie
z pominięciem wyrazu wolnego hipotezy maja następującą postać:
H0: a1 = … ak = 0
H1: a1 ≠ … ak ≠ 0
statystka testu dana jest następującą formułą:
$\frac{R^{2}}{1 - \ R^{2}}*\ \frac{N - K - 1}{K}$ r1 = K r2 = N – K - 1
Gdzie:
N - liczba obserwacji
K - liczba zmiennych objaśniających
R2 - współczynnik determinacji
DECYZJA:
F ≥ Fα - hipotezę odrzucamy na korzyść hipotezy alternatywnej, co oznacza, że przynajmniej jedna zmienna objaśniająca wpływa na zmienną endogeniczną (jest istotna)
F < Fα - brak podstaw do odrzucenia hipotezy zerowej, co oznacza, ze wszystkie zmienne nieistotnie wpływają na zmienną endogeniczną
Wykład 5 16.04
przykład1
Oszacowano model ekonometryczny i uzyskano następujące wyniki:
Yt=2Xt - 5X2t + 1+ ut
(1) (2) (0,5)
n=20 n-k=20-3 = 17 (stopnie swobody) α=0,05
R2 = 0,65 (niewielkie dopasowanie)
H0 : a1a2 = 0
H1 : a1a2 ≠ 0
r1=K=2 r2= N-K-1 = 20-2-1 = 17
Fα = 3,59 $F = \frac{0,65}{1 - 0.65}\text{\ x\ }\frac{20 - 2 - 1}{2} = 15,79$
Decyzja: F> Fα
TEST T- STUDENTA (testujemy poszczególne parametry modelu)
Przy spełnionych założeniach metody najmniejszych kwadratów sprawdzanej hipotezy zerowej (chodzi o to, że składnik losowy pochodzi z rozkładu normalnego; jeśli nie pochodzi to wtedy testowanie istotności tym testem jest nadużyciem)
Ho : a1 = 0
wobec hipotezy alternatywnej:
H1:a1 różne od 0 (a1<0; a1>0)
jest statystyka t-Studenta o n-k stopniach swobody dana jako :
t= a1 / D (a1) i-1,2....k
DECYZJA :
|t|>tα To hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej na poziomie istotności ,
- oznacza to, że zmienna objaśniająca, przy której stoi testowany parametr istotnie wpływa na zmienną endogeniczną Yt i należy pozostawić ją w modelu ( w sensie ekonometrycznym)
alfa = 1-gamma (y)
|t|<tα brak podstaw do odrzucenia hipotezy zerowej na poziomie istotności
- zmienna objaśniająca, przy której stoi testowany parametr nie istotnie wpływa na zmienną endogeniczną Yt i należy usunąć ją z modelu
alfa = 1 - gamma (y)
przykład 2
Oszacowano model ekonometryczny i uzyskano następujące wyniki :
Yt=2Xt - 5X2t + 1+ ut
(1) (2) (0,5)
n=20 n-k=20-3 = 17 (stopnie swobody) α=0,05
Badanie istotności parametru przy zmiennej objaśniającej X1t
H0 : a1 = 0
H1 : a1 ≠0
Badanie istotności parametru przy zmiennej objaśniającej X2t
H0 : a2 = 0
H1 : a2 ≠0
t = -5/2 = -2,5 => |t| > tα
TEST DURBINA - WATSONA na istotności autokorelacji rzędu pierwszego
Przyczyny występowania autokorelacji rzędu pierwszego :
niewłaściwa postać analityczna modelu
błędnie dobrane opóźnienia przy zmiennych objaśniających w modelu
pominięcie istotnej zmiennej objaśniającej w modelu - może chodzić o to, że nie mamy danych
gdy Yt = α1X1t + α2X2t-1 + α0 + ξt test Durbina Watsona może być stosowany
Yt = α1X1t + β1Yt-1 + α0 + ξt nie powinniśmy stosować testu, Y jest opóźnione o 1 okres.
GRAFICZNA IDENTYFIKACJA ZNAKU AUTKORELACJI PIERWSZEGO RZĘDU :
reszty
czas
jeżeli reszty modelu - ich znaki są na przemian mniej więcej, to możemy spodziewać sie autokorelacji ujemnej,
jeżeli reszty nie są na przemian, to prawdopodobnie będziemy mieli do czynienia z autokorelacją dodatnią.
PROCEDURA TESTU DURBINA - WATSONA (DW)
Hipotezy testu mają następującą postać :
H0 : ro 1 = 0
H1 : ro 1 > 0
H1 : ro 1 < 0
bo w przypadku ujemnej autokorelacji i test jest inaczej przeprowadzany
Statystyka testu dana jest jako :
$d = \ \frac{\sum_{t = 2}^{n}{(u_{t} - \ u_{t - 1})^{2}}}{\sum_{t = 1}^{n}u_{t}^{2}}$ lub d=2 (1-r1) -> jeżeli autokorelacja jest dodatnia
Jeżeli H1 : ro1 <0 to d’ = 4-d 0≤d≤4
Jeżeli H1 : ro1<0 to : d=4-α
R1 - współczynnik autokorelacji rzędu pierwszego
Na podstawie
wartości jakie d przyjmuje, stwierdzamy, czy mamy dodatnia czy ujemną autokorelacje,
Należy pamiętać, że :
d= 0 to r1 w przybliżeniu 1
d= 2 to r1 w przybliżeniu równa się 0
d = 4 to r1 w przybliżeniu -1
Zatem, współczynnik autokorelacji rzędu pierwszego przyjmuje wartości z przedziału
-1 ≤ r1 ≤1
Współczynnik autokorelacji jest współczynnikiem korelacji liniowej Pearsona między resztami modelu u1 a resztami odpowiednio opóźnionego o okres τ (tał)
W przypadku autokorelacji pierwszego rzędu τ= 1
Przykład 3.
Na poziomie istotności 0,05 lub 0,01 odczytywane są dolna i górna wartość krytyczna z tablic wartości krytycznych rozkładu DW , czyli
dl oraz du
Decyzja dla H1 : ro1 >O
1) d ≤ dl hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej
2) dl<d<du obszar niekonkluzywności testu
3) d≥du brak podstaw do odrzucenia hipotezy zerowej
Decyzja dla H1:ro 1 > 0
4) d≤d’l hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej
5) d’l<d<d’u obszar niekonkluzywności testu
6) d≥d’u brak podstaw do odrzucenia hipotezy zerowej
TESTOWANIE POPRAWNOŚCI POSTACI ANALITYCZNEJ MODELU POPRZEZ PRYZMAT LOSOWOŚCI RESZT MODELU
TEST SERII
Hipotezy : H0 = [ Y*t = f(X1t, X2t, ….., Xkt)]
H1 = [ Y*t ≠ f ( X1t; X2t, ….., X2t)]
W teście analizie podlegają reszty modelu, z tym, że :
Jeżeli model był budowany na podstawie danych dynamicznych (np. model tendencji rozwojowej), to reszty są uporządkowane w sposób naturalny zgodnie z upływem czasu (kolejnymi realizacjami zmiennej czasowej t)
Jeżeli model był budowany na podstawie danych przekrojowych to reszty modelu porządkowane sa według rosnących wartości dowolnie wybranej zmiennej objaśniającej
Serią jest każdy podciąg reszt złożony wyłącznie z elementów dodatnich bądź ujemnych. Reszty równe zero nie są brane pod uwagę!
Niech :
ut > 0 to "a"
ut < 0 to "b"
Stąd określamy liczbę serii tzw. k empiryczne
Z tablic liczby serii odczytujemy
n1 - dla liczby symboli "a"
n2 dla liczby symboli "b"
na poziomie istotności α
P{k ≤ kα}=α
Decyzja :
1)k ≤ kα to hipotezę zerową należy odrzucić na korzyść hipotezy alternatywnej. Prosta analityczna modelu nie jest właściwa
2) k>k α brak podstaw do odrzucenia hipotezy zerowej
WNIOSKI Z AUTOKORELACJI
nie prowadzimy testu w sposób ślepy
jak postępować kiedy autokorelacja jest istotna?
zobaczyć źródła autokorelacji i poszukać tam przyczyny
-> poprawienie modelu ze względu na źródła autokorelacji
->szacowanie modelu ponownie "uogólnioną metodą najmniejszych kwadratów" - spowoduje to ze wariancja reszt
nie będzie już najmniejsza
TESTOWANIE NORMALNOŚCI ROZKŁADU RESZT MODELU
TEST JARQUEA -BERY (JB)
Hipotezy są dane jako:
H0 : F(ui) = FN(ui)
H1: F(ui) ≠ FN(ui)
$$JB = \ \ N(\ \frac{1}{6}\beta_{1} + \ \frac{1}{24}(\beta_{2} - \ 3)^{2})$$
gdzie :
$$\sqrt{\beta_{1}} = \ \frac{1}{N}\ \sum_{i = 1}^{N}{u_{i}^{3}/S^{3}(u_{i})}\backslash n$$
Rozkład statystyki JB jest zbieżny do rozkłady chi kwadrat o 2 stopniach swobody : chi kwadrat α
DECYZJA
1)JB < xα2 (2) brak podstaw do odrzucenia hipotezy zerowej. Rozkład składnika losowego jest rozkładem normalnym
2. JB ≥ xα2 (2) hipotezę zerowa odrzucamy na korzyść hipotezy alternatywnej. Rozkład składnika losowego nie jest rozkładem normalnym.
TESTEM ALTERNATYWNYM DLA TESTU JB JEST TEST ZGODNOŚCI CHI-KWADRAT 2
wykład 6 7.05
??? jak obliczać w excelu ???
LICZENIE SAMODZIELNE (arkusz 1)
Dane mamy z podręcznika
Specyfikacja modelu
robimy wykresy
Y w czasie (wykres 1 - liniowy)
X w czasie (wykres 2)
Możemy porównać te dwa wykresy
wykres rozrzutu X1t, Yt (wykres 3 - punktowy)
obserwując ten wykres możemy zdecydować się na model liniowy
Szacujemy model regresji z jedną zmienną
otrzymujemy model : Yt = a1 X1t + a0 + ksi
model szacujemy metodą najmniejszych kwadratów
obliczamy X'
robimy to za pomocą transpozycji
obliczamy X’X
mnożymy macierze za pomocą funkcji "macierz.iloczyn"
tablica 1 : macierz X’
tablica 2 : macierz X
zatwierdzamy Ctrl+Shift+Enter
wyznaczamy wyznacznik X’X
funkcja „wyznacznik.macierzy” i zaznaczamy X’X
odwracamy nasza macierz X’X
Funkcja „macierz.odw” i zaznaczamy macierz X’X
Zatwierdzamy Ctrl+Shift+Enter
liczymy X'y (mnożenie macierzy)
liczymy wektor a (macierz.iloczyn)
obliczyliśmy parametry modelu
Porównujemy otrzymane wyniki (obserwacje statystyczne)
liczymy realizacje teoretyczne Yt*
wprowadzamy do tabeli nowa kolumnę Yt*
wprowadzamy zadolarowane dane i możemy przeciągnąć w dół
sprawdzamy jak wartości rzeczywiste i teoretyczne wyglądają w czasie
wykres 4 - liniowy
widzimy, że wykresy różnią się swoją budową
liczymy średnie z wartości rzeczywistych i teoretycznych
widzimy, że są takie same struktura w sensie miary przeciętnej jest zachowana
jak średnie są sobie równe to mamy nieobciążony proces estymacji
Kontynuujemy obliczenia związane z modelem
liczymy reszty modelu Ut
wprowadzamy nową kolumnę Ut
sprawdzamy, czy suma reszt jest równa 0
*** kiedy suma reszt nie będzie 0 ??
- gdy model będzie źle ustalony, będzie miał złą postać analityczną
- jeżeli rozkład Y będzie zasadniczo odbiegał od rozkładu normalnego
rysujemy wykres reszt w czasie
wykres 5 – liniowy
patrzymy jak przebiegają znaki czy są na przemian czy nie
gdy są na przemian mamy ujemna autokorelacje
jeśli nie są na przemian jest dodatnia autokorelacja
liczymy współczynnik autokorelacji pierwszego rzędu (robimy to dodatkowo w ramach weryfikacji modelu)
r1 - funkcja "pearson"
tablica 1 - Ut
tablica 2 - Ut-1 (musimy dodac taka kolumnę U t-1)
otrzymujemy 1,96
badamy istotność autokorelacji
otrzymujemy +/- 1,96/pierwiastek z T
obliczamy wartość krytyczna :
1,96/pierwiastek(20)
*** 20 - liczba obserwacji
Wychodzi 0,43
Zatem autokorelacje pierwszego rzędu jest nieistotna więc nie musimy zmieniać modelu
liczymy miary weryfikacyjne
liczymy wariancje i odchylenie standardowe reszt
n=20 k = 2 n-k = 20-2 = 1
liczymy Ut^2 i sumujemy
wprowadzamy nowa kolumnę Ut^2
dzielimy to przez stopnie swobody i mamy Su^2(wariancję) i Su (odchylenie)
Badamy precyzję oszacowania parametrów
liczymy macierz wariancji i kowariancji D^2(a)
nie mam gotowej formuły więc musimy każdy składnik liczyć osobno
liczymy D(a1) oraz D(a0) = mamy średnie błędy szacunku
błędy sa dużo nizsze niż sam parametr więc prawdopodobnie będziemy mieli istotne parametry
liczymy procentową jakość modelu
liczymy współczynnik determinacji R^2
potrzebujemy do tego fi^2 więc musimy go też obliczyć
potrzebujemy nową kolumnę (Yt-Ysrednia)^2
interpretacja: nie zostało wyjaśnione 10,5 % zmienności przez zmienna X1
liczymy współczynnik zmienności Vs
interpretacja: mamy dużą liczbę przypadkowych zmiennych Y model sobie z tym nie poradzi
TERAZ ROBIMY O SAMO ALE ZA POMOCĄ ODPOWIEDNIEJ FUKCJI (arkusz 2)
trzeba zainstalować odpowiedni dodatek „analiza starbuck” z funkcjami ekonometrycznymi
trzeba wiedzieć jak interpretować wyniki otrzymane w tablicach
Interpretacja tablic:
STATYSTKI REGRESJI:
wielokrotność R = współczynnik korelacji wieloraki - jest to łączny wpływ zmiennych objaśniających
na Y
Kwadrat R – dopasowanie danych do modelu
Dopasowany R kwadrat – R^2, który ma zapobiegać wzrostowi współczynnika determinacji wraz ze wzrostem ilości zmiennych objaśniających
Ma to sens tylko gdy jest więcej zmiennych
R^2 jest zawsze większy od dopasowanego
Błąd standardowy = odchylenie standardowe reszt
Obserwacje – ilość obserwacji
TABLICA WYNIKOWA DOTYCZĄCA RÓWNANIA
Współczynniki – są to parametry:
Przeciętnie – parametr wolny a0
X1t – parametr przy X a1
Błąd standardowy = średnie błędy szacunku – określa precyzje dopasowania modelu
T Stat – statystyka testu studenta
Statystyki są stosunkowo wysokie więc można przypuszczać, że parametry są istotne
Wartość p – możemy bez użycia tablic możemy podjąć decyzję o istotności parametru
jeżeli wartość p jest mniejsza od założonego poziomu istotności to odrzucamy hipotezę zerową na korzyść alternatywnej
aby tego dokonać musimy znać hipotezy !!
Dolne 95% górna i dolna granica przedziały parametru strukturalnego
Górne 95% np. dla parametru wolnego na poziomie ufności 95% mamy przedział od -224 do -124
Dolne 95,0% powtarza się to samo
Górne 95,0% zmieni się to gdy w trakcie szacowania zmienimy poziom ufności
wykład 7 21.05
Prognozy na podstawie modelu ekonometrycznego
Prognozowanie : stosowana jest konkretna metodologia naukowa w celu budowy prognoz (jest to cały proces).
Prognoza w sensie naukowym – jest to uzyskany metodami naukowymi sąd dotyczący nieznanej przyszłości.
Horyzont prognozy - moment w czasie, w przyszłości, na którym budowana jest prognoza.
Prognozy krótkoterminowe - to takie, w których czynniki jakościowe nie wystąpią np. analiza szeregów czasowych i
przewidywanie przyszłej stopy zwrotu. np. przyrost populacji ludności
Prognozy średniookresowe - czynnik jakościowy może, ale nie musi wystąpić i możemy go ewentualnie uwzględnić w
prognozie.
Prognozy długookresowe - czynnik jakościowy wystąpi na pewno i powinniśmy go wykorzystać w modelu, w
modelach mogą występować zmienne naśladujące.
Prognoza może być punktowa - czyli stały punkt np. stopa zwrotu logarytmiczna z danego papieru, którą
przewidujemy, że będzie wynosiła np. 0,02
Prognozy przedziałowe - czyli przy pewnym poziomie precyzji budujemy przedział, który w przyszłości ma się tak
zachowywać, że kiedy prognoza wygaśnie, to ma się znaleźć w tym przedziale.
Wszystkie prognozy buduje się na podstawie szeregu czasowego
Przykład :
+ nie ma czegoś takiego jak prognoza ZŁA : jest DOPUSZCZALNA bądź NIEDOPUSZCZALNA.
Zgromadzono następujące dane
- Yt - zgony niemowląt na 1000 urodzeń żywych
- X1t - spożycie wódki czystej i gatunkowej w przeliczeniu na alkohol 100% w itrach na osobę w ciągu roku
- X2t - PKB na jednego mieszkańca w $
Tablica
Lata Yt X1t X2t
1992 17,3 3,5 2198
1993 16,1 3,8 2233
1994 15,1 3,8 2402
1995 13,6 3,5 3293
1996 12,2 2,9 3724
1997 10,2 2,8 3725
1998 9,5 2,4 4098
1999 8,9 2,1 4014
2000 8,1 2 4078
Zgon niemowląt : maleje w latach
2)
3) PKB (Rośnie)
ROZRZUTY:
Zależność dodatnia
więc znak przy X
powinien być dodatni
Na podstawie materiału statystycznego oszacowano model ekonometryczny o postaci :
Yt = α1 X1t + α2 X2t + α0
i uzyskano następujące wyniki:
Yt =1,79X1t - 0,026X2t + 15,26 + ut
(1,048) (0,000913) (5,998)
-> Wzrost spożycia alkoholu powoduje wzrost zgonów.
-> PKB ma bardzo niski parametr
-> Wysokie błędy – najlepiej wypada parametr wolny, który nie jest ważny.
Miary struktury statystycznej
n=9
k=3
S2 u = 0,796954
Su= 0,892723
Istotność parametrów strukturalnych - test T - Studenta
α = 0,2 czyli 20% błędu – bardzo wysoko
tα = 1,4115
Wartości sprawdzianu
tα1 = 1.71188 tα2 = -2,8073
D2(α) 1,098 0,0008 -6,134
0,0008 8,32E-07 -0,005
-6,134 -0,005 35,986
Miary dopasowania modelu do danych empirycznych
Fi2 =6,28835 R2 = 94,71165
oraz Vs =7,24 - tyle procent stanowi przypadek
Autokorelacja
n=0 K=2
H0 :r1 = 0
d=2,077122 -> H1 :r1 <0
d' = 1,922878
d' = 0,629
d'u = 1,699 -> d' > d'u
brak istotnej autokorelacji ujemnej
Miary dopasowania : problem jest z precyzją modelu – wyniki są okej, jakość : 95% - bardzo dobrze.
BUDOWA PROGNOZY NA ROK 2001
Prognoza Przyszłych wartości zmiennych objaśniających
Prognozy przyszłych wartości zmiennych objaśniających budowane będą na podstawie modelu tendencji rozwojowej o postaci liniowej
Żaden z nich nie jest liniowy!
W modelu tendencji rozwojowej nie ma żadnych zmiennych objaśniających!!
Po prawej stronie modelu będzie tylko zmienna czasowa .
Prognoza zmiennej X1t :
X1t= Yx1t
Yt x1t = α1t + α 0 =ξ t
Ekstrapolacja trendu
t=1,2,.....9
Yt x1t.. = - 0,24t + 4,19 + ut
(0,032) (0,18)
interpretacja przy zmiennej czasowej:
- w latach 92-2000 spożycie alkoholu spadało z roku na rok średnio rzecz biorąc o 0,24 jednostki
- parametr wolny - w roku 91 przeciętne spożycie alkoholu wynosiło 4,19 jednostki
R2 = 89% - bardzo niskie
Prognoza zmiennej X2t
X1t = Y2x2t
Ytogówno = α1t +α 0 + ξt
t=1,2...9
Ydziwnegówno = 278,12 t + 1916,64 + ut
(38,74) (217,98)
R2 =88%
Prognoza dla t=10
Yjakieś gówno inne = 4697,84
Ostatecznie mamy :
Przyszłe realizacje zmiennych objaśniających, czyli
X1t =1,79
X2t =4697,84
Model ekonometryczny dany jest jako
Yt= 1,79X1t - 0,0026 X2t + 15,46 + ut
Podstawiając przyszłe realizacje zmiennych objaśniających do modelu otrzymamy prognozę zmiennej endogenicznej, czyli
Yt = 2001 (to wcześniejsze gówno) = 1,79 x 1,79 - 0,0026 x 4697,84 +15,46 =6,64
Błędy ex ante precyzji - one uwzględniają przyszłość w swojej formule.
Różnica : w przypadku modeli ex ante jestem w stanie obserwować, że im dalej wychodzę w przyszłość, tym większy błąd. - widać jak wzrasta błąd wraz ze wzrostem horyzontu..
W przypadku modelu ex post – dotyczy on tylko przeszłości.
nieznana przyszłość
grupa błędów
ex ante
ex post
Do kreski – okres weryfikacji prognoz
V = XT′ D2(a) XT + Su2
V – błąd ex ante mianowany, który przyjmuje miano takie, jak zmiennej prognozowanej
D2(a) – macierz wariancji/kowariancji
S2(u) – wariancja reszt
V = 1,08962 - mylę się na tyle zgonów na 1000 urodzeń żywych
rzeczywiste realizacje zmiennej prognozowanej Yt odchylają się średnio rzecz biorąc in plus bądź in minus o 1,08962 zgonu na 1000 urodzeń żywych od postawionych prognoz. - ta interpretacja kojarzy się z odchyleniem standardowym reszt.
Względny średni błąd predykcji wynosi
V* = $\frac{\mathbf{V}}{\mathbf{Y}_{\mathbf{T}}^{\mathbf{*}}}\mathbf{\ *100\%}$
V* = 16,41%
średni błąd predykcji stanowi 16,41% przeciętnego poziomu prognozy
Jeżeli w głównym modelu Su było wysokie i V było wysokie - to będziemy mieli duże błędy prognoz
WYKŁAD 8 4.06
PROGNOZOWANIE NA PODSTAWIE TERENDU
model tendencji rozwojowej
trend deterministyczny - tendencja zmiennej prognozowanej do utrzymania jednokierunkowych zmian w dłuższym okresie czasu
Co znaczy w dłuższym okresie czasu ? --> przez KILKA lat/kwartałów/dni itp.
Trend czasowy - chronologicznie ułożone w czasie zmiennych prognozowanych
Każdy szereg czasowy posiada składowe:
- trend
- wahania przypadkowe (najczęściej pochodzą z rozkładu normalnego)
- wahania sezonowe (pewna cykliczność)
- wahania cykliczne (np. cykle koniunkturalne )
SEZONOWE A CYKLICZNE
sezonowe - krótkoterminowe
cykliczne - długoterminowe
w zależności od składowych będziemy tworzyć odpowiedni model
żeby wyspecyfikować model trzeba mieć odpowiednia ilość realizacji
min = 10-12 realizacji w czasie
max = 35-45 realizacji w czasie
przyjmijmy, że poszukiwana funkcji trendu ma postać liniową, czyli:
f(t) = α0 + α1t
to model szeregu czasowego ma postać :
Yt = α 0 + α 1t +ξt t=1,2,3....
(klasyczny model trendu)
nie jest to model przyczynowo skutkowy , jest tu korelacja pozorna ,
*** model może być poszerzony o trend :
Yt = α 1 X1t + α 2X2t + α 3t + α 0 + ξ t
** jak nie wiemy, jaką metodę analityczną można zastosować wielomian 3go stopnia
parametr wolny - jest to prognoza wstecz; mówi, jaki jest przeciętny poziom zmiennej prognozowane np. w 1999
*** do prognozowania wstecz są odrębne metody nie można robić tego odczytując alfa0
parametr przy zmiennej czasowej - mówi ze oceniamy przeciętny wzrost lub spadek z okresu na okres zmiennej prognozowanej
*** szereg czasowy nie może mieć luk
składnik losowy - pochodzi z rozkładu normalnego
Yt - zmienna prognozowana
t - zmienna czasowa
EFEKTY KALENDARZOWE - w danym dniu, miesiącu szereg wygląda zawsze inaczej
SZACOWANIE PARAMETRÓW METODĄ NAJMIEJSZYCH KADRATÓW
funkcja kryterium ma postać 2 (yt -yt*)2
w wyniku oszacowania parametrów modelu yt = a0 +a1t + ut
postać macierzowa modelu : y =Xa + ξ
$y = \ \begin{bmatrix} y1 \\ y2 \\ \begin{matrix} \ldots \\ y_{n} \\ \end{matrix} \\ \end{bmatrix}$ $X = \ \begin{bmatrix} \begin{matrix} 1 \\ 1 \\ \begin{matrix} \ldots \\ 1 \\ \end{matrix} \\ \end{matrix} & \begin{matrix} 1 \\ 2 \\ \begin{matrix} \ldots \\ n \\ \end{matrix} \\ \end{matrix} \\ \end{bmatrix}$ $\alpha = \ \begin{bmatrix} \alpha_{0} \\ \alpha_{1} \\ \end{bmatrix}$ $\xi = \ \begin{bmatrix} \xi 1 \\ \xi 2 \\ \begin{matrix} \ldots \\ \xi_{n} \\ \end{matrix} \\ \end{bmatrix}$
wektor ocen parametrów strukturalnych dany jest, jako : a = (X'X)-1 X'Y
gdzie :
$X^{'}X = \ \begin{bmatrix} n & \xi t \\ \sum_{}^{}t & \sum_{}^{}t^{2} \\ \end{bmatrix}$ $X^{'}Y = \ \begin{bmatrix} \sum_{}^{}y_{t} \\ \sum_{}^{}{\text{t\ }y_{t}} \\ \end{bmatrix}$
Metody usuwania trendu:
1. estymacja modelu regresji względem czasu
w metodzie zakłada się, że szereg czasowy yt generowany jest w następujący sposób:
yt = f(t) +ut
gdzie:
f(t) - trend
ut - jest szeregiem stacjonarnym gdzie E(ut) = 0 i Var(ut) = ơ2 (wariancja jest stała w czasie)
rozpatrzmy następujący przypadek
przyjmijmy ze f(t) jest funkcja liniową i mamy yt = α +βt + ut
2. metoda różnicowania
Ayt = yt - yt-1 = β + ut - ut-1
PODSUMOWUJĄC SZEREGI:
yt + α + βt + ut --> jest procesem trednostacjonarnym TS
yt - yt-1 = β ξ t --> jest procesem pryrostostacjonarnym DS
Przykład na prognozę trendu :
Na podstawie danych o bezrobociu w Polsce (w tysiącach) zamieszczonych w tabeli oszacować funkcje trendu o postaci:
Yt = α 0 + α 1t + ξ t
1995 | 67,1 |
1996 | 62,1 |
1997 | 73,7 |
1998 | 80,6 |
1999 | 82 |
2000 | 87,8 |
2001 | 106 |
2002 | 97,6 |
1995 - 2002 --> okres weryfikacji prognoz
dane wyjściowe
$y = \ \begin{bmatrix} 67,1 \\ \ldots. \\ 97,6 \\ \end{bmatrix}$ $X = \ \begin{bmatrix} 1 & 1 \\ 1 & 2 \\ \begin{matrix} 1 \\ \ldots \\ \end{matrix} & \begin{matrix} 3 \\ \ldots \\ \end{matrix} \\ \end{bmatrix}$ stosujemy metodę najmniejszych kwadratów i otrzymujemy: $a = \ \begin{bmatrix} 56,575 \\ 5,675 \\ \end{bmatrix}$
model można zapisać : yt = 56,575 + 5,675 + ut
α 0 - w roku 1994 przeciętna wielkość bezrobocia wyniosła 56,575 tysięcy osób
α 1 - w tym okresie (1995-2002) bezrobocie wzrastało średnio rzecz biorąc z roku na rok o 5,675 tysięcy osób
wyznaczamy wartości teoretyczne y*
możemy policzyć wariancje resztkową i odchylenie standardowe reszt:
Su2 = 31 Su = 5,57
obliczamy precyzje modelu (błędy szacunku)
D(a0) = 4,3747 D(a1) = 0,8663
model zapisano, jako
yt*= 56,575 + 5,675t + ut
(4,3747) (0,8663)
Dopasowanie modelu do danych empirycznych:
ϕ 2= 0,122 = 12,26%
R2 = 0,8774 = 87,74%
prognoza punktowa na rok 2003 t=9
ypt 2003 = 59,575 +5,675*9 = 107,65 tysięcy
średni błąd predykcji: $\ X_{T} = \ \begin{bmatrix} 1 \\ 9 \\ \end{bmatrix}\ $ V = 7,1176 tys.
względny błąd predykcji: V* = 6,61%
prognoza przedziałowa
n-k = 8-2 = 6 α= 0,05 u= 2,447
107,65 - 2,447 * 7,1176 < yt < 107,65 + 2,447 * 7,116
0,95 --> na 100 prognoz przedziałowych 95 z pośród nich pokryje przyszłą prawdziwą realizację zmiennej prognozowanej Yt
egzamin:
- będzie oszacowany model i trzeba będzie zinterpretować
- wybrać jeden z dwóch modeli, który jest lepszy i uzasadnić, dlaczego
- jak się testuje autokorelacje rzędu pierwszego
- test na istotność parametrów (test t-studenta)
- interpretacje parametrów modeli
- wybrać prognozę dopuszczalną i uzasadnić
- własności estymatorów
- założenia metody najmilejszych kwadratów