Wiarygodność modelu:
Jeśli liczba stopni swobody modelu, wyznaczana jako różnica między liczbą obserwacji, a liczbą szacowanych parametrów (df=n-(k+1))>30, to próba jest wystarczająco liczna.
Dane przekrojowe –opisują cechy jednostek i pochodzą z jednego okresu
Szeregi czasowe – dane mają postać obserwacji tych samych zmiennych dokonywanych z określoną częstotliwością
Estymator B wyznaczony MNK jest estymatorem zgodnym, nieobciążonym i najefektywniejszym w klasie liniowych estymatorów wektora parametrów B modelu.
najlepiej oszacowany estymator ma najmniejszą wariancję
wartość oczekiwana składnika losowego wynosi 0.
Składniki losowe związane z poszczególnymi obserwacjami nie są ze sobą skorelowane i mają stałą wariancję.
Reszta – różnica między wartością empiryczną, a teoretyczną zmiennej objaśnianej.
Błąd standardowy regresji (składnika losowego) – ile przeciętnie odchylają się warunkowe wartości oczekiwane zmiennej objaśnianej od jej wartości empirycznych.
Kolejność:
• Weryfikacja merytoryczna:
ocena sensowności ekonomicznej oszacowań parametrów
ocena dopasowania modelu do danych empirycznych (współczynnik determinacji)
kryteria informacyjne
• Weryfikacja statystyczna: testy hipotez statystycznych dotyczących modelu
Estymacja parametrów modelu
Weryfikacja merytoryczna
Weryfikacja statystyczna:
Interpretacja i ocena wartości współczynnika determinacji i kryteriów informacyjnych
Ocena siły współliniowości zmiennych objaśniających
Testy hipotez o statystycznej istotności poszczególnych zmiennych objaśniających i ich podzbiorów
Testy specyfikacji
Testy własności składnika losowego
Testy jakości prognostycznej
R2 – jaka część modelu jest objaśniana przez zmienne objaśniające (im bliższy 1. Tym lepiej). Zadowalające wartości:
W makroekonomicznych modelach szeregów czasowych r2>0,9
W modelach opartych na przyrostach zmiennych makroekonomicznych r2 między 0,7, a 0,9
W modelach opartych na zagregowanych danych przekrojowych, r2 między 0,3 a 0,7
W modelach opartych na indywidualnych danych przekrojowych np. Dot. Gosp. Domowych, albo przedsiębiorstw r2 między 0,05, a 0,4
Uwaga! Ma wyższą wartość, jeśli w modelu znajduje się więcej zmiennych objaśniających – warto zastosować skorygowany R2
Kryterium Akaike’a (AIC – Akaike information Criterion) – odzwierciedla, na ile proces opisany szacowanym równaniem ma potwierdzenie w zaobserwowanych danych.
Wartość maleje ze wzrostem wiarygodności – im mniejsza wartość tym lepiej
Można nim tylko porównać dwa modele, sama wartość nie niesie ze sobą informacji
Pozostałe kryteria informacyjne: BIC –Bayesian Information Cryterion oraz HQC – Hannan-Quinn Cryterion) – mają większą karę za dodatkowe zmienne, czyli zazwyczaj – wyższe wartości niż Akaike’a.
Po co testować? Jeśli występuje, to nie możemy zastosować MNK
Szeregi czasowe:
Kształtowanie się zjawisk zgodnie z podobnymi trendami lub cyklami koniunkturalnymi
CIW (VIF – variance inflation factor) – czynnik inflacji wariancji) – sprawdza sytuację faktyczną z idealną, kiedy wszystkie zmienne objaśniające są ze sobą nieskorelowane; TESTUJE WSPÓŁLINIOWOŚĆ ZMIENNYCH OBJAŚNIAJĄCYCH.
Jeśli brak współliniowości, to CIW > 1, CIW >10 – współliniowość obniżająca jakość modelu
p-value- najniższy poziom istotności, przy którym odrzucamy H0 (jeśli wartość empiryczna mniejsza od alfy – odrzucamy H0)
T- Student – objaśnia istotność pojedynczej zmiennej (rozkład z n-(k+1) stopniami swobody)
H0- brak statystycznej istotności badanej zmiennej objaśnianej (beta=0)
Dopuszcza wartości parametru wyższe i niższe od 0.
Test WALDA – objaśnia istotność wszystkich zmiennych objaśniających na raz.
H0 – wszystkie zmienne objaśniające są łącznie nieistotne
H1 – przynajmniej jeden parametr różny od zera
Rozkład F-Snedecora – jeśli wartość statystyki > od wartości krytycznej z tablic rozkładu F, to odrzucamy H0
Sprawdzenie postaci funkcyjnej modelu, odpowiednie dobranie zmiennych objaśniających i prawidłowe dobranie struktury dynamicznej modelu.
TEST RESET – test poprawności konstrukcji modelu
H0 – parametry przy wszystkich dodanych zmiennych =0 – poprawna postać funkcyjna modelu
Weryfikacja statystyką Walda o rozkładzie F
Negatywny wynik testu RESET może wskazywać na:
Błąd doboru postaci funkcyjnej
Pominięcie ważnej zmiennej
TEST POMINIĘTEJ ZMIENNEJ – sprawdza, czy na pewno wszystkie uwzględnione zmienne powinny się znajdować w modelu
H0- zmienna nieistotna – można wyjebać z modelu
TEST DAVIDSONA MCKINNONA – poprawność specyfikacji modelu
Mamy 2. Modele – model kompletny to taki, który lepiej niż konkurencyjny tłumaczy zmienną objaśnianą
2. Modele – taka sama postać funkcyjna i liczba zmiennych objaśniających, ale inne zbiory zmiennych objaśniających
Teoretyczna wartość zmiennej objaśnianej dołączana do modelu konkurencyjnego – jeśli okazuje się statystycznie nieistotna – model kompletny
Reszty składnika losowego powinny się układać przypadkowo
Ze względu na konieczność ułożenia danych w sensownym ciągu, autokorelacja składnika losowego jest stosowana zazwyczaj tylko w szeregach czasowych
TEST DURBINA-WATSONA – autokorelacja 1. Rzędu.
H0- brak autokorelacji składnika losowego
Odrzucamy H0 – dodatnia autokorelacja | Nie można podjąć decyzji | Brak autokorelacji | Nie można podjąć decyzji | Odrzucamy H0 – ujemna autokorelacja |
---|
0 dl du 2 4-du 4-dl 4
Wartości dl i du na podstawie tablic z danych n- liczba obserwacji, k – liczba zmiennych objaśniających
ZASTOSOWANIE:
Wyłącznie do modeli z wyrazem wolnym, bez zmiennej opóźnionej z normalnym rozkładem składnika losowego
Autokorelacja tylko rzędu 1.
TEST MNOŻNIKA LAGRANGE’A
H0 – brak autokorelacji
Rozkład X2 z jednym stopniem swobody
Do wykorzystania przy dużych próbach
Gdy autokorelacji podlegają obserwacje oddalone o s okresów mówimy o występowaniu autokorelacji rzędu s.
W modelach szacowanych na podstawie szeregów czasowych można się spodziewać autokorelacji rzędu odpowiadającego częstotliwości danych (np. P=12 dla danych miesięcznych)
Zachodzi, kiedy składniki losowe modelu mają różne wariancje
Skutek podobny jak w przypadku autokorelacji
TEST WHITE’A
H0 – homoskedastyczność
Statystyka X2
Heteroskedastyczność jest charakterystyczna dla danych przekrojowych lub przekrojowo-czasowych
Może, jak testy autokorelacji, wyłapać błędną postać funkcyjną lub pominięte kluczowe zmienne objaśniające
HAC – heteroskedascity and autocorelation consistent (estymator błędu standardowego uwzględniający heteroskedastyczność i autokorelację)
Założenie o normalności rozkładu składnika losowego nie należy do kanonu założeń MNK, ale ułatwia konstrukcję testów statystycznych, czyli ułatwia weryfikację modelu
TEST JARQUE’A-BEREGO
H0- składnik losowy ma rozkład normalny
Rozkład X2 z dwoma stopniami swobody
Aby rozpocząć prognozowanie musimy:
Zweryfikować pozytywnie model wszelkimi dostępnymi testami
Zmienne objaśniające powinny być stabilne i znane
Prognozowanie powinno mieć racjonalne przesłanki
Rozkład składnika losowego powinien być stabilny w okresie prognozy (przynajmniej na tyle, żeby spełnić założenia MNK)
TEST CHOWA
Okres próby dzielimy na na dwa okresy, a nr obserwacji rozdzielającej nazywamy punktem zwrotnym
H0- stabilność
Statystyka F-Snedecora R1=K+1, R2=n-2(k+1) stopni swobody
TEST QUANDTA (QRL)
Jako punkt zwrotny przyjmowany moment, dla którego wart. Statystyki F z r1=k+1, a r2=n-2(k+1) stopniami swobody jest maksymalna
H0- stabilność
Zmienna objaśniana jest interpretowana jako prawdopodobieństwo zaistnienia zmiennej jakościowej określonej liczbą 1.
liczba zmiennych zero-jedynkowych w modelu musi być o jedną mniejsza niż liczba kategorii, na przykład:
skoro w roku są 4 kwartały, to 3 zmienne kwartalne
jeśli mamy 10 dzielnic, w których badamy ceny mieszkań, to 9 zmiennych zero-jedynkowych
przyczyna: założenie MNK o pełnym rzędzie kolumnowym macierzy X
można wywalić nieistotne zmienne jeśli ze sobą sąsiadują (np. Dzielnice) lub są b. Podobne, ale tylko wtedy, bo inaczej bazą stają się te wywalone, co utrudnia szacunki
Wady:
Niejednorodność składnika losowego (heteroskedastyczność)
Wartość wykracza poza zakres <0;1>
ZMIENNE INTERAKCYJNE:
zmienne interakcyjne pozwalają uwzględnić efekt synergii – wzmocnienia indywidualnych efektów dwóch lub więcej zmiennych dzięki temu, że działają wspólnie
najczęściej stosowane w przypadkach:
jakościowa X jakościowa
jakościowa X lościowa
zmienne interakcyjne trudno zinterpretować dla:
dwóch zmiennych jakościowych
więcej niż dwóch zmiennych
Poza zmiennymi interakcyjnymi (X*Z, X*V) w modelu warto też pozostawić́ zmienne X, Z i V, żeby „wyłapać́” efekty indywidualne
TEST PEARSONA
Rozkład X2
hipoteza zerowa H0: zmienne są niezależne
hipoteza alternatywna H1: zmienne nie są niezależne
MODEL LOGITOWY
W formie dystrybuanty rozkładu logistycznego (krzywa typu S)
Logit to logarytm ilorazu szans przyjęcia oraz nieprzyjęcia wartości 1 przez zmienną objaśnianą. Jeśli szanse są jednakowe, to logit =0
Na wydruku: średnia dla zmiennej Y – udział jedynek w próbie
Predykcja: Na wydruku: logarytm wiarygodności – wartość ln funkcji wiarygodności, którą maksymalizuje się, poszukując ocen parametrów – czyli wartość maksymalna dla modelu.
Zamiast R2 stosuje się pseudo R2,
który ma H0- wszystkie parametry modelu (poza wyrazem wolnym)=0
rozkład statystyka X2, liczba st. Swobody=liczba zmiennych objaśniających modelu
p<alfa -> przynajmniej jedna zmienna w modelu jest istotna
na wydruku może być też tablica empiryczne/prognoza (tablica trafności), służy do oceny ex post. Prawy dolny róg i lewy górny vs. Liczba obserwacji – miara trafności, zwana zliczeniowym R2.
MODEL PROBITOWY
prawie identyczny jak logitowy
MODEL TOBITOWY
zmienna ograniczona – np. Wydatki na samochód – mają różne wartości, albo 0, bo kogoś nie stać
jest to model zajmujący się regresją cenzurowaną (np. 100 osób pytamy o wydatki na wczasy, w kontekście wieku i zatrudnienia. Wydatki 0, ale wciąż mamy informacje na temat wieku i zatrudnienia)
model tobitowy przedstawia zmienną ukrytą, tj. Taką, która ma wartość tylko wtedy, kiedy jest większa od 0
Uważać na trend – ze względu na niego może się wydawać, że zmienne objaśniające są ważne – dlatego konieczne jest aby dane były stacjonarne
FUNKCJA AUTOKORELACJI
TEST BOXA-PIERCE’A
H0 – wszystkie współczynniki autokorelacji są =0
Podstawą wnioskowania statystyka Q
Rozkład X2 z K stopniami swobody
Wysokie wartości statystyki Q – przynajmniej jeden ze współczynników różny od 0
TEST DICKEYA – FULLERA
Analiza autokorelacji szeregu (poprzednie testy) stanowi jedynie wskazówkę przy podejmowaniu decyzji. Dlatego ostateczna decyzja o uznaniu szeregu za stacjonarny powinna bazować na wynikach testów statycznych (testach pierwiastka jednostkowego)
H0 –odwrócone g =0, czyli szereg czasowy jest niestacjonarny, zintegrowany w st. 1
Hipoteza alternatywna (dobra dla nas) – szereg stacjonarny
Jeśli obliczona DF>DF z tablic -> przyjmujemy H0
MODEL ZE SKOŃCZONYM ROZKŁADEM OPÓŹNIEŃ
Dynamiczne zależności między zmiennymi mogą zostać uwzględnione w specyfikacji modelu ekonometrycznego przez dodanie przeszłych realizacji zmiennych objaśniających po prawej stronie modelu. Np. Dla jednej zmiennej xt, która oddziałuje na zmienną objaśnianą natychmiast, dorzucamy jeszcze, jeśli oddziałuje z opóźnieniem 1-2 okresów, tą zmienną z opóźnieniem – oddziaływanie zmiennej xt na wartości w rożnych okresach nazywamy mnożnikiem bezpośrednim lub mnożnikiem krótkookresowym. Istotny jest parametr stojący przy zmiennej. (beta przy x w okresie 0 – mnożnik krótkookresowy)
W późniejszych okresach zakumulowany wzrost zmiennej objaśnianej nie ulegnie już zmianie, a więc całkowity wzrost zmiennej objaśnianej w okresie zbieżnym do nieskończoności równa się sumie parametrów przy zmiennych objaśniających, więc parametr beta jest zwany mnożnikiem długookresowym – suma bet przy wszystkich zmiennych objaśniających obejmujących opóźnienie jednej zmiennej
MODEL KOYCKA
Model nieskończonych opóźnień
Parametr beta dąży do zera im bliżej nieskończoności
Zgodnie z koncepcją Koycka, zakładamy, że parametry beta tworzą ciąg geometryczny
MODEL AUTOREGRESYJNY Z ROZKŁADEM OPÓŹNIEŃ – ADL
Zmienna objaśniana zależy od zmiennej objaśniającej i od swoich przeszłych realizacji
Mnożnik krótkookresowy = beta 0
Należy arbitralnie przyjąć rząd opóźnień
Estymacja często prowadzi do uzyskania parametrów, które nie są statystycznie różne od zera
Ergo: jak ustalić, które zmienne powinny być uwzględnione w specyfikacji, a które olać?
OD OGÓLNEGO DO SZCZEGÓLNEGO
w pierwszym etapie szacowania, szacowana jest ogólna postać ADL, tj. Specyfikacja dla wysokich wart. Opóźnień.
Potem na podst. Testów dot. Składnika losowego, stabilności modelu i istotności zmiennych opóźnionych szukana jest specyfikacja szczególna, eliminująca liczbę zmiennych opóźnionych, ale bez tracenia na jakości modelu
Możemy uzyskać różne postacie modelu, więc… (pkt. Następny)
Najlepsze modele charakteryzują się najmniejszymi AIC i sic
GRANGER – REGRESJA POZORNA
Pozorna regresja (dane są niby zależne, ale rozsądek, test Durbina-Watsona i Dickeya-Fullera pokazują, że jednak nie.)
Zależności, mimo wysokiego R2 oraz statystyki t-studenta, sa niestabilne w czasie i są właśnie Regresją pozorną.
Dlatego przed tworzeniem modelu z szeregów czasowych warto zrobić tak, żeby wszystkie zmienne były stacjonarne, coby nie było przypału, można też sprawdzić relację kointegrującą między zmiennymi
PRZYCZYNOWOŚĆ W SENSIE GRANGERA:
zmienna x jest przyczyną (w sensie Grangera) dla y, jeśli x pomaga w prognozowaniu y
Idea przyczynowości w sensie Grangera nie jest identyczna z potocznym znaczeniem tego terminu: nie oznacza, że y jest skutkiem czy efektem działania x!
termin „przyczynowość w sensie Grangera” należy rozumieć jako „poprzedzanie”
zmienna xt nie jest przyczyną zmiennej yt w sensie Grangera, jeśli w równaniu regresji yt względem opóźnionych wartości y oraz x, współczynniki przy zmiennych x są równe zero
KOINTEGRACJA
Jeśli regresja pozorna miedzy zmiennymi niestacjonarnymi jest stabilna, to zależność jest relacją kointegrującą
Jak odróżnić regresję od kointegracji? Jeśli składnik losowy jest stacjonarny, to – kointegracja, jeśli jest niestacjonarny – może być regresja
Jak sprawdzić stacjonarność składnika losowego? Oszacować MNK parametry relacji kointegrującej oraz sprawdzić czy reszty regresji są stacjonarne
modele hedoniczne przybierają̨ postać modeli ekonometrycznych (najczęściej jednorównaniowych i nieliniowych względem zmiennych), w których zmienną objaśnianą̨ jest cena, a zmiennymi objaśniającymi – charakterystyki produktu, o których sądzi się̨, że mają znaczący wpływ na jego cenę
cena heterogenicznego dobra jest zatem sumą wycen jego poszczególnych charakterystyk opisanych za pomocą zmiennych objaśniających
• oczekiwania to prognozy, w które wierzymy
Rodzaje oczekiwań:
Naiwne – wartość x identyczna jak w poprzednim okresie
Adaptacyjne - oczekiwania są korygowane o ułamek popełnionego w poprzednim okresie błędu
zalety
prostota modelu
intuicyjne uzasadnienie: podmioty gospodarcze przywiązują większą wagę do najnowszych obserwacji niż do „starych”
łatwość estymacji: przekształcenie do modelu Koycka
użyteczna interpretacja parametru λ
wady
brak realizmu: dlaczego tylko jedna zmienna?
systematycznie powtarzane błędy predykcji
brak informacji co do wartości parametru λ
racjonalne (REH) - główna teza: subiektywne oczekiwania podmiotów ekonomicznych są identyczne z obiektywnymi warunkowymi wartościami oczekiwanymi zmiennych ekonomicznych
większość praktyków traktuje hipotezę racjonalnych oczekiwań jako najlepsze dostępne założenie dla potrzeb analizy polityki gospodarczej
Aby oczekiwania można było uznać za racjonalne, muszą spełniać kilka statystycznych własności:
nieobciążoność (ang. unbiasedness),
ortogonalność (ang. orthogonality, forecast- error unpredictability),
efektywność (ang. efficiency),
zgodność (ang. consistency),
zbieżność (ang. convergence),
własność martyngałowa (ang. martingale),
zmienność (ang. volatility).