WERYFIKACJA MODELI EKONOMETRYCZNYCH
Przedziały ufności parametrów strukturalnych
Przedział ufności dla parametru strukturalnego modelu dany jest następującą formułą:
{ai−tα×D(ai)<ai<ai+tα×D(ai)} = γ
ai – i-ty parametr modelu dla którego budowany jest przedział
tα – wartość krytyczna odczytywana z tablic wartości krytycznych rozkładu t-Studenta odczytywana jest na z góry założonym poziomie istotności α
D(ai) – średni błąd szacunku i-tego parametru
γ – poziom ufności dany jest jako 1-α
Przykład:
Oszacowano model ekonometryczny i uzyskano następujące wyniki
Y1 = 2X1t − 5X2t + 1 + ut
(1) (2) (0,5)
n = 20 n − k = 20 − 3 = 17 α = 0, 05 tα = 2, 11
Przedział ufności dla parametru stojącego przy zmiennej X1t
{2−2,11×2<a1<2+2,11×2} = 0, 95
{−2,22<a1<6,22} = 0, 95
Założenie że α=5%
Poziom istotności α oznacza, że na 100 takich przedziałów 5 razy przedział ufności nie pokryje wartości oszacowanego parametru.
Poziom ufności α będzie wynosił 95%, to na 100 takich przedziałów, przedział ufności 95 razy pokryje wartość oszacowanego parametru.
W przypadku t-Studenta – maksymalna liczba obserwacji = 120
Jeżeli liczba obserwacji jest większa niż 120 – stosuje się rozkład normalny.
Badanie istotności parametrów strukturalnych
Przyczyny nieistotności wpływu zmiennych objaśniających na zmienną endogeniczną:
- mała dokładność lub nieodpowiedniość danych statystycznych
- mała dokładność technik estymacji
- niewłaściwa postać analityczna modelu
- pominięcie istotnych zmiennych objaśniających
- przyczyny wynikające z losowości próby
Test Fishera Snedecora – test F
Badanie wszystkich parametrów łącznie
Z pominięciem wyrazu wolnego, hipotezy mają następującą postać
Ho : α1 = …αk = 0 głosi o braku istotności statystycznej
H1 : α1 ≠ ⋯αk ≠ 0 nie bierzemy pod uwagę parametru wolnego, głosi, że wszystkie parametry z pominięciem parametru wolnego są istotne statystycznie
Statystyka testu dana jest następującą formułą:
$F = \frac{R^{2}}{1 - R^{2}} \times \frac{N - K - 1}{K}$ r1 = K r2 = N − K − 1
Gdzie
N – liczba obserwacji
K – liczba zmiennych objaśniających
R2 – współczynnik determinacji
(Hipoteza statystyczna – sposób podejmowania decyzji w statystyce)
Decyzja:
F≥Fα hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej co oznacza, że przynajmniej jedna zmienna objaśniająca wpływa na zmienną endogeniczną.
F<Fα brak podstaw do odrzucenia hipotezy zerowej co oznacza, że wszystkie zmienne nieistotnie wpływają na zmienną endogeniczną.
(jeżeli poziom istotności przyjmujemy na poziomie 5% to na 100 decyzji 5 razy się pomylimy)
Przykład
Oszacowano model ekonometryczny i uzyskano następujące wyniki:
Y1 = 2X1t − 5X2t + 1 + ut
(1) (2) (0,5)
n = 20 n − k = 20 − 3 = 17 α = 0, 05 R2 = 0, 65
H0 : α1, α2 = 0
H1 : α1, α2 ≠ 0
r1 = K = 2 r2 = N − K − 1 = 20 − 2 − 1 = 17
Fx = 3, 59 $F = \frac{0,65}{1 - 0,65} \times \frac{20 - 2 - 1}{2} = 15,79$
Decyzja:
F > Fx
Jeżeli F > Fx to hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej głoszącej, że parametry a1 i a2 są istotne statystycznie.
Oznacza to z punktu widzenia ekonometrycznego, że zmienne, które stoją przy rozważanych parametrach mają istotny wpływ na zmienną endogeniczną.
Test t-Studenta – dotyczy badania parametrów strukturalnych modelu
Różni się tym od parametru Fishera że każdy parametr jest indywidualnie badany włącznie z parametrem wolnym.
Przy spełnionych założeniach Metody Najmniejszych Kwadratów (jeśli to nie jest spełnione to osłabia to test i wychodzą błędy) sprawdzeniem hipotezy zerowej:
Ho : ai = 0
Wobec hipotezy alternatywnej:
H1 : ai ≠ 0 (a1<0;a1>0)
Jest statystyka testu t-Studenta o n − k stopniach swobody dana jako:
$t = \frac{a_{i}}{D(a_{i})}$ i = 1, 2, …, k
n – liczba obserwacji
k – liczba szacowanych parametrów
Decyzja:
Jeżeli:
|t| > tα hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej na poziomie istotności (parametr jest istotny i zmienna pozostaje w modelu):
dla α = 1 − γ
|t| < tα brak podstaw do odrzucenia hipotezy zerowej na poziomie istotności (parametr jest na poziomie zero i zmiennej nie powinno być w modelu – nie wpływa na Y)
dla α = 1 − γ
(przy teście ogólnym stosujemy test Fishera, przy badaniach szczegółowych stosujemy test t-Studenta
gdy t = tα to albo zmieniamy dokładność obliczeń albo test, ostatecznie możemy zmienić poziom istotności –ale lepiej tego nie robić.
Przykład:
Oszacowano model ekonometryczny i uzyskano następujące wyniki
Y1 = 2X1t − 5X2t + 1 + ut
(1) (2) (0,5)
n = 20 n − k = 20 − 3 = 17 α = 0, 05 tα = 2, 11
Badanie istotności parametru przy zmiennej objaśniającej X1t
H0 : ,a2 = 0
$t = \frac{5}{2} = 2,5\ \ \ \ \rightarrow \ \ \ \ \left| t \right| > t_{\alpha}$
H1 : a2 ≠ 0
Parametr jest istotny statystycznie a zmienna powinna zostać w modelu.
Test Durbina – Watsona na istotność autokorelacji rzędu pierwszego.
Przyczyny występowania autokorelacji rzędu pierwszego:
- niewłaściwa postać analityczna modelu
- błędnie dobrane opóźnienia przy zmiennych objaśniających w modelu
- pominięcie istotnej zmiennej objaśniającej w modelu
Graficzna identyfikacja znaku autokorelacji pierwszego rzędu
Jeżeli znaki reszt są na przemian to ujemna autokorelacja (autokorelacja istotna)
Jeżeli znaki reszt nie są na przemian to dodatnia korelacja
Procedura testu Durbina – Watsona (DW)
Hipotezy testu mają następującą postać
Ho : ρ1 = 0
H1 : ρ1 < 0 (autokorelacja ujemna) H1 : ρi > 0 (autokorelacja dodatnia)
ρi - współczynnik autokorelacji rzędu pierwszego
Statystyka testu dana jest jako:
$d = \frac{\sum_{t = 2}^{n}{(u_{t} - u_{t - 1})^{2}}}{\sum_{t = 1}^{n}{u_{t}}^{2}}$ d = 2(1 − r1)
0 ≤ d ≤ 4
Jeżeli:
H1 : ρ1 < 0 to d′ = 4 − d
ρ1 - jest pewnym sposobem estymacji współczynnika rzędu pierwszego
r1 - obliczony współczynnik autokorelacji rzędu pierwszego – inaczej współczynnik korelacji Pearsona – przedział [-1,1]
autokorelacja rzędu pierwszego – to co było wczoraj wpływa na dzisiaj – autokorelacja istotna, jeśli to co było wczoraj nie wpływa na dzisiaj – autokorelacja nieistotna
dl - dolna wartość krytyczna
zawsze dl < du
dl - górna wartość krytyczna
Na poziomie istotności 0,05 lub 0,01 odczytywane są dolna i górna wartość krytyczna z tablic wartości krytycznych rozkładu DW, czyli:
dl oraz du
Decyzja, dla H1 : ρi > 0
d ≤ dl hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej
dl < d < du obszar niekonkluzywności testu oznacza, że nie można podjąć decyzji odnośnie istotności bądź braku autokorelacji
d ≥ du brak podstaw do odrzucenia hipotezy zerowej
Decyzja, dla H1 : ρi < 0
d′≤d′l hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej
d′l < d′<d′u obszar niekonkluzywności testu
d′≥d′u brak podstaw do odrzucenia hipotezy zerowej
Należy pamiętać że:
d = 0 to r1 ≈ 1
} autokorelacja dodatnia
d = 2 to r1 ≈ 0 - brak autokorelacji
} autokorelacja ujemna
d = 4 to r1 ≈ −1
Zatem współczynnik autokorelacji rzędu pierwszego przyjmuje wartości z przedziału [ − 1 ≤ r1 ≤ 1 ]
Współczynnik autokorelacji jest współczynnik korelacji liniowej Pearsona między resztami model ut a resztami odpowiednio opóźnionymi o okres τ
W przypadku autokorelacji pierwszego rzędu τ = 1
Testowanie poprawności postaci analitycznej modelu poprzez pryzmat losowości reszt modelu
Test serii:
Hipotezy:
H0 : [Yt*=f(X1t,X2t,…,Xkt)]
H1 : [Yt*≠f(X1t,X2t,…,Xkt)]
W teście analizie podlegają reszty modelu z tym, że:
- jeżeli model był badany na podstawie danych dynamicznych (np. model tendencji rozwojowej) to reszty są uporządkowane w sposób naturalny zgodnie z upływem czasu (kolejnymi realizacjami zmiennej czasowej t)
- jeżeli model był budowany na podstawie danych przekrojowych to reszty modelu porządkowane są wg rosnących wartości dowolnie wybranej zmiennej objaśniającej
Serią jest dowolny podciąg reszt złożony wyłącznie z elementów dodatnich bądź ujemnych. Reszty równe zero nie są brane pod uwagę !!!
Niech:
ut > 0 to $"a"$
ut < 0 to $"b"$
Stąd określamy liczbę serii, tzw k empiryczne
Z tablic liczby serii odczytujemy:
n1 – dla liczby symboli $"a"$
n2 – dla liczby symboli $"b"$
na poziomie istotności α
P{k<kα} = α
Decyzja:
k ≤ kα to hipotezę zerową należy odrzucić na korzyść hipotezy alternatywnej. Postać analityczna modelu nie jest właściwa
k > kα brak podstaw do odrzucenia hipotezy zerowej
TESTOWANIE NORMALNOŚCI ROZKŁADU RESZT
Test Jarquea – Bery (JB)
Hipotezy dane są jako:
H0 : F(ui) = FN(ui)
H1 : F(ui) ≠ FN(ui)
ui – i-ta reszta
Statystyka testu ma następującą postać:
$$JB = N\left( \frac{1}{6}\beta_{1} + \frac{1}{24}\left( \beta_{2} - 3 \right)^{2} \right)$$
gdzie
$$\sqrt{\beta_{1}} = \frac{1}{N}\sum_{i = 1}^{N}{u_{i}}^{3}/S^{3}(u_{i})^{2}$$
$$\beta_{2} = \frac{1}{N}\sum_{i = 1}^{N}{u_{i}}^{4}/S^{4}(u_{i})$$
$$S\left( u_{i} \right) = \sqrt{\frac{1}{N}\sum_{i = 1}^{N}{u_{i}}^{2}}$$
Rozkład statystyki JB jest zbieżny do rozkładu χ2 o dwóch stopniach swobody χ2(2)
Decyzja:
JB < χα2(2) brak podstaw do odrzucenia hipotezy zerowej. Rozkład składnika losowego jest rozkładem normalnym
JB ≥ χα2(2) hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej. Rozkład składnika losowego nie jest rozkładem normalnym
Testem alternatywnym do testu JB jest test zgodności chi-kwadrat (χ2)
Przykład zastosowania testu JB.
Na podstawie danych zawartych w tablicy oszacowano model o postaci
Yt |
X1t |
X2t |
---|---|---|
4 | 3 | 12 |
3 | 3 | 14 |
0 | 0 | 18 |
4 | 2 | 10 |
4 | 2 | 10 |
3 | 3 | 14 |
0 | 0 | 18 |
4 | 3 | 12 |
3 | 2 | 15 |
1 | 1 | 16 |
3 | 3 | 14 |
1 | 2 | 15 |
Yt = α1X1t + α2X2tα0 + α0 + ξt
gdzie
Yt - posiadane dzieci (dziecko)
X1t - planowane dzieci (dziecko)
X2t - kariera zawodowa kobiety (lata)
Uzyskano wyniki:
parametry | średnie błędy szacunku | statystyka testu t-Studenta | p - value | |||
---|---|---|---|---|---|---|
parametr wolny | 6,8684 | 1,3120 | istotne | 5,2350 | 0,0005 | hipoteza zero odrzucona |
X1t |
0,5329 | 0,1759 | istotne | 3,1292 | 0,0143 | hipoteza zero odrzucona |
X2t |
-0,3882 | 0,0745 | istotne | 5,2081 | 0,0006 | hipoteza zero odrzucona |
p-value – zakładany poziom istotności α = 0, 05 (porównujemy ze statystyką p-value)
Hipotezy
H0 : F(ui) = FN(ui)
H1 : F(ui) ≠ FN(ui)
Obliczenia pośrednie
ut |
ut3 |
ut4 |
---|---|---|
0,1908 | 0,0069 | 0,0013 |
-0,0329 | 0,0000 | 0,0000 |
0,1184 | 0,0017 | 0,0002 |
-0,5260 | -0,0001 | 0,0000 |
-0,5260 | -0,0001 | 0,0000 |
-0,0329 | 0,0000 | 0,0000 |
0,1184 | 0,0017 | 0,0002 |
0,1908 | 0,0069 | 0,0013 |
0,8882 | 0,7006 | 0,6222 |
-0,1908 | -0,0069 | 0,0013 |
-0,0329 | 0,0000 | 0,0000 |
-1,1118 | -1,3745 | 1,5282 |
0,0000 | -0,6640 | 2,1548 |
Wiadomo że:
Su = 0, 4911
stąd
$\sqrt{\beta_{1}} = \frac{1}{12}\left( \frac{- 0,6640}{\left( 0,4911 \right)^{3}} \right) = - 0,2181\ $ β1 = 0, 2181
$$\beta_{2}\frac{1}{12}\left( \frac{2,1548}{0,0582} \right) = 3,0858$$
Zatem statystyka testu JB wynosi:
JB = 0, 4399
Decyzja
JB < χα2(2) = 5, 991
Rozkład składnika losowego jest rozkładem normalnym. Brak podstaw do odrzucenia hipotezy zerowej.
BADANIE JEDNOŚCI WARIANCJI SKŁADNIKA LOSOWEGO HETERO I HOMOSCEDASTYCZNE SKŁADNIKI LOSOWE MODELU.
Test Fishera – Snedecora (F)
Hipotezy dane są jako:
H0 : σ12 = σ22
H1 : σ12 ≠ σ22
Statystyka testu ma następującą postać
$$F = \frac{{\text{Su}_{1}}^{2}}{{\text{Su}_{2}}^{2}}$$
UWAGA: Wymagane jest by w liczniku znalazła się większa wartość estymatora wariancji składnika losowego.
Statystyka F jest zbieżna do rozkładu Fishera – Snedecora o r1, r2 stopniach swobody
r1 = n1 − (K+1)
r2 = n2 − (K+1)
K – liczba zmiennych w modelu
n1 – liczebność pierwsza
n2 – liczebność druga
Decyzja:
F ≥ Fα hipoteza zerowa odrzucona na korzyść hipotezy alternatywnej. Oznacza to, że wariancje prób istotnie różnią się od zera, co oznacza heteroscedastyczne składniki losowe
F < Fα brak podstaw do odrzucenia hipotezy zerowej. Wariancja składników losowych jest jednorodna. Oznacza to, że składniki losowe modelu mają charakter homoscedastyczny.
Przykład na test F
Dany jest następujący wektor reszt. Wynikający z oszacowania modelu z dwiema zmiennymi objaśniającymi K=2
Lp |
ut |
---|---|
1 | -0,5 |
2 | -0,2 |
3 | 0,1 |
4 | -0,1 |
5 | -0,4 |
6 | 0,1 |
7 | 0,5 |
8 | 0,3 |
9 | 0,1 |
10 | 0,1 |
11 | -1 |
12 | 1 |
13 | -2 |
14 | 3 |
15 | 2 |
16 | -2 |
17 | -3 |
18 | 1 |
19 | 2 |
20 | -1 |
Obliczenia pośrednie:
ut1 |
ut2 |
ut12 |
ut22 |
---|---|---|---|
-1 | -0,5 | 1 | 0,25 |
1 | -0,2 | 1 | 0,04 |
-2 | 0,1 | 4 | 0,01 |
3 | -0,1 | 0 | 0,01 |
2 | -0,4 | 4 | 0,16 |
-2 | 0,1 | 4 | 0,01 |
-3 | 0,5 | 9 | 0,25 |
1 | 0,3 | 1 | 0,09 |
2 | 0,1 | 4 | 0,01 |
-1 | 0,1 | 1 | 0,01 |
- | - | 38 | 0,84 |
Stopnie swobody:
r1 = 10 − (2+1) = 7
r2 = 10 − (2+1) = 7
Wariancje z prób wynoszą:
$${\text{Su}_{1}}^{2} = \frac{38}{\left( 10 - 3 \right)} = 5,43$$
$${\text{Su}_{2}}^{2} = \frac{0,84}{\left( 10 - 3 \right)} = 0,12$$
Hipotezy dane jako:
H0 : σ12 = σ22
H1 : σ12 > σ22
Statystyka testu wynosi
$$F = \frac{5,43}{0,12} = 45,24$$
r1 = 10 − (2+1) = 7
Na poziomie istotności 0,05 przy stopniach swobody
r2 = 10 − (2+1) = 7
Wartość krytyczna odczytana z rozkładu wartości krytycznych rozkładu Fishera – Snedecora wynosi:
Fα = 3, 79
stąd
F > Fα
czyli
Hipotezę zerową zostaje odrzucona na korzyść hipotezy alternatywnej. Wariancje istotnie różnią się od siebie, co oznacza heteroscedastyczny składnik losowy.
Model należy poprawić stosując Uogólnioną Metodę Najmniejszych Kwadratów (UMNK).
WYBÓR MODELU POPRZEZ KRYTERIUM INFORMACYJNE
Kryterium informacyjne Akaike’a (AIC):
$$AIC = T\ln{{\hat{\sigma}}_{\varepsilon}}^{2} + 2k$$
gdzie
T – liczba obserwacji
${{\hat{\sigma}}_{\varepsilon}}^{2}$ - estymator wariancji reszt uzyskany metodą największej wiarygodności
k – liczba szacowanych parametrów modelu
Wybieramy model dla którego AIC jest najmniejszy czyli utrata informacji jest najmniejsza. Im większa liczba parametrów tym mniejszy AIC
Bayerowskie rozszerzenie minimum AIC (BIC)
Kryterium BIC koryguje skłonność do używania zbyt dużej liczby parametrów
$$BIC = \left( T - k \right)\ln\frac{{{\hat{\sigma}}_{\varepsilon}}^{2}}{T - k} + T\ lnT + k\ ln\frac{{{\hat{\sigma}}_{z}}^{2} - {{\hat{\sigma}}_{\varepsilon}}^{2}}{k}$$
Gdzie
${{\hat{\sigma}}_{z}}^{2}$ - estymator wariancji szeregu czasowego
Wybrany zostaje model, dla którego BIC jest najmniejsze.
Jeśli AIC i BIC mają wartości minimalne dla różnych rzędów opóźnień wybierając model należy kierować się kryterium BIC.