Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
1.3
Własności statystyczne estymatorów MNK
1. Estymator nazywamy estymatorem nieobciążonym, jeżeli jego wartość
oczekiwana jest równa wartości szacowanego parametru. Udowodnimy,
że estymator MNK wektora parametrów β jest nieobciążony. W tym
celu obliczymy jego wartość oczekiwaną
E(b) = E((X
0
X)
−1
X
0
y)
Podstawiając do wzoru formułę na y wynikającą z modelu liniowego
otrzymujemy
E(b) = E((X
0
X)
−1
X
0
y) = E((X
0
X)
−1
X
0
(Xβ + ε))
= E((X
0
X)
−1
X
0
Xβ)+E((X
0
X)
−1
X
0
ε) = E(β)+(X
0
X)
−1
X
0
E(ε)
| {z }
0
= β
Rzeczywiście b jest estymatorem nieobciążonym.
Estymator obciążony
2. Estymatorem liniowym nazywamy estymator, który można przedstawić
jako kombinację liniową zaobserwowanych wartości zmiennej zależnej
y. Estymator MNK wektora parametrów β jest liniowy, ponieważ
b = (X
0
X)
−1
X
0
|
{z
}
C
y
11
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
Obliczymy obciążenie dowolnego estymatora liniowego ˆ
b. Niech ˆ
b =
Cy gdzie C jest macierzą nielosową, będzie dowolnym estymatorem
liniowym. Wtedy:
E(ˆ
b) = E(Cy) = CE(y) = CE(Xβ + ε) = CXβ
Estymator liniowy Cy jest nieobciążony wtedy i tylko wtedy, gdy CX =
I. Istnieje nieskończenie wiele macierzy C o tej własności.
3. Wariancja estymatora wektora parametrów β
var(b) = E(b − β)(b − β)
0
=
E[((X
0
X)
−1
X
0
X
|
{z
}
I
β+(X
0
X)
−1
X
0
ε−β)((X
0
X)
−1
X
0
X
|
{z
}
I
β+(X
0
X)
−1
X
0
ε−β)
0
] =
E[(X
0
X)
−1
X
0
εε
0
X(X
0
X)
−1
] =
(X
0
X)
−1
X
0
E(εε
0
)X(X
0
X)
−1
=
ponieważ macierz X jest nielosowa, możemy ją wyłączyć spod znaku
wartości oczekiwanej otrzymując
E(εε
0
)(X
0
X)
−1
X
0
X(X
0
X)
−1
|
{z
}
I
= σ
2
(X
0
X)
−1
4. Wariancja estymatora liniowego
Niech macierz C = (X
0
X)
−1
X
0
+ D. Wobec tego
CX = (X
0
X)
−1
X
0
X + DX = I + DX
Z tego wynika, że estymator ˆ
b jest nieobciążony gdy DX = 0.
var(ˆ
b) = E[(Cy − β)(Cy − β)
0
] =
E[(CXβ + Cε − β)(CXβ + Cε − β)
0
] =
E[(β + Cε − β)(β + Cε − β)
0
] =
CC
0
E(εε
0
) = σ
2
CC
0
= σ
2
(X
0
X)
−1
+ σ
2
DD
0
bowiem
D = C − (X
0
X)
−1
X
0
wobec tego
DX = CX − (X
0
X)
−1
X
0
X = I − I = 0
Ponieważ macierz DD
0
jest nieujemnie określona, wariancja dowolnego
liniowego estymatora jest większa o nieujemnie zdefiniowaną macierz
od wariancji estymatora uzyskanego z MNK.
12
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
5. Nieobciążony estymator wariancji dla estymatora wektora parametrów
b.
e = M y = M (Xβ + ε) = M ε
ponieważ M X = 0
e
0
e = ε
0
M
0
M ε = ε
0
M ε
E(e
0
e) = E(ε
0
M ε) = E(tr(ε
0
M ε)) = E(tr(M ε
0
ε)) = tr(M E(ε
0
ε)) =
ponieważ estymator jest liniowy, a macierz M nielosowa i idempotent-
na. Należy również zauważyć, że macierz idempotentna jako wartości
własne ma wyłącznie 0 i 1.
tr(M σ
2
) = σ
2
tr(M ) = σ
2
tr(I − X(X
0
X)
−1
X
0
) =
σ
2
(N − tr(X(X
0
X)
−1
X
0
)) = σ
2
(N − tr((X
0
X)
−1
X
0
X)) = σ
2
(N − k).
Macierz X ma wymiary NxK. Więc macierze (X
0
X) oraz (X
0
X)
−1
mają
wymiary KxK. Ponieważ macierz (X
0
X)
−1
X
0
X jest macierzą idempo-
tentną o pełnym rzędzie więc można ją doprowadzić do postaci diago-
nalnej z wartościami 1 na diagonali. Z tego wynika, że jej ślad wynosi
k. Wobec tego S
2
=
e
0
e
N −k
jest nieobciążonym estymatorem nieznanej
wariancji składnika losowego.
Przykład 1.
W klasycznym modelu regresji liniowej y = Xβ + ε zastąpiono standardowy
estymator parametru β przez b
∗
= (X
0
AX)
−1
X
0
Ay, gdzie A
N xN
jest znaną
nielosową macierzą symetryczną. Sprawdź czy:
(a) estymator b
∗
jest liniowy,
(b) estymator b
∗
jest nieobciążony,
(c) znaljdź jego macierz wariancji.
Rozwiązanie
ad (a) Estymator b
∗
jest liniowy ponieważ jest liniową funkcją zmiennej y.
ad (b)
E(b
∗
) = E((X
0
AX)
−1
X
0
Ay) = E((X
0
AX)
−1
X
0
A(Xβ + ε)) =
E[(X
0
AX)
−1
X
0
AXβ + (X
0
AX)
−1
X
0
Aε] =
E(β) + E[(X
0
AX)
−1
X
0
Aε] = β + (X
0
AX)
−1
X
0
AE(ε) = β
13
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
ad (c)
var(b
∗
) = E(b
∗
− E(b
∗
))(b
∗
− E(b
∗
)) = E(b
∗
− β))(b
∗
− β)
0
) =
E(((X
0
AX)
−1
X
0
Ay − β)((X
0
AX)
−1
X
0
Ay − β)
0
) =
E(((X
0
AX)
−1
X
0
A(Xβ + ε − β))((X
0
AX)
−1
X
0
A(Xβ + ε − β))
0
) =
E(((X
0
AX)
−1
X
0
AXβ+(X
0
AX)
−1
X
0
Aε−β)((X
0
AX)
−1
X
0
AXβ+(X
0
AX)
−1
X
0
Aε−β)
0
) =
E((β + (X
0
AX)
−1
X
0
Aε − β)((β + (X
0
AX)
−1
X
0
Aε − β)
0
) =
E(((X
0
AX)
−1
X
0
Aε)(((X
0
AX)
−1
X
0
Aε)
0
) =
E((X
0
AX)
−1
X
0
Aεε
0
A
0
X(X
0
AX)
−1
) =
(X
0
AX)
−1
X
0
AE(εε
0
)A
0
X(X
0
AX)
−1
=
E(εε
0
)(X
0
AX)
−1
X
0
AA
0
X(X
0
AX)
−1
=
σ
2
(X
0
AX)
−1
X
0
AA
0
X(X
0
AX)
−1
Przykład 2.
Pokaż, że estymator e
b = (X
0
X + A)
−1
X
0
y jest nieobciążony w KMRL wtedy
i tylko wtedy gdy Aβ = 0.
Rozwiązanie
By pokazać nieobciążoność estymatora należy obliczyć jego obciążenie:
E(e
b) = E((X
0
X + A)
−1
X
0
y)
E(e
b) = E((X
0
X + A)
−1
X
0
(Xe
b) + ε)
E(e
b) = E((X
0
X + A)
−1
X
0
Xe
b + (X
0
X + A)
−1
X
0
ε)
E(e
b) = E((X
0
X + A)
−1
X
0
Xe
b) + E((X
0
X + A)
−1
X
0
ε)
E(e
b) = E((X
0
X + A)
−1
X
0
Xe
b) + (X
0
X + A)
−1
X
0
E(ε)
E(e
b) = E((X
0
X + A)
−1
X
0
Xe
b) + 0
(1)
Ponieważ estymator z równania (1) różni się od zwykłego estymatora MNK,
który jest nieobciążony, tylko macierzą A to jest on nieobciążony wtedy i tyl-
ko wtedy gdy A = 0. Wobec tego iloczyn Ae
b = 0 jeśli e
b jest estymatorem
nieobciążonym.
14
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
Przykład 3.
Mamy model następującej postaci:
y
t
= β
1
+ β
2
d
t
+ ε
t
t = 1 . . . T
d
t
=
1 dla t ≤ k
0 dla
t > k
var(ε) = σ
2
I
(a) Posługując się wzorami dla MNK wyprowadź postać estymatorów MNK
dla parametrów β
1
i β
2
i oblicz je dla T = 40, k = 20,
P
T
t=1
y
t
=
30,
P
k
t=1
y
t
= 10.
(b) udowodnij, że te estymatory są nieobciążone jeśli spełniają założenia
KMRL,
(c) Podaj postać macierzy wariancji-kowariancji dla estymatorów b
1
i b
2
jeśli
spełnione są założenia KMRL.
Podpowiedź
Skorzystaj z tego, że:
T k
k
k
−1
=
1
T − k
1
−1
−1
T
k
Rozwiązanie
ad (a) Dla tego modelu
X =
1 1
..
.
..
.
1 1
1..k
1 0
..
.
..
.
1 0
k + 1..T
, X
0
X =
T k
k
k
, X
0
y =
P
T
t=1
y
t
P
k
t=1
y
t
więc
b = (X
0
X)
−1
X
0
y =
1
T − k
1
−1
−1
T
k
P
T
t=1
y
t
P
k
t=1
y
t
b =
1
20
1
−1
−1
2
30
10
=
1
−
1
2
15
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
ad (b) Można zastosować standardowy dowód na nieobciążoność estymatora
KMRL:
E(b) = E((X
0
X)
−1
X
0
y) = E((X
0
X)
−1
X
0
(Xβ+ε)) = β+(X
0
X)
−1
X
0
E(ε) = β
Estymator jest nieobciążony.
ac (c) jeżeli spełnione są założenia KMRL to macierz wariancji jest równa
var(b) = σ
2
(X
0
X)
−1
= σ
2
1
T − k
1
−1
−1
T
k
1.4
Testowanie hipotez statystycznych
Lemat 1 Niech X będzie wektorem o standardowym rozkładzie normalnym
N (0, 1). Wtedy X
0
X ∼ χ
2
k
, gdzie k jest rzędem macierzy X.
Niech A będzie macierzą idempotentną rzędu r. Wtedy forma kwadratowa
X
0
AX ∼ χ
2
r
ma rozkład χ
2
o r stopniach swobody.
Lemat 2 Niech X będzie pojedynczą zmienną losową o rozkładzie X ∼ N (0.1),
oraz niech w ∼ χ
2
r
. Dodatkowo załóżmy że zmienne losowe X i w są nieza-
leżne. Wówczas:
X
p
w
r
∼ t
r
(2)
ma rozkład t-Studenta o r stopniach swobody.
Jeżeli przez i
k
oznaczymy wersor k-tej osi, oraz przez b
k
= i
0
k
b, k - ty
element wektora estymatorów, oraz przez c
kk
= i
0
k
(X
0
X)
−1
i
k
element stojący
na k-tym miejscu diagonali macierzy (X
0
X)
−1
. Wówczas estymator pojedyn-
czego parametru ma rozkład b
k
∼ N (β
k
, σ
2
C
kk
). Jeżeli ten rozkład wystan-
daryzujemy to otrzymamy:
b
k
− β
k
σ
√
C
kk
∼ N (0, 1)
(3)
Estymator nieznanego parametru równania regresji ma rozkład normalny,
lecz w większości przypadków nie znamy wariancji zmiennej losowej dla której
liczymy estymator. Nieznaną wariancję z populacji zastępujemy estymatorem
obliczonym na podstawie wylosowanej próby. Można łatwo pokazać że:
(N − k)S
2
σ
2
∼ χ
2
r
(4)
16
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
Podstawiając (3) oraz (4) do wzoru na statystykę t-Studenta (2), otrzymu-
jemy:
b
k
− β
k
σ
√
C
kk
/
s
(N − k)S
2
σ
2
(N − k)
=
b
k
− β
k
S
√
C
kk
∼ t
N −k
Ponieważ estymatory b i S są niezależne. (Dowód tego faktu jest dobrym
ćwiczeniem). W testach statystycznych nie jest możliwe jednoczesne kon-
trolowanie rozmiarów błędu pierwszego i drugiego rodzaju. W ekonometrii
przyjęto praktykę przyjmowania za hipotezę zerową taką hipotezę o której
zakładamy, że jest fałszywa, a następnie staramy się ją sfalsyfikować, czyli
odrzucić. Do badania istotności oszacowanych parametrów równania regresji
używamy statystyki t-Studenta. W testach zazwyczaj przyjmuje się 5% po-
ziom istnotności, co oznacza że błąd pierwszego rodzaju jest nie wyższy niż
5%. Oznacza to, że jeżeli rzeczywiście badany parametr jest równy zero to
przeprowadzony przez nas test wykaże to w conajmniej w 95 przypadkach na
100 przeprowadzonych testów. Jednak zawsze istnieje prawdopodobieństwo
popełnienia błędu drugiego rodzaju, czyli przyjęcia hipotezy fałszywej. Taką
hipotezę uznajemy za prawdziwą w sytuacji, gdy na postawie przeprowadzo-
nego testu odrzucamy hipotezę zerową.
Test sprawdza czy parametr β
k
jest istotnie różny od zera. Hipotezą ze-
rową testu istnotności jest H
0
: β
k
= 0.
Wobec tego statystyka testowa redukuje się do:
b
k
S
√
C
kk
=
b
k
se(b
k
)
∼ t
α,N −k
(5)
Ta statystyka jest podstawową wartością liczoną przez każdy pakiet staty-
styczny. Zazwyczaj jest ona nazywana t-ratio. Jeżeli obliczona wartość sta-
tystyki jest większa od wartości krytycznej odczytanej z tablic, wtedy odrzu-
camy hipotezę zerową i mówimy że współczynnik jest istotny statystycznie.
Wartości krytyczne dla dużych prób na poziomie istotności 5% wynoszą od-
powiednio t = 1.96 dla testu dwustronnego lub t = 1.64 dla jednostronnego.
Dla dużych prób rozkład t-Studenta dąży według rozkładu do rozkładu nor-
malnego, i powyższe wartości są po prostu kwantylami rozkładu normalnego.
Mogą one być traktowane jako wyznaczniki istotności w przypadku gdy nie
dysponujemy tablicami statystycznymi. Pakiet STATA wraz ze statystyką
t − ratio podaje jej p-value, czyli oblicza jakie jest prawdopodobieństwo, że
statystyka t przyjmie obliczoną wartość pod warunkiem prawdziwości hipo-
tezy zerowej. Interpretacja p-value jest prosta. Jeśli p-value ¡ 0.05 (wartość
statystyki t jest duża) to odrzucamy hipotezę zerową, o tym że dany parametr
regresji jest równy 0, na korzyść hipotezy alternatywnej że jest od zera różny.
17
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
Testowanie istotności równania regresji
Zazwyczaj duże znaczenie badawcze ma pytanie czy równanie regresji
jako całość jest statystycznie istotne. Ten test jest łącznym testem hipotezy,
że jednocześnie wszystkie parametry wektora β poza stałą są równe zero.
Jeżeli wszystkie współczynniki β są równe zero to równanie regresji liniowej
niewiele wyjaśnia, wobec tego współczynnik R
2
jest mały. Test sprawdzający
istnotność równania regresji bazuje na wartości statystyki R
2
. Statystyka
testowa
F (k − 1, N − k) =
R
2
/(k − 1)
(1 − R
2
)/(N − k)
(6)
ma rozkład F z (k-1) i (N-k) stopniami swobody. K-1 to liczba zmiennych
w równaniu regresji bez stałej, a N-k to liczba zmiennych wolnych. Statysty-
ka F mierzy utratę dopasowania, gdy narzucimy ograniczenie, że wszystkie
współczynniki równania regresji poza stałą są równe zero.
Jeżeli przekształcimy wzór (6) to otrzymamy:
F (k − 1, N − k) =
(N − k)R
2
(k − 1)(1 − R
2
)
R
2
=
k − 1
N − k
(1 − R
2
)F (k − 1, N − k)
R
2
=
k − 1
N − k
F (k − 1, N − k) −
k − 1
N − k
F (k − 1, N − k)R
2
R
2
=
k−1
N −k
F (k − 1, N − k)
1 +
k−1
N −k
F (k − 1, N − k)
Widać, że duża wartość R
2
współwystępuje z dużą wartością statystyki F.
Przykład 2.
Po przeprowadzeniu wywiadu z piędziesięcioma osobami oszacowano MNK
model płac o postaci:
lnW
t
= β
0
+ β
1
A
t
+ β
2
S
t
+ ε
t
gdzie W to indywidualna płaca (w złotych), A - okres zatrudnienia w pełnym
wymiarze czasu (w latach), S - liczba lat nauki (w latach). Oto wyniki:
ˆ
lnW
t
1.202
0.029A
t
0.123S
t
R
2
= 0.396
(0.197)
(0.006)
(0.035)
18
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
(a) Oceń jakość dopasowania modelu do danych empirycznych,
(b) Sprawdź czy zmienne występujące w modelu są istotne łącznie i każda z
osobna.
(c) Zinterpretuj otrzymane wyniki.
Rozwiązanie
ad (a)
¯
R
2
= 1 −
49
47
(1 − 0.396) = 0.3703
Około 37 % zróżnicowania płac jest wyjaśniane przez model.
ad (b)
t
β
0
=
1.202
0.197
= 6.10 t
β
1
=
0.029
0.006
= 4.83 t
β
2
=
0.123
0.035
= 3.51
czyli każda zmienna osobno jest istotna. Pozostał jeszcze do przepro-
wadzenia test łącznej istostności.
F (2, 47) =
0.396/2
0.604/47
=
0.198
0.012851
= 15.40
Wartość krytyczna F
0.95
(2, 50) = 2.79, wobec tego statystyka testowa
znajduje się w obszarze krytycznym, czyli odrzucamy hipotezę zerową o
tym że współczynniki regresji są łącznie nieistotne.
ad (c) Wzrost stażu pracy o rok przyczynia się do przeciętnego wzrostu płacy
o 3 %, ponieważ e
0.029
= 1.029. Rok nauki przyczynia się do wzrostu
średniej płacy o 13 %, ponieważ e
0.123
= 1.13.
Przykład 3.
Na podstawie informacji z badań gospodarstw domowych w czterech krajach
europejskich zbudowano następujący model opisujący strukturę wydatków.
lnS
n
= β
0
+ β
1
ln(I
n
) + β
2
ln(F
n
) + ε
n
gdzie lnS to logarytm oszczędności (w walucie krajowej), lnI - logarytm do-
chodu (w walucie krajowej), lnF - logarytm wydatków na żywność (w walucie
krajowej). By zlikwidować efekty zróżnicowania pomiędzy krajami do modelu
dodano stałe dla każdego kraju. Dodatkowo przyjmujemy założenie, że wy-
datki konsumpcyjne nie zależą od dochodu. Sprawdź statystyczną istotność
otrzymanych wyników i dokonaj ich interpretacji
19
Paweł Strawiński
Notatki do ćwiczeń z ekonometrii
Number of obs =
13445
F(
2, 13439) = 1047.13
Prob > F
=
0.0000
R-squared
=
0.5108
Adj R-squared =
0.5106
Root MSE
=
1.8623
---------------------------------------------------------------------------
savings |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-----------+---------------------------------------------------------------
income |
1.048205
.0302841
.
.
.9888439
1.107566
food |
-.0459197
.0203422
.
.
.4193238
.4990709
_cons |
-.3158473
.2269704
.
.
-.7607412
.1290467
-----------+---------------------------------------------------------------
country |
F(3, 13439) =
579.538
0.000
(4 categories)
Rozwiązanie
t
β
inc
=
1.048
0.030
= 34.93 t
β
f ood
=
−0.0459
0.020
= −2.29 t
β
cons
=
−0.316
0.227
= −1.39
Indywidualne statystyki t wskazują, że jedynie stała w modelu nie jest staty-
stycznie istotna. Łącznie zmienne są istotne na co wskazuje wartość statystyki
F.
Wyestymowany model jest modelem log-liniowym, więc otrzymane współ-
czynniki mogą być interpretowane jako elastyczności. 1% wzrost dochodu
powoduje 1,04% wzrost oszczędności, natomiast 1 % wzrost wydatków na
żywność powoduje 0,05 % spadek oszczędności.
Literatura
[1] William H. Greene (2003) Econometric Analysis, 5th edition.
[2] Jerzy Mycielski (2000) Notatki do ćwiczeń z ekonometrii, WNE.
[3] Aleksander Welfe (1998) Zbiór zadań z ekonometrii, PWE
20