ROZDZIAŁ 4. KLASYCZNY MODEL REGRESJI LINIOWEJ
błędu prognozy będzie dominować. Z kolei wielkość wariancji błędów pochodzących z drugiego źródła związana jest z jakością dopasowania modelu. W słabo dopasowanym modelu, błąd prognozy może być wysoki z racji na relatywnie wysoką wariancję błędu losowego charakterystyczną dla modeli o niskim R 2 . Ta część wariancji błędu prognozy nie znika nawet jeśli udało się bardzo dokładnie oszacowaać wielkości parametów modelu.
Nieobciążonym estymatorem wariancji błędu prognozy jest
xf Σ bx0 + s 2
f
Przykład 4.4.4 (c.d. 4.4.3) Używaj ˛
ac wzoru na wielkość wariancji prognozy uzyskujemy:
[
] . 695497 −. 120855 −. 003656 1
Var ( x
f b) = xf Σ bx0 =
f
1
4
3
−. 120855
0 . 0426
− 0 . 0061 4
−. 003656
− 0 . 0061
0 . 0029
3
= . 268
√
Bł ˛
ad standardowy prognozy wynosi
. 268 = 0 . 518 . Oszacowanie wariancji w tym modelu wynio-sło s 2 = 6 . 1 . Wariancja błędu prognozy wynosi . 268 + 6 . 1 = 6 . 368 a jej odchylenie standardowe
√ 6 . 368 = 2 . 523 . Zauważmy, że w tym modelu, tak jak w wielu innych dominującą częścią wariancji błędu prognozy jest wariancja błędu losowego.
Pytania:
1. Podać postać estymatora dla kombinacji liniowej parametr δ0β i udowodnić, że jest on nieobcią-
żony
2. Podać postać estymatora dla kombinacji liniowej parametr δ0b i udowodnić, że jest on nieobcią-
żony.
3. Co to jest prognoza? Udowodnić, że prognoza postaci xf b jest nieobciążona.
4. Podać dwa źródła błędu prognozy i wzór na wariancję błędu prognozy.
5. (*) Wyprowadzić wzór na wariancję błędu prognozy
4.5
Dodatek Matematyczny
4.5.1
Macierz idempotentna
Macierz kwadratową A nazywamy macierzą idempotentną, jeśli A = AA.
4.5.2
Ślad macierzy
Śladem macierzy A nazywamy sumę jej elementów diagonalnych:
∑
tr ( A) =
aii
i
89
Dla macierzy A( n×m) i B( n×m) tr ( A + B) = tr ( A) + tr ( B) Dla macierzy A( n×m) i B( m×n) tr ( AB) = tr ( BA)
Jeśli A( n×n) jest macierzą losową to (∑
)
n
∑ n
E [tr ( A)] = E
Aii =
E ( Aii) = tr (E ( A))
i=1
i=1
4.5.3
Własności macierzy wariancji-kowariancji wektora losowego Najbardziej popularnymi w statystyce miarami dyspersji (rozrzutu) jest wariancja i odchylenie standardowe. Wariancję definiujemy jako
[
]
Var ( x) = E ( x − E ( x))2
( )
Jeśli E ( x) = 0, to Var ( x) = E x 2 . Wadą wariancji jako miary dyspersji są zmiany stosunku wariancji do wartości oczekiwanej zmiennej losowej przy zmianach skali zmiennej E ( ax)
a E ( x)
1 E ( x)
=
=
Var ( ax)
a 2 Var ( x)
a Var ( x)
Wady tej nie ma odchylenie standardowe oznaczane jako se ( x) (standard error) E ( ax)
a E ( ε)
E ( x)
= √
=
se ( ax)
a 2 Var ( x)
se ( x)
Miarą związku między zmiennymi jest kowariancja:
Cov ( x, y) = E [( x − E ( x)) ( y − E ( y))]
Dla wektorów losowych definiuje się macierz wariancji-kowariancji jako:
ROZDZIAŁ 4. KLASYCZNY MODEL REGRESJI LINIOWEJ
[
0]
Var ( x) = E ( x − E ( x)) ( x − E ( x))
x
1 − E ( x 1)
.
= E
.
.
[ x 1 − E ( x 1) , . . . ,xn − E ( xn)]
xn − E ( xn)
[
]
E ( x
· · · E [( x
1 − E ( x 1))2
1 − E ( x 1)) ( xn − E ( xn))]
.
=
.
.
[
]
E [( xn − E ( xn)) ( x 1 − E ( x 1))]
E ( xn − E ( xn))2
Var ( x
1)
· · · Cov ( x 1 , xk)
.
=
.
.
Cov ( xk, x 1)
Var ( xk)
Jeśli E ( x) = 0, to Var ( x) = E ( xx0). Na przekątnej tej macierzy leżą wariancje poza jej przekątną kowariancje między elementami wektora losowego. Ponieważ Cov ( xi,xj) = Cov ( xj,xi)
więc macierz wariancji-kowariancji jest zawsze macierzą symetryczną.
Rozważmy następującą skalarną funkcję wektora losowego x: y = a + b0x
Wariancję tej funkcji można policzyć w następujący sposób: Var ( y) = E ( a + b0x − E ( a + b0x)) ( a + b0x − E ( a+ b0x)) 0
= E ( b0x − b0 E ( x)) ( b0x − b0 E ( x))
= b0 E ( x − E ( x)) E ( x − E ( x)) b
= b0 Var ( x) b
Wariancja y nie może być ujemna więc:
b0 Var ( x) b = Var ( y) > 0
Wynika z tego, że macierz wariancji-kowariancji dowolnego wektora losowego x musi być dodatnio półokreślona określona. Jeśli wszystkie elementy wektora losowego x są liniowo niezależne i nie ma wśród nich stałych to macierz wariancji-kowariancji x jest dodatnio określona.
91
Dla wektora nielosowego a oraz macierzy nielosowej B wektor y = a + Bx
[
0]
Var ( y) = E ( a + Bx− E ( a + Bx)) ( a + Bx− E ( a + Bx))
[
0]
= B E ( x− E ( x)) ( x− E ( x)) B0
0
= B Var ( x) B
Dla macierzy nielosowych B 1 i B 2 wektorów y = a
= a
1
1 + B 1 x, y 2
2 + B 2 x, kowariancja między
L 1 i L 2 wynosi
[
0]
Cov ( y , y ) = E ( a
1
2
1 + B 1 x− E ( a 1 + B 1 x)) ( a 2 + B 2 x− E ( a 2 + B 2 x))
[
0]
= B 1 E ( x− E ( x)) ( x− E ( x)) B0 2
= B 1 Var ( x) B0 2
4.5.4
Kryteria oceny estymatorów
Nieobciążoność
Nieobciążoność b
θ definiujemy
( )
E b
θ
= θ
Estymator jest więc nieobciążony jeśłi jego wartość oczekiwana jest równa prawdziwej wielkości parametru.
Efektywność
Estymator jest efektywny jeśli ma minimalną wariancję (jest najprecyzyjniejszy) w pewnej klasie estymatorów. W przypadku estymatora pojedynczego parametru warunek ten wydaje się oczywisty. Sprawa staje się jednak bardziej skomplikowana w przypadku estymatora wektora parametrów. W tym przypadku kryterium minimalnej wariancji zastosowane do poszczególnych elementów wektora oszacowań może dać niejednoznaczny wynik.
0
Przykład 4.5.1 Mamy dwa estymatory nieobci ˛
ażone wektora parametrów β = [ β 1 , β 2] . Maj ˛
a one wa-
riancje:
( )
[
]
)
[
]
3
1
(
2
1
Var e
β
=
i Var b
β
=
.
1
2
1
3
Który z nich jest lepszy? Na to pytanie nie da się odpowiedzieć, ponieważ wariancja estymatora parametru β 1 jest niższa dla estymatora b
β a wariancja elementu β 2 niższa dla estymatora e
β (patrz na elementy
na przek ˛
atnej macierzy wariancji kowariancji).
ROZDZIAŁ 4. KLASYCZNY MODEL REGRESJI LINIOWEJ
Powszechnie stosuje się następujące kryterium porównywania macierzy wariancji estymatorów: macierz wariancji estymatora e
θ jest większa od macierzy wariancji estymatora b
θ, jeśli różnica
( )
( )
Var e
θ − Var b
θ
jest dodatnio półokreślona.
Intepretacja tego warunku wiąże się z wielkością wariancji kombinacji liniowej elementów estyma-
∑
torów e
θ i b
θ. Kombinacja ta postaci δ0 e
θ =
K
δ e
θ
i=1
k k jest skalarem. Podobnie jest w przypadku analo-gicznej kombinacji liniowej elementów b
θ. Jeśli b
θ ma mmniejszą wariancję niż b
θ to:
(
)
(
)
[
( )
( )]
Var δ0 e
θ − Var δ0 b
θ
= δ0 Var e
θ − Var b
θ
δ ≥ 0
(
)
(
)
Var δ0 e
θ
≥ Var δ0 b θ
Wynika z tego, że jeśli macierz wariancji estymatora b
θ jest mniejsza od macierzy wariancji e
θ, to każda
kombinacja liniowa elemetów b
θ ma mniejszą wariancję niż analogiczna kombinacja liniowa elemetów e
θ.
Zauważmy jednak, że także to kryterium nie zawsze umożliwia porównanie wariancji estymatorów, ponieważ różnica macierzy wariancji może być macierzą która nie jest ani dodatnio ani dodatni ani ujemnie półokreślona.
Przykład 4.5.2 (c.d. 4.5.1) Kryterium dodatniej określoności różnicy pozwala porównywać jedynie nie-które macierze. Dla macierzy z poprzedniego przykładu różnica ( )
( )
[
]
1
0
Var e
β − Var b
β
=
0
− 1
nie jest ani dodanio ani ujemnie półokreślona. Tym samym dalej nie da się powiedzieć, który z estymatorów ma mniejsz ˛
a wariancję.
Estymatorem wekora parametrów o minimalnej wariancji w danej klasie estymatorów nazywamy estymator, którego macierz wariancji jest mniejsza lub równa od macierzy wariancji dowolnego innego estymatora z tej klasy.
Pytania:
1. Co to znaczy, że estymator jest nieobciążony i dlaczego jest to ważne?
2. Wyjaśnić, w jaki sposób porównujemy wariancje dla estymatorów wektora parametrów i w jaki sposób można to uzasadnić