Analiza regresji
str. 1
Analiza reszt we wnioskowaniu o jakości i użyteczności
modelu regresji
W dalszej części wykładu , o ile wyraźnie nie będzie założone
inaczej, zakładamy, że
Σ
Z
=
σ
2
I oraz, że macierz X jest
macierzą pełnego rzędu, tzn. r(X)=k . Estymator MNK
będziemy dalej oznaczali krótko symbolem b.
Określenie
Suma Kwadratów Reszt
(SKR) wyraża się wzorem:
)
(
)
(
2
Xb
Y
Xb
Y
Xb
Y
−
−
=
−
=
T
SKR
(ang. sum of squared errors SSE)
Stwierdzenie 1
Wartość oczekiwana różnicy zmiennej objaśnianej i
zmiennych objaśniających pomnożonych przez oszacowania
MNK parametrów strukturalnych jest równa zero, tzn.:
E(Y-Xb)=0
Analiza regresji
str. 2
Twierdzenie 1
)
(
)
(
2
k
n
SKR
E
−
=
σ
Dowód
=
−
−
=
)
(
)
(
)
(
Xb
Y
Xb
Y
T
E
SKR
E
))
)
(
(
)
)
(
(
1
1
Y
X
X
X
X
Y
Y
X
X
X
X
Y
T
T
T
T
T
E
−
−
−
−
=
]
)
)
(
(
)
)
(
(
[
1
1
Y
X
X
X
X
I
X
X
X
X
I
T
T
n
T
T
T
n
Y
E
−
−
−
−
=
Macierz
)
)
(
(
1
T
T
k
X
X
X
X
I
A
−
−
=
jest macierzą
idempotentną, tzn. spełnia warunek A
2
=A.
Zatem
)
(SKR
E
]
)
)
(
(
[
1
Y
X
X
X
X
I
Y
T
T
n
T
E
−
−
=
Wykorzystując znany fakt, że
y
T
T
trA
AE
E
A
E
Σ
+
=
Y
Y
Y
Y
,
oraz, to że w rozpatrywanym przypadku
β
X
Y
=
E
, mamy:
)
(SKR
E
β
β
X
X
X
X
X
I
X
)
)
(
(
1
T
T
n
T
T
−
−
=
=
−
+
−
)
)
(
(
1
2
T
T
n
tr
X
X
X
X
I
σ
)
(
)
)
(
2
2
2
1
2
2
k
n
tr
n
tr
n
k
T
T
−
=
−
=
+
=
−
σ
σ
σ
σ
σ
I
X
X
X
X
.
Wniosek
Nieobciążonym estymatorem wariancji zakłóceń w
rozpatrywanym przypadku jest statystyka
k
n
SKR
S
Z
−
=
2
.
Analiza regresji
str. 3
Nazewnictwo
Wielkość
Z
S
będącą oszacowaniem odchylenia
standardowego nazywamy standardowym błędem modelu.
Liczba n-k (różnica liczby obserwacji i liczby estymowanych
parametrów) to liczba stopni swobody modelu
(ang. degrees of freedom).
Wiemy, że w rozpatrywanym przypadku , że
1
2
)
(
)
(
−
=
X
X
b
T
Cov
σ
Otrzymujemy zatem:
ii
i
i
b
Var
δ
σ
σ
2
2
)
(
=
=
gdzie
1
)
(
−
=
X
X
T
ii
δ
jest i-tym elementem diagonalnym
macierzy
1
)
(
−
X
X
T
, i=1,2,…,k.
Wielkość
ii
Z
bi
S
S
δ
=
będąca oszacowaniem odchylenia standardowego estymatora
i
b
nazywa się standardowym błędem oszacowania i-tego
współczynnika regresji.
Analiza regresji
str. 4
Weryfikacja hipotez i estymacja przedziałowa przy
założeniu normalności zakłóceń
W tym fragmencie wykładu zakładać będziemy, że wektor Z
ma n wymiarowy rozkład normalny.
Rozpatrzmy w takim przypadku problem estymacji funkcji
parametrycznej
β
γ
T
w
=
. Niech, jak zwykle estymator
b
w
g
T
=
będzie estymatorem MNK tej wartości. Oczywiście
przy przyjętych założeniach estymator ten ma rozkład
normalny. Jego wartość oczekiwana jest równa
γ
=
)
(g
E
,
natomiast wariancja wynosi:
=
)
(g
Var
)
)
(
(
1
Y
X
X
X
T
T
T
w
Var
−
=
=
−
−
w
w
T
T
T
T
1
1
2
)
(
)
(
X
X
X
X
X
X
σ
2
2
1
2
)
(
c
w
w
T
T
σ
σ
=
−
X
X
Zdefiniujmy statystykę
σ
γ
c
g
U
−
=
Statystyka U ma oczywiście rozkład N(0,1).
W dalszym ciągu wykładu wykorzystamy następujące
twierdzenie Fishera-Cochrana
Analiza regresji
str. 5
Twierdzenie 2
Załóżmy, że wektor Z ma rozkład normalny N(0,
I).
Warunkiem koniecznym i wystarczającym na to, aby forma
kwadratowa
AZ
Z
T
miała rozkład
2
χ
jest, by macierz A była
idempotentna. Liczba stopni swobody tego rozkładu jest
równa rzędowi macierzy A.
Dowód tego twierdzenia (a także jego ogólniejszej postaci)
możemy znaleźć np. w R.C. Rao, Modele liniowe statystyki,
PWN1982, str 202.
Z powyższego twierdzenia otrzymujemy, że jeżeli wektor Z
ma rozkład normalny N(0,
σ
2
I), to
))
(
(
~
1
2
2
A
r
A
T
χ
σ
Z
Z
(1.fk)
Proszę to uzasadnić :)
Zauważmy, że
=
−
=
−
Y
X
X
X
X
I
Y
)
)
(
(
1
T
T
n
T
SKR
=
−
−
−
−
)
)(
)
(
(
)
(
1
β
β
X
Y
X
X
X
X
I
X
Y
T
T
n
T
Z
X
X
X
X
I
Z
)
)
(
(
1
T
T
n
T
−
−
To też proszę uzasadnić :)
Analiza regresji
str. 6
Z powyższego oraz wzoru (1.fk) otrzymujemy, że SKR/
σ
2
ma
rozkład
χ2 o liczbie stopni swobody równej rzędowi macierzy
)
)
(
(
1
T
T
n
X
X
X
X
I
B
−
−
=
. Pamiętamy z algebry liniowej, że
ślad macierzy idempotentnej jest równy jej rzędowi.
Zatem aby znaleźć ów rząd policzymy ślad macierzy B.
Otrzymujemy
k
n
tr
n
tr
tr
tr
T
T
T
T
n
−
=
−
=
+
=
−
−
X
X
X
X
X
X
X
X
I
B
1
1
)
(
)
(
Ostatecznie wykazaliśmy, że
)
(
~
1
2
2
k
n
SKR
−
χ
σ
.
Dalej wykorzystamy następujące twierdzenie
Twierdzenie (ogólna wersja twierdzenia Fishera)
Niech wektor Z ma rozkład normalny N(0,
σ
2
I). Jeśli
0
BA
= , to forma liniowa BZ i forma kwadratowa
AZ
Z
T
są
stochastycznie niezależne.
Bez dowodu.
Pamiętamy, że jeśli U ma rozkład normalny standaryzowany,
a T ma rozkład
χ
2
(n) oraz U i T są niezależne, to
)
(
~
n
t
n
T
U
t
=
Łatwo można więc pokazać, że statystyka
Z
T
T
cS
w
b
w
k
n
SKR
c
g
t
β
σ
σ
γ
−
=
−
−
=
)
(
2
Ma rozkład Studenta o n-k stopniach swobody.
Analiza regresji
str. 7
Znajomość rozkładu tej statystyki możemy wykorzystać przy
testowaniu hipotez dotyczących prawdziwych wartości funkcji
parametrycznych oraz przy konstrukcji przedziałów ufności na
te wartości.
Zadania na ćwiczenia.
1. Uzasadnij poprawność wzorów i przekształceń ze strony 5
2. Skonstruuj przedział ufności dla wartości
γ . Wykorzystaj
ostatni wzór podany na wykładzie.