Analiza reszt we wnioskowaniu o jakości i
użyteczności modelu regresji
W dalszej części wykładu , o ile wyraźnie nie będzie założone inaczej, zakładamy, że
Σ
Z
=
σ
2
I oraz,
ż
e macierz X jest macierzą pełnego rzędu, tzn. r(X)=k . Estymator MNK będziemy dalej oznaczali
krótko symbolem b.
Określenie
Suma Kwadratów Reszt (SKR) wyraża się wzorem:
)
(
)
(
2
Xb
Y
Xb
Y
Xb
Y
−
−
=
−
=
T
SKR
(ang. sum of squared errors SSE)
Stwierdzenie 1
Wartość oczekiwana różnicy zmiennej objaśnianej i zmiennych objaśniających pomnożonych
przez oszacowania MNK parametrów strukturalnych jest równa zero, tzn.: E(Y-Xb)=0,
Twierdzenie 1
)
(
)
(
2
k
n
SKR
E
−
=
σ
Dowód
=
−
−
=
)
(
)
(
)
(
Xb
Y
Xb
Y
T
E
SKR
E
))
)
(
(
)
)
(
(
1
1
Y
X
X
X
X
Y
Y
X
X
X
X
Y
T
T
T
T
T
E
−
−
−
−
=
]
)
)
(
(
)
)
(
(
[
1
1
Y
X
X
X
X
I
X
X
X
X
I
T
T
k
T
T
T
k
Y
E
−
−
−
−
=
Macierz
)
)
(
(
1
T
T
k
X
X
X
X
I
A
−
−
=
jest macierzą idempotentną, tzn. spełnia warunek A
2
=A.
Zatem
=
)
(SKR
E
]
)
)
(
(
[
1
Y
X
X
X
X
I
Y
T
T
k
T
E
−
−
=
Wykorzystując znany fakt, że
y
T
T
trA
AE
E
A
E
Σ
+
=
Y
Y
Y
Y
, oraz, to że w rozpatrywanym
przypadku
β
X
Y
=
E
, mamy:
=
)
(SKR
E
=
−
+
−
=
−
−
)
)
(
(
)
)
(
(
1
2
1
T
T
k
T
T
k
T
T
tr
X
X
X
X
I
X
X
X
X
X
I
X
σ
β
β
=
−
+
−
=
−
−
)
)
(
(
(
)
(
1
2
1
T
T
k
T
T
T
T
T
T
tr
tr
X
X
X
X
I
X
X
X
X
X
X
X
X
σ
β
β
β
β
)
(
)
)
(
2
2
2
1
2
2
k
n
tr
n
tr
n
k
T
T
−
=
−
=
+
=
−
σ
σ
σ
σ
σ
I
X
X
X
X
.
Wniosek
Nieobciążonym estymatorem wariancji zakłóceń w rozpatrywanym przypadku jest statystyka
k
n
SKR
S
Z
−
=
2
.
Nazewnictwo
Wielkość
Z
S będącą oszacowaniem odchylenia standardowego nazywamy standardowym
błędem modelu.
Liczba n-k (różnica liczby obserwacji i liczby estymowanych parametrów) to liczba stopni
swobody modelu (ang. degrees of freedom).
Wiemy, że w rozpatrywanym przypadku , że
1
2
)
(
)
(
−
=
X
X
b
T
Cov
σ
.
Otrzymujemy zatem:
ii
i
i
b
Var
δ
σ
σ
2
2
)
(
=
=
gdzie
ii
δ
jest i-tym elementem diagonalnym macierzy
1
)
(
−
X
X
T
, i=1,2,…,k.
Wielkość
ii
Z
bi
S
S
δ
=
będąca oszacowaniem odchylenia standardowego estymatora
i
b nazywa się standardowym
błędem oszacowania i-tego współczynnika regresji.
Weryfikacja hipotez i estymacja przedziałowa przy założeniu
normalności zakłóceń
W tym fragmencie wykładu zakładać będziemy, że wektor Z ma n wymiarowy rozkład
normalny.
Rozpatrzmy w takim przypadku problem estymacji funkcji parametrycznej
β
γ
T
w
=
. Niech,
jak zwykle estymator
b
w
g
T
=
będzie estymatorem MNK tej wartości. Oczywiście przy
przyjętych założeniach estymator ten ma rozkład normalny. Jego wartość oczekiwana jest
równa
γ
=
)
(g
E
, natomiast wariancja wynosi:
=
)
(g
Var
)
)
(
(
1
Y
X
X
X
T
T
T
w
Var
−
=
=
−
−
w
w
T
T
T
T
1
1
2
)
(
)
(
X
X
X
X
X
X
σ
2
2
1
2
)
(
c
w
w
T
T
σ
σ
=
−
X
X
Zdefiniujmy statystykę
σ
γ
c
g
U
−
=
Statystyka U ma oczywiście rozkład N(0,1).
W dalszym ciągu wykładu wykorzystamy następujące twierdzenie Fishera-Cochrana
Twierdzenie 2
Załóżmy, że wektor Z ma rozkład normalny N(0,
I). Warunkiem koniecznym i
wystarczającym na to, aby forma kwadratowa
AZ
Z
T
miała rozkład
2
χ
jest, by macierz A
była idempotentna. Liczba stopni swobody tego rozkładu jest równa rzędowi macierzy A.
Dowód tego twierdzenia (a także jego ogólniejszej postaci) możemy znaleźć np. w R.C. Rao,
Modele liniowe statystyki, PWN1982, str 202.
Z powyższego twierdzenia otrzymujemy, że jeżeli wektor Z ma rozkład normalny N(0,
σ
2
I),
to
))
(
(
~
1
2
2
A
r
A
T
χ
σ
Z
Z
(1.fk)
Proszę to uzasadnić :)
Zauważmy, że
=
−
=
−
Y
X
X
X
X
I
Y
)
)
(
(
1
T
T
n
T
SKR
)
)(
)
(
(
)
(
1
β
β
X
Y
X
X
X
X
I
X
Y
−
−
−
−
T
T
n
T
Z
X
X
X
X
I
Z
)
)
(
(
1
T
T
n
T
−
−
To też proszę uzasadnić :)
Z powyższego oraz wzoru (1.fk) otrzymujemy, że SKR/
σ
2
ma rozkład
χ2 o liczbie stopni
swobody równej rzędowi macierzy
)
)
(
(
1
T
T
n
X
X
X
X
I
B
−
−
=
. Pamiętamy z algebry liniowej,
ż
e ślad macierzy idempotentnej jest równy jej rzędowi. Zatem aby znaleźć ów rząd
policzymy ślad macierzy B. Otrzymujemy
k
n
tr
n
tr
tr
tr
T
T
T
T
n
−
=
−
=
+
=
−
−
X
X
X
X
X
X
X
X
I
B
1
1
)
(
)
(
Ostatecznie wykazaliśmy, że
)
(
~
1
2
2
k
n
SKR
−
χ
σ
.
Dalej wykorzystamy następujące twierdzenie
Twierdzenie (ogólna wersja twierdzenia Fishera)
Niech wektor Z ma rozkład normalny N(0,
σ
2
I). Jeśli
0
BA
= , to forma liniowa BZ i forma
kwadratowa
AZ
Z
T
są stochastycznie niezależne.
Bez dowodu.
Pamiętamy, że jeśli U ma rozkład normalny standaryzowany, a T ma rozkład
χ
2
(n) oraz U i T
są niezależne, to
)
(
~
n
t
n
T
U
t
=
Wykorzystując powyższy fakt i podane twierdzenie łatwo można pokazać, że statystyka
Z
T
T
cS
k
n
SKR
c
g
t
β
w
b
w
−
=
−
−
=
)
(
2
σ
σ
γ
(ST1)
ma rozkład Studenta o n-k stopniach swobody. W szczególnym przypadku przyjmując za w
wektor zer z jedynką na i-tej współrzędnej otrzymamy
)
(
~
k
n
t
cS
b
t
i
b
i
i
i
−
−
=
β
(ST2)
Znajomość rozkładu tych statystyk możemy wykorzystać przy testowaniu hipotez
dotyczących prawdziwych wartości funkcji parametrycznych oraz przy konstrukcji
przedziałów ufności na te wartości.
Zacznijmy od problemu estymacji:
1. Prognoza wartości oczekiwanej zmiennej Y =w
T
β
β
β
β+
+
+
+
Ζ
:
E(Y)=E(w
T
β
β
β
β+
+
+
+
Ζ
)=w
T
β
β
β
β
Zatem jeśli t
p
jest kwantylem rzędu (1+q)/2, to łatwo pokazać, że przedział
]
,
[
Z
p
T
Z
p
T
cS
t
cS
t
+
−
b
w
b
w
jest przedziałem ufności dla E(Y) przy współczynniku ufności równym q.
W szczególnym przypadku (wykorzystując wzór (ST2)) otrzymamy 100q-procentowy
przedział ufności dla i-tego współczynniki regresji
β
i
:
]
,
[
i
i
b
p
i
b
p
i
S
t
b
S
t
b
+
−
Opierając na rozumowaniu zastosowanym przy wyprowadzeniu rozkładu statystyki (ST1)
nietrudno udowodnić, że poniższa statystka ma również rozkład Studenta o (n-k) stopniach
swobody
1
1
)
(
2
2
+
−
=
+
+
−
=
c
S
Y
c
S
Z
t
Z
T
Z
T
T
b
w
β
w
b
w
(ST3)
W konsekwencji otrzymamy następujący wzór na przedział ufności dla wartości Y:
]
1
,
1
[
2
2
+
+
+
−
c
S
t
c
S
t
Z
p
T
Z
p
T
b
w
b
w
Wielkość cS
Z
(albo
1
2
+
c
S
Z
) często nazywana jest standardowym błędem predykcji ex
ante
.
Wykorzystanie znalezionych rozkładów w testowaniu hipotez o modelu
Najczęściej wyprowadzone rozkłady wykorzystujemy do testowania hipotezy o wartościach
współczynników regresji. Przyjmujemy wtedy hipotezę zerową i alternatywną w następujący
sposób:
0
0
:
i
i
H
β
β
=
0
:
i
i
k
H
β
β
≠
Statystką testową jest oczywiście w tym przypadku statystyka
i
b
i
i
i
cS
b
t
0
β
−
=
, zaś na poziomie
istotności
α zbiorem krytycznym jest W=(-¶ , - t
p
) » (t
p
, ¶), gdzie t
p
jest kwantylem rzędu
p=
1-
α/2
Uwaga:
Na ogół testuje się hipotezę
0
:
0
=
i
H
β
, przy alternatywie
0
:
≠
i
k
H
β
.
Często nazywa się to testowaniem istotności i-tej zmiennej objaśniającej (tzn. czy ma ona w
modelu pozostać, czy też, o ile pozostałe zostaną, można ją usunąć)
Przykład
Dodatek: Wyprowadzanie przedziału ufności
Wyprowadzimy przedział ufności dla przedziału w oparcie o rozkład
)
(
~
k
n
t
cS
b
t
Z
i
i
i
−
−
=
β
.
q
t
t
cS
b
P
p
p
Z
i
i
=
−
∈
−
])
,
[
(
β
W rozważanym przypadku c jest pierwiastkiem z wielkości
ii
δ
, czyli i-tego elementu
diagonalnego macierzy
1
)
(
−
X
X
T
, i=1,2,…,k.. Zatem
i
b
Z
S
cS
=
.
W konsekwencji otrzymujemy:
p
Z
i
i
p
t
cS
b
t
≤
−
≤
−
β
q
S
t
b
S
t
b
P
i
i
b
p
i
b
p
i
i
=
+
−
∈
])
,
[
(
β
Analogicznie dla
Z
T
T
cS
t
β
w
b
w
−
=
oraz
1
1
)
(
2
2
+
−
=
+
+
−
=
c
S
Y
c
S
Z
t
Z
T
Z
T
T
b
w
β
w
b
w
gdzie
w
w
c
T
T
1
)
(
−
=
X
X
,
Dla wyprowadzenia rozkładu ostatniej z wymienionych statystyk wykorzystujemy
następujące oczywistości:
0
)
(
T
=
− Y
E
b
w
)
1
(
)
(
2
2
2
2
2
T
+
=
+
=
−
c
c
Y
Var
σ
σ
σ
b
w
oraz fakt, że licznik tej statystki ma rozkład normalny.
„Analiza wariancji” w analizie regresji
Twierdzenie (Ogasawara, Takahashi): Niech
)
,
(
~
∑
m
Y
N
. Warunkiem koniecznym i
dostatecznym na to by zmienna losowa
)
(
)
(
m
Y
A
m
Y
−
−
T
miała rozkład
χ
2
jest, by
Σ
Σ
Σ
ΣAΣ
Σ
Σ
ΣAΣ
Σ
Σ
Σ=Σ
Σ
Σ
ΣAΣ
Σ
Σ
Σ.
Liczba stopni swobody jest wtedy równa tr(A
Σ
Σ
Σ
Σ)
Wniosek. Niech Hb będzie estymatorem MNK wektora H
β
β
β
β oraz niech r(H)=m < k Wtedy
jeśli Z ~ N(0,
σ
2
I), to
Cov(Hb)=
V
H
X
X
H
2
1
2
)
(
σ
σ
=
−
T
T
.
Zatem dla danej wariancji
σ
2
otrzymujemy, że
2
1
/
)
(
)
(
σ
Hβ
Hb
V
Hβ
Hb
−
−
−
T
~
χ
2
(m)
oraz w konsekwencji:
)
/(
/
)
(
)
(
1
k
n
SKR
m
F
T
−
−
−
=
−
Hβ
Hb
V
Hβ
Hb
~ F (m, n-k)
Możemy zatem wykorzystać powyższą statystykę do testowania hipotezy H
β
β
β
β = w
R
, czyli do
weryfikacji hipotezy o prawdziwości tzw. restrykcji liniowych, czyli związków liniowych
zachodzących pomiędzy zmiennymi objaśniającymi lub narzuconych bezpośrednio na nie.
Uwaga. Z twierdzeń dotyczących minimalizacji form kwadratowych przy liniowych
ograniczeniach wynika, że zachodzi ważny związek:
SKR
SKR
R
T
R
T
R
R
+
−
−
=
−
−
=
−
−
=
)
(
)
(
)
(
)
(
min
1
1
T
w
Hb
V
w
Hb
Xβ
Y
V
Xβ
Y
w
β
H
(1.R)
Zatem statystyka testowa F przyjmuje następującą prostą do obliczenia postać:
m
k
n
SKR
SKR
SKR
F
R
−
⋅
−
=
)
(
Wnioski z powyższych twierdzeń zapisuje się tradycyjnie w postaci tzw. tablicy analizy
wariancji
(ANOVA)
Tablica ANOVA
SK
(SS)
Stopnie
swobody
(df)
Ś
rednie sumy
kwadratów
F
p
-value
( istotność
testu)
odchylenie
od hipotezy
H
β
β
β
β = w
R
(redukcja SK)
RSK = SKR
R
- SKR
(patrz wzór 1.R)
m
RSK/m
)
/(
/
k
n
SKR
m
RSK
−
H
0
odrzucamy
gdy p>
α
Reszty w
modelu
SKR
n-k
)
/(
k
n
SKR
−
Ogółem
SKR
R
n+m-1
Było jeszcze:
1.
Szczególny przypadek – hipoteza H
0
: „taki model nic nie daje”
2.
Współczynnik determinacji :
R
R
SKR
SKR
SKR
R
)
(
2
−
=
,
Gdzie analizujemy model z wyrazem wolnym a restrykcje maja posta
ć
jak w
punkcie 1. Zatem w takim przypadku
∑
=
−
=
n
i
i
R
Y
Y
SKR
1
2
)
(
Model:
Hipoteza zerowa:
Y =
Π
1
+
Π
2
X
2
+ ...+
Π
k
X
k
+ Z
Π
2
=...=
Π
k
=0 (wszystkie zmienne są nieistotne)
Hipoteza alternatywna:
Π
2
∫
Pclub
Π
3
∫
Pc...lub
Π
k
∫
0 (przynajmniej jedna zmienna jest istotna)