Analiza reszt we wnioskowaniu o jakości i użyteczności modelu regresji
W dalszej części wykładu , o ile wyraźnie nie będzie założone inaczej, zakładamy, że ΣZ = σ2I oraz, że macierz X jest macierzą pełnego rzędu, tzn. r(X)= k . Estymator MNK będziemy dalej oznaczali krótko symbolem b.
Określenie
Suma Kwadratów Reszt ( SKR) wyraża się wzorem: 2
= Y − Xb
= (Y − Xb) T
SKR
(Y − Xb)
(ang. sum of squared errors SSE)
Stwierdzenie 1
Wartość oczekiwana różnicy zmiennej objaśnianej i zmiennych objaśniających pomnożonych przez oszacowania MNK parametrów strukturalnych jest równa zero, tzn.: E(Y-Xb)=0, Twierdzenie 1
E( SKR)
2
= σ ( n − k)
Dowód
E( SKR) =
(Y − Xb) T
E
(Y − Xb) =
= (Y − X(X T
E
X) 1
− X T Y) T (Y − X(X T X) 1
− X T Y))
= [
E Y (I − X(X T X)−1 X T ) T (I − X(X T X)−1 X T )Y]
k
k
Macierz A = (I − X( T
X X)−1 T
X ) jest macierzą idempotentną, tzn. spełnia warunek A2 =A .
k
Zatem
E( SKR) = =
[Y T
E
(I − X(X T X)−1 X T )Y]
k
Wykorzystując znany fakt, że
T
T
EY AY = EY AEY + trAΣ , oraz, to że w rozpatrywanym y
przypadku Y
E
=
β
X , mamy:
E( SKR) = =
T
T
β X (I −
T
−
X(X X) 1 T
X )Xβ +
2
σ tr(I −
T
−
X(X X) 1 T
X ) =
k
k
=
T
T
β X Xβ − T T
T
−
β X X(X X) 1 T
X Xβ +
2
σ ( trI −
T
−
tr(X(X X) 1
T
X ) =
k
2
2
= nσ + σ tr( T
X X)−1 T
X X)
2
2
2
= nσ − σ trI = σ ( n − k) .
k
Nieobciążonym estymatorem wariancji zakłóceń w rozpatrywanym przypadku jest statystyka 2
SKR
S
=
.
Z
n − k
Nazewnictwo
Wielkość S będącą oszacowaniem odchylenia standardowego nazywamy standardowym Z
błędem modelu.
Liczba n-k (różnica liczby obserwacji i liczby estymowanych parametrów) to liczba stopni swobody modelu (ang. degrees of freedom).
Wiemy, że w rozpatrywanym przypadku , że
2
T
1
Cov(b)
σ (X
)−
=
X
.
Otrzymujemy zatem:
σ 2 = Var b
( ) = σ 2δ
i
i
ii
gdzie δ jest i-tym elementem diagonalnym macierzy
−1
(X T X) , i=1,2,…,k.
ii
Wielkość
S
= S
δ
bi
Z
ii
będąca oszacowaniem odchylenia standardowego estymatora b nazywa się standardowym i
błędem oszacowania i- tego współczynnika regresji.
Weryfikacja hipotez i estymacja przedziałowa przy założeniu
normalności zakłóceń
W tym fragmencie wykładu zakładać będziemy, że wektor Z ma n wymiarowy rozkład normalny.
Rozpatrzmy w takim przypadku problem estymacji funkcji parametrycznej γ
T
= w β . Niech,
jak zwykle estymator g
wT
=
b będzie estymatorem MNK tej wartości. Oczywiście przy przyjętych założeniach estymator ten ma rozkład normalny. Jego wartość oczekiwana jest równa E( g) = γ , natomiast wariancja wynosi: Var( g) = Var( T
w (X T X) 1
− X T Y) = 2 T
T
−1
T
−
σ w
T
1
(X X) X X(X X) w =
2
T
T
1
−
2
2
σ w (X X) w = σ c
Zdefiniujmy statystykę
U =
cσ
Statystyka U ma oczywiście rozkład N(0,1).
W dalszym ciągu wykładu wykorzystamy następujące twierdzenie Fishera-Cochrana Twierdzenie 2
Załóżmy, że wektor Z ma rozkład normalny N(0, I). Warunkiem koniecznym i wystarczającym na to, aby forma kwadratowa Z T AZ miała rozkład 2
χ jest, by macierz A
była idempotentna. Liczba stopni swobody tego rozkładu jest równa rzędowi macierzy A.
Dowód tego twierdzenia (a także jego ogólniejszej postaci) możemy znaleźć np. w R.C. Rao, Modele liniowe statystyki, PWN1982, str 202.
Z powyższego twierdzenia otrzymujemy, że jeżeli wektor Z ma rozkład normalny N(0, σ2I), to
1
T
Z AZ ~
2
χ ( r( )
A )
(1.fk)
2
σ
Proszę to uzasadnić :)
Zauważmy, że
= Y T
SKR
(I −
T
−
X(X X) 1 X T )Y = (Y − β
X ) T (I − X(X T X) 1
− X T )(Y − β
X )
n
n
Z T (I
X(X T X) 1
−
−
X T )Z
n
To też proszę uzasadnić :)
Z powyższego oraz wzoru (1.fk) otrzymujemy, że SKR/σ2 ma rozkład χ2 o liczbie stopni swobody równej rzędowi macierzy B = (I − X( T
X X) 1
−
T
X ) . Pamiętamy z algebry liniowej,
n
że ślad macierzy idempotentnej jest równy jej rzędowi. Zatem aby znaleźć ów rząd policzymy ślad macierzy B. Otrzymujemy
trB = trI + tr
T
−1
T
X(X X) X = n − tr
T
−1
T
(X X) X X = n − k
n
Ostatecznie wykazaliśmy, że
1 SKR ~ 2
χ ( n − k) .
2
σ
Dalej wykorzystamy następujące twierdzenie
Twierdzenie (ogólna wersja twierdzenia Fishera)
Niech wektor Z ma rozkład normalny N(0, σ2I). Jeśli BA = 0 , to forma liniowa BZ i forma kwadratowa Z T AZ są stochastycznie niezależne.
Bez dowodu.
Pamiętamy, że jeśli U ma rozkład normalny standaryzowany, a T ma rozkład χ2( n) oraz U i T
są niezależne, to
U
t =
~ t( n)
T
n
Wykorzystując powyższy fakt i podane twierdzenie łatwo można pokazać, że statystyka T
T
g − γ
w b − w β
t =
=
(ST1)
SKR
cSZ
cσ
2
σ ( n − k)
ma rozkład Studenta o n-k stopniach swobody. W szczególnym przypadku przyjmując za w wektor zer z jedynką na i-tej współrzędnej otrzymamy b − β
t
i
i
=
~ t( n − k)
(ST2)
i
cS ib
Znajomość rozkładu tych statystyk możemy wykorzystać przy testowaniu hipotez dotyczących prawdziwych wartości funkcji parametrycznych oraz przy konstrukcji przedziałów ufności na te wartości.
Zacznijmy od problemu estymacji:
1. Prognoza wartości oczekiwanej zmiennej Y =wTβ+Ζ : E( Y)=E(wTβ+Ζ )=wTβ
Zatem jeśli tp jest kwantylem rzędu (1+ q)/2, to łatwo pokazać, że przedział
[ T
w b − t cS , T
w b + t cS ]
p
Z
p
Z
jest przedziałem ufności dla E( Y) przy współczynniku ufności równym q.
W szczególnym przypadku (wykorzystując wzór (ST2)) otrzymamy 100 q-procentowy przedział ufności dla i-tego współczynniki regresji β i:
[ b − t S , b + t S ]
i
p
i
b
i
p
i
b
Opierając na rozumowaniu zastosowanym przy wyprowadzeniu rozkładu statystyki (ST1) nietrudno udowodnić, że poniższa statystka ma również rozkład Studenta o ( n-k) stopniach swobody
T
w b − ( T
w β + Z )
T
w b − Y
t =
=
(ST3)
2
S
c + 1
2
S
c + 1
Z
Z
W konsekwencji otrzymamy następujący wzór na przedział ufności dla wartości Y:
[ T
2
w b − t S
c + ,
1
T
2
w b + t S
c + 1]
p
Z
p
Z
Wielkość cS
2
Z (albo S
c + 1 ) często nazywana jest standardowym błędem predykcji ex Z
ante.
Wykorzystanie znalezionych rozkładów w testowaniu hipotez o modelu Najczęściej wyprowadzone rozkłady wykorzystujemy do testowania hipotezy o wartościach współczynników regresji. Przyjmujemy wtedy hipotezę zerową i alternatywną w następujący sposób:
0
H : β = β
0
i
i
0
H : β ≠ β
k
i
i
b
0
− β
Statystką testową jest oczywiście w tym przypadku statystyka i
i
t =
, zaś na poziomie
i
cS ib
istotności α zbiorem krytycznym jest W=(-¶ , - tp) » ( tp, ¶), gdzie tp jest kwantylem rzędu p= 1-α/2
Uwaga:
Na ogół testuje się hipotezę H : β = 0 , przy alternatywie H : β ≠ 0 .
0
i
k
i
Często nazywa się to testowaniem istotności i-tej zmiennej objaśniającej (tzn. czy ma ona w modelu pozostać, czy też, o ile pozostałe zostaną, można ją usunąć) Przykład
Dodatek: Wyprowadzanie przedziału ufności
b − β
Wyprowadzimy przedział ufności dla przedziału w oparcie o rozkład t i
i
=
~ t( n − k) .
i
cSZ
b − β
P i
i
(
∈[ t
− , t ]) = q
cS
p
p
Z
W rozważanym przypadku c jest pierwiastkiem z wielkości δ , czyli i-tego elementu ii
diagonalnego macierzy
1
(X T
)−
X
, i=1,2,…,k.. Zatem cS = S .
Z
bi
W konsekwencji otrzymujemy:
b − β
i
i
− t ≤
≤ t
p
p
cSZ
P(β ∈ b
[ − t S , b + t S ]) = q
i
i
p
b
i
p
b
i
i
Analogicznie dla
T
T
w b − w β
t =
cSZ
oraz
T
w b − ( T
w β + Z )
T
w b − Y
t =
=
2
S
c + 1
2
S
c + 1
Z
Z
gdzie
c
wT
T
1
(X
)−
=
X
w ,
Dla wyprowadzenia rozkładu ostatniej z wymienionych statystyk wykorzystujemy następujące oczywistości:
E( T
w b − Y ) = 0
Var( T
w b − Y )
2
2
2
2
= σ c + σ = σ ( 2
c + )
1
oraz fakt, że licznik tej statystki ma rozkład normalny.
„Analiza wariancji” w analizie regresji
Twierdzenie (Ogasawara, Takahashi): Niech Y ~ N (m, ∑) . Warunkiem koniecznym i dostatecznym na to by zmienna losowa (Y − m) T A(Y − m) miała rozkład χ2 jest, by
ΣAΣAΣ=ΣAΣ.
Liczba stopni swobody jest wtedy równa tr(AΣ)
Wniosek. Niech Hb będzie estymatorem MNK wektora Hβ oraz niech r(H)= m < k Wtedy jeśli Z ~ N(0, σ2I), to
Cov(Hb)=
2
σ H T (X T X 1
)− H
2
= σ V .
Zatem dla danej wariancji σ2 otrzymujemy, że
T
1
−
2
(Hb − Hβ) V (Hb − Hβ) / σ ~ χ2 ( m) oraz w konsekwencji:
(Hb − Hβ) T
1
−
V (Hb − Hβ) / m
F =
~ F ( m, n-k)
SKR /( n − k)
Możemy zatem wykorzystać powyższą statystykę do testowania hipotezy Hβ = wR, czyli do weryfikacji hipotezy o prawdziwości tzw. restrykcji liniowych, czyli związków liniowych zachodzących pomiędzy zmiennymi objaśniającymi lub narzuconych bezpośrednio na nie.
Uwaga. Z twierdzeń dotyczących minimalizacji form kwadratowych przy liniowych ograniczeniach wynika, że zachodzi ważny związek:
SKR
T
−1
T
=
1
min (Y − Xβ) V (Y − Xβ) = (Hb −
−
w ) V (Hb − w ) + SKR
(1.R)
R
R
R
T
H β=w R
Zatem statystyka testowa F przyjmuje następującą prostą do obliczenia postać: ( SKR − SKR) n − k
F
R
=
⋅
SKR
m
Wnioski z powyższych twierdzeń zapisuje się tradycyjnie w postaci tzw. tablicy analizy wariancji (ANOVA)
Tablica ANOVA
Stopnie
p-value
Średnie sumy
SK ( SS)
swobody
F
( istotność
kwadratów
( df)
testu)
odchylenie
od hipotezy
RSK = SKR
RSK / m
R - SKR
H
m
RSK/m
0 odrzucamy
Hβ = wR
(patrz wzór 1.R)
SKR /( n − k)
gdy p> α
(redukcja SK)
Reszty w
SKR
n-k
SKR /( n − k)
modelu
Ogółem
SKR R
n+m-1
Było jeszcze:
1. Szczególny przypadek – hipoteza H0: „taki model nic nie daje”
Model:
Y = Π + Π X + ...+ Π X + Z
1
2
2
k
k
Hipoteza zerowa:
Π =...= Π = 0 (wszystkie zmienne są nieistotne) 2
k
Hipoteza alternatywna:
Π ∫ Pclub Π ∫ Pc ... lub Π∫ 0 (przynajmniej jedna zmienna jest istotna) 2
3
k
( SKR − SKR)
2. Współczynnik determinacji : 2
R
R =
,
SKRR
Gdzie analizujemy model z wyrazem wolnym a restrykcje maja postać jak w punkcie 1. Zatem w takim przypadku
n
SKR =
Y
(
Y 2
)
R
∑
−
i
i=1