Analiza reszt we wnioskowaniu o jakości i uŜyteczności modelu regresji

W dalszej części wykładu , o ile wyraźnie nie będzie załoŜone inaczej, zakładamy, Ŝe ΣZ = σ2I oraz, Ŝe macierz X jest macierzą pełnego rzędu, tzn. r(X)= k . Estymator MNK będziemy dalej oznaczali krótko symbolem b.

Określenie

Suma Kwadratów Reszt ( SKR) wyraŜa się wzorem: 2

= Y − Xb

= (Y − Xb) T

SKR

(Y − Xb)

(ang. sum of squared errors SSE)

Stwierdzenie 1

Wartość oczekiwana róŜnicy zmiennej objaśnianej i zmiennych objaśniających pomnoŜonych przez oszacowania MNK parametrów strukturalnych jest równa zero, tzn.: E(Y-Xb)=0, Twierdzenie 1

E( SKR)

2

= σ ( n − k)

Dowód

E( SKR) =

(Y − Xb) T

E

(Y − Xb) =

= (Y − X(X T

E

X) 1

− X T Y) T (Y − X(X T X) 1

− X T Y))

= [

E Y (I − X(X T X)−1 X T ) T (I − X(X T X)−1 X T )Y]

k

k

Macierz A = (I − X( T

X X)−1 T

X ) jest macierzą idempotentną, tzn. spełnia warunek A2 =A .

k

Zatem

E( SKR) = =

[Y T

E

(I − X(X T X)−1 X T )Y]

k

Wykorzystując znany fakt, Ŝe

T

T

EY AY = EY AEY + trAΣ , oraz, to Ŝe w rozpatrywanym y

przypadku Y

E

=

β

X , mamy:

E( SKR) = =

T

T

β X (I −

T

−

X(X X) 1 T

X )Xβ +

2

σ tr(I −

T

−

X(X X) 1 T

X ) =

k

k

=

T

T

β X Xβ − T T

T

−

β X X(X X) 1 T

X Xβ +

2

σ ( trI −

T

−

tr(X(X X) 1

T

X ) =

k

2

2

= nσ + σ tr( T

X X)−1 T

X X)

2

2

2

= nσ − σ trI = σ ( n − k) .

k

Wniosek

NieobciąŜonym estymatorem wariancji zakłóceń w rozpatrywanym przypadku jest statystyka 2

SKR

S

=

.

Z

n − k

Nazewnictwo

Wielkość S będącą oszacowaniem odchylenia standardowego nazywamy standardowym Z

błędem modelu.

Liczba n-k (róŜnica liczby obserwacji i liczby estymowanych parametrów) to liczba stopni swobody modelu (ang. degrees of freedom).

Wiemy, Ŝe w rozpatrywanym przypadku , Ŝe

2

T

1

Cov(b)

σ (X

)−

=

X

.

Otrzymujemy zatem:

σ 2 = Var b

( ) = σ 2δ

i

i

ii

gdzie δ jest i-tym elementem diagonalnym macierzy

−1

(X T X) , i=1,2,…,k.

ii

Wielkość

S

= S

δ

bi

Z

ii

będąca oszacowaniem odchylenia standardowego estymatora b nazywa się standardowym i

błędem oszacowania i- tego współczynnika regresji.

Weryfikacja hipotez i estymacja przedziałowa przy założeniu

normalności zakłóceń

W tym fragmencie wykładu zakładać będziemy, Ŝe wektor Z ma n wymiarowy rozkład normalny.

Rozpatrzmy w takim przypadku problem estymacji funkcji parametrycznej γ

T

= w β . Niech,

jak zwykle estymator g

wT

=

b będzie estymatorem MNK tej wartości. Oczywiście przy przyjętych załoŜeniach estymator ten ma rozkład normalny. Jego wartość oczekiwana jest równa E( g) = γ , natomiast wariancja wynosi: Var( g) = Var( T

w (X T X) 1

− X T Y) = 2 T

T

−1

T

−

σ w

T

1

(X X) X X(X X) w =

2

T

T

1

−

2

2

σ w (X X) w = σ c

Zdefiniujmy statystykę

g − γ

U =

cσ

Statystyka U ma oczywiście rozkład N(0,1).

W dalszym ciągu wykładu wykorzystamy następujące twierdzenie Fishera-Cochrana Twierdzenie 2

ZałóŜmy, Ŝe wektor Z ma rozkład normalny N(0, I). Warunkiem koniecznym i wystarczającym na to, aby forma kwadratowa Z T AZ miała rozkład 2

χ jest, by macierz A

była idempotentna. Liczba stopni swobody tego rozkładu jest równa rzędowi macierzy A.

Dowód tego twierdzenia (a takŜe jego ogólniejszej postaci) moŜemy znaleźć np. w R.C. Rao, Modele liniowe statystyki, PWN1982, str 202.

Z powyŜszego twierdzenia otrzymujemy, Ŝe jeŜeli wektor Z ma rozkład normalny N(0, σ2I), to

1

T

Z AZ ~

2

χ ( r( )

A )

(1.fk)

2

σ

Proszę to uzasadnić :)

ZauwaŜmy, Ŝe

= Y T

SKR

(I −

T

−

X(X X) 1 X T )Y = (Y − β

X ) T (I − X(X T X) 1

− X T )(Y − β

X )

n

n

Z T (I

X(X T X) 1

−

−

X T )Z

n

To teŜ proszę uzasadnić :)

Z powyŜszego oraz wzoru (1.fk) otrzymujemy, Ŝe SKR/σ2 ma rozkład χ2 o liczbie stopni swobody równej rzędowi macierzy B = (I − X( T

X X) 1

−

T

X ) . Pamiętamy z algebry liniowej,

n

Ŝe ślad macierzy idempotentnej jest równy jej rzędowi. Zatem aby znaleźć ów rząd policzymy ślad macierzy B. Otrzymujemy

trB = trI + tr

T

−1

T

X(X X) X = n − tr

T

−1

T

(X X) X X = n − k

n

Ostatecznie wykazaliśmy, Ŝe

1 SKR ~ 2

χ ( n − k) .

2

σ

Dalej wykorzystamy następujące twierdzenie

Twierdzenie (ogólna wersja twierdzenia Fishera)

Niech wektor Z ma rozkład normalny N(0, σ2I). Jeśli BA = 0 , to forma liniowa BZ i forma kwadratowa Z T AZ są stochastycznie niezaleŜne.

Bez dowodu.

Pamiętamy, Ŝe jeśli U ma rozkład normalny standaryzowany, a T ma rozkład χ2( n) oraz U i T

są niezaleŜne, to

U

t =

~ t( n)

T

n

Wykorzystując powyŜszy fakt i podane twierdzenie łatwo moŜna pokazać, Ŝe statystyka T

T

g − γ

w b − w β

t =

=

(ST1)

SKR

cSZ

cσ

2

σ ( n − k)

ma rozkład Studenta o n-k stopniach swobody. W szczególnym przypadku przyjmując za w wektor zer z jedynką na i-tej współrzędnej otrzymamy b − β

t

i

i

=

~ t( n − k)

(ST2)

i

cS ib

Znajomość rozkładu tych statystyk moŜemy wykorzystać przy testowaniu hipotez dotyczących prawdziwych wartości funkcji parametrycznych oraz przy konstrukcji przedziałów ufności na te wartości.

Zacznijmy od problemu estymacji:

1. Prognoza wartości oczekiwanej zmiennej Y =wTβ+Ζ : E( Y)=E(wTβ+Ζ )=wTβ

Zatem jeśli tp jest kwantylem rzędu (1+ q)/2, to łatwo pokazać, Ŝe przedział

[ T

w b − t cS , T

w b + t cS ]

p

Z

p

Z

jest przedziałem ufności dla E( Y) przy współczynniku ufności równym q.

W szczególnym przypadku (wykorzystując wzór (ST2)) otrzymamy 100 q-procentowy przedział ufności dla i-tego współczynniki regresji β i:

[ b − t S , b + t S ]

i

p

i

b

i

p

i

b

Opierając na rozumowaniu zastosowanym przy wyprowadzeniu rozkładu statystyki (ST1) nietrudno udowodnić, Ŝe poniŜsza statystka ma równieŜ rozkład Studenta o ( n-k) stopniach swobody

T

w b − ( T

w β + Z )

T

w b − Y

t =

=

(ST3)

2

S

c + 1

2

S

c + 1

Z

Z

W konsekwencji otrzymamy następujący wzór na przedział ufności dla wartości Y:

[ T

2

w b − t S

c + ,

1

T

2

w b + t S

c + 1]

p

Z

p

Z

Wielkość cS

2

Z (albo S

c + 1 ) często nazywana jest standardowym błędem predykcji ex Z

ante.

Wykorzystanie znalezionych rozkładów w testowaniu hipotez o modelu Najczęściej wyprowadzone rozkłady wykorzystujemy do testowania hipotezy o wartościach współczynników regresji. Przyjmujemy wtedy hipotezę zerową i alternatywną w następujący sposób:

0

H : β = β

0

i

i

0

H : β ≠ β

k

i

i

b

0

− β

Statystką testową jest oczywiście w tym przypadku statystyka i

i

t =

, zaś na poziomie

i

cS ib

istotności α zbiorem krytycznym jest W=(-¶ , - tp) » ( tp, ¶), gdzie tp jest kwantylem rzędu p= 1-α/2

Uwaga:

Na ogół testuje się hipotezę H : β = 0 , przy alternatywie H : β ≠ 0 .

0

i

k

i

Często nazywa się to testowaniem istotności i-tej zmiennej objaśniającej (tzn. czy ma ona w modelu pozostać, czy teŜ, o ile pozostałe zostaną, moŜna ją usunąć) Przykład

Dodatek: Wyprowadzanie przedziału ufności

b − β

Wyprowadzimy przedział ufności dla przedziału w oparcie o rozkład t i

i

=

~ t( n − k) .

i

cSZ

b − β

P i

i

(

∈[ t

− , t ]) = q

cS

p

p

Z

W rozwaŜanym przypadku c jest pierwiastkiem z wielkości δ , czyli i-tego elementu ii

diagonalnego macierzy

1

(X T

)−

X

, i=1,2,…,k.. Zatem cS = S .

Z

bi

W konsekwencji otrzymujemy:

b − β

i

i

− t ≤

≤ t

p

p

cSZ

P(β ∈ b

[ − t S , b + t S ]) = q

i

i

p

b

i

p

b

i

i

Analogicznie dla

T

T

w b − w β

t =

cSZ

oraz

T

w b − ( T

w β + Z )

T

w b − Y

t =

=

2

S

c + 1

2

S

c + 1

Z

Z

gdzie

c

wT

T

1

(X

)−

=

X

w ,

Dla wyprowadzenia rozkładu ostatniej z wymienionych statystyk wykorzystujemy następujące oczywistości:

E( T

w b − Y ) = 0

Var( T

w b − Y )

2

2

2

2

= σ c + σ = σ ( 2

c + )

1

oraz fakt, Ŝe licznik tej statystki ma rozkład normalny.

„Analiza wariancji” w analizie regresji

Twierdzenie (Ogasawara, Takahashi): Niech Y ~ N (m, ∑) . Warunkiem koniecznym i dostatecznym na to by zmienna losowa (Y − m) T A(Y − m) miała rozkład χ2 jest, by

ΣAΣAΣ=ΣAΣ.

Liczba stopni swobody jest wtedy równa tr(AΣ)

Wniosek. Niech Hb będzie estymatorem MNK wektora Hβ oraz niech r(H)= m < k Wtedy jeśli Z ~ N(0, σ2I), to

Cov(Hb)=

2

σ H T (X T X 1

)− H

2

= σ V .

Zatem dla danej wariancji σ2 otrzymujemy, Ŝe

T

1

−

2

(Hb − Hβ) V (Hb − Hβ) / σ ~ χ2 ( m) oraz w konsekwencji:

(Hb − Hβ) T

1

−

V (Hb − Hβ) / m

F =

~ F ( m, n-k)

SKR /( n − k)

MoŜemy zatem wykorzystać powyŜszą statystykę do testowania hipotezy Hβ = wR, czyli do weryfikacji hipotezy o prawdziwości tzw. restrykcji liniowych, czyli związków liniowych zachodzących pomiędzy zmiennymi objaśniającymi lub narzuconych bezpośrednio na nie.

Uwaga. Z twierdzeń dotyczących minimalizacji form kwadratowych przy liniowych ograniczeniach wynika, Ŝe zachodzi waŜny związek:

SKR

T

−1

T

=

1

min (Y − Xβ) V (Y − Xβ) = (Hb −

−

w ) V (Hb − w ) + SKR

(1.R)

R

R

R

T

H β=w R

Zatem statystyka testowa F przyjmuje następującą prostą do obliczenia postać: ( SKR − SKR) n − k

F

R

=

⋅

SKR

m

Wnioski z powyŜszych twierdzeń zapisuje się tradycyjnie w postaci tzw. tablicy analizy wariancji (ANOVA)

Tablica ANOVA

Stopnie

p-value

Średnie sumy

SK ( SS)

swobody

F

( istotność

kwadratów

( df)

testu)

odchylenie

od hipotezy

RSK = SKR

RSK / m

R - SKR

H

m

RSK/m

0 odrzucamy

Hβ = wR

(patrz wzór 1.R)

SKR /( n − k)

gdy p> α

(redukcja SK)

Reszty w

SKR

n-k

SKR /( n − k)

modelu

Ogółem

SKR R

n+m-1

Było jeszcze:

1. Szczególny przypadek – hipoteza H0: „taki model nic nie daje”

Model:

Y = Π + Π X + ...+ Π X + Z

1

2

2

k

k

Hipoteza zerowa:

Π =...= Π = 0 (wszystkie zmienne są nieistotne) 2

k

Hipoteza alternatywna:

Π ∫ Pclub Π ∫ Pc ... lub Π∫ 0 (przynajmniej jedna zmienna jest istotna) 2

3

k

( SKR − SKR)

2. Współczynnik determinacji : 2

R

R =

,

SKRR

Gdzie analizujemy model z wyrazem wolnym a restrykcje maja postać jak w punkcie 1. Zatem w takim przypadku

n

SKR =

Y

(

Y 2

)

R

∑

−

i

i=1