background image

 

Analiza regresji

 

 

str. 1 

 

Analiza reszt we wnioskowaniu o jakości i uŜyteczności 
modelu regresji 

 

W dalszej części wykładu , o ile wyraźnie nie będzie załoŜone 
inaczej,  zakładamy,  Ŝe 

Σ

Z

 = 

σ

2

I    oraz,  Ŝe  macierz  X  jest 

macierzą  pełnego  rzędu,  tzn.  r(X)=k  .  Estymator  MNK 
będziemy dalej oznaczali krótko symbolem b.  

  

Określenie 

Suma Kwadratów Reszt

  (SKR)  wyraŜa się wzorem: 

)

(

)

(

2

Xb

Y

Xb

Y

Xb

Y

=

=

T

SKR

 

(ang. sum of squared  errors SSE) 

 

Stwierdzenie 1  

Wartość  oczekiwana  róŜnicy  zmiennej  objaśnianej  i 
zmiennych  objaśniających  pomnoŜonych  przez  oszacowania 
MNK parametrów strukturalnych jest równa zero, tzn.:  

E(Y-Xb)=0 

 

 

 

 

 

 

 

 

 

background image

 

Analiza regresji

 

 

str. 2 

 

Twierdzenie 1 

)

(

)

(

2

k

n

SKR

E

=

σ

 

Dowód 

=

=

)

(

)

(

)

(

Xb

Y

Xb

Y

T

E

SKR

E

 

))

)

(

(

)

)

(

(

1

1

Y

X

X

X

X

Y

Y

X

X

X

X

Y

T

T

T

T

T

E

=

 

]

)

)

(

(

)

)

(

(

[

1

1

Y

X

X

X

X

I

X

X

X

X

I

T

T

n

T

T

T

n

Y

E

=

 

Macierz 

)

)

(

(

1

T

T

k

X

X

X

X

I

A

=

 jest macierzą 

idempotentną, tzn. spełnia warunek  A

2

=A

Zatem 

)

(SKR

E

]

)

)

(

(

[

1

Y

X

X

X

X

I

Y

T

T

n

T

E

=

 

Wykorzystując znany fakt, Ŝe  

y

T

T

trA

AE

E

A

E

Σ

+

=

Y

Y

Y

Y

oraz, to Ŝe w rozpatrywanym przypadku 

β

X

Y

=

E

, mamy: 

)

(SKR

E

β

β

X

X

X

X

X

I

X

)

)

(

(

1

T

T

n

T

T

=

 

=

+

)

)

(

(

1

2

T

T

n

tr

X

X

X

X

I

σ

 

)

(

)

)

(

2

2

2

1

2

2

k

n

tr

n

tr

n

k

T

T

=

=

+

=

σ

σ

σ

σ

σ

I

X

X

X

X

Wniosek 

NieobciąŜonym estymatorem wariancji zakłóceń w 
rozpatrywanym przypadku jest statystyka 

k

n

SKR

S

Z

=

2

 

 

 

 

background image

 

Analiza regresji

 

 

str. 3 

 

Nazewnictwo 

Wielkość 

Z

S

 będącą oszacowaniem odchylenia 

standardowego nazywamy standardowym błędem modelu

Liczba n-k (róŜnica liczby obserwacji i liczby estymowanych 
parametrów) to liczba stopni swobody modelu  

(ang. degrees of freedom). 

 

Wiemy, Ŝe w rozpatrywanym przypadku , Ŝe  

1

2

)

(

)

(

=

X

X

b

T

Cov

σ

 

Otrzymujemy zatem: 

ii

i

i

b

Var

δ

σ

σ

2

2

)

(

=

=

 

gdzie 

1

)

(

=

X

X

T

ii

δ

jest i-tym elementem diagonalnym 

macierzy 

1

)

(

X

X

T

i=1,2,…,k. 

 

Wielkość  

ii

Z

bi

S

S

δ

=

 

będąca oszacowaniem odchylenia standardowego estymatora 

i

b

 nazywa się standardowym błędem oszacowania i-tego 

współczynnika regresji. 

 

 

 

 

background image

 

Analiza regresji

 

 

str. 4 

 

 

Weryfikacja hipotez i estymacja przedziałowa przy 
założeniu normalności zakłóceń 

 

W tym fragmencie wykładu zakładać będziemy, Ŝe wektor Z 
ma n wymiarowy rozkład normalny. 

 

Rozpatrzmy w takim przypadku problem estymacji funkcji 
parametrycznej 

β

γ

T

w

=

. Niech, jak zwykle  estymator  

b

w

g

T

=

 będzie estymatorem MNK tej wartości. Oczywiście  

przy przyjętych załoŜeniach estymator ten ma rozkład 
normalny. Jego wartość oczekiwana jest równa 

γ

=

)

(g

E

natomiast wariancja wynosi: 

=

)

(g

Var

)

)

(

(

1

Y

X

X

X

T

T

T

w

Var

=

=

w

w

T

T

T

T

1

1

2

)

(

)

(

X

X

X

X

X

X

σ

2

2

1

2

)

(

c

w

w

T

T

σ

σ

=

X

X

 

Zdefiniujmy statystykę 

σ

γ

c

g

U

=

 

Statystyka U ma oczywiście rozkład N(0,1).  

W dalszym ciągu wykładu wykorzystamy następujące 
twierdzenie Fishera-Cochrana 

 

 

 

 

 

 

 

background image

 

Analiza regresji

 

 

str. 5 

 

Twierdzenie 2  

ZałóŜmy, Ŝe wektor Z ma rozkład normalny N(0,

 I). 

Warunkiem koniecznym i wystarczającym na to, aby  forma 
kwadratowa 

AZ

Z

T

 miała rozkład 

2

χ

 jest, by macierz A była 

idempotentna. Liczba stopni swobody tego rozkładu jest 
równa rzędowi macierzy A.  

Dowód tego twierdzenia (a takŜe jego ogólniejszej postaci) 
moŜemy znaleźć np. w R.C. Rao, Modele liniowe statystyki
PWN1982, str 202. 

 

Z powyŜszego twierdzenia otrzymujemy, Ŝe jeŜeli wektor Z 
ma rozkład normalny N(0,

 σ

2

I), to  

))

(

(

~

1

2

2

A

r

A

T

χ

σ

Z

Z

  

 

 

(1.fk) 

Proszę to uzasadnić :) 

 

ZauwaŜmy, Ŝe 

=

=

Y

X

X

X

X

I

Y

)

)

(

(

1

T

T

n

T

SKR

 

=

)

)(

)

(

(

)

(

1

β

β

X

Y

X

X

X

X

I

X

Y

T

T

n

T

 

Z

X

X

X

X

I

Z

)

)

(

(

1

T

T

n

T

 

 

To teŜ proszę uzasadnić :) 

 

 

 

 

background image

 

Analiza regresji

 

 

str. 6 

 

Z powyŜszego oraz wzoru (1.fk) otrzymujemy, Ŝe SKR/

σ

2

 ma 

rozkład 

χ2 o liczbie stopni swobody równej rzędowi macierzy 

)

)

(

(

1

T

T

n

X

X

X

X

I

B

=

. Pamiętamy z algebry liniowej, Ŝe 

ślad macierzy idempotentnej jest równy jej rzędowi.  

Zatem aby znaleźć ów rząd policzymy ślad macierzy B
Otrzymujemy 

k

n

tr

n

tr

tr

tr

T

T

T

T

n

=

=

+

=

X

X

X

X

X

X

X

X

I

B

1

1

)

(

)

(

 

Ostatecznie wykazaliśmy, Ŝe   

)

(

~

1

2

2

k

n

SKR

χ

σ

Dalej wykorzystamy następujące twierdzenie 

 

Twierdzenie (ogólna wersja twierdzenia Fishera) 

Niech  wektor Z ma rozkład normalny N(0,

 σ

2

I). Jeśli 

0

BA

= , to forma liniowa BZ i forma kwadratowa  

AZ

Z

T

 są 

stochastycznie niezaleŜne. 

Bez dowodu. 

Pamiętamy, Ŝe jeśli U ma rozkład normalny standaryzowany, 
T ma rozkład 

χ

2

(n) oraz U i T są niezaleŜne, to  

)

(

~

n

t

n

T

U

t

=

 

Łatwo moŜna więc pokazać, Ŝe statystyka 

Z

T

T

cS

w

b

w

k

n

SKR

c

g

t

β

σ

σ

γ

=

=

)

(

2

 

Ma rozkład Studenta o n-k stopniach swobody.  

background image

 

Analiza regresji

 

 

str. 7 

 

 

 

Znajomość rozkładu tej statystyki moŜemy wykorzystać przy 
testowaniu hipotez dotyczących prawdziwych wartości funkcji 
parametrycznych oraz przy konstrukcji przedziałów ufności na 
te wartości.  

Zadania na ćwiczenia

1.  Uzasadnij poprawność wzorów i przekształceń  ze strony 5 

2. Skonstruuj przedział  ufności dla wartości 

γ . Wykorzystaj 

ostatni wzór podany na wykładzie.