Analiza regresji ostatnie notaki z wykladu

background image

Analiza reszt we wnioskowaniu o jakości i
użyteczności modelu regresji

W dalszej części wykładu , o ile wyraźnie nie będzie założone inaczej, zakładamy, że

Σ

Z

=

σ

2

I oraz,

ż

e macierz X jest macierzą pełnego rzędu, tzn. r(X)=k . Estymator MNK będziemy dalej oznaczali

krótko symbolem b.

Określenie

Suma Kwadratów Reszt (SKR) wyraża się wzorem:

)

(

)

(

2

Xb

Y

Xb

Y

Xb

Y

=

=

T

SKR

(ang. sum of squared errors SSE)

Stwierdzenie 1

Wartość oczekiwana różnicy zmiennej objaśnianej i zmiennych objaśniających pomnożonych

przez oszacowania MNK parametrów strukturalnych jest równa zero, tzn.: E(Y-Xb)=0,

Twierdzenie 1

)

(

)

(

2

k

n

SKR

E

=

σ

Dowód

=

=

)

(

)

(

)

(

Xb

Y

Xb

Y

T

E

SKR

E

))

)

(

(

)

)

(

(

1

1

Y

X

X

X

X

Y

Y

X

X

X

X

Y

T

T

T

T

T

E

=

]

)

)

(

(

)

)

(

(

[

1

1

Y

X

X

X

X

I

X

X

X

X

I

T

T

k

T

T

T

k

Y

E

=

Macierz

)

)

(

(

1

T

T

k

X

X

X

X

I

A

=

jest macierzą idempotentną, tzn. spełnia warunek A

2

=A.

Zatem

=

)

(SKR

E

]

)

)

(

(

[

1

Y

X

X

X

X

I

Y

T

T

k

T

E

=

Wykorzystując znany fakt, że

y

T

T

trA

AE

E

A

E

Σ

+

=

Y

Y

Y

Y

, oraz, to że w rozpatrywanym

przypadku

β

X

Y

=

E

, mamy:

=

)

(SKR

E

=

+

=

)

)

(

(

)

)

(

(

1

2

1

T

T

k

T

T

k

T

T

tr

X

X

X

X

I

X

X

X

X

X

I

X

σ

β

β

=

+

=

)

)

(

(

(

)

(

1

2

1

T

T

k

T

T

T

T

T

T

tr

tr

X

X

X

X

I

X

X

X

X

X

X

X

X

σ

β

β

β

β

)

(

)

)

(

2

2

2

1

2

2

k

n

tr

n

tr

n

k

T

T

=

=

+

=

σ

σ

σ

σ

σ

I

X

X

X

X

.

background image

Wniosek

Nieobciążonym estymatorem wariancji zakłóceń w rozpatrywanym przypadku jest statystyka

k

n

SKR

S

Z

=

2

.

Nazewnictwo

Wielkość

Z

S będącą oszacowaniem odchylenia standardowego nazywamy standardowym

błędem modelu.

Liczba n-k (różnica liczby obserwacji i liczby estymowanych parametrów) to liczba stopni

swobody modelu (ang. degrees of freedom).

Wiemy, że w rozpatrywanym przypadku , że

1

2

)

(

)

(

=

X

X

b

T

Cov

σ

.

Otrzymujemy zatem:

ii

i

i

b

Var

δ

σ

σ

2

2

)

(

=

=

gdzie

ii

δ

jest i-tym elementem diagonalnym macierzy

1

)

(

X

X

T

, i=1,2,…,k.

Wielkość

ii

Z

bi

S

S

δ

=

będąca oszacowaniem odchylenia standardowego estymatora

i

b nazywa się standardowym

błędem oszacowania i-tego współczynnika regresji.

Weryfikacja hipotez i estymacja przedziałowa przy założeniu
normalności zakłóceń

W tym fragmencie wykładu zakładać będziemy, że wektor Z ma n wymiarowy rozkład

normalny.

Rozpatrzmy w takim przypadku problem estymacji funkcji parametrycznej

β

γ

T

w

=

. Niech,

jak zwykle estymator

b

w

g

T

=

będzie estymatorem MNK tej wartości. Oczywiście przy

przyjętych założeniach estymator ten ma rozkład normalny. Jego wartość oczekiwana jest

równa

γ

=

)

(g

E

, natomiast wariancja wynosi:

=

)

(g

Var

)

)

(

(

1

Y

X

X

X

T

T

T

w

Var

=

=

w

w

T

T

T

T

1

1

2

)

(

)

(

X

X

X

X

X

X

σ

2

2

1

2

)

(

c

w

w

T

T

σ

σ

=

X

X

Zdefiniujmy statystykę

background image

σ

γ

c

g

U

=

Statystyka U ma oczywiście rozkład N(0,1).

W dalszym ciągu wykładu wykorzystamy następujące twierdzenie Fishera-Cochrana

Twierdzenie 2

Załóżmy, że wektor Z ma rozkład normalny N(0,

I). Warunkiem koniecznym i

wystarczającym na to, aby forma kwadratowa

AZ

Z

T

miała rozkład

2

χ

jest, by macierz A

była idempotentna. Liczba stopni swobody tego rozkładu jest równa rzędowi macierzy A.

Dowód tego twierdzenia (a także jego ogólniejszej postaci) możemy znaleźć np. w R.C. Rao,

Modele liniowe statystyki, PWN1982, str 202.

Z powyższego twierdzenia otrzymujemy, że jeżeli wektor Z ma rozkład normalny N(0,

σ

2

I),

to

))

(

(

~

1

2

2

A

r

A

T

χ

σ

Z

Z

(1.fk)

Proszę to uzasadnić :)

Zauważmy, że

=

=

Y

X

X

X

X

I

Y

)

)

(

(

1

T

T

n

T

SKR

)

)(

)

(

(

)

(

1

β

β

X

Y

X

X

X

X

I

X

Y

T

T

n

T

Z

X

X

X

X

I

Z

)

)

(

(

1

T

T

n

T

To też proszę uzasadnić :)

Z powyższego oraz wzoru (1.fk) otrzymujemy, że SKR/

σ

2

ma rozkład

χ2 o liczbie stopni

swobody równej rzędowi macierzy

)

)

(

(

1

T

T

n

X

X

X

X

I

B

=

. Pamiętamy z algebry liniowej,

ż

e ślad macierzy idempotentnej jest równy jej rzędowi. Zatem aby znaleźć ów rząd

policzymy ślad macierzy B. Otrzymujemy

k

n

tr

n

tr

tr

tr

T

T

T

T

n

=

=

+

=

X

X

X

X

X

X

X

X

I

B

1

1

)

(

)

(

Ostatecznie wykazaliśmy, że

)

(

~

1

2

2

k

n

SKR

χ

σ

.

Dalej wykorzystamy następujące twierdzenie

background image

Twierdzenie (ogólna wersja twierdzenia Fishera)

Niech wektor Z ma rozkład normalny N(0,

σ

2

I). Jeśli

0

BA

= , to forma liniowa BZ i forma

kwadratowa

AZ

Z

T

są stochastycznie niezależne.

Bez dowodu.

Pamiętamy, że jeśli U ma rozkład normalny standaryzowany, a T ma rozkład

χ

2

(n) oraz U i T

są niezależne, to

)

(

~

n

t

n

T

U

t

=

Wykorzystując powyższy fakt i podane twierdzenie łatwo można pokazać, że statystyka

Z

T

T

cS

k

n

SKR

c

g

t

β

w

b

w

=

=

)

(

2

σ

σ

γ

(ST1)

ma rozkład Studenta o n-k stopniach swobody. W szczególnym przypadku przyjmując za w

wektor zer z jedynką na i-tej współrzędnej otrzymamy

)

(

~

k

n

t

cS

b

t

i

b

i

i

i

=

β

(ST2)

Znajomość rozkładu tych statystyk możemy wykorzystać przy testowaniu hipotez

dotyczących prawdziwych wartości funkcji parametrycznych oraz przy konstrukcji

przedziałów ufności na te wartości.

Zacznijmy od problemu estymacji:

1. Prognoza wartości oczekiwanej zmiennej Y =w

T

β

β

β

β+

+

+

+

Ζ

:

E(Y)=E(w

T

β

β

β

β+

+

+

+

Ζ

)=w

T

β

β

β

β

Zatem jeśli t

p

jest kwantylem rzędu (1+q)/2, to łatwo pokazać, że przedział

]

,

[

Z

p

T

Z

p

T

cS

t

cS

t

+

b

w

b

w

jest przedziałem ufności dla E(Y) przy współczynniku ufności równym q.

W szczególnym przypadku (wykorzystując wzór (ST2)) otrzymamy 100q-procentowy

przedział ufności dla i-tego współczynniki regresji

β

i

:

]

,

[

i

i

b

p

i

b

p

i

S

t

b

S

t

b

+

background image

Opierając na rozumowaniu zastosowanym przy wyprowadzeniu rozkładu statystyki (ST1)

nietrudno udowodnić, że poniższa statystka ma również rozkład Studenta o (n-k) stopniach

swobody

1

1

)

(

2

2

+

=

+

+

=

c

S

Y

c

S

Z

t

Z

T

Z

T

T

b

w

β

w

b

w

(ST3)

W konsekwencji otrzymamy następujący wzór na przedział ufności dla wartości Y:

]

1

,

1

[

2

2

+

+

+

c

S

t

c

S

t

Z

p

T

Z

p

T

b

w

b

w

Wielkość cS

Z

(albo

1

2

+

c

S

Z

) często nazywana jest standardowym błędem predykcji ex

ante

.

Wykorzystanie znalezionych rozkładów w testowaniu hipotez o modelu

Najczęściej wyprowadzone rozkłady wykorzystujemy do testowania hipotezy o wartościach

współczynników regresji. Przyjmujemy wtedy hipotezę zerową i alternatywną w następujący

sposób:

0

0

:

i

i

H

β

β

=

0

:

i

i

k

H

β

β

Statystką testową jest oczywiście w tym przypadku statystyka

i

b

i

i

i

cS

b

t

0

β

=

, zaś na poziomie

istotności

α zbiorem krytycznym jest W=(-¶ , - t

p

) » (t

p

, ¶), gdzie t

p

jest kwantylem rzędu

p=

1-

α/2

Uwaga:

Na ogół testuje się hipotezę

0

:

0

=

i

H

β

, przy alternatywie

0

:

i

k

H

β

.

Często nazywa się to testowaniem istotności i-tej zmiennej objaśniającej (tzn. czy ma ona w

modelu pozostać, czy też, o ile pozostałe zostaną, można ją usunąć)

Przykład

background image

Dodatek: Wyprowadzanie przedziału ufności

Wyprowadzimy przedział ufności dla przedziału w oparcie o rozkład

)

(

~

k

n

t

cS

b

t

Z

i

i

i

=

β

.

q

t

t

cS

b

P

p

p

Z

i

i

=

])

,

[

(

β

W rozważanym przypadku c jest pierwiastkiem z wielkości

ii

δ

, czyli i-tego elementu

diagonalnego macierzy

1

)

(

X

X

T

, i=1,2,…,k.. Zatem

i

b

Z

S

cS

=

.

W konsekwencji otrzymujemy:

p

Z

i

i

p

t

cS

b

t

β

q

S

t

b

S

t

b

P

i

i

b

p

i

b

p

i

i

=

+

])

,

[

(

β

Analogicznie dla

Z

T

T

cS

t

β

w

b

w

=

oraz

1

1

)

(

2

2

+

=

+

+

=

c

S

Y

c

S

Z

t

Z

T

Z

T

T

b

w

β

w

b

w

gdzie

w

w

c

T

T

1

)

(

=

X

X

,

Dla wyprowadzenia rozkładu ostatniej z wymienionych statystyk wykorzystujemy

następujące oczywistości:

0

)

(

T

=

Y

E

b

w

)

1

(

)

(

2

2

2

2

2

T

+

=

+

=

c

c

Y

Var

σ

σ

σ

b

w

oraz fakt, że licznik tej statystki ma rozkład normalny.

background image

„Analiza wariancji” w analizie regresji

Twierdzenie (Ogasawara, Takahashi): Niech

)

,

(

~

m

Y

N

. Warunkiem koniecznym i

dostatecznym na to by zmienna losowa

)

(

)

(

m

Y

A

m

Y

T

miała rozkład

χ

2

jest, by

Σ

Σ

Σ

ΣAΣ

Σ

Σ

ΣAΣ

Σ

Σ

Σ=Σ

Σ

Σ

ΣAΣ

Σ

Σ

Σ.

Liczba stopni swobody jest wtedy równa tr(A

Σ

Σ

Σ

Σ)

Wniosek. Niech Hb będzie estymatorem MNK wektora H

β

β

β

β oraz niech r(H)=m < k Wtedy

jeśli Z ~ N(0,

σ

2

I), to

Cov(Hb)=

V

H

X

X

H

2

1

2

)

(

σ

σ

=

T

T

.

Zatem dla danej wariancji

σ

2

otrzymujemy, że

2

1

/

)

(

)

(

σ

Hb

V

Hb

T

~

χ

2

(m)

oraz w konsekwencji:

)

/(

/

)

(

)

(

1

k

n

SKR

m

F

T

=

Hb

V

Hb

~ F (m, n-k)

Możemy zatem wykorzystać powyższą statystykę do testowania hipotezy H

β

β

β

β = w

R

, czyli do

weryfikacji hipotezy o prawdziwości tzw. restrykcji liniowych, czyli związków liniowych

zachodzących pomiędzy zmiennymi objaśniającymi lub narzuconych bezpośrednio na nie.

Uwaga. Z twierdzeń dotyczących minimalizacji form kwadratowych przy liniowych

ograniczeniach wynika, że zachodzi ważny związek:

SKR

SKR

R

T

R

T

R

R

+

=

=

=

)

(

)

(

)

(

)

(

min

1

1

T

w

Hb

V

w

Hb

Y

V

Y

w

β

H

(1.R)

Zatem statystyka testowa F przyjmuje następującą prostą do obliczenia postać:

m

k

n

SKR

SKR

SKR

F

R

=

)

(

Wnioski z powyższych twierdzeń zapisuje się tradycyjnie w postaci tzw. tablicy analizy

wariancji

(ANOVA)

background image

Tablica ANOVA

SK

(SS)

Stopnie

swobody

(df)

Ś

rednie sumy

kwadratów

F

p

-value

( istotność

testu)

odchylenie

od hipotezy

H

β

β

β

β = w

R

(redukcja SK)

RSK = SKR

R

- SKR

(patrz wzór 1.R)

m

RSK/m

)

/(

/

k

n

SKR

m

RSK

H

0

odrzucamy

gdy p>

α

Reszty w

modelu

SKR

n-k

)

/(

k

n

SKR

Ogółem

SKR

R

n+m-1



Było jeszcze:

1.

Szczególny przypadek – hipoteza H

0

: „taki model nic nie daje”




2.

Współczynnik determinacji :

R

R

SKR

SKR

SKR

R

)

(

2

=

,

Gdzie analizujemy model z wyrazem wolnym a restrykcje maja posta

ć

jak w

punkcie 1. Zatem w takim przypadku

=

=

n

i

i

R

Y

Y

SKR

1

2

)

(

Model:

Hipoteza zerowa:

Y =

Π

1

+

Π

2

X

2

+ ...+

Π

k

X

k

+ Z

Π

2

=...=

Π

k

=0 (wszystkie zmienne są nieistotne)

Hipoteza alternatywna:

Π

2

Pclub

Π

3

Pc...lub

Π

k

0 (przynajmniej jedna zmienna jest istotna)


Wyszukiwarka

Podobne podstrony:
Analiza regresji-ostatnie notaki z wykladu
Analiza regresji wykład i lista nr 3
Metodologia badań z logiką dr Izabela Krejtz wykład 6b Wprowadzenie do analizy regresji
Metodologia badań z logiką dr Izabela Krejtz wykład 7b Hierarchiczna analiza regresji
analiza zbiorcza teorii pielęgnierstwa, wyklady pielegniarstwo, licencjat, pielęgniarstwo
Analiza i pomiar systemów logistycznych wykład 1( 24.02.2008)(1), Logistyka, Logistyka
analiza regresji
Analiza regresji, Statystyka - ćwiczenia - Rumiana Górska
Analiza żywności, STUDIA UP, Wykłady UP
ANALIZA REGRESJI WIELOKROTN, Zarządzanie projektami, Zarządzanie(1)
Statystyka matematyczna, 4-część, Analiza regresyjna
cw analiza regresji prostej, Badano właściwości soi — polskiej odmiany ALDANA
Analiza regresji
Analiza regresji między dwiema zmiennymi, Płyta farmacja Bydgoszcz, statystyka, pozostałe
Procedura związana z analizą regresji
ANALIZA REGRESJI PROSTEJ

więcej podobnych podstron