Analiza regresji
Analiza reszt we wnioskowaniu o jakości i u\yteczności
modelu regresji
W dalszej części wykładu , o ile wyraznie nie będzie zało\one
inaczej, zakładamy, \e ŁZ = 2I oraz, \e macierz X jest
macierzą pełnego rzędu, tzn. r(X)=k . Estymator MNK
będziemy dalej oznaczali krótko symbolem b.
Określenie
Suma Kwadratów Reszt (SKR) wyra\a się wzorem:
2
SKR = Y - Xb = (Y - Xb)T (Y - Xb)
(ang. sum of squared errors SSE)
Stwierdzenie 1
Wartość oczekiwana ró\nicy zmiennej objaśnianej i
zmiennych objaśniających pomno\onych przez oszacowania
MNK parametrów strukturalnych jest równa zero, tzn.:
E(Y-Xb)=0
str. 1
Analiza regresji
Twierdzenie 1
2
E(SKR) = (n - k)
Dowód
E(SKR) = E(Y - Xb)T (Y - Xb) =
= E(Y - X(XT X)-1 XT Y)T (Y - X(XT X)-1 XT Y))
= E[Y (In - X(XT X)-1XT )T (In - X(XT X)-1XT )Y]
Macierz A = (Ik - X(XT X)-1XT ) jest macierzą
idempotentną, tzn. spełnia warunek A2=A.
Zatem
E(SKR) = E[YT (In - X(XT X)-1XT )Y]
Wykorzystując znany fakt, \e EYT AY = EYT AEY + trAŁ ,
y
oraz, to \e w rozpatrywanym przypadku EY = X , mamy:
T
E(SKR) = XT (In - X(XT X)-1XT )X
2
+ tr(In - X(XT X)-1XT ) =
2 2 2 2 2
= n + tr(XT X)-1XT X) = n - trIk = (n - k).
Wniosek
Nieobcią\onym estymatorem wariancji zakłóceń w
rozpatrywanym przypadku jest statystyka
SKR
2
SZ = .
n - k
str. 2
Analiza regresji
Nazewnictwo
Wielkość SZ będącą oszacowaniem odchylenia
standardowego nazywamy standardowym błędem modelu.
Liczba n-k (ró\nica liczby obserwacji i liczby estymowanych
parametrów) to liczba stopni swobody modelu
(ang. degrees of freedom).
Wiemy, \e w rozpatrywanym przypadku , \e
2
Cov(b) = (XT X)-1
Otrzymujemy zatem:
2
2
= Var(bi ) = ii
i
gdzie ii = (XT X)-1jest i-tym elementem diagonalnym
macierzy (XT X)-1, i=1,2,& ,k.
Wielkość
Sbi = SZ ii
będąca oszacowaniem odchylenia standardowego estymatora
bi nazywa się standardowym błędem oszacowania i-tego
współczynnika regresji.
str. 3
Analiza regresji
Weryfikacja hipotez i estymacja przedziałowa przy
założeniu normalności zakłóceń
W tym fragmencie wykładu zakładać będziemy, \e wektor Z
ma n wymiarowy rozkład normalny.
Rozpatrzmy w takim przypadku problem estymacji funkcji
parametrycznej ł = wT . Niech, jak zwykle estymator
g = wT b będzie estymatorem MNK tej wartości. Oczywiście
przy przyjętych zało\eniach estymator ten ma rozkład
normalny. Jego wartość oczekiwana jest równa E(g) = ł ,
natomiast wariancja wynosi:
Var(g) =Var(wT (XT X)-1 XT Y)
2 2 2
= wT (XT X)-1XT X(XT X)-1 w = wT (XT X)-1w = c2
Zdefiniujmy statystykę
g - ł
U =
c
Statystyka U ma oczywiście rozkład N(0,1).
W dalszym ciągu wykładu wykorzystamy następujące
twierdzenie Fishera-Cochrana
str. 4
Analiza regresji
Twierdzenie 2
Załó\my, \e wektor Z ma rozkład normalny N(0, I).
Warunkiem koniecznym i wystarczającym na to, aby forma
2
kwadratowa ZT AZ miała rozkład jest, by macierz A była
idempotentna. Liczba stopni swobody tego rozkładu jest
równa rzędowi macierzy A.
Dowód tego twierdzenia (a tak\e jego ogólniejszej postaci)
mo\emy znalezć np. w R.C. Rao, Modele liniowe statystyki,
PWN1982, str 202.
Z powy\szego twierdzenia otrzymujemy, \e je\eli wektor Z
ma rozkład normalny N(0, 2I), to
1
2
ZT AZ ~ (r(A)) (1.fk)
2
Proszę to uzasadnić :)
Zauwa\my, \e
SKR = YT (In - X(XT X)-1XT )Y =
(Y - X )T (In - X(XT X)-1XT )(Y - X ) =
ZT (In - X(XT X)-1XT )Z
To te\ proszę uzasadnić :)
str. 5
Analiza regresji
Z powy\szego oraz wzoru (1.fk) otrzymujemy, \e SKR/2 ma
rozkład 2 o liczbie stopni swobody równej rzędowi macierzy
B = (In - X(XT X)-1XT ). Pamiętamy z algebry liniowej, \e
ślad macierzy idempotentnej jest równy jej rzędowi.
Zatem aby znalezć ów rząd policzymy ślad macierzy B.
Otrzymujemy
trB = trIn + trX(XT X)-1XT = n - tr(XT X)-1XT X = n - k
Ostatecznie wykazaliśmy, \e
1
2
SKR ~ (n - k).
2
Dalej wykorzystamy następujące twierdzenie
Twierdzenie (ogólna wersja twierdzenia Fishera)
Niech wektor Z ma rozkład normalny N(0, 2I). Jeśli
BA = 0, to forma liniowa BZ i forma kwadratowa ZT AZ są
stochastycznie niezale\ne.
Bez dowodu.
Pamiętamy, \e jeśli U ma rozkład normalny standaryzowany,
a T ma rozkład 2(n) oraz U i T są niezale\ne, to
U
t = ~ t(n)
T
n
Aatwo mo\na więc pokazać, \e statystyka
g - ł wT b - wT
t = =
SKR cSZ
c
2
(n - k)
Ma rozkład Studenta o n-k stopniach swobody.
str. 6
Analiza regresji
Znajomość rozkładu tej statystyki mo\emy wykorzystać przy
testowaniu hipotez dotyczących prawdziwych wartości funkcji
parametrycznych oraz przy konstrukcji przedziałów ufności na
te wartości.
Zadania na ćwiczenia.
1. Uzasadnij poprawność wzorów i przekształceń ze strony 5
2. Skonstruuj przedział ufności dla wartości ł . Wykorzystaj
ostatni wzór podany na wykładzie.
str. 7
Wyszukiwarka
Podobne podstrony:
analiza sem 2 lista nr 65 Analiza systemowa wykłady PDF 11 z numeracjąpodstawy automatyki ćwiczenia lista nr+analiza finansowa wyklad KONWykład29 listaanaliza systemowa wyklad2analiza finansowa wyklad Analiza wstepna i poziomaAnaliza Finansowa Wykład 05 02 12 09Analiza regresji21 Analiza regresjiAnaliza regresji 20090518Wykład24 listaanaliza finansowa wykładypodstawy automatyki ćwiczenia lista nr:Lista nr zadań do zapamietania z TMMWykład27 listapodstawy automatyki ćwiczenia lista nr=więcej podobnych podstron