Analiza regresji wykład i lista nr 3

Analiza regresji
Analiza reszt we wnioskowaniu o jakości i u\yteczności
modelu regresji
W dalszej części wykładu , o ile wyraznie nie będzie zało\one
inaczej, zakładamy, \e ŁZ = �2I oraz, \e macierz X jest
macierzą pełnego rzędu, tzn. r(X)=k . Estymator MNK
będziemy dalej oznaczali krótko symbolem b.
Określenie
Suma Kwadratów Reszt (SKR) wyra\a się wzorem:
2
SKR = Y - Xb = (Y - Xb)T (Y - Xb)
(ang. sum of squared errors SSE)
Stwierdzenie 1
Wartość oczekiwana ró\nicy zmiennej objaśnianej i
zmiennych objaśniających pomno\onych przez oszacowania
MNK parametrów strukturalnych jest równa zero, tzn.:
E(Y-Xb)=0
str. 1
Analiza regresji
Twierdzenie 1
2
E(SKR) = � (n - k)
Dowód
E(SKR) = E(Y - Xb)T (Y - Xb) =
= E(Y - X(XT X)-1 XT Y)T (Y - X(XT X)-1 XT Y))
= E[Y (In - X(XT X)-1XT )T (In - X(XT X)-1XT )Y]
Macierz A = (Ik - X(XT X)-1XT ) jest macierzą
idempotentną, tzn. spełnia warunek A2=A.
Zatem
E(SKR) = E[YT (In - X(XT X)-1XT )Y]
Wykorzystując znany fakt, \e EYT AY = EYT AEY + trAŁ ,
y
oraz, to \e w rozpatrywanym przypadku EY = X� , mamy:
T
E(SKR) = � XT (In - X(XT X)-1XT )X�
2
+ � tr(In - X(XT X)-1XT ) =
2 2 2 2 2
= n� + � tr(XT X)-1XT X) = n� -� trIk = � (n - k).
Wniosek
Nieobcią\onym estymatorem wariancji zakłóceń w
rozpatrywanym przypadku jest statystyka
SKR
2
SZ = .
n - k
str. 2
Analiza regresji
Nazewnictwo
Wielkość SZ będącą oszacowaniem odchylenia
standardowego nazywamy standardowym błędem modelu.
Liczba n-k (ró\nica liczby obserwacji i liczby estymowanych
parametrów) to liczba stopni swobody modelu
(ang. degrees of freedom).
Wiemy, \e w rozpatrywanym przypadku , \e
2
Cov(b) = � (XT X)-1
Otrzymujemy zatem:
2
2
� = Var(bi ) = � �ii
i
gdzie �ii = (XT X)-1jest i-tym elementem diagonalnym
macierzy (XT X)-1, i=1,2,& ,k.
Wielkość
Sbi = SZ �ii
będąca oszacowaniem odchylenia standardowego estymatora
bi nazywa się standardowym błędem oszacowania i-tego
współczynnika regresji.
str. 3
Analiza regresji
Weryfikacja hipotez i estymacja przedziałowa przy
założeniu normalności zakłóceń
W tym fragmencie wykładu zakładać będziemy, \e wektor Z
ma n wymiarowy rozkład normalny.
Rozpatrzmy w takim przypadku problem estymacji funkcji
parametrycznej ł = wT � . Niech, jak zwykle estymator
g = wT b będzie estymatorem MNK tej wartości. Oczywiście
przy przyjętych zało\eniach estymator ten ma rozkład
normalny. Jego wartość oczekiwana jest równa E(g) = ł ,
natomiast wariancja wynosi:
Var(g) =Var(wT (XT X)-1 XT Y)
2 2 2
= � wT (XT X)-1XT X(XT X)-1 w =� wT (XT X)-1w = � c2
Zdefiniujmy statystykę
g - ł
U =
c�
Statystyka U ma oczywiście rozkład N(0,1).
W dalszym ciągu wykładu wykorzystamy następujące
twierdzenie Fishera-Cochrana
str. 4
Analiza regresji
Twierdzenie 2
Załó\my, \e wektor Z ma rozkład normalny N(0, I).
Warunkiem koniecznym i wystarczającym na to, aby forma
2
kwadratowa ZT AZ miała rozkład � jest, by macierz A była
idempotentna. Liczba stopni swobody tego rozkładu jest
równa rzędowi macierzy A.
Dowód tego twierdzenia (a tak\e jego ogólniejszej postaci)
mo\emy znalezć np. w R.C. Rao, Modele liniowe statystyki,
PWN1982, str 202.
Z powy\szego twierdzenia otrzymujemy, \e je\eli wektor Z
ma rozkład normalny N(0, �2I), to
1
2
ZT AZ ~ � (r(A)) (1.fk)
2
�
Proszę to uzasadnić :)
Zauwa\my, \e
SKR = YT (In - X(XT X)-1XT )Y =
(Y - X� )T (In - X(XT X)-1XT )(Y - X� ) =
ZT (In - X(XT X)-1XT )Z
To te\ proszę uzasadnić :)
str. 5
Analiza regresji
Z powy\szego oraz wzoru (1.fk) otrzymujemy, \e SKR/�2 ma
rozkład �2 o liczbie stopni swobody równej rzędowi macierzy
B = (In - X(XT X)-1XT ). Pamiętamy z algebry liniowej, \e
ślad macierzy idempotentnej jest równy jej rzędowi.
Zatem aby znalezć ów rząd policzymy ślad macierzy B.
Otrzymujemy
trB = trIn + trX(XT X)-1XT = n - tr(XT X)-1XT X = n - k
Ostatecznie wykazaliśmy, \e
1
2
SKR ~ � (n - k).
2
�
Dalej wykorzystamy następujące twierdzenie
Twierdzenie (ogólna wersja twierdzenia Fishera)
Niech wektor Z ma rozkład normalny N(0, �2I). Jeśli
BA = 0, to forma liniowa BZ i forma kwadratowa ZT AZ są
stochastycznie niezale\ne.
Bez dowodu.
Pamiętamy, \e jeśli U ma rozkład normalny standaryzowany,
a T ma rozkład �2(n) oraz U i T są niezale\ne, to
U
t = ~ t(n)
T
n
Aatwo mo\na więc pokazać, \e statystyka
g - ł wT b - wT �
t = =
SKR cSZ
c�
2
� (n - k)
Ma rozkład Studenta o n-k stopniach swobody.
str. 6
Analiza regresji
Znajomość rozkładu tej statystyki mo\emy wykorzystać przy
testowaniu hipotez dotyczących prawdziwych wartości funkcji
parametrycznych oraz przy konstrukcji przedziałów ufności na
te wartości.
Zadania na ćwiczenia.
1. Uzasadnij poprawność wzorów i przekształceń ze strony 5
2. Skonstruuj przedział ufności dla wartości ł . Wykorzystaj
ostatni wzór podany na wykładzie.
str. 7

Wyszukiwarka

Podobne podstrony:
analiza sem 2 lista nr 6
5 Analiza systemowa wykłady PDF 11 z numeracją
podstawy automatyki ćwiczenia lista nr+
analiza finansowa wyklad KON
Wykład29 lista
analiza systemowa wyklad2
analiza finansowa wyklad Analiza wstepna i pozioma
Analiza Finansowa Wykład 05 02 12 09
Analiza regresji
21 Analiza regresji
Analiza regresji 20090518
Wykład24 lista
analiza finansowa wykłady
podstawy automatyki ćwiczenia lista nr:
Lista nr zadań do zapamietania z TMM
Wykład27 lista
podstawy automatyki ćwiczenia lista nr=

więcej podobnych podstron