ROZDZIAŁ 2. METODA NAJMNIEJSZYCH KWADRATÓW
2
Korektę R 2 zdefiniowano przy tym w ten sposób, że statystyka R rośnie jedynie, gdy wzrost dopasowa-2
nia związany z dodaniem zmiennej jest istotny. Statystyki R nie da się jednak uzasadnić tak elegancką dekompozycją sumy kwadratów reszt jak statystykę R 2.
Przykład 2.10.3 (c.d. 2.1.1) Do zmiennych objaśniaj ˛
acych w modelu dodajemy losowo wygenerowan ˛
a
zmienn ˛
a z. Uzyskane wielkości RSS w modelu orginalnym i w modelu z dodatkow ˛
a zmienn ˛
a s ˛
a następu-
j ˛
ace
Model
RSS
R 2
qi = β 1 + β 2 dochi + εi 122705284
1- 122705284 = .2151
156336837
qi = β 1 + β 2 dochi + β 2 zi + εi 122694775
1- 122694775 =.2152
156336837
Po wprowadzeniu dodatkowej zmiennej RSS spadło o 122705284 − 122694775 = 10509
Zwi ˛
azany ze spadkiem RSS wzrost R 2 jest jednak nieznaczny, na poziomie 0.01%. Niemniej widać, że nawet dodanie całkowicie bezsensownej zmiennej objaśniaj ˛
acej (w tym przypadku zmiennej losowej)
prowadzi do polepszenia dopasowania.
2
Popatrzmy teraz R . S ˛
a one równe:
2
Model
R 2
K
R
qi = β 1 + β 2 dochi + εi
.2151
2
1 − 3345 (1 − . 2151) =.2149
3344
qi = β 1 + β 2 dochi + β 2 zi + εi
.2152
3
1 − 3345 (1 − . 2152) =.2147
3343
Skorygowane R 2 spada po wprowadzeniu bezsensownej zmiennej!
Pytania:
1. Podać interpretację R 2
2. Wyjaśnić dlaczego R 2 nie można używać do porównywania modeli.
2.11
Dodatek Matematyczny
2.11.1
Różniczkowanie funkcji skalaranej wględem wektora zmiennych Zacznijmy od najprostszego przypadku skalarnej funkcja wielu zmiennych f ( x) = f ( x 1 , . . . , xK ).
x
1.
Powiedzmy, że różniczkujemy tę funkcję wględem wektora kolumnowego x =
.
.
. Z uzyskanych
xK
35
pochodnych tworzymy wektor pochodnych:
∂f
∂x 1
∂f ( x)
.
= .
∂x
.
∂f
∂xn
Taki wektor pochodnych nazywamy w analizie matematycznej gradientem i często oznaczmy jako G( x).
Licząc pochodną względem wektora wierszowego x0 uzyskujemy wektor wierszowy złożony z tych sa-mych pochodnych:
h
i
∂f ( x)
∂f
· · ·
∂f
∂x0
=
∂x 1
∂xn
Przykład 2.11.1 Pochodn ˛
a iloczynu wektora wierszowego w0 i wektora kolumnowego x:
w 1
∂w0x
∂ ( w
1 x 1 + . . . + wnxn)
.
=
=
.
∂x
∂x
. = w
wn
Oczywiście
h
i
∂w0x
w
= w0
∂x0 =
1
· · · wn
2.11.2
Różniczkowanie funkcji wektorowej względem wektora zmiennych Wektor f ( m× 1) jest wielowymiarową funkcją wielu zmiennych:
f
1 ( x 1 , . . . , xn)
.
f ( x) =
.
.
fm ( x 1 , . . . , xn)
Pochodna takiej funkcji ma postać macierzy:
·
¸
∂f 1
∂f 1
· · ·
∂f 1
∂x0
∂x 1
∂xn
∂f ( x)
∂f
i ( x)
.
.
=
.
.
∂x0
=
∂x
. = .
j
( m×n)
∂fm
∂fm
· · · ∂fm
∂x0
∂x 1
∂xn
·
¸
∂f 1
· · ·
∂f 1
∂x 1
∂xn
∂f ( x)
∂f
i ( x)
.
=
.
∂x0
=
∂x
.
j
( m×n)
∂fm
· · · ∂fm
∂x 1
∂xn
Możliwe jest także różniczkowanie funkcji w postaci wektora wierszowego względem wektora kolumnowego zmiennych.
·
¸
∂f 1
· · · ∂fm
∂x 1
∂x 1
∂f 0 ( x)
∂f
j ( x)
.
=
=
.
∂x
∂x
.
i
( n×m)
∂f 1
· · · ∂fm
∂xn
∂xn
ROZDZIAŁ 2. METODA NAJMNIEJSZYCH KWADRATÓW
Zauważmy, że relacja między pochodną f ( x) względem wektora wierszowego x0 i pochodną f 0 ( x) policzoną względem wektora kolumnowego x jest następująca:
·
¸
µ
¶ 0
∂f 0 ( x)
∂fj ( x)
∂f ( x)
=
=
(2.6)
∂x
∂xi
∂x0
( n×m)
w0
1
.
Przykład 2.11.2 Policzmy pochodn ˛
a funkcji f ( x) = Ax. Macierz A możemy zapisać jako A =
.
.
,
w0m
w0 x
1
.
gdzie w0 jest i-tym wierszem macierzy A. Z kolei f ( x) = Ax =
.
i
.
. Pochodna:
w0 x
m
∂w0 x
1
w0
∂x
1
∂f ( x)
∂Ax
.
.
..
∂x0
= ∂x0 =
.
= . = A
(2.7)
∂w0 x
m
w0
∂x
m
Macierz drugich pochodnych funkcji skalarnej także powstaje jako pochodna funkcji wektorowej (gradientu)
∂f ( x)
∂x 1
.
∂
.
.
∂ 2 f
· · ·
∂ 2 f
∂f ( x)
∂x 1 ∂x 1
∂x 1 ∂xn
∂ 2 f ( x)
∂x
∂G ( x)
.
n
.
∂x∂x0 =
∂x0
=
∂x0
=
.
∂ 2 f
∂ 2 f
∂xn∂x 1
∂xn∂xn
Macierz drugich pochodnych nazywamy także Hessianem H( x). Ponieważ
∂ 2 f ( x)
∂ 2 f ( x)
=
∂xi∂xj
∂xj∂xi
więc Hessian jest macierzą symetryczną.
2.11.3
Różniczkowanie iloczynu skalarnego funkcji wektorowych względem wektora zmiennych
W przypadku liczenia pochodnych funkcji wektorowych obowiązują podobne zasady jak w przypadku liczenia zwykłych pochodnych. Rozważmy przykład iloczynu skalarnego funkcji g ( x) i f ( x).
m
X
h ( x) = g0 ( x) f ( x) =
gi ( x) fi ( x) i=1
37
Pochodna h ( x) względem x jest równa
P
∂h( x)
∂
m
g
i=1
i ( x) fi ( x)
∂x 1
∂x 1
∂h ( x)
.
.
=
.
.
∂x
.
=
.
P
∂h( x)
∂
m
g
i=1
i ( x) fi ( x)
∂xn
∂xn
Stosując znany wzór na pochodną iloczynu uzyskujemy:
∂gi ( x) fi ( x)
∂gi ( x)
∂fi ( x)
=
fi ( x) + gi ( x)
∂xk
∂xk
∂xk
Wstawiając ten wynik do poprzedniego wzoru:
P
P
m
∂gi( x) f
m
∂fi( x) g
i=1
∂x
i ( x) +
i ( x)
1
i=1
∂x 1
∂h ( x)
.
=
.
∂x
.
P
P
m
∂gi( x) f
m
∂fi( x) g
i=1
∂x
i ( x) +
i ( x)
n
i=1
∂xn
Z definicji iloczynu wektorów
m
X ∂gi ( x)
∂g0 ( x)
fi ( x) =
f ( x)
∂xk
∂xk
i=1
m
X ∂fi ( x)
∂f 0 ( x)
gi ( x) =
g ( x)
∂xk
∂xk
i=1
a więc
∂g0( x) f ( x) + g0 ( x) ∂f( x)
∂x 1
∂x 1
∂h ( x)
.
∂g0 ( x)
∂f 0 ( x)
=
.
f ( x) +
g ( x)
∂x
.
=
∂x
∂x
∂g0( x) f ( x) + g0 ( x) ∂f( x)
∂xn
∂xn
Możemy teraz sformułować następujące twierdzenie analogiczne do standardowego twierdzenia o pochodnej iloczynu:
Twierdzenie 2.11.3 Dla m-wymiarowych różniczkowalnych wektorowych funkcji wielu zmiennych g ( x) i f ( x) oraz funkcji skalarnej h ( x) = g0 ( x) f ( x) :
∂h ( x)
∂g0 ( x)
∂f 0 ( x)
=
f ( x) +
g ( x)
(2.8)
∂x
∂x
∂x
Przykład 2.11.4 Pochodn ˛
a formy kwadratowej:
h ( x) = x0Ax
Przyjmijmy, że g ( x) = x a f ( x) = Ax. Korzystaj ˛
ac z wcześniej wyprowadzonego twierdzenia:
∂f ( x)
∂x0Ax
∂x0 ( Ax)
∂x0
∂x0A0
=
=
=
Ax +
x
∂x
∂x
∂x
∂x |{z}
|{z}
|{z}
∂x
| {z }
f ( x)
g( x)
∂g0 ( x)
∂f 0 ( x)
∂x
∂x
µ
¶ 0
∂Ax
¡
¢
= Ax+
x = Ax + A0 x = A + A0 x
∂x0
ROZDZIAŁ 2. METODA NAJMNIEJSZYCH KWADRATÓW
Dla przypadku, kiedy A jest symetryczne ∂x0Ax = 2 Ax. Policzymy teraz Hessian dla h ( x) . Korzystaj ˛
ac
∂x
z wcześniej wyprowadzonych wzorów uzyskujemy: ³
´
∂f ( x)
¡
¢
∂ 2 f ( x)
∂
∂x
∂ A + A0 x
∂x∂x0 =
∂x0
=
∂x0
= A + A0
Dla symetrycznej macierzy A, Hessian ten będzie równy:
∂ 2 f ( x)
∂x∂x0 = 2 A
2.11.4
Formy kwadratowe i określoność macierzy
Formą kwadratową nazywamy następującą funkcję:
X X
x0Ax =
aijxixj
i
j
której wynik jest skalarem.
Macierz A musi być kwadratowa. Określoność macierzy definiujemy odwołując się do znaku formy kwadratowej:
• Jeśli x0Ax > 0 dla każdego x 6= 0, to mówimy, że macierz jest dodatnio określona.
• Jeśli x0Ax > 0 dla każdego x, to mówimy, że macierz jest dodatnio półokreślona.
• Jeśli x0Ax < 0 dla każdego x 6= 0, to mówimy, że macierz jest ujemnie określona.
• Jeśli x0Ax 6 0 dla każdego x, to mówimy, że macierz jest ujemnie półokreślona.
Uwaga 2.11.5 Wiele macierzy nie jest ani dodatnio ani ujemnie określona.
Przykład 2.11.6 Badanie dodatniej określoności macierzy X0X. Z definicji dodatniej określoności macierzy wynika, że X0X jest dodatnio określona, jeśli:
z0X0Xz > 0 dla każdego z 6= 0
Zdefiniujmy wektor v = Xz. Badan ˛
a formę kwadratow ˛
a można zapisać jako:
K
X
z0X0Xz = v0 v =
v 2 ≥ 0
i
i=1
Dla każdej macierzy X, macierz X0X jest więc dodatnio półokreślona. X0X jest dodatnio określona jeśli v = Xz 6= 0 , dla każdego z 6= 0 . Warunek ten jest spełniony, jeśłi kolumny macierzy X s ˛
a liniowo
niezależne.
39
2.11.5
Optymalizacja funkcji wielu zmiennych
Podwójnie różniczkowalna funkcja wielu zmiennych f ( x), posiada ekstremum (minima, maksima lub punkty siodłowe) w w x∗, jeśli spełniony jest warunek pierwszego rzędu:
¯
∂f ( x) ¯¯
= 0
∂x
¯ x= x∗
Minima spełniają warunek drugiego rzędu , który mówi, że macierz pochodnych drugiego rzędu (Hessian)
¯
∂ 2 f ( x) ¯
H ( x∗) =
¯
∂x∂x0 ¯ x= x∗
jest dodatnio określony.
Dla maksimum Hessian H ( x∗) musi być ujemnie określony.
ROZDZIAŁ 2. METODA NAJMNIEJSZYCH KWADRATÓW