34

ROZDZIAŁ 2. METODA NAJMNIEJSZYCH KWADRATÓW

2

Korektę R 2 zdefiniowano przy tym w ten sposób, że statystyka R rośnie jedynie, gdy wzrost dopasowa-2

nia związany z dodaniem zmiennej jest istotny. Statystyki R nie da się jednak uzasadnić tak elegancką dekompozycją sumy kwadratów reszt jak statystykę R 2.

Przykład 2.10.3 (c.d. 2.1.1) Do zmiennych objaśniaj ˛

acych w modelu dodajemy losowo wygenerowan ˛

a

zmienn ˛

a z. Uzyskane wielkości RSS w modelu orginalnym i w modelu z dodatkow ˛

a zmienn ˛

a s ˛

a następu-

j ˛

ace

Model

RSS

R 2

qi = β 1 + β 2 dochi + εi 122705284

1- 122705284 = .2151

156336837

qi = β 1 + β 2 dochi + β 2 zi + εi 122694775

1- 122694775 =.2152

156336837

Po wprowadzeniu dodatkowej zmiennej RSS spadło o 122705284 − 122694775 = 10509

Zwi ˛

azany ze spadkiem RSS wzrost R 2 jest jednak nieznaczny, na poziomie 0.01%. Niemniej widać, że nawet dodanie całkowicie bezsensownej zmiennej objaśniaj ˛

acej (w tym przypadku zmiennej losowej)

prowadzi do polepszenia dopasowania.

2

Popatrzmy teraz R . S ˛

a one równe:

2

Model

R 2

K

R

qi = β 1 + β 2 dochi + εi

.2151

2

1 − 3345 (1 − . 2151) =.2149

3344

qi = β 1 + β 2 dochi + β 2 zi + εi

.2152

3

1 − 3345 (1 − . 2152) =.2147

3343

Skorygowane R 2 spada po wprowadzeniu bezsensownej zmiennej!

Pytania:

1. Podać interpretację R 2

2. Wyjaśnić dlaczego R 2 nie można używać do porównywania modeli.

2.11

Dodatek Matematyczny

2.11.1

Różniczkowanie funkcji skalaranej wględem wektora zmiennych Zacznijmy od najprostszego przypadku skalarnej funkcja wielu zmiennych f ( x) = f ( x 1 , . . . , xK ).





x

 1. 

Powiedzmy, że różniczkujemy tę funkcję wględem wektora kolumnowego x = 

 . 

.

. Z uzyskanych

xK

2.11. DODATEK MATEMATYCZNY

35

pochodnych tworzymy wektor pochodnych:





∂f

∂x 1

∂f ( x)

 .



=  .



∂x

 .



∂f

∂xn

Taki wektor pochodnych nazywamy w analizie matematycznej gradientem i często oznaczmy jako G( x).

Licząc pochodną względem wektora wierszowego x0 uzyskujemy wektor wierszowy złożony z tych sa-mych pochodnych:

h

i

∂f ( x)

∂f

· · ·

∂f

∂x0

=

∂x 1

∂xn

Przykład 2.11.1 Pochodn ˛

a iloczynu wektora wierszowego w0 i wektora kolumnowego x:





w 1

∂w0x

∂ ( w





1 x 1 + . . . + wnxn)

.

=

= 

.



∂x

∂x

 .  = w

wn

Oczywiście

h

i

∂w0x

w

= w0

∂x0 =

1

· · · wn

2.11.2

Różniczkowanie funkcji wektorowej względem wektora zmiennych Wektor f ( m× 1) jest wielowymiarową funkcją wielu zmiennych:





f

 1 ( x 1 , . . . , xn)

.



f ( x) = 

 .



.



fm ( x 1 , . . . , xn)

Pochodna takiej funkcji ma postać macierzy:









·

¸

∂f 1

∂f 1

· · ·

∂f 1

∂x0

∂x 1

∂xn

∂f ( x)

∂f









i ( x)

.

.

= 

.



 .



∂x0

=

∂x

 .  =  .



j

( m×n)

∂fm

∂fm

· · · ∂fm

∂x0

∂x 1

∂xn





·

¸

∂f 1

· · ·

∂f 1

∂x 1

∂xn

∂f ( x)

∂f





i ( x)

.

= 

.



∂x0

=

∂x

 .



j

( m×n)

∂fm

· · · ∂fm

∂x 1

∂xn

Możliwe jest także różniczkowanie funkcji w postaci wektora wierszowego względem wektora kolumnowego zmiennych.





·

¸

∂f 1

· · · ∂fm

∂x 1

∂x 1

∂f 0 ( x)

∂f





j ( x)

.

=

= 

.



∂x

∂x

 .



i

( n×m)

∂f 1

· · · ∂fm

∂xn

∂xn

36

ROZDZIAŁ 2. METODA NAJMNIEJSZYCH KWADRATÓW

Zauważmy, że relacja między pochodną f ( x) względem wektora wierszowego x0 i pochodną f 0 ( x) policzoną względem wektora kolumnowego x jest następująca:

·

¸

µ

¶ 0

∂f 0 ( x)

∂fj ( x)

∂f ( x)

=

=

(2.6)

∂x

∂xi

∂x0

( n×m)





w0



1

.



Przykład 2.11.2 Policzmy pochodn ˛

a funkcji f ( x) = Ax. Macierz A możemy zapisać jako A = 

 . 

.

 ,

w0m





w0 x



1

.



gdzie w0 jest i-tym wierszem macierzy A. Z kolei f ( x) = Ax = 

.



i



.

 . Pochodna:

w0 x

m









∂w0 x

1

w0

∂x

1

∂f ( x)

∂Ax





.







.



 .. 

∂x0

= ∂x0 = 

.

 =  .  = A

(2.7)

∂w0 x

m

w0

∂x

m

Macierz drugich pochodnych funkcji skalarnej także powstaje jako pochodna funkcji wektorowej (gradientu)





∂f ( x)

 ∂x 1

.



∂ 



.



.







∂ 2 f

· · ·

∂ 2 f

∂f ( x)

∂x 1 ∂x 1

∂x 1 ∂xn

∂ 2 f ( x)





∂x

∂G ( x)

.

n



.



∂x∂x0 =

∂x0

=

∂x0

= 

.



∂ 2 f

∂ 2 f

∂xn∂x 1

∂xn∂xn

Macierz drugich pochodnych nazywamy także Hessianem H( x). Ponieważ

∂ 2 f ( x)

∂ 2 f ( x)

=

∂xi∂xj

∂xj∂xi

więc Hessian jest macierzą symetryczną.

2.11.3

Różniczkowanie iloczynu skalarnego funkcji wektorowych względem wektora zmiennych

W przypadku liczenia pochodnych funkcji wektorowych obowiązują podobne zasady jak w przypadku liczenia zwykłych pochodnych. Rozważmy przykład iloczynu skalarnego funkcji g ( x) i f ( x).

m

X

h ( x) = g0 ( x) f ( x) =

gi ( x) fi ( x) i=1

2.11. DODATEK MATEMATYCZNY

37

Pochodna h ( x) względem x jest równa





 P



∂h( x)

∂

m

g

i=1

i ( x) fi ( x)

∂x 1

∂x 1

∂h ( x)



.





.



= 

.





.



∂x



.

 = 

.



P

∂h( x)

∂

m

g

i=1

i ( x) fi ( x)

∂xn

∂xn

Stosując znany wzór na pochodną iloczynu uzyskujemy:

∂gi ( x) fi ( x)

∂gi ( x)

∂fi ( x)

=

fi ( x) + gi ( x)

∂xk

∂xk

∂xk

Wstawiając ten wynik do poprzedniego wzoru:

 P

P



m

∂gi( x) f

m

∂fi( x) g

i=1

∂x

i ( x) +

i ( x)

1

i=1

∂x 1

∂h ( x)



.



= 

.



∂x



.



P

P

m

∂gi( x) f

m

∂fi( x) g

i=1

∂x

i ( x) +

i ( x)

n

i=1

∂xn

Z definicji iloczynu wektorów

m

X ∂gi ( x)

∂g0 ( x)

fi ( x) =

f ( x)

∂xk

∂xk

i=1

m

X ∂fi ( x)

∂f 0 ( x)

gi ( x) =

g ( x)

∂xk

∂xk

i=1

a więc





∂g0( x) f ( x) + g0 ( x) ∂f( x)

∂x 1

∂x 1

∂h ( x)



.



∂g0 ( x)

∂f 0 ( x)

= 

.



f ( x) +

g ( x)

∂x



.

 =

∂x

∂x

∂g0( x) f ( x) + g0 ( x) ∂f( x)

∂xn

∂xn

Możemy teraz sformułować następujące twierdzenie analogiczne do standardowego twierdzenia o pochodnej iloczynu:

Twierdzenie 2.11.3 Dla m-wymiarowych różniczkowalnych wektorowych funkcji wielu zmiennych g ( x) i f ( x) oraz funkcji skalarnej h ( x) = g0 ( x) f ( x) :

∂h ( x)

∂g0 ( x)

∂f 0 ( x)

=

f ( x) +

g ( x)

(2.8)

∂x

∂x

∂x

Przykład 2.11.4 Pochodn ˛

a formy kwadratowej:

h ( x) = x0Ax

Przyjmijmy, że g ( x) = x a f ( x) = Ax. Korzystaj ˛

ac z wcześniej wyprowadzonego twierdzenia:

∂f ( x)

∂x0Ax

∂x0 ( Ax)

∂x0

∂x0A0

=

=

=

Ax +

x

∂x

∂x

∂x

∂x |{z}

|{z}

|{z}

∂x

| {z }

f ( x)

g( x)

∂g0 ( x)

∂f 0 ( x)

∂x

∂x

µ

¶ 0

∂Ax

¡

¢

= Ax+

x = Ax + A0 x = A + A0 x

∂x0

38

ROZDZIAŁ 2. METODA NAJMNIEJSZYCH KWADRATÓW

Dla przypadku, kiedy A jest symetryczne ∂x0Ax = 2 Ax. Policzymy teraz Hessian dla h ( x) . Korzystaj ˛

ac

∂x

z wcześniej wyprowadzonych wzorów uzyskujemy: ³

´

∂f ( x)

¡

¢

∂ 2 f ( x)

∂

∂x

∂ A + A0 x

∂x∂x0 =

∂x0

=

∂x0

= A + A0

Dla symetrycznej macierzy A, Hessian ten będzie równy:

∂ 2 f ( x)

∂x∂x0 = 2 A

2.11.4

Formy kwadratowe i określoność macierzy

Formą kwadratową nazywamy następującą funkcję:

X X

x0Ax =

aijxixj

i

j

której wynik jest skalarem.

Macierz A musi być kwadratowa. Określoność macierzy definiujemy odwołując się do znaku formy kwadratowej:

• Jeśli x0Ax > 0 dla każdego x 6= 0, to mówimy, że macierz jest dodatnio określona.

• Jeśli x0Ax > 0 dla każdego x, to mówimy, że macierz jest dodatnio półokreślona.

• Jeśli x0Ax < 0 dla każdego x 6= 0, to mówimy, że macierz jest ujemnie określona.

• Jeśli x0Ax 6 0 dla każdego x, to mówimy, że macierz jest ujemnie półokreślona.

Uwaga 2.11.5 Wiele macierzy nie jest ani dodatnio ani ujemnie określona.

Przykład 2.11.6 Badanie dodatniej określoności macierzy X0X. Z definicji dodatniej określoności macierzy wynika, że X0X jest dodatnio określona, jeśli:

z0X0Xz > 0 dla każdego z 6= 0

Zdefiniujmy wektor v = Xz. Badan ˛

a formę kwadratow ˛

a można zapisać jako:

K

X

z0X0Xz = v0 v =

v 2 ≥ 0

i

i=1

Dla każdej macierzy X, macierz X0X jest więc dodatnio półokreślona. X0X jest dodatnio określona jeśli v = Xz 6= 0 , dla każdego z 6= 0 . Warunek ten jest spełniony, jeśłi kolumny macierzy X s ˛

a liniowo

niezależne.

2.11. DODATEK MATEMATYCZNY

39

2.11.5

Optymalizacja funkcji wielu zmiennych

Podwójnie różniczkowalna funkcja wielu zmiennych f ( x), posiada ekstremum (minima, maksima lub punkty siodłowe) w w x∗, jeśli spełniony jest warunek pierwszego rzędu:

¯

∂f ( x) ¯¯

= 0

∂x

¯ x= x∗

Minima spełniają warunek drugiego rzędu , który mówi, że macierz pochodnych drugiego rzędu (Hessian)

¯

∂ 2 f ( x) ¯

H ( x∗) =

¯

∂x∂x0 ¯ x= x∗

jest dodatnio określony.

Dla maksimum Hessian H ( x∗) musi być ujemnie określony.

40

ROZDZIAŁ 2. METODA NAJMNIEJSZYCH KWADRATÓW