Gradient, pochodna złożenia, pochodne drugiego rzędu
Potrzebna nam bedzie pewna wlasność przeksztalceń liniowych.
Twierdzenie o ciagloÅ›ci przeksztalcenia liniowego JeÅ›li f: k - l jest przeksztalceniem liniowym, to istnieje liczba c > 0 taka, że dla każdego x " k zachodzi nierówność f(x) d" c x . Dowód. Niech (y1, y2, . . . , yl) = y = f(x) = f(x1, x2, . . . , xk) . Istnieje macierz A = (ai,j) , która ma l wierszy ( 1 d" i d" l ) i k kolumn ( 1 d" j d" k ) taka, że dla każdego i zachodzi równość yi = ai,1x1 + ai,2x2 + · · · + ai,kxk .
Stad z kolei wynika, że 2 2 2 y = y1 + y2 + · · · + yl d" x · a1 + a2 + · · · + a2 + a1 + a2 + · · · + a2 + · · · + a2 . 1,1 1,2 1,k 2,1 2,2 2,k l,k Teza zachodzi dla c = a1 + a2 + · · · + a2 + a1 + a2 + · · · + a2 + · · · + a2 Dowód zostal 1,1 1,2 1,k 2,1 2,2 2,k l,k zakoÅ„czony. 1 0 Liczba c wskazana w dowodzie na ogól nie jest najmniejsza z możliwych. JeÅ›li np. A = , 0 1 " " to c znalezione w dowodzie równe jest 12 + 02 + 02 + 12 = 2 , wiec z dowodu wynika, że 1 0 x1 " x1 " 1 0 x1 x1 · d" 2 = 2 · x2 + x2 , ale · = = x2 + x2 , 1 2 0 1 x2 x2 0 1 x2 x2 1 2 " wiec można też przyjać c = 1 < 2 . Najmniejsza liczba nieujemna c , dla której zachodzi nierówność
Ax d" c x oznaczana jest symbolem A i nazywana norma macierzy A . Dla każdego x " k
zachodzi wiec nierówność Ax d" A · x . Wynika stad miedzy innymi, że Ax1 - Ax2 = A(x1 - x2) d" A · x1 - x2 ,
a stad ciaglość przeksztalcenia x - Ax wynika od razu: zmiana wartości nie przekracza zmiany
argumentu pomnożonej przez stala. W szczególności lim Ax = 0 . x0
Zaczniemy od podania wzoru na pochodna zlożenia dwu funkcji. Twierdzenie o różniczce zlożenia dwu funkcji Zalóżmy, że funkcja g jest różniczkowalna w punkcie p a funkcja f w punkcie g(p) oraz że zlożenie f ć%g jest zdefiniowane, tj. dziedzina funkcji f zawiera zbiór wartoÅ›ci funkcji g . Wtedy zlożenie f ć%g jest różniczkowalne w punkcie p i zachodzi równość: D(f ć% g)(p) = Df(g(p)) · Dg(p) , tu kropka oznacza mnożenie macierzy czyli skladanie przeksztalceÅ„ liniowych. Dowód. f (p+h)-f(p)-Df(p)h Niech r (h) = dla h = 0 i niech rf (0) = 0 . Z tego, że funkcja f jest
f h różniczkowalna w punkcie p wynika od razu, że lim r (h) = 0 . Mamy f h0 f(p + h) = f(p) + Df(p)h + h r (h) . f
g[f (p)+H]-g(p)-Dg[f (p)]H Analogicznie można zdefiniować funkcje r (H) = , zatem g H g[f(p) + H] = g[f(p)] + Dg[f(p)]H + H r (H) . g Niech H = H(h) = f(p + h) - f(p) = Df(p)h + r (h) · h . Jasne jest, że istnieje liczba ´ > 0 f taka, że jeÅ›li H d" ´ , to r (h) < 1 i wobec tego H d" Df(p) + 1 · h , w szczególnoÅ›ci f H lim H(h) = 0 i d" Df(p) + 1 . Mamy h h0 g[f(p + h)] = g f(p) + Df(p)h + r (h) · h = g[f(p) + H] = g[f(p)] + Dg[f(p)] · H + r (H) · H = f g 1035 =g[f(p)] + Dg[f(p)] · Df(p)h + Dg[f(p)] · r (h) · h + r (H) · H = = = = f g h =0 H = g[f(p)] + Dg[f(p)] · Df(p)h + h Dg[f(p)] · r (h) + r (H) · . f g h
H Ponieważ lim r (h) = 0 , lim r (H) = 0 i d" Df(p) + 1 , gdy h < ´ , wiec zachodzi wzór f g h h0 H0 H lim Dg[f(p)] · r (h) + r (H) · = 0 , a to oznacza, że D(g ć% f)(p) = Dg[f(p)]Df(p) . f g h h0
wyraz znajdujacy sie na przecieciu i tego wiersza i j tej kolumny macierzy D(g ć% f)(p) jest
iloczynem skalarnym i tego wiersza macierzy Dg f(p) i j tej kolumny macierzy Df(p) . Czesto zamiast fs(p) piszemy ys , a zamiast gr(f(p)) zr . Wtedy wzór przyjmuje postać: "zi "zi "y1 "zi "y2 "zi "yl = · + · + · · · + · "xj "y1 "xj "y2 "xj "yl "xj Teraz pokażemy przyklad zastosowania tego twierdzenia. Niech g(x, y, z) = (x2 + y2 + z2)n/2 i "(gć%f ) niech f(r, Õ, È) = (r cos Õ cos È, r cos Õ sin È, r sin Õ) . Znajdziemy . "r "g "g "g Mamy = nx(x2+y2+z2)(n-1)/2 , = ny(x2+y2+z2)(n-1)/2 oraz = nz(x2+y2+z2)(n-1)/2 . "x "y "z "f Mamy też = (cos Õ cos È, cos Õ sin È, sin Õ) , zatem "r "(gć%f ) = nx(x2 + y2 + z2)(n-1)/2 · cos Õ cos È + ny(x2 + y2 + z2)(n-1)/2 · cos Õ sin È + "r + nz(x2 + y2 + z2)(n-1)/2 · sin Õ = nrn cos2 Õ cos2 È + cos2 Õ sin2 È + sin2 Õ = nrn . Analogicznie "(gć%Õ) = nx(x2 + y2 + z2)(n-1)/2 · r(- sin Õ)Õ cos È + ny(x2 + y2 + z2)(n-1)/2 · r(- sin Õ) sin È + "r + nz(x2 + y2 + z2)(n-1)/2 · r cos Õ = nrn+1 - sin Õ cos Õ cos2 È - sin Õ cos Õ sin2 È + sin Õ cos Õ = 0 .
Niech teraz g bedzie dowolna funkcja o wartościach rzeczywistych różniczkowalna w punkcie
p " k i niech f(t) = p + v · t . Wtedy pochodna funkcji g ć% f w punkcie 0 nazywana jest pochodna
kierunkowa funkcji g w punkcie p w kierunku wektora v . Oznaczana jest różnymi symbolami, np. - --------- g v(p) . Niech v = (v1, v2, . . . , vk) . Wtedy z twierdzenia o różniczce zlożenia wynika, że -"------------------- -g "g - --------- "g "g "g "g g v(p) = (p), (p), . . . , (p) · (v1, v2, . . . , vk) = (p)v1 + (p)v2 + . . . + (p)vk . "x1 "x2 "xk "x1 "x2 "xk -"----------------g -g "g --- " Wektor (p), (p), . . . , (p) nazywany jest gradientem funkcji g w punkcie p , oznaczany "x1 "x2 "xk jest na ogól symbolem grad g(p) lub "g(p) . Z nierównoÅ›ci Schwarza wynika, że g v(p) d" grad g(p) · v .
Równość ma tu miejsce wtedy i tylko wtedy, gdy wektory grad g(p) i v sa równolegle i maja taki sam zwrot. Jeśli ograniczymy nasze rozważania do pochodnych w kierunku wektorów o dlugości 1 ,
to okaże sie, że najwieksza z nich jest pochodna w kierunku wektora równoleglego do gradientu,
skierowanego w te sama strone, w która skierowany jest gradient. Ponieważ pochodna kierunkowa
mierzy tempo zmian funkcji w kierunku wektora, wiec mówimy, że kierunek najszybszego wzrostu funkcji wskazuje jej gradient.
Ograniczymy sie w istocie rzeczy do pochodnych funkcji o wartościach rzeczywistych. Nie ma
najmniejszego klopotu ze zdefiniowaniem pochodnych czastkowych drugiego rzedu. Jeśli funkcja
f: G - ma w zbiorze otwartym G pochodne czastkowe pierwszego rzedu, to możemy pytać o
to, czy maja one pochodne czastkowe. 1036
Definicja pochodnych czastkowych wyższego rzedu
"f Jeśli pochodna czastkowa ma w punkcie p " G pochodna czastkowa wzgledem zmiennej xj , "xi
to te pochodna nazywamy pochodna czastkowa drugiego rzedu funkcji f w punkcie p wzgledem "2f zmiennych xi , xj i oznaczamy symbolem (p) . Jeśli i = j , to mówimy o pochodnej mieszanej.
"xj"xi
"2f Jeśli i = j , to piszemy (p) . Analogicznie definiowane sa pochodne czastkowe wyższych rzedów. "x2 i x "2f "2f "2f "2f Jeśli f = x2 + 11xy + 37y2 , to (p) = 2 , (p) = 74 , (p) = 11 , (p) = 11 , y "x2 "y2 "y"x "x"y
"f x "f x bo = 2x + 11y i = 11x + 74y . Przykladów na razie nie bedziemy mnożyć, bo w istocie "x y "y y
rzeczy nie ma w nich nic istotnie nowego, po prostu liczymy nastepne pochodne. Definicja macierzy drugiej różniczki
"2f Macierza drugiej różniczki funkcji f: G - w punkcie p nazywamy macierz (p) , jeśli "xi"xj
"2f pochodne (p) istnieja dla i, j " {1, 2, . . . , k} . "xi"xj
Z definicji wynika, że macierz drugiej różniczki jest macierza kwadratowa. Na ogól jest ona symetryczna, tzn. w różnych sytuacjach symetrii może nie być, ale jest tak w przypadku funkcji
zdefiniowanych wzorami o czym mówi nastepujace Twierdzenie Schwarza o symetrii drugiej różniczki "2f "2f Jeśli funkcja f: G - ma pochodne mieszane (p) i (p) w każdym punkcie p zbioru "xi"xj "xj "xi
G i obie te pochodne sa ciagle w punkcie q " G , to sa w tym punkcie równe: "2f "2f (q) = (q) . "xi"xj "xj"xi Dowód.
Ponieważ mowa jest o pochodnych wzgledem xi oraz wzgledem xj , wiec można myśleć o funkcji
dwu zmiennych, pozostale zmienne i tak traktowane sa jako parametry. Dalej zakladamy wiec, że a u G ‚" 2 , piszemy x zamiast xi oraz y zamiast xj . Niech q = i h = . Ponieważ zakladamy, b v
że zbiór G jest otwarty, wiec dla dostatecznie malych h określić możemy liczbe
u a+u a+u a a a+u a+u g = f - f - f + f . Traktujac f - f jako funkcje zmiennej u v b+v v b+v b b+v v przy ustalonym v możemy zastosować jednowymiarowe twierdzenie Lagrange a o wartości średniej:
u "g a+tu "g a+tu istnieje wiec liczba t " (0, 1) , taka że g = u - . Traktujac teraz u i t jako v "x b+v "x b
stale a v jako zmienna możemy znów skorzystać z twierdzenia o wartości średniej: istnieje wiec
u "2f a+tu liczba s " (0, 1) , taka że g = vu . Ustalajac najpierw v a potem u stwierdzimy w v "y"x b+sv
u "2f a+Ä u taki sam sposób, że istnieja liczby Ä, à " (0, 1) , takie że g = uv . Przyjmujac teraz v "x"y b+Ãv u = v w obu równoÅ›ciach otrzymujemy: 1 u "2f a+tu "2f a 1 u "2f a+Ä u "2f a lim g = lim = , lim g = lim = . u2 u "y"x b+sv "y"x b u2 u "x"y b+Ãv "x"y b u0 u0 u0 u0
Ponieważ lewe strony sa równe, wiec prawe też. Dowód zostal zakończony.
Od tej pory nie musimy wiec pamietać na czym dokladnie polega różnica miedzy symbolami "2f "2f i . Ostrzegamy jednak, że to twierdzenie, jak każde inne, ma zalożenia. Na wszelki "xi"xj "xj "xi
wypadek podamy standardowy przyklad wskazujacy na konieczność pamietania o tych zalożeniach. Niech 0, jeśli x = 0 = y; x f = x2-y2 y xy , jeśli x2 + y2 > 0. x2+y2
"f x "f 0 Korzystajac z definicji pochodnej stwierdzamy, że = x oraz = -y . Stad już latwo "y 0 "x y
sa różne, ale w przypadkach, którymi bedziemy sie zajmować, beda spelnione zalożenia twierdzenia o symetrii drugiej różniczki! 1037 Uwaga. W dowodzie twierdzenia o symetrii drugiej różniczki pochodna mieszana zostala wyrażona jako
granica podwójnego ilorazu różnicowego , w którym nie wystepuje żadna pochodna pierwszego
rzedu. W liczniku wystepuje różnica drugiego rzedu : a+u a+u a a a+u a+u a a f - f - f + f = f - f - f - f = b+v v b+v b b+v v b+v b a+u a a+u a = f - f - f - f b+v b+v v b Przypomina to o tym, że druga pochodna mierzy tempo zmian tempa zmian funkcji. W jednym
wymiarze zwiazane to bylo wypuklościa funkcji, tu sytuacja jest nieco bardziej skomplikowana, bo
mówimy jedynie o pochodnych czastkowych. Widać jednak, że rozważamy najpierw zmiany wartości
funkcji odpowiadajace zmianie jednego argumentu (np. y ) odpowiadajace różnych wartościom in-
nego argumentu (w tym przypadku x ), a potem ich różnice. To ważna interpretacja.
W rachunku różniczkowym najważniejsza idea to przybliżanie funkcji funkcja liniowa, wystepuje
ona już w definicji pochodnej. Nastepny krok to przybliżanie wielomianami odpowiedniego stopnia,
gdy przybliżenia liniowe sa niewystarczajace. Odpowiednie twierdzenia zawieraja wzór Taylora z
różnymi postaciami reszty. Zajmiemy sie teraz tym wzorem w przypadku funkcji wielu zmiennych i wielomianów drugiego stopnia. Warto od razu stwierdzić, że można używać wielomianów wyższego
stopnia, ale nie chcemy komplikować wzorów, zreszta, wg. wiedzy autora, wielomiany Taylora stopnia
wyższego niż 2 nie sa zbyt czesto używane przez ekonomistów. Druga przyczyna tego ograniczenia jest wiara autora w to, że ktoś kto zrozumial jak można stosować wielomiany Taylora wyższych stopni
w jednym wymiarze i wielomiany stopnia drugiego w wielu wymiarach, nie bedzie mieć trudności z użyciem wielomianów Taylora stopnia wyższego niż 2 w przypadku funkcji wielu zmiennych. Definicja drugiego wielomianu Taylora i drugiej reszty
Zalóżmy, że funkcja f: G - ma pochodne czastkowe drugiego rzedu w punkcie p " G . Drugim wielomianem Taylora funkcji f w punkcie p nazywamy wielomian zmiennych h1 , h2 ,. . . , hk : k k "f 1 "2f f(p) + (p)hi + (p)hihj . "xi 2 "xi"xj i=1 i,j=1
Druga reszta nazywamy różnice ëÅ‚ öÅ‚ k k 1 "2f íÅ‚f(p) "f r2(h) = f(p + h) - + (p)hi + (p)hihjÅ‚Å‚ . "xi 2 "xi"xj i=1 i,j=1 "2f Zauważmy, że jeÅ›li choć jedna z pochodnych (p) jest różna od 0, to stopieÅ„ wielomianu jest "xi"xj x "f x "f x równy 2. Niech np. f = ex+3y i p = 0 . Wtedy = ex+3y , = 3ex+3y , zatem y "x y "y y 2 "f x "2f x "2f x = ex+3y , = 3ex+3y i = 9ex+3y . Wobec tego drugi wielomian Taylora funkcji "x2 y "x"y y "y2 y
f w punkcie 0 wyglada tak: 1 1 9 1 + 1 · h1 + 3 · h2 + 1 · h2 + 3 · h1h2 + 3 · h2h1 + 9 · h2 = 1 + h1 + 3h2 + h2 + 3h1h2 + h2 . 1 2 1 2 2 2 2 Najważniejsze, choć bardzo proste, twierdzenie brzmi prawie tak samo jak w jednowymiarowym
przypadku, ale my wzmocnimy nieco zalożenia, bo konsekwentnie unikamy pojecia różniczki drugiego
rzedu. Twierdzenie G.Peano
Jeśli funkcja f: G - ma pochodne drugiego rzedu w zbiorze G i sa one ciagle w każdym punkcie r2(h) zbioru G , to dla każdego p " G zachodzi równość: lim = 0 . h0 h 2 1038
Dowód. Potraktujemy r2 jako funkcje zmiennej h . Zachodza wtedy nastepujace równości
"r2 "f "f k "2f r2(0) = 0 , (h) = (p + h) - (p) - (p)hj , a stad wynika już latwo, że "hi "xi "xi j=1 "xi"xj
"2r2 "2f "2f (h) = (p + h) - (p) . Z ciagloÅ›ci pochodnych czastkowych drugiego rzedu wy- "hi"hj "xi"xj "xi"xj "2r2 nika, że lim (h) = 0 , oczywiÅ›cie r2 zależy od p , ale ten punkt jest w calym rozumowaniu "hi"hj h0 ustalony. Teraz twierdzenie o wartoÅ›ci Å›redniej: r2(h) = r2(h) - r2(0) d" h sup Dr2(Äh) . 0d"Ä d"1 "r2 "r2 Zastosujemy to samo twierdzenie raz jeszcze tym razem do funkcji . Mamy (0) = 0 wynika "hi "hi
to natychmiast z wzoru na pochodne czastkowe funkcji r2 , zatem "r2 "r2 "r2 "r2 "r2 (Äh) = (Äh) - (0) d" Äh sup D (ÃÄh) d" h sup D (ÃÄh) "hi "hi "hi "hi "hi 0d"Ãd"1 0d"Ãd"1
Ponieważ norma macierzy daje sie oszacować przez pierwiastek kwadratowy z sumy kwadratów
"2r2 "r2 wspólczynników macierzy i lim (h) = 0 , wiec lim D (ÃÄh) = 0 oraz "hi"hj "hi h0 h0 k 2 r2(h) 1 1 "r2 d" sup Dr2(Äh) d" sup (Äh) d" 2 h h h "hi 0d"Äd"1 0d"Äd"1 i=1 k 2 "r2 d" sup sup D (ÃÄh) --- 0 - "hi h0 0d"Ä d"1 0d"Ãd"1 i=1
Te szacowania kończa dowód. Dowód twierdzenia Peano podaliśmy glównie po to, by raz jeszcze uświadomić czytelnikom, że pochodna sluży do oszacowania tempa zmian funkcji. Przejdziemy teraz do twierdzenia, które pozwala w wielu przypadkach ustalić czy w punkcie
zerowania sie gradientu funkcja ma lokalne ekstremum czy też nie. Twierdzenie o lokalnych ekstremach funkcji dwukrotnie różniczkowalnej
Zalóżmy, że funkcja f: G - ma w zbiorze G pochodne czastkowe drugiego rzedu oraz że sa one
"2f ciagle. Niech grad f(p) = 0 . Niech A = (p) bedzie macierza drugiej różniczki funkcji f "xi"xj w punkcie p . W tej sytuacji
a. jeśli forma kwadratowa zdefiniowana macierza A jest dodatnio określona, to funkcja f ma w punkcie p lokalne minimum wlaściwe;
b. jeśli forma kwadratowa zdefiniowana macierza A jest ujemnie określona*, to funkcja f ma w punkcie p lokalne maksimum wlaściwe;
c. jeÅ›li istnieja wektory v " k oraz w " k , takie że Av · v < 0 < Aw · w , to w punkcie p
funkcja f nie ma lokalnego ekstremum: w dowolnym otoczeniu tego punktu znajduja sie punkty x , takie że f(p) > f(x) oraz punkty y , takie że f(y) > f(p) . Dowód. a. Z twierdzenia o oszacowaniu wartoÅ›ci jednorodnego wielomianu kwadratowego wynika, że ist- 2 nieje liczba µ > 0 , taka że dla każdego x " k zachodzi nierówność Ax·x e" µ x . Z twierdze- µ 2 nia Peano wynika, że istnieje liczba ´ > 0 , taka że jeÅ›li h < ´ , to |r2(h)| < h . Wobec 2 k k "f "2f 1 tego f(p + h) = f(p) + (p)hi + (p)hihj + r2(h) = "xi 2 "xi"xj i=1 i,j=1 k "2f 1 = f(p) + (p)hihj + r2(h) = f(p) + Ah · h + r2(h) . 2 "xi"xj i,j=1
JeÅ›li 0 < h < ´ , to wartość bezwzgledna trzeciego skladnika jest mniejsza niż skladnik drugi,
wiec ich suma jest dodatnia niezależnie od znaku r2(h) . To kończy dowód tego, że w kuli
* tzn. forma kwadratowa zdefiniowana macierza przeciwna, -A , jest dodatnio określona 1039
B(p, ´) najmniejsza wartość funkcja f przyjmuje w punkcie p i w żadnym innym, wiec ma ona w punkcie p lokalne minimum wlaÅ›ciwe.
b. Stosujemy udowodniona już cześć twierdzenia do funkcji -f .
c. Niech g(t) = f(p + tv) . Ponieważ G jest zbiorem otwartym, wiec tym wzorem funkcje g
możemy zdefiniować na pewnym przedziale otwartym zawierajacym liczbe 0. Funkcja g jest
dwukrotnie różniczkowalna, bo f ma pochodne drugiego rzedu. Z twierdzenia o pochodnej k "f zlożenia wynika latwo, że g (t) = (p + tv)vi , wobec tego że grad f(p) = 0 , zachodzi "xi i=1 równość g (0) = 0 . Mamy też ëÅ‚ öÅ‚ k k k "f2 "f2 íÅ‚ g (t) = (p + tv)vjÅ‚Å‚ vi = (p + tv)vivj , "xj"xi "xj"xi i=1 j=1 i,j=1
zatem g (0) = Av · v < 0 . Ponieważ g (0) = 0 > g (0) , wiec funkcja g ma w punkcie 0 lokalne
maksimum wlaściwe, zatem w dowolnym otoczeniu punktu p znajduja sie punkty, w których
wartości funkcji f sa mniejsze niż f(p) . Wynika stad, że funkcja f nie ma w punkcie (p)
lokalnego minimum. Możemy rozważyć teraz funkcje g zdefiniowana wzorem g(t) = f(p + tw) . Ü Ü
Rozumujac dokladnie tak, jak przed chwila przekonujemy sie, że ma ona w punkcie 0 lokalne
minimum wlaściwe, wiec w dowolnym otoczeniu punktu p znajduja sie punkty, w których
wartości sa wieksze niż f(p) , zatem funkcja f nie ma w punkcie p maksimum lokalnego.
Mamy wiec do czynienia z siodlem a nie z lokalnym ekstremum. Wniosek z dowodu twierdzenia o lokalnych ekstremach.
Jeśli g(t) = f(p + tv) i funkcja f ma pochodne czastkowe drugiego rzedu w otoczeniu punktu p i k
"f2 sa one ciagle w punkcie p , to g (0) = (p)vivj . "xj"xi i,j=1
Wniosek ten mówi, że wartość drugiej różniczki w punkcie p na wektorze v jest druga pochodna
badanej funkcji ograniczonej do prostej przechodzacej przez punkt p , równoleglej do wektora v .
Czytelnik zwróci uwage na to, że dowód cześci a. twierdzenia w istocie rzeczy polega na tym,
że sprawdzamy iż zachodzi ono dla wielomianów stopnia 2 lub mniejszego, a nastepnie stwierdze- niu, że przy dostatecznie dobrych zalożeniach o wielomianie kwadratowym reszta nie ma wplywu
na teze, bo po prostu jest za mala. Oczywiście twierdzenie ma charakter lokalny o czym bardzo
dobrze świadczy przyklad 24, który zreszta za chwile przypomnimy funkcja tam wystepujaca ma
dwa lokalne minima, ale żadne z nich nie jest minimum globalnym, którego zreszta nie ma, bo
funkcja nie jest ograniczona z dolu. W cześci c. okazalo sie, że z zalożeń wynika istnienie prostej
przechodzacej przez p , po ograniczeniu do której funkcja ma lokalne minimum wlaściwe i drugiej
prostej przechodzacej przez p , po ograniczeniu do której funkcja ma maksimum wlaściwe. Takie
zjawisko nie moglo oczywiście wystapić w przypadku funkcji jednej zmiennej. Może sie też zda-
rzyć, że forma drugiej różniczki jest pólokreślona, np. dodatnio. Wtedy nic sie nie da wywnioskować
bez dalszego badania funkcji: funkcja x4 + y4 ma w punkcie 0 minimum wlaściwe, zreszta glo- balne, funkcja -x4 - y4 ma w punkcie 0 maksimum wlaściwe, globalne, funkcja x4 - y4 ma w punkcie 0 siodlo - w dowolnym otoczeniu punktu 0 przyjmuje zarówno wartości mniejsze niż
f(0) jak i wartości wieksze niż f(0) . W każdym z tych trzech przypadków zachodza równości
2 2 "f "f "f "f "f2 0 = f(0) = (0) = (0) = (0) = (0) = (0) , wiec z punktu widzenia twierdzenia o "x "y "x2 "x"y "y2
lokalnych ekstremach te funkcje sa nierozróżnialne. Autor spotykal sie wielokrotnie ze studentami, 1040
którzy chcieli bez glebszego zastanowienia sie rozszerzać zakres twierdzenia o lokalnych ekstremach, ale wypisywane tezy byly nieprawdziwe. Oczywiście twierdzenie to można uogólnić, ale nie jest to
zbyt proste i co gorsza efekty uogólnienia nie sa warte zachodu, bo otrzymywane warunki sa zbyt
skomplikowane, by je pamietać. Ważniejsze jest zrozumienie podanej wersji i jej dowodu, bo wtedy
w konkretnych sytuacjach, nawet nie objetych twierdzeniem, można zastosować jego dowód!
x y 1. Niech f = x2 + 2y2 + 3z2 - 4x + 8y - 12z . Jasne jest, że funkcja nie jest ograniczona z x 0 z góry: lim f = +" . Nie jest jasne czemu równy jest kres dolny funkcji i czy jest on jej x+" 0
wartościa. Jeśli kres jest wartościa funkcji określonej na calej przestrzeni, to gradient tej funkcji w 2x-4 x y 4y+8 punkcie, w którym jest on przyjmowany jest wektorem zerowym. Mamy grad f = . z 6z-12 Jasne jest, że ten wektor równy jest 0 wtedy i tylko wtedy, gdy x = 2 , y = -2 i z = 2 . Mamy 2 -2 f = -24 . Jeśli wiec kres dolny jest wartościa funkcji, to musi być równy -24 . Wykażemy, 2 x y że tak jest w rzeczywistości. f + 24 = (x - 2)2 + 2(y + 2)2 + 3(z - 2)2 e" 0 , co kończy dowód. z W istocie rzeczy do znalezienia kresów rachunek różniczkowy w tym zadaniu nie byl potrzebny, w rzeczywistości funkcja f w ostatnim kroku zostala potraktowana jako suma 3 wielomianów kwa- dratowych, każdy innej zmiennej, które zostaly sprowadzone do postaci kanonicznych! Rachunek
różniczkowy pomaga tu jedynie ustalić, jaki punkt jest podejrzany o to, że w nim kres jest osiagany,
ale oczywiście te hipoteze można sformulować nie liczac żadnych pochodnych. x 2. Niech f = 2x2 - 4xy + 10y2 - 20x + 68y . Podobnie jak w przykladzie poprzednim y x widać, że lim = +" , zatem funkcja nie jest ograniczona z góry, czyli jej kresem górnym 0 x+"
jest +" . Jeśli kres dolny tej funkcji jest jej wartościa, to w punkcie, w którym jest przyjmo-
x 4x- 4y-20 wany, gradient funkcji f jest wektorem zerowym. Mamy grad f = . Ma wiec być y -4x+20y+68
4x - 4y - 20 = 0 = -4x + 20y + 68 . Rozwiazujac ten uklad dwóch równań liniowych z dwiema nie- wiadomymi otrzymujemy x = 2 , y = -3 . Jedynym kandydatem na punkt, w którym móglby być
2 osiagniety kres dolny tej funkcji, jest wiec punkt . Niech u = x - 2 , v = y + 3 . Mamy wiec -3 x u+2 f = f = 2(u + 2)2 - 4(u + 2)(v - 3) + 10(v - 3)2 - 20(u + 2) + 68(v - 3) = y v-3 = 2u2 - 4uv + 10v2 - 122 = 2(u - v)2 + 8v2 - 122 ostatnie przeksztalcenie to po prostu sprowadzenie wielomianu kwadratowego zmiennej u , którego
wspólczynniki zależa od parametru v , do postaci kanonicznej. Jasne jest, że najmniejsza wartościa otrzymanego wyrażenia jest liczba -122 i że wartość ta jest przyjmowana jedynie wtedy, gdy u = v i v = 0 , tzn. u = 0 = v . Podobnie jak w poprzednim przykladzie można bylo nie liczyć pochodnych,
lecz potraktować od razu funkcje jako wielomian zmiennej u z parametrem v , sprowadzić go do
postaci kanonicznej i rzecz cala zakończyć.
x x 3. Niech f = 2x2 - 4xy + y2 - 20x + 14y . Ponieważ lim = +" , wiec sup f = +" . y 0 x+"
x 4x-4y-20 Postepujac tak jak w poprzednim przykladzie znajdujemy grad f = . Ten wektor y -4x+2y+14 0 równy jest wtedy i tylko wtedy, gdy x = 2 i y = -3 . Podstawmy x = u + 2 , y = v - 3 . Wtedy 0 x f = 2(u + 2)2 - 4(u + 2)(v - 3) + (v - 3)2 - 20(u + 2) + 14(v - 3) = 2u2 - 4uv + v2 - 41 = y = 2(u - v)2 - v2 - 41 . W odróżnieniu od przykladów poprzednich wyrażenie 2(u - v)2 - v2 bywa
v ujemne, wiec liczba -41 nie jest kresem dolnym funkcji f . Mamy f = -v2 - 41 - -" , --- v v" zatem kresem dolnym funkcji f jest -" , co oznacza, że funkcja f nie jest ograniczona również z dolu. Oczywiście również w tym przykladzie użycie pochodnych nie jest konieczne, można od razu 1041
potraktować funkcje jako wielomian zmiennej x zależny od parametru y . 4. Teraz uogólnimy rezultaty trzech ostatnich przykladów. Mielismy w każdym z nich do czy-
nienia z konkretnym wielomianem drugiego stopnia dwu zmiennych, czyli z funkcja f , która można x zdefiniować wzorem f = Ax2 + 2Bxy + Cy2 + 2Dx + 2Ey + F , przy zalożeniu, że co najmniej y
jedna z liczb A , B , C jest różna od 0; dwójki we wspólczynnikach pojawiaja sie ze wzgledu na
wygode oraz tradycje. Wyrażenia x2 , xy , y2 nazywamy jednomianami drugiego stopnia zmiennych x i y (dla ustalenia stopnia iloczynu dodajemy stopnie czynników, nawet jeÅ›li jeden jest zmiennej x a drugi zmiennej y ). Rozważymy kolejno trzy przypadki: AC - B2 > 0 , AC - B2 = 0 oraz AC -B2 < 0 . Pierwszy z nich nazywany jest eliptycznym, drugi parabolicznym, a trzeci hiperbo- x Ax+By+D licznym. Mamy grad f = 2 . W przypadku eliptycznym i w przypadku hiperbolicznym y Bx+Cy+E istnieje dokladnie jeden punkt, w którym grad f jest wektorem zerowym, w przypadku parabolicz- Ä… 0 nym takiego punktu może nie być albo jest ich nieskoÅ„czenie wiele. JeÅ›li grad f = , to po ² 0 zastosowaniu podstawienia x = u + Ä… , y = v + ² otrzymujemy wielomian kwadratowy zmiennych
u , v , w którym cześć kwadratowa ma te same wspólczynniki A , B , C , natomiast cześć liniowa znika, o wyrazie wolnym nic powiedzieć nie można. Po dokonaniu tego podstawienia otrzymujemy
0 funkcje zmiennych u i v , której gradient jest wektorem zerowym w punkcie 0 = , a wiec funkcje 0 postaci Au2 + 2Buv + Cv2 + F . Przypadek eliptyczny.
Ponieważ AC - B2 > 0 , wiec AC > 0 , zatem A = 0 = C . Możemy wobec tego napisać:
2 2 B B2 B AC-B2 Au2 + 2Buv + Cv2 + F = A u + v - v2 + Cv2 + F = A u + v + v2 + F .* A A A A2 Jeśli A > 0 , to funkcja f przyjmuje w punkcie 0 wartość F , a w pozostalych punktach wartości
wieksze niż F wynika to stad, że kwadrat liczby rzeczywistej = 0 jest dodatni, zaś 02 = 0 .
Najmniejsza wartościa funkcji f w tym przypadku jest liczba F , jest ona przyjmowana w jednym
tylko punkcie (zerowania sie gradientu), funkcja jest oczywiście nieograniczona z góry. Przypadek
A < 0 jest w pelni analogiczny, nierówności zmieniaja kierunki, wiec w tym przypadku funkcja ma
wartość najwieksza, a z dolu nie jest ograniczona. Przypadek hiperboliczny.
Teraz może zdarzyć sie, że A = 0 = C . Jeśli tak jest, to wprowadzamy nowe zmienne x = x+y oraz
x+y x-y B B y = x-y , czyli x = oraz y = . Po podstawieniu cześć kwadratowa wyglada tak: x2- y2 . 2 2 2 2
B B Przyjmujac A = , B = 0 oraz C = otrzymujemy znów wielomian kwadratowy, dla którego 2 2
AC - B2 < 0 , przy czym A = 0 . Możemy wiec od razu zalożyć, że A = 0 , co uchroni nas przed
zmiana oznaczeń nie zmniejszajac przy tym ogólności rozważań. Przyjmujemy wiec dalej, że A > 0 .
u Przeksztalcajac tak jak w przypadku eliptycznym otrzymujemy f = Au2 + 2Buv + Cv2 + F = v 2 2 B B2 B AC-B2 u A u + v - v2 + Cv2 + F = A u + v + v2 + F . Oczywiście lim f = +" , A A A A2 0 u"
-vB/A zatem funkcja f nie jest ograniczona z góry. Mamy też lim f = -" , wiec również z dolu v v"
ta funkcja nie jest ograniczona. Kresem dolnym tej funkcji jest wiec -" , a górnym +" . Wykres tej
funkcji jest dwuwymiarowa powierzchnia w przestrzeni trójwymiarowej przypominajaca wygladem
przelecz w górach, co milośnikom jazdy konnej kojarzyć może sie z siodlem. Omówmy to nieco
dokladniej. Jeśli v = 0 , to rozważamy funkcje Au2 + F , której wykresem jest parabola skierowana
B ramionami ku górze. Jeśli ograniczymy nasza uwage do prostej o równaniu u+ v = 0 , to otrzymamy A
* Wyróżnik wielomianu Au2+2Buv+Cv2 zmiennej u równy jest 4v2 B2-AC , wiec gdy v =0 , to wielomian ten nie ( ) ma pierwiastków! 1042
AC-B2 funkcje v2 + F , której wykresem jest parabola skierowana ramionami ku dolowi. Ta druga A
ma punkt wspólny z pierwsza, po prostu jest podwieszona na pierwszej, ale znajduje sie w innej
B B plaszczyznie pionowej*, mianowicie zawierajacej prosta u + v = 0 . Zmiana wielkości u + v A A
powoduje przesuniecie zwisajacej paraboli do góry wzdluż paraboli Au2 . Wykres naszej funkcji
B sklada sie wiec z parabol zwisajacych z paraboli Au2 +F w dól, równoleglych do prostej u+ v = 0 , A umieszczonych w plaszczyznach pionowych.
Jasne jest, że w tym przypadku funkcja w punkcie zerowania sie gradientu nie ma ani lokalnego
maksimum ani lokalnego minimum: wedrujac z punktu 0 w kierunku prostej v = 0 zwiekszamy
B wartość funkcji, zaś wedrujac w kierunku prostej u + v = 0 zmniejszamy wartość funkcji. A Przypadek paraboliczny Podobnie jak w przypadku eliptycznym co najmniej jedna z liczba A , C musi być różna od 0, bo gdyby obie byly zerami, to z równości AC - B2 = 0 wynikaloby, że również B = 0 , co nie
jest możliwe w świetle naszego zalożenia. Bez straty ogólności możemy przyjać, że A = 0 , a nawet
A > 0 . Przypadek A < 0 pozostawiamy czytelnikowi. Mamy wiec Au2 + 2Buv + Cv2 + 2Du + 2Ev + F = 2 B D B2 BD D2 = A u + v + + C - v2 + 2 E - v + F - = A A A A A 2 B D BD D2 = A u + v + + 2 E - v + F - . A A A A
BD BD Mamy wiec dwa przypadki E - = 0 i E - = 0 . W pierwszym przypadku funkcja przyjmuje
A A
D2 najmniejsza wartość F - w każdym punkcie prostej Au + By + D = 0 i oczywiście jest nieogra- A u niczona z góry. W drugim przypadku funkcja jest nieograniczona z góry: lim f = +" . Jest też 0 u" -(Bv+D)/A -(Bv+D)/A nieograniczona z dolu, bowiem jedna z granic lim f , lim f równa jest v v v" v-"
-" , a druga jest +" . W tych przypadkach wykres funkcji można wyobrazić sobie jako doline: w BD BD przypadku E - = 0 dno doliny jest poziome, a w przypadku E - = 0 nie.
A A Komentarz
W przypadku funkcji jednej zmiennej podaliśmy kryterium pozwalajace na stwierdzenie, czy funkcja
ma w punkcie zerowania sie pochodnej lokalne ekstremu czy też nie. Podobne twierdzenia można
formulować dla funkcji dwu i wiekszej liczby zmiennych. Szczególnie ważny jest przypadek naj-
prostszy, gdy problem można wyjaśnić badajac pochodne drugiego rzedu. Zajmiemy sie tym nieco
pózniej. Wypada jednak stwierdzić, że twierdzenia omówione w przykladzie 19. stanowia podstawe do sformulowania odpowiednich tez w przypadku funkcji dwu zmiennych.
Przyklad 19 zawiera dowód twierdzenia Sylvestera (zob. nastepne twierdzenie) w przypadku
funkcji dwu zmiennych. Udowodnimy zreszta to twierdzenie za chwile, by przekonać czytelnika, że nic tajemniczego w nim nie ma, choć oczywiście jego dowód nie jest konieczny do zdania egzaminu z analizy przez studenta chemii. Twierdzenie Sylvestera o formach kwadratowych dodatnio określonych
Niech f bedzie forma kwadratowa okreÅ›lona przez macierz symetryczna A = (ai,j) wymiaru k , tzn. dla dowolnych i, j " {1, 2, . . . , k} zachodzi równość ai,j = aj,i , zatem k f(x) = (Ax) · x = ai,jxixj , i,j=1 kropka oznacza tu iloczyn skalarny. Niech Ml = det(ai,j)i,jd"l . Wtedy f(x) > 0 dla x = 0 wtedy i
tylko wtedy, gdy Ml > 0 dla l = 1, 2, . . . , k . Mówimy wtedy, że forma f jest dodatnio określona.
* Jeśli B=0 , to te pionowe plaszczyzny sa prostopadle, pierwsza ma równanie v=0 , a druga u=0 1043 Dowód. (J.Musielak)*
Zastosujemy indukcje wzgledem k . Dla k = 1 mamy f(x) = a1,1x2 , zatem forma jest dodatnio określona wtedy i tylko wtedy, gdy a1,1 > 0 . Dla k = 2 mamy f(x) = a1,1x2 + a1,2x1x2 + a2,1x2x1 + a2,2x2 = a1,1x2 + 2a1,2x1x2 + a2,2x2 . 1 2 1 2
Oczywiście musi być a1,1 = f(e1) > 0 , czyli musi być M1 > 0 . Funkcje f możemy potraktować jako wielomian kwadratowy zmiennej x1 zależny od parametru x2 . Ma on przyjmować jedynie wartości dodatnie dla x2 = 0 . Warunkiem koniecznym i dostatecznym na to jest, jak wiadomo z
" nauki w liceum, 0 < - = a1,1a2,2x2 - a2 x2 , czyli M2 > 0 . Zalóżmy teraz, że teza zachodzi dla 2 1,2 2 4 wszystkich form kwadratowych okreÅ›lonych na przestrzeni wymiaru mniejszego niż k+1 . Wykażemy, że zachodzi również dla form okreÅ›lonych na przestrzeni wymiaru k . Mamy ëÅ‚ öÅ‚ k+1 k+1 f(x) = a1,1x2 + 2x1 íÅ‚ a1,jxjÅ‚Å‚ + ai,jxixj . 1 j=2 i,j=2 " Warunkiem koniecznym i dostatecznym na to, by f(x) > 0 dla x = 0 jest a1,1 > 0 i 0 < - =
Ostatnia równość wynika z tego, że wyznacznik można obliczać rozwijajac go wzgledem pierwszej kolumny. Teraz pomnożymy pierwszy wiersz przez a1,2 i dodamy do drugiego, potem pierwszy wiersz
przez a1,3 i dodamy do trzeciego, itd. Ponieważ te operacje nie zmieniaja wartości wyznacznika, 1 a1,2 a1,3 . . . a1,l a1,2 a1,1a2,2 a1,1a2,3 . . . a1,1a2,l
przez liczbe a1,1 > 0 , nie zmienia to znaku wyznacznika, bo mnożenie wiersza przez liczbe to to
samo, co mnożenie wyznacznika przez te liczbe. W otrzymanym wyznaczniku wszystkie wyrazy w
kolumnach drugiej, trzeciej itd. zawieraja czynnik a1,1 , wiec z tych kolumn można go wylaczyć, co
oznacza podzielenie wyznacznika przez liczbe al-1 > 0 . Znak pozostaje niezmieniony, a otrzymany 1,1
* Wg. ksiażki Mostowskiego i Starka, Elementy Algebry Wyższej, Warszawa, PWN 1963, wyd 5. Podajemy ten wlaśnie dowód, bo jest on chyba najbardziej elementarny z tych, które autor widzial, wymaga jedynie podstawowych wiadomości o wielomianach kwadratowych jednej zmiennej i wyznacznikach. 1044 a1,1 a1,2 a1,3 . . . a1,l a1,2 a2,2 a2,3 . . . a2,l a1,3 a3,2 a3,3 . . . a3,l . Tym samym zakończyliśmy dowód. wyznacznik to . . . . .. . . . . . . . . . a1,l al,2 al,3 . . . al,l Zadania
1. Niech f(x, y) = x2y5(8 - x - y) . Znalezć wszystkie punkty zerowania sie gradientu funkcji f i wyjaśnić, w których z nich funkcja f ma lokalne ekstrema i jakiego typu, a w których lokalnych ekstremów ta funkcja nie ma. Znalezć sup{f(x, y): 0 d" x, 0 d" y, x + y d" 10} .
2. Niech f(x, y) = x6y5(12 - x - y) . Znalezć wszystkie punkty zerowania sie gradientu funkcji f i wyjaśnić, w których z nich funkcja f ma lokalne ekstrema i jakiego typu, a w których lokalnych ekstremów ta funkcja nie ma. Znalezć sup{f(x, y): 0 d" x, 0 d" y, x + y d" 10} i sup{f(x, y): 0 d" x, 0 d" y, x + y d" 12} .
3. Niech f(x, y) = x4y2(7 - 4x - 2y) . Znalezć wszystkie punkty zerowania sie gradientu funkcji f i wyjaśnić, w których z nich funkcja f ma lokalne ekstrema i jakiego typu, a w których lokalnych ekstremów ta funkcja nie ma. Znalezć sup{f(x, y): 0 d" x, 0 d" y, x + y d" 1} , inf{f(x, y): 0 d" x, 0 d" y, x + y d" 1} i sup{f(x, y): 0 d" x, 0 d" y, x + y d" 2} .
4. Niech f(x, y) = x3y2(6 - x - 6y) . Znalezć wszystkie punkty zerowania sie gradientu funkcji f i wyjaśnić, w których z nich funkcja f ma lokalne ekstrema i jakiego typu, a w których lokalnych ekstremów ta funkcja nie ma. Znalezć sup{f(x, y): 0 d" x d" 10, 0 d" y d" 2} .
5. Znalezć punkty zerowania sie gradientu funkcji x5y7(13-x-y) i wyjaśnić, w których z nich ma ona lokalne minima, w których lokalne maksima, a w których nie ma lokalnego ekstremum. Znalezć kresy funkcji f na zbiorze {(x, y): |x|, |y| d" 10} .
6. Znalezć kres dolny i kres górny funkcji xy - x - y + 3 , na zbiorze E , jeśli E jest trójkatem
domknietym o wierzcholkach (0, 0) , (2, 0) , (0, 4) . 7. Znalezć kres dolny i kres górny funkcji x2 + y2 - xy , na zbiorze E = {(x, y): |x| + |y| d" 1} . 8. Znalezć kres dolny i kres górny funkcji xy2 , na zbiorze E = {(x, y): x2 + y2 d" 3} . 2 9. Znalezć kres dolny i kres górny funkcji (1 + x2)e-x -y2 , na plaszczyznie 2 . 10. Znalezć kres dolny i kres górny funkcji f , f(x, y, z) = (3x + 2y + z)e-(6x+5y+3z) , na zbiorze E = {(x, y, z): x > 0, y > 0, z > 0} . 11. Niech f(x, y, x) = 3x + 2y - z , g(x, y, x) = 3x + 2y + z , T niech oznacza czworościan o
wierzcholkach A = (1, 1, 0) , B = (1, 2, 2) , C = (2, 1, 3) , D = (3, 2, 4) . Znalezć najwieksza
i najmniejsza wartość każdej z funkcji f, g na czworościanie T . W ilu punktach funkcje f, g
przyjmuja wartości ekstremalne na czworościanie T . 12. Niech f(x, y, z) = x4 + y5 + z6 , g(x, y, z) = 6x6 + 4y4 + 2z2 . Mamy grad f(0, 0, 0) = (0, 0, 0) = = grad g(0, 0, 0) . Która z funkcji f, g ma w punkcie (0, 0, 0) lokalne ekstremum i dlaczego? 13. Niech h(x, y) = ay(ex - 1) + x sin x - cos y . Dla jakich a " funkcja h ma lokalne ekstremum w punkcie (0, 0) , a dla jakich lokalnego ekstremum w tym punkcie nie ma? Wskazówka: Dla pewnego a badanie drugiej różniczki może nie pozwolić na stwierdzenie, czy w punkcie (0, 0) funkcja ma lokalne ekstremum, czy też nie; w tym przypadku warto zainteresować
sie prosta przechodzaca przez (0, 0) , zlożona z takich punktów (u, v) , że 2 "2h "2h (0, 0)u2 + 2"" h (0, 0)uv + (0, 0)v2 = 0 . "x2 x"y "y2 1045