Kierunek Informatyka i Ekonometria
ANALIZA MATENATYCZNA
Funkcje wielu zmiennych
0. Przestrzeń
n . Określoność macierzy.
iloczyn skalarny wektorów: jeśli x = ( x
n
1 , x 2 , ..., xn), y = ( y 1 , y 2 , ..., yn) należą do
to
n
< x, y > = X xjyj
j=1
1
Definicja 1. Dla x ∈ n liczbę ||x|| = < x, x > 2
nazywamy normą euklidesową lub długością
wektora x. Jeśli x = ( x 1 , x 2 , ..., xn) to
v
n
u
||x|| = uX( x
t
j )2
j=1
Definicja 2. Dla x, y ∈ n liczbę
%( x, y) = ||x − y||
nazywamy odległością euklidesową między
punktami x i y. Jest to długość odcinka łączącego punkty x i y.
Podzbiory liniowe w
n
Niech x, y ∈ n i x 6= y.
Zbiór {z( t) = (1 − t) x + ty : t ∈ [0 , 1] } jest odcinkiem o początku w punkcie x i końcu w punkcie y. Zauważmy, że z(0) = x i z(1) = y.
Prosta w
n
Zbiór {z( t) = (1 − t) x + ty : t ∈ } jest prostą w
n przechodzącą przez punkty x i y. Równanie
na punkty z( t) nazywamy równaniem parametrycznym tej prostej.
Zbiór {z( t) = x + ty : t ∈ } jest prostą przechodzącą przez punkt x i równoległą do wektora y.
Hiperpłaszczyzna w
n
Jeśli a ∈ n , a 6= 0 i s ∈
to zbiór
π = {x ∈ n : < x, a > + s = 0 }
nazywamy hiperpłaszczyzną n− 1 - wymiarową w n . Wektor a jest wektorem prostopadłym (normalnym)
do tej hiperpłaszczyzny. Jeśli y ∈ π jest ustalony to równanie hiperpłaszczyzny π można zapisać w postaci:
< x − y, a > = 0.
Określoność macierzy symetrycznej
Niech A będzie macierzą symetryczną stopnia n. Wówczas możemy określić formę kwadratową BA wzorem
BA( x) = < x, Ax >
dla x ∈ n .
Definicja 3. Mówimy, że macierz A jest określona dodatnio, ujemnie, niedodatnio, nieujemnie lub nieokreślona gdy odpowiednią własność ma forma kwadratowa BA.
Jak wiadomo rodzaj określoności macierzy A zależy od jej wartości własnych, które są rzeczywiste.
1
a
11
a 12
... a 1 n
a
Niech
A =
21
a 22
... a 2 n
gdzie aij = aji.
:
:
:
:
an 1 an 2 ... ann
Niech Bk oznacza macierz narożnikową stopnia k uzyskaną z macierzy A przez wykreślenie kolumn i wierszy o numerach k + 1, k + 2, ..., n, dla k = 1 , 2 , ..., n.
"
#
a
Oznacza to, że B
11
a 12
1 = [ a 11],
B 2 =
, ..., B
a
n = A.
21
a 22
Macierz A jest dodatnio określona wtedy gdy detBk > 0 dla k = 1 , 2 , ..., n.
Macierz A jest ujemnie określona wtedy gdy detB 1 < 0 , detB 2 > 0 , detB 3 < 0 i tak dalej (to znaczy znaki wyznaczników detBk zmieniają się naprzemiennie).
Macierz A jest nieokreślona wtedy gdy wśród jej wartości własnych są liczby dodatnie i ujemne.
Można sformułować następujący warunek dostateczny na macierz nieokresloną:
Jeśli wśród macierzy narożnikowych Bk, k = 1 , 2 , ..., n istnieje macierz stopnia parzystego Bk ( k jest parzyste) taka, że detBk < 0 lub istnieją dwie macierze stopnia nieparzystego Bl i Bm ( l i m liczby nieparzyste) takie, że detBl i detBm są różnych znaków to macierz A jest nieokreślona.
Określoność macierzy symetrycznej nie zależy od wyboru bazy w
n .
1. Funkcje o wartościach rzeczywistych - powtórzenie
Dana jest przestrzeń metryczna ( X, %)
i niech E będzie niepustym podzbiorem X. Załóżmy, że
dana jest funkcja
f : E −→ . Wprowadzamy oznaczenia:
zbiór wartości funkcji f na zbiorze E: f ( E) = Wf ( E) = {f ( x) : x ∈ E}.
kres dolny i kres górny wartości funkcji f na E:
mf ( E) = inf Wf ( E) = inf {f ( x) : x ∈ E}
Mf ( E) = sup Wf ( E) = sup {f ( x) : x ∈ E}.
poziomica funkcji f to zbiór
Ps( f ) = {x ∈ E : f ( x) = s} = f − 1( {s}) dla s ∈ .
Ps( f ) 6= ∅ ⇐⇒ s ∈ Wf ( E).
C( E) zbiór przekształceń ciągłych zbioru E w zbiór liczb rzeczywistych
.
Definicja 4. Funkcja f przyjmuje w punkcie x 0 ∈ E wartość największą (najmniejszą) w zbiorze E gdy dla dowolnego
x ∈ E mamy f ( x) ¬ f ( x 0) (f ( x) f ( x 0) ).
Uwaga 1. Jeśli funkcja f
przyjmuje w punkcie x 0 ∈ E wartość największą (najmniejszą) w zbiorze
E to Mf ( E) = f ( x 0) (mf ( E) = f ( x 0) ).
Definicja 5. Mówimy, że funkcja f ma maksimum (minimum) w punkcie P ∈ E
gdy istnieje r > 0
takie, że dla każdego
x ∈ K( P, r) T E mamy f ( P ) f ( x)
(f ( P ) ¬ f ( x) ).
Jeśli funkcja f ma
maksimum lub minimum w punkcie P to mówimy, że f ma ekstremum w P .
Definicja 6. Mówimy, że funkcja f ma maksimum (minimum) właściwe w punkcie P ∈ E gdy istnieje r > 0 takie, że dla każdego
x ∈ K( P, r) T E i x 6= P mamy f ( P ) > f ( x) (f ( P ) < f ( x) ).
Jeśli
funkcja f ma maksimum lub minimum właściwe w punkcie P to mówimy, że f ma ekstremum właściwe
w P .
Twierdzenie 1. Jeśli E jest zbiorem zwartym i f ∈ C( E) to Mf ( E) i mf ( E) są skończone i są jednocześnie odpowiednio wartością największą i najmniejszą funkcji f na zbiorze E.
Twierdzenie 2. Jeśli E jest zbiorem zwartym i spójnym oraz f ∈ C( E) to
Wf ( E) = [ mf ( E) , Mf ( E)] .
2
2. Pojęcia wstępne.
Niech E będzie niepustym i otwartym podzbiorem
n traktowanej jak przestrzeń metryczna z
metryką euklidesową. Zauważmy, że ciąg punktów {x
n
n
k} z
jest zbieżny do punktu x ∈
wtedy,
gdy j-ta współrzędna xj,k ciągu xk jest zbieżna do j-tej współrzędnej xj punktu x.
Niech x 0 ∈ E będzie ustalone. Załóżmy, że dana jest funkcja f : E −→
. Mówimy, że f jest
funkcją n zmiennych, bo każdy punkt x ∈ E ma n współrzędnych, które są liczbami rzeczywistymi.
Wprowadzamy oznaczenia:
wykres funkcji f to zbiór Γ( f, E) = ( x, y) ∈ n+1 : y = f ( x) , x ∈ E .
nadwykres funkcji f to zbiór Γ+( f, E) = ( x, y) ∈ n+1 : y f ( x) , x ∈ E .
podwykres funkcji f to zbiór Γ −( f, E) = ( x, y) ∈ n+1 : y ¬ f ( x) , x ∈ E .
Dla ustalonego wektora niezerowego a ∈ n rozpatrzmy funkcję
fa( t) = f ( x 0 + a · t)
określoną dla takich t ∈ , że x 0 + a · t ∈ E. Ponieważ E jest zbiorem otwartym to istnieje s > 0 takie,
że funkcja f
n
a( t) jest określona dla t ∈ ( −s, s). Niech ej , j = 1 , 2 , ..., n oznacza bazę standardową w
.
3. Pochodne kierunkowe. Gradient.
Definicja 7. Jeśli istnieje pochodna funkcji fa( t) w punkcie t = 0 to mówimy, że funkcja f ( x) ma pochodną kierunkową w punkcie x 0 w kierunku wektora a. Oznaczamy ją
Daf ( x 0) . Zatem
f ( x
D
0
0 + a · t) − f ( x 0)
af ( x 0) = fa (0) = lim
t→ 0
t
Definicja 8. Pochodną kierunkową w punkcie x 0 w kierunku wektora bazowego ej nazywamy pochodną
∂f
cząstkową funkcji f względem zmiennej xj w punkcie x 0 i oznaczamy
( x
∂x
0) .
j
Stosując także inne oznaczenia na pochodne cząstkowe możemy napisać
∂f ( x
f ( x
( x
∂x
0) = Dej
0) = Dj f ( x 0) = f 0
x
0)
j
j
Aby obliczyć pochodną cząstkową funkcji f ( x) względem zmiennej xj dla ustalonego j należy potraktować pozostałe współrzędne x = ( x 1 , x 2 , ..., xj, ..., xn) jak stałe i obliczyć pochodną po zmiennej xj zgodnie z regułami różniczkowania funkcji jednej zmiennej.
∂f
Jeśli istnieją pochodne cząstkowe
( x
∂x
0) dla j = 1 , 2 , ..., n to wektor
j
∂f
∂f
∂f
grad f ( x 0) =
( x
( x
( x
∂x
0) ,
0) , ...,
0)
1
∂x 2
∂xn
nazywamy gradientem funkcji f w punkcie x 0.
Jeśli grad f ( x) jest określony dla dowolnego x ∈ E i jest funkcją ciągłą to mówimy, że funkcja f jest klasy C 1 na zbiorze E i piszemy f ∈ C 1( E).
Twierdzenie 3. Jeśli f ∈ C 1( E) to dla dowolnego x
n
0 ∈ E i a ∈
\ { 0 } mamy
Daf ( x 0) = < grad f ( x 0) , a >
Twierdzenie 4. Jeśli f ∈ C 1( E) i x( t) jest krzywą gładką należącą do E dla t ∈ ( a, b) to funkcja g( t) = f ( x( t)) jest różniczkowalna i dla ustalonego t 0 ∈ ( a, b) mamy g0( t 0) = < grad f ( x( t 0)) , x0( t 0) > gdzie x0( t 0) jest wektorem prędkości tej krzywej w chwili t 0 czyli wektorem stycznym do krzywej x( t) w punkcie p = x( t 0) .
3
4. Płaszczyzna styczna. Twierdzenie o funkcji uwikłanej.
Jeśli f ∈ C 1( E) i x
n
0 ∈ E to dla
x ∈
równanie liniowe
y = f ( x 0)+ < grad f ( x 0) , x − x 0 >
określa w
n+1 hiperpłaszczyznę n-wymiarową przechodzącą przez punkt ( x 0 , f( x 0)). Wektor N =
( grad f ( x 0) , − 1) jest wektorem normalnym czyli prostopadłym do tej hiperpłaszczyzny. Nazywamy ją płaszczyzną styczną do wykresu funkcji f w punkcie x 0.
Twierdzenie 5. ” Twierdzenie o funkcji uwikłanej ” Dla x ∈ E niech x = ( u, y) , gdzie u =
( x 1 , x 2 , ..., xn− 1) i y = xn. Załóżmy, że f ∈ C 1( E) i s ∈ Wf ( E) . Niech x 0 = ( u 0 , y 0) ∈ Ps( f) to znaczy
∂f
∂f
f ( u
n− 1
0 , y 0) = s. Jeśli
( x
( x
i V
punktów u
∂x
0) =
0) 6= 0
to istnieją otoczenia
V 1 ⊂
2 ⊂
0
n
∂y
i y 0 odpowiednio, takie że V 1 × V 2 ⊂ E i dla dowolnego u ∈ V 1 istnieje dokładnie jeden y = y( u) ∈ V 2
spełniający równanie f ( u, y( u)) = s przy czym y( u 0) = x 0 . Ponadto funkcja y = y( u) jest klasy C 1
∂f ( u,y)
∂y
∂x
na V
j
1 i dla dowolnego u = ( x 1 , x 2 , ..., xn− 1) ∈ V 1 mamy
( u) = −
gdzie y = y( u) .
∂x
∂f
j
( u, y)
∂y
5. Pochodne wyższych rzędów. Macierz Hessego i wzór Taylora.
Jeśli f ∈ C 1( E) to każda pochodna cząstkowa funkcji f jest funkcją wielu zmiennych i może posiadać pochodne cząstkowe, które (o ile istnieją) będziemy nazywać drugimi pochodnymi cząstkowymi funkcji
∂ 2 f
∂ 2 f
f . Będziemy je oznaczać
, a w przypadku j = k będziemy pisać
. Gdy j 6= k będziemy
∂xj∂xk
∂x 2 j
mówić o pochodnych mieszanych wzgledem zmiennych xj i xk.
Będziemy mówić, że funkcja f jest klasy C n na zbiorze E gdy istnieją i są ciągłe wszystkie pochodne cząstkowe tej funkcji do rzędu n włącznie i będziemy pisać f ∈ C n( E). Prawdziwe jest twierdzenie Twierdzenie 6. Jeśli f ∈ C 2( E) to dla dowolnych j, k ∈ { 1 , 2 , ..., n}, j 6= k i x ∈ E mamy
∂ 2 f
∂ 2 f
( x) =
( x) co oznacza że pochodne mieszane funkcji f są równe między sobą, a więc wartość
∂xj∂xk
∂xk∂xj
drugich pochodnych cząstkowych funkcji f nie zależy od kolejności różniczkowania.
"
∂ 2 f
#
Jeśli f ∈ C 2( E) i x ∈ E to macierz
Hf ( x) =
( x) ,
j, k = 1 , 2 , ..., n
nazywamy
∂xj∂xk
macierzą Hessego funkcji f w punkcie x. Jest to symetryczna macierz kwadratowa stopnia n. Jej wyznacznik nazywamy hesjanem.
Twierdzenie 7. ” Wzór Taylora ” Załóżmy, że f ∈ C 2( E) i x 0 ∈ E. Niech r > 0 będzie takie, że K( x 0 , r) ⊂ E. Dla dowolnego x ∈ K( x 0 , r) istnieje u należące do odcinka o końcach x 0 i x takie, że 1
f ( x) = f ( x 0)+ < grad f ( x 0) , x − x 0 > + < H
2
f ( u)( x − x 0) , x − x 0 >
Oznaczająć h = x−x 0 powyższy wzór można zapisać w postaci
f ( x 0 + h) = f ( x 0)+ < grad f ( x 0) , h > +
1
+ < H
2
f ( u) h, h >.
Uwaga 2. Jeśli zbiór E jest wypukły, to powyższe twierdzenie jest prawdziwe dla dowolnego x ∈ E.
4
6. Ekstremum funkcji wielu zmiennych.
Następujące twierdzenie jest warunkiem koniecznym istnienia ekstrmum funkcji f w punkcie:
Twierdzenie 8. Jeśli funkcja f ma ekstremum w punkcie P ∈ E i istnieje gradient funkcji f w
∂f
punkcie P to grad f ( P ) = 0 , to znaczy
( P ) = 0 dla j = 1 , 2 , ..., n. Każdy punkt P spełniający
∂xj
równanie grad f ( P ) = 0 nazywamy punktem stacjonarnym funkcji f .
Kolejne twierdzenie jest warunkiem dostatecznym istnienia ekstremum funkcji f w punkcie stacjonarnym P ∈ E.
Twierdzenie 9. Załóżmy, że f ∈ C 2( E) i P ∈ E jest punktem stacjonarnym funkcji f . Niech Hf ( P ) oznacza macierz Hessego funkcji f w punkcie P . Wówczas:
1 o jeśli macierz Hf ( P ) jest dodatnio określona to w punkcie P jest minimum (właściwe) funkcji f 2 o jeśli macierz Hf ( P ) jest ujemnie określona to w punkcie P jest maksimum (właściwe) funkcji f 3 o jeśli macierz Hf ( P ) jest nieokreślona to w punkcie P funkcja f nie ma ekstremum.
Aby wyznaczyć ekstremum funkcji wielu zmiennych klasy C 2 należy:
10 obliczyć gradient funkcji f
20 wyznaczyć punkty stacjonarne funkcji f czyli rozwiązać równanie grad f ( x) = 0
30 obliczyć drugie pochodne cząstkowe funkcji f i wyznaczyć macierz Hessego Hf ( P ) tej funkcji w każdym punkcie stacjonarnym P ∈ E
40 zbadać określoność macierzy Hessego Hf ( P ) w każdym punkcie stacjonarnym P ∈ E oddzielnie i określić rodzaj ekstremum funkcji f w danym punkcie P zgodnie z ostatnim twierdzeniem.
Twierdzenie 10. Załóżmy, że E jest zbiorem wypukłym, f ∈ C 2( E) i P ∈ E jest punktem stacjonarnym funkcji f . Wówczas:
1 o jeśli dla dowolnego x ∈ E macierz Hessego Hf ( x) jest nieujemnie określona to w punkcie P funkcja f przyjmuje wartość najmniejszą na E, to znaczy mf ( E) = f ( P )
2 o jeśli dla dowolnego x ∈ E macierz Hessego Hf ( x) jest niedodatnio określona to w punkcie P funkcja f przyjmuje wartość największą na E, to znaczy Mf ( E) = f ( P )
7. Ekstremum warunkowe funkcji wielu zmiennych.
Zajmiemy się ekstremami funkcji f zawężonej do zbioru D ⊂ E określonego za pomocą pewnych równań.
Niech gi : E −→ , i = 1 , 2 , ..., k będą funkcjami klasy C 1, niech Jg( x) oznacza macierz której
wierszami są wektory grad gi( x) i = 1 , 2 , ..., k dla x ∈ E i niech D = {x ∈ E : gi( x) = 0 dla i = 1 , 2 , ..., k}
Dalej zakładamy, że D 6= ∅. Zatem D jest domkniętym i niepustym podzbiorem E. Równania gi( x) = 0, i = 1 , 2 , ..., k nazywamy warunkami określającymi zbiór D. Jeśli dla x ∈ D rząd macierzy Jg( x) jest równy k to D nazywamy zbiorem Lagrange’a.
Uwaga 3. W przypadku k = 1 zbiór D = {x ∈ E : g 1( x) = 0 } jest zbiorem Lagrange’a wtedy, gdy grad g 1( x) 6= 0 dla x ∈ D.
Definicja 9. Mówimy, że funkcja f ma maksimum (minimum) warunkowe w punkcie P ∈ D gdy funkcja f zawężona do zbioru D ma maksimum (minimum) w punkcie P w sensie definicji 5 . Jeśli funkcja f ma maksimum lub minimum warunkowe w punkcie P to mówimy, że f ma ekstremum warunkowe w punkcie
P .
Następujące twierdzenie jest warunkiem koniecznym istnienia ekstrmum warunkowego funkcji f : 5
Twierdzenie 11. Niech f ∈ C 1( E) . Załóżmy, że D jest zbiorem Lagrange’a. Jeśli funkcja f ma ekstremum warunkowe w punkcie P ∈ D to wektory grad f ( P ) i grad gj( P ) j = 1 , 2 , ..., k są liniowo k
zależne, to znaczy istnieją liczby rzeczywiste λ
X
1 , λ 2 , ..., λk
takie, że
grad f ( P ) =
λjgrad gj( P ) .
j=1
Z twierdzenia 11 wynika następujący algorytm wyznaczania punktów, w których funkcja f może mieć ekstremum warunkowe na zbiorze D:
10 dla ustalonych parametrów λ 1 , λ 2 , ..., λk definiujemy funkcję F : E −→
następująco
k
F ( x) = f ( x) − X λjgj( x)
j=1
Funkcję F nazywamy funkcją Lagrange’a a parametry λ 1 , λ 2 , ..., λk nazywamy mnożnikami Lagrange’a
20 obliczamy gradient funkcji F
30 wyznaczamy punkty stacjonarne funkcji F na zbiorze D oraz wartości parametrów λ 1 , λ 2 , ..., λk rozwiązując układ równań
grad F ( x) = 0 ,
gj( x) = 0 , j = 1 , 2 , ..., k
Jest to układ n + k równań o n + k niewiadomych ( n współrzędnych punktu x i k parametrów λ 1 , λ 2 , ..., λk).
8. Największa i najmniejsza wartość funkcji na zbiorze zwartym
Niech f ∈ C 1( E) i niech F ⊂ E będzie zbiorem zwartym. Niech ∂F oznacza brzeg zbioru F , a int F
wnętrze zbioru F . Ponieważ f jest ciągła na zbiorze zwartym F to istnieją P 1 ∈ F i P 2 ∈ F takie, że f ( P 1) = mf ( F ) i f ( P 2) = Mf ( F ). Jeśli P 1 ∈ int F to P 1 jest punktem stacjonarnym funkcji f , to znaczy grad f ( P 1) = 0. Jeśli P 1 /
∈ int F to P 1 ∈ ∂F , a więc w P 1 jest maksimum f na brzegu zbioru F .
Analogicznie jest dla P 2.
Wynika stąd, że aby wyznaczyć największą i najmniejszą wartości funkcji gładkiej f na zbiorze zwartym F należy obliczyć wartość funkcji f w jej punktach stacjonarnych należących do F oraz w punktach, w których może być ekstremum tej funkcji na brzegu zbioru F . Dla pewnej klasy zbiorów można zastosować mnożniki Lagrange’a.
m
Definicja 10. Mówimy, że zbiór F jest zbiorem o wyznaczalnym brzegu gdy
∂F = [ Dj oraz dla
j=1
każdego j = 1 , 2 , ..., m zbiór Dj jest punktem lub Dj jest zbiorem Lagrange’a lub Dj ⊂ A gdzie A jest zbiorem Lagrange’a i wówczas dla dowolnego x ∈ Dj istnieje r > 0 takie, że K( x, r) T Dj = K( x, r) T A.
Aby wyznaczyć największą i najmniejszą wartość funkcji f klasy C 1 na zbiorze zwartym F o wyznaczalnym brzegu należy:
10 wyznaczyć punkty stacjonarne funkcji f na zbiorze F czyli takie x ∈ F że grad f ( x) = 0
20 wyznaczyć punkty, w których funkcja f może mieć ekstremum warunkowe na zbiorze Dj, który jest częścią brzegu zbioru F z definicji 10 dla kolejnych j, stosując metodę mnożników Lagrange’a 30 obliczyć wartość funkcji f w każdym punkcie P ∈ F , który został otrzymany w obu poprzednich punktach lub jest częścią brzegu zgodnie z definicją 10
40 z wartości otrzymanych w punkcie poprzednim wybrać największą (to będzie Mf ( F )) i najmniejszą (to będzie mf ( F )).
6
9. Funkcje wypukłe i ich własności
Niech E będzie niepustym i wypukłym podzbiorem
n , to znaczy dla dowolnych x, y ∈ E odcinek
łączący te punkty zawiera się w E. Niech f : E −→ .
Definicja 11. Mówimy, że funkcja f jest wypukła (wklęsła) na zbiorze E gdy dla dowolnych x, y ∈ E i dowolnego t ∈ [0 , 1] mamy f ( tx+(1 −t) y) ¬ tf ( x)+(1 −t) f ( y) (f ( tx+(1 −t) y) tf ( x)+(1 −t) f ( y) ).
Uwaga 4. Funkcja f jest wklęsła na E wtedy gdy funkcja g = −f jest wypukła na E.
Dalej będziemy zajmować się jedynie funkcjami wypukłymi. Sformułowanie analogicznych twierdzeń
dla funkcji wklęsłych można polecić jako proste ćwiczenie.
Twierdzenie 12. Funkcja f jest wypukła na zbiorze E wtedy gdy jej nadwykres Γ+( f, E) jest zbiorem wypukłym.
Twierdzenie 13. (Nierówność Jensena) Jeśli funkcja f jest wypukła na zbiorze E to dla dowolnych k
punktów x
X
1 , x 2 , ..., xk ∈ E
i dowolnych liczb t 1 , t 2 , ..., tk ∈ [0 , 1] takich, że
ti = 1 mamy
i=1
k
!
k
f X t
X
ixi
¬
tif ( xi)
i=1
i=1
Twierdzenie 14. Jeśli zbiór E jest otwarty i funkcja f jest wypukła na E to f jest ciągła na E, to znaczy f ∈ C( E) .
Załóżmy teraz, że E jest niepustym, wypukłym i otwartym podzbiorem
n . Zatem E jest zbiorem
wypukłym i domkniętym. Niech f : E −→
będzie funkcją klasy C 1, to znaczy f ∈ C 1( E).
Twierdzenie 15. Funkcja f jest wypukła na zbiorze E wtedy gdy dla dowolnego x 0 ∈ E i x ∈ E mamy f ( x) f ( x 0)+ < grad f ( x 0) , x − x 0 > Twierdzenie 15 mówi, że funkcja gładka f jest wypukła na zbiorze E wtedy gdy jej wykres leży nad lub na płaszczyźnie stycznej do wykresu tej funkcji w dowolnym punkcie x 0 ∈ E.
Twierdzenie 16. Załóżmy, że f ∈ C 2( E) . Funkcja f jest wypukła na zbiorze E wtedy gdy dla dowolnego x ∈ E macierz Hessego tej funkcji Hf ( x) jest nieujemnie określona.
Wniosek 1. Forma kwadratowa zdefiniowana przez macierz symetryczną A stopnia n jest wypukła na n wtedy gdy macierz A jest nieujemnie określona.
Wniosek 2. Załóżmy, że E jest otwartym przedziałem w
i f ∈ C 2( E) . Funkcja f jest wypukła na
przedziale E wtedy gdy dla dowolnego x ∈ E mamy f 00( x) 0 .
10. Wyznaczanie największej i najmniejszej wartości funkcji wypukłej
na zbiorze wypukłym
Dany jest niepusty i domknięty zbiór wypukły W ⊂ E.
Definicja 12. Punkt P ∈ W nazywamy punktem ekstremalnym zbioru W gdy dla dowolnego odcinka zawartego w W i przechodzącego przez P , punkt P jest jednym z końców tego odcinka. Zbiór punktów ekstremalnych zbioru W oznaczamy E( W ) .
Należy zauważyć, że punktami ekstremalnymi wielokąta wypukłego na płaszczyźnie i wielościanu w
przestrzeni są jego wierzchołki. Punktami ekstremalnymi koła są punkty okręgu ograniczającego to koło, to znaczy E( K( A, r)) = O( A, r).
7
Twierdzenie 17. Załóżmy, że W jest niepustym, wypukłym i zwartym podzbiorem
n . Wówczas każdy
punkt zbioru W można przedstawić jako kombinację wypukłą co najwyżej n + 1 punktów ekstremalnych zbioru W , to znaczy dla dowolnego x ∈ W istnieją x 1 , x 2 , ..., xk ∈ E( W ) oraz liczby t 1 , t 2 , ..., tk ∈ [0 , 1]
k
k
takie, że X t
X
i = 1 i x =
tixi. Ponadto k ¬ n + 1 .
i=1
i=1
Twierdzenie 18. Załóżmy, że E jest niepustym, wypukłym i otwartym podzbiorem
n i f : E −→
jest funkcją wypukłą klasy C 1 . Wówczas funkcja f przyjmuje wartość najmniejszą na E w punkcie x 0 ∈ E
wtedy gdy grad f ( x 0) = 0 .
Twierdzenie 19. Załóżmy, że W jest niepustym, wypukłym i zwartym podzbiorem
n i f : W −→
jest funkcją wypukłą i ciągłą. Wówczas funkcja f przyjmuje wartość największą na W w punkcie x 0 ∈
E( W ) .
Wniosek 3. Załóżmy, że W jest wielokątem w
2
i f : W −→
jest funkcją wypukłą i ciągłą.
Wówczas funkcja f przyjmuje wartość największą na W w pewnym wierzchołku tego wielokąta.
Na zbiorze W określamy funkcję liniową f ( x) wzorem f ( x) = < x, a > , gdzie a ∈ n i a 6= 0.
Niech mf ( W ) = inf {f ( x) : x ∈ W } , Mf ( W ) = sup {f ( x) : x ∈ W }.
Twierdzenie 20. Jeśli W jest zbiorem ograniczonym to funkcja liniowa f ( x) przyjmuje największą i najmniejszą wartość na zbiorze W w punktach ekstremalnych tego zbioru, to znaczy istnieją
x 0 , y 0 ∈
E( W ) takie, że f ( x 0) = Mf ( W )
i f ( y 0) = mf ( W )
Przykład 1. Załóżmy, że A jest macierzą symetryczną stopnia n nieujemnie określoną. Niech a ∈
n i
b ∈ . Określamy funkcję f : n −→
wzorem
f ( x) = < Ax, x > + < x, a > + b ,
x ∈ n
Wynika stąd,że grad f ( x) = 2 Ax + a i Hf ( x) = 2 A. Ponieważ A jest nieujemnie określona to na mocy twierdzenia 16 funkcja f jest wypukła na
n .
Załóżmy, że f nie jest funkcją stałą. To istnieje y ∈ n takie, że f ( y) 6= f (0) = b. Zatem dla t ∈
i
x = ty mamy
f ( x) = < Aty, ty > + < ty, a > + b = t 2 < Ay, y > + t < y, a > + b = gy( t) Gdy < Ay, y >> 0 to wykres funkcji gy( t) jest parabolą o ramionach skierowanych do góry, a jeśli
< Ay, y > = 0 to < y, a >6= 0 i g
n
y ( t) przyjmuje wszystkie wartości rzeczywiste. Wynika stąd, że Mf (
) =
∞, a gdy istnieje takie y ∈ n , że < Ay, y > = 0 i < y, a >6= 0 to m n
f (
) = −∞.
Załóżmy teraz, że A jest macierzą symetryczną stopnia n dodatnio określoną. Zatem A jest nieosobliwa i istnieje macierz A− 1 także symetryczna. Na mocy twierdzenia 18 funkcja f przyjmuje wartość najmniejszą na n w punkcie x 0 wtedy gdy grad f ( x 0) = 0 . Szukamy teraz rozwiązania równania 2 Ax + a = 0 . Stąd
1
x = − A− 1 a.
2
1
1
Zatem m
n
f (
) = f − A− 1 a = − < A− 1 a, a > + b.
2
4
8
11. Funkcje wektorowe. Różniczka odwzorowania.
Niech E będzie niepustym i otwartym podzbiorem
n . Załóżmy, że dane są funkcje fj : E −→ ,
j = 1 , 2 , ..., k. Tworzymy teraz funkcję f : E −→ k określoną wzorem
f ( x) = ( f 1( x) , f 2( x) , ..., fk( x)) , x ∈ E
Zatem dla x ∈ E wartość funkcji f ( x) jest wektorem o k współrzędnych ( f ( x) ∈ k ). Funkcję f nazywamy
funkcją wektorową o wartościach w
k . Będziemy także pisać f = ( f 1 , f 2 , ..., fk).
Definicja 13. Jeśli dla x 0 ∈ E istnieją pochodne kierunkowe Dafj( x 0) funkcji fj( x) dla j = 1 , 2 , ..., k to mówimy, że funkcja f ( x) ma pochodną kierunkową
Daf ( x 0) w punkcie x 0 w kierunku wektora a i
piszemy
Daf ( x 0) = ( Daf 1( x 0) , Daf 2( x 0) , ..., Dafk( x 0))
∂f
Jeśli istnieją pochodne cząstkowe
j ( x
∂x
0)
to wektor
i
∂f
∂f
∂f
∂f
( x
1 ( x
2 ( x
k ( x
∂x
0) =
0) ,
0) , ...,
0)
i
∂xi
∂xi
∂xi
nazywamy pochodną cząstkową funkcji f względem zmiennej xi w punkcie x 0 dla i = 1 , 2 , .., n.
Mówimy, że funkcja f jest klasy C 1 na zbiorze E gdy istnieją i są ciągłe jej pochodne cząstkowe
∂f ( x) dla x ∈ E i piszemy f ∈ C 1( E, k).
∂x
i
Załóżmy, że f = ( f
k
1 , f 2 , ..., fk) ∈ C 1( E,
). Wprowadzamy definicję
∂f
Definicja 14. Dla x ∈ E macierz Jf ( x) której kolumnami są wektory
( x) , i = 1 , 2 , ..., n
∂xi
nazywamy macierzą Jacobiego funkcji f w punkcie x. Jest to macierz o n kolumnach i k wierszach.
Jeśli n = k to macierz Jf ( x) jest macierzą kwadratową stopnia n i jej wyznacznik det Jf ( x) nazywamy jakobianem funkcji f w punkcie x.
Uwaga 5. Wierszem o numerze j macierzy Jf ( x) jest wektor grad fj( x) j = 1 , 2 , ..., k. Możemy zatem napisać
∂f
∂f
∂f
Jf ( x) =
( x) ,
( x) , ...,
( x)
∂x 1
∂x 2
∂xn
(zapis kolumnowy) lub (zapis wierszowy)
grad f
1( x)
grad f
J
2( x)
f ( x) =
:
grad fk( x)
Definicja 15. Liniowe odwzorowanie T
n
k
k
x
:
−→
nazywamy różniczką funkcji f : E −→
w
0
punkcie x 0 ∈ E gdy funkcja εf ( x) określona dla x ∈ E wzorem
εf ( x) = f ( x) − f ( x 0) − Tx ( x − x
0
0)
spełnia warunek
kε
lim
f ( x) k = 0
x→x 0 kx − x 0 k
To odwzorowanie oznaczamy Df ( x
n
k
0) .
Jego macierz w standardowych bazach w
i w
to macierz
Jacobiego Jf ( x 0) . Jeśli f ma różniczkę w x 0 to mówimy, że funkcja f jest różniczkowalna w punkcie x 0 .
Twierdzenie 21. Jeśli istnieje Df ( x 0) to funkcja f jest ciągła w x 0 . Jeśli E jest zbiorem otwartym i wypukłym oraz f = ( f
k
1 ,
f 2 , ..., fk) ∈ C 1( E,
) to funkcja f jest różniczkowalna w każdym punkcie
x ∈ E.
9