Analiza Pytlik Pochodna id 6116 Nieznany

background image

Rozdział 1

Pojęcie pochodnej

funkcji wielu zmiennych

Pojęcie różniczkowalności

Zaczniemy od przeniesienia pojęcia różniczkowalności na funkcje wielu zmien-

nych. Chcemy, aby pojęcie to miało podobne własności jak dla funkcji jednej
zmiennej, a więc w szczególności by różniczkowalność pociągała ciągłość. Wydaje
się naturalnym nazywać różniczkowalną funkcję posiadającą wszystkie pochodne
cząstkowe. Istnienie pochodnych cząstkowych jednak nie wystarczy. Jak pokażemy,
nie wystarczy nawet dla ciągłości funkcji.

Wykres funkcji f (x, y) =

xy

x

2

+ y

2

.

Układ poziomic funkcji f .

1.1. Przykład. Określmy funkcję f : R

2

R wzorem

f (x, y) =

(

xy

x

2

+ y

2

gdy (x, y) 6= (0, 0),

0

gdy (x, y) = (0, 0).

Funkcja ta nie jest ciągła w punkcie (0, 0) bo choć (t, t) (0, 0) gdy t → 0 to
f (t, t) =

1
2

nie dąży do f (0, 0) = 0. Natomiast

∂f
∂x

(0, 0) = lim

t→0

f (t, 0) − f (0, 0)

t

= 0.

Podobnie

∂f

∂y

(0, 0) = 0.

1

background image

2

ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH

1.2. Przykład. Jeżeli na powyższej funkcji dokonamy operacji obrócenia jej
wykresu o kąt 45

względem osi wartości, czyli dokonamy złożenia funkcji f z

funkcją

g(x, y) =



x − y

2

,

x + y

2



,

to otrzymamy funkcję

h(x, y) = f ◦ g(x, y) =

(

x

2

− y

2

2(x

2

+ y

2

)

gdy (x, y) 6= (0, 0),

0

gdy (x, y) = (0, 0),

która w punkcie (0, 1) nie ma pochodnych cząstkowych.

Jak widać z powyższych przykładów pochodne cząstkowe związane są ze spo-

sobem zbliżania się do punktu (0, 0) z kierunków wyznaczonych przez osie układu
współrzędnych. Zbliżanie się z innego kierunku nie musi gwarantować różniczko-
walności. Wybór kierunków osi współrzędnych jako ważniejszych od innych nie
ma uzasadnienia, dlatego proponujemy:

Definicja. Powiemy, że funkcja f : R

n

R ma w punkcie a ∈ R

n

pochodną

kierunkową w kierunku niezerowego wektora h ∈ R

n

, gdy istnieje granica

D

h

(a) = lim

t→0

f (a + th) − f (a)

t

.

Pochodne cząstkowe są zatem szczególnymi pochodnymi kierunkowymi — po-

chodnymi w kierunkach wektorów bazowych. Przykład 1.2 pokazuje, że funkcja
f z przykładu 1.1 nie ma pochodnych kierunkowych w kierunkach

1

2

,

1

2



i

1

2

,

1

2



. Łatwo można sprawdzić, że nie ma też pochodnych kierunkowych w

żadnym z kierunków h = (h

1

, h

2

), gdy h

1

6= 0 i h

2

6= 0. Istnienie wszystkich

pochodnych kierunkowych także nie musi gwarantować jej ciągłości.

1.3. Przykład. Funkcja f : R

2

R

f (x, y) =

(

x

2

y

x

4

+ y

2

gdy (x, y) 6= (0, 0),

0

gdy (x, y) = (0, 0),

ma w punkcie (0, 0) pochodne kierunkowe we wszystkich kierunkach. Pochodna

w kierunku wektora (x, y) wynosi

x

2

y

gdy y 6= 0 i 0 gdy y = 0.

Funkcja ta jest także nieciągła w punkcie (0, 0). Zbliżając się do tego punktu

wzdłuż paraboli (t, t

2

) funkcja stale przyjmuje wartość

1

2

, zatem f (t, t

2

) nie dąży

do 0, gdy t → 0.

background image

Pojęcie różniczkowalności

3

Wykres funkcji f (x, y) =

xy

2

x

2

+ y

4

.

Układ poziomic funkcji f .

1.4. Uwaga. Pojęcia pochodnych cząstkowych i pochodnych kierunkowych moż-
na rozszerzyć na funkcje o wartościach wektorowych f : R

n

R

m

. Jedyna róż-

nica polega na tym, że wartości funkcji f są wektorami z R

m

. Przypomnijmy tu

twierdzenie:

1.5. Twierdzenie (o różniczkowalności funkcji wektorowych). Fun-
kcja f
: R R

n

jest różniczkowalna w punkcie a ∈ R wtedy i tylko wtedy, gdy

różniczkowalna w punkcie a jest każda z jej funkcji składowych. Wtedy

f

0

(a) = f

0

1

(a), f

0

2

(a), . . . , f

0

m

(a)



.

Bezpośrednie zastosowanie tego twierdzenia do pochodnych cząstkowych funk-

cji f : R

n

R

m

w punkcie a ∈ R

n

daje

∂f

∂x

i

(a) =



∂f

1

∂x

i

(a),

∂f

2

∂x

i

(a), . . . ,

∂f

m

∂x

i

(a)



,

i = 1, 2, . . . , n.

Jak pamiętamy, dla funkcji jednej zmiennej f : R R pochodna f

0

(a) to

liczba, dla której

(1. 1)

lim

h→0

|f (a + h) − f (a) − f

0

(a)h|

|h|

= 0.

Zauważmy, że funkcje postaci h → c h to jedyne funkcje liniowe jednej zmiennej,
a więc jedyne funkcje, których wykresami są linie proste na płaszczyźnie R

2

,

przechodzące przez środek układu. Funkcja liniowa ϕ : R

2

R musi mieć postać

ϕ(h) = c

1

h

1

+ c

2

h

2

a jej wykresem jest płaszczyzna w R

3

przechodząca przez

background image

4

ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH

środek układu. Przez analogię do (1. 1) — mówiąc o różniczkowalności — możemy
dla funkcji f : R

2

R i punktu a ∈ R

2

żądać, by istniała taka funkcja liniowa

ϕ : R

2

R, że

lim

h→0

f(a + h) − f(a) − ϕ(h)

khk

= 0.

Definicja. Powiemy, że funkcja f : R

n

R

m

jest różniczkowalna w punkcie

a ∈ R

n

, jeśli istnieje taka funkcja liniowa ϕ : R

n

R

m

, że

(1. 2)

lim

h→0

f(a + h) − f(a) − ϕ(h)

khk

= 0.

1.6. Przykład. Rozpatrzmy funkcję f : R R

2

postaci f (t) = (cos t, sin t).

Zbadamy, czy jest ona różniczkowalna w punkcie (0, 0). Funkcja liniowa ϕ : R
R

2

musi mieć postać ϕ(t) = (at, bt) dla pewnych stałych a, b ∈ R a ponieważ

kf (t) − f (0) − ϕ(t)k

|t|

=

r

(cos t − 1 − at)

2

+ (sin t − bt)

2

t

2

dąży do

p

a

2

+ (1 − b)

2

gdy t → 0, więc warunek (1. 2) jest spełniony jedynie

przy wyborze a = 0, b = 1.

Uwaga. W geometrii mówi się, że dwie funkcje f, g : R

n

R

m

styczne w

punkcie a ∈ R

n

, gdy

lim

x→a

x6=a

kf (x) − g(x)k

kx − ak

= 0.

Styczność jest relacją typu równoważności. Różniczkowalność funkcji f w punkcie
a oznacza istnienie takiej funkcji liniowej ϕ : R

n

R

m

, że funkcje f i g

styczne w punkcie a, gdzie

g(x) = f (a) + ϕ(x − a).

Ponieważ funkcje liniowe odgrywają ważną rolę w naszej teorii przedstawimy

krótkie repetytorium wiedzy o nich z wykładu algebry.

1.7. Twierdzenie. Istnieje odpowiedniość wzajemnie jednoznaczna między fun-
kcjami liniowymi z
R

n

do R

m

a macierzami n × n. Dana jest ona wzorem

ϕ (x

1

, x

2

, . . . , x

n

)



=

a

11

a

12

. . .

a

1n

a

21

a

22

. . .

a

2n

...

...

...

a

m1

a

m2

. . . a

mn

x

1

x

2

...

x

n

.

Odpowiedniość ta zachowuje strukturę liniową, tj. kombinacji liniowej funkcji od-
powiada kombinacja liniowa macierzy.

background image

Określenie pochodnej

5

1.8. Twierdzenie. Jeżeli ϕ : R

n

R

m

i ψ : R

m

R

k

są funkcjami linio-

wymi, to ψ ◦ ϕ : R

n

R

k

jest także funkcją liniową. Odpowiadająca jej macierz

jest iloczynem macierzy odpowiadających ψ i ϕ

1.9. Twierdzenie. Dla funkcji liniowej ϕ : R

n

R

m

istnieje taka stała M ,

że

(1. 3)

(x)k ¬ M kxk.

Dowód: Z nierówności Schwarza otrzymujemy

(x)k

2

=

m

X

i=1



n

X

j=1

a

ij

x

j



2

¬

m

X

i=1

n

X

j=1

a

2

ij

n

X

j=1

x

2

j

= M

2

kxk

2

,

gdzie

M =

v

u

u

t

m

X

i=1

n

X

j=1

a

2

ij

.

Z własności (1. 3) wynika jednostajna ciągłość funkcji ϕ, mianowicie

(x) − ϕ(y)k = (x − y)k ¬ M kx − yk.

Określenie pochodnej

Domyślamy się, że pochodna musi mieć związek z funkcją liniową ϕ występu-

jącą w definicji (1. 2).

1.10. Twierdzenie. Jeżeli funkcja f : R

n

R

m

jest różniczkowalna w punkcie

a ∈ R

n

, to funkcja liniowa ϕ : R

n

R

m

występująca w definicji różniczkowalno-

ści jest wyznaczona jednoznacznie

Dowód: Jeżeli funkcje liniowe ϕ i ψ spełniają definicję (1. 2), to

(h) − ψ(h)k

khk

¬

kf (a + h) − f (a) − ϕ(h)k

khk

+

kf (a + h) − f (a) − ψ(h)k

khk

.

Ponieważ prawa strona powyższej nierówności dąży do zera przy h → 0, więc

lim

h→0

(h) − ψ(h)k

khk

= 0.

background image

6

ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH

Ustalmy dowolnie wektor x ∈ R

n

, x 6= 0, i połóżmy h = tx, t ∈ R. Jeżeli t → 0,

to h → 0 w R

n

, zatem

0 = lim

t→0

(tx) − ψ(tx)k

ktxk

=

(x) − ψ(x)k

kxk

i musi być ϕ(x) = ψ(x).

Definicja. Funkcję ϕ z definicji (1. 2) nazywamy pochodną funkcji f w punk-
cie a i oznaczamy symbolem Df (a). Macierz funkcji ϕ dla odróżnienia oznaczamy
symbolem f

0

(a).

1.11. Twierdzenie. Jeżeli funkcja f : R

n

R

m

jest różniczkowalna w punkcie

a ∈ R

n

, to jest w tym punkcie ciągła.

Dowód: Oznaczmy przez ε : R

n

R

m

funkcję

ε(h) = f (a + h) − f (a) − ϕ(h).

Wtedy (h)k/khk dąży do zera, gdy h → 0, w szczególności (h)k ¬ khk, gdy
khk ¬ δ . Także (h)k ¬ Mkhk z nierówności (1. 3), zatem

kf (a + h) − f (a)k = (h) + ε(h)k ¬ kϕ(h)k + (h)k ¬ (M + 1)khk

dąży do zera, gdy h → 0.

1.12. Twierdzenie. Funkcja f : R

n

R

m

jest różniczkowalna w punkcie a ∈

R

n

wtedy i tylko wtedy, gdy w punkcie a różniczkowalna jest każda z jej funkcji

składowych f

1

, f

2

, . . . , f

m

. Nadto

Df (a) = Df

1

(a), Df

2

(a), . . . , Df

m

(a)



.

Dowód: Załóżmy, że funkcja f jest różniczkowalna w punkcie a i oznaczmy przez
ϕ

1

, ϕ

2

, . . . , ϕ

m

funkcje składowe jej pochodnej Df (a). Wtedy dla każdego j =

1, 2, . . . , m zachodzi nierówność

|f

j

(a + h) − f

j

(a) − ϕ

j

(h)|

khk

¬

kf (a + h) − f (a) − Df (a)(h)k

khk

,

zatem różniczkowalność funkcji f w punkcie a gwarantuje różniczkowalność w
tym punkcie każdej z funkcji składowych. Także musi być Df

j

(a) = ϕ

j

.

Odwrotnie, jeżeli oznaczymy przez ϕ odwzorowanie liniowe R

n

do R

m

, któ-

rego składowymi są funkcje Df

1

(a), Df

2

(a), . . . , Df

m

(a), to

kf (a + h) − f (a) − ϕ(h)k

khk

¬

m

X

j=1

|f

j

(a + h) − f

j

(a) − Df

j

(a)(h)|

khk

,

stąd zaś łatwo wynika różniczkowalność f w a.

background image

Określenie pochodnej

7

1.13. Przykład. Rozpatrzmy funkcję f : R

n

R

m

postaci

f (x) = hx, bi x,

gdzie b jest ustalonym wektorem w R

n

a hx, bi oznacza iloczyn skalarny wektorów

x i b. Mamy tu

f (a + h) = hh, bi a + ha, bi h + hh, bi h.

Zauważmy, że funkcja

ϕ(h) = hh, bi a + ha, bi h

jest liniowa, bo iloczyn skalarny i mnożenie przez skalar są operacjami liniowymi.
Funkcja ϕ musi być pochodną f w a, gdyż

lim

h→0

kf (a + h) − f (a) − ϕ(h)k

khk

=

k hh, bi hk

khk

¬ kbk khk

dąży do zera przy h → 0

Przyjmijmy n = 2 oraz a = (1, 2), b = (1, 1). Wtedy

ϕ(h) = (4h

1

+ h

2

, 2h

1

+ 5h

2

).

zatem

f

0

(a) =



4 1

2 5



.

Zauważmy też, że

f (x) = (x

2

1

+ x

1

x

2

, x

1

x

2

+ x

2

2

),

więc

∂f

∂x

1

(a) = (4, 2) i

∂f

∂x

2

(a) = (1, 5), co w ogólnym przypadku sugeruje związek

pochodnych cząstkowych

∂f

∂x

i

(a), i = 1, 2, . . . , n i wyrazów macierzy f

0

(a).

1.14. Twierdzenie. Jeżeli funkcja f : R

n

R

m

jest różniczkowalna w punkcie

a ∈ R

n

, to posiada w tym punkcie wszystkie pochodne kierunkowe. Nadto

D

y

f (a) = Df (a) y



= f

0

(a) · y,

gdzie · oznacza iloczyn macierzy.

Dowód: Przyjmując oznaczenie ϕ na pochodną funkcji f w punkcie a oraz

ε(h) = f (a + h) − f (a) − ϕ(h),

z definicji różniczkowalności otrzymujemy (h)k/khk → 0 przy h → 0. Zatem

f (a + ty) − f (a)

t

=

ϕ(ty) − ε(ty)

t

= ϕ(y) +

1

t

ε(ty),

background image

8

ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH

a ponieważ

1

t

ε(ty)

= kyk

(ty)k

ktyk

dąży do zera przy t → 0, więc

lim

t→0

f (a + ty) − f (a)

t

= ϕ(y).

1.15. Wniosek. Jeżeli funkcja f : R

n

R

m

jest różniczkowalna w punkcie

a ∈ R

n

, to

f

0

(a) =



∂f

∂x

1

(a),

∂f

∂x

2

(a), . . . ,

∂f

∂x

n

(a)



=

∂f

1

∂x

1

(a)

∂f

1

∂x

2

(a)

. . .

∂f

1

∂x

n

(a)

∂f

2

∂x

1

(a)

∂f

2

∂x

2

(a)

. . .

∂f

2

∂x

n

(a)

...

...

...

∂f

m

∂x

1

(a)

∂f

m

∂x

2

(a) . . .

∂f

m

∂x

n

(a)

Uwaga. Przypomnijmy jednak, że istnienie wszystkich pochodnych cząstkowych
funkcji w punkcie nie gwarantuje różniczkowalności funkcji w tym punkcie, nie
gwarantuje nawet ciągłości (patrz przykład 1.1). Zjawisko to można zilustrować
geometrycznie. Dla funkcji f : R

2

R pochodne cząstkowe wyznaczają dwie pro-

ste styczne w punkcie a

1

, a

2

, f (a

1

, a

2

)



do powierzchni będącej wykresem funkcji

f . Wyznaczają zatem dokładnie jedną płaszczyznę, nie musi to jednak być płasz-
czyzna styczna do powierzchni.

f

(

x,y

)

(

x,y

)

Interpretacja geometryczna pochodnych cząstkowych.

background image

Określenie pochodnej

9

Mimo to przedstawiona wyżej sytuacja jest wyjątkowa. Wynika to z następu-

jącego twierdzenia:

1.16. Twierdzenie. Jeżeli funkcja f : R

n

R

m

posiada wszystkie pochodne

cząstkowe

∂f

∂x

i

, i = 1, 2, . . . , n, w pewnym otoczeniu punktu a ∈ R

n

i wszystkie

one są ciągłe w punkcie a, to funkcja f jest różniczkowalna w tym punkcie.

Funkcję o tej własności nazywamy różniczkowalną w sposób ciągły w

punkcie a

Dowód: Zgodnie z twierdzeniem 1.12 wystarczy rozpatrzyć przypadek, gdy m =
1, tj. f : R

n

R. Wtedy

f (a + h) − f (a) = f (a

1

+ h

1

, a

2

, a

3

, . . . , a

n

) − f (a

1

, a

2

, a

3

, . . . , a

n

)

+ f (a

1

+ h

1

, a

2

+ h

2

, a

3

, . . . , a

n

) − f (a

1

+ h

1

, a

2

, a

3

, . . . , a

n

)

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
+ f (a

1

+ h

1

, a

2

+ h

2

, . . . , a

n

+ h

n

) − f (a

1

+ h

1

, a

2

+ h

2

, . . . , a

n

).

Stosując do każdego z wierszy twierdzenie Lagrange’a o wartości średniej otrzy-
mamy kolejno

f (a

1

+ h

1

, a

2

, a

3

, . . . , a

n

) − f (a

1

, a

2

, a

3

, . . . , a

n

) = h

1

∂f

∂x

1

(b

1

, a

2

, a

3

, . . . , a

n

)

dla pewnego punktu b

1

leżącego między punktami a

1

i a

1

+ h

1

,

f (a

1

+ h

1

, a

2

+ h

2

, . . . , a

n

) − f (a

1

+ h

1

, a

2

, . . . , a

n

) = h

2

∂f

∂x

2

(a

1

+ h

1

, b

2

, . . . , a

n

)

dla pewnego punktu b

2

leżącego między punktami a

2

i a

2

+ h

2

, itd. Oznaczmy

punkty (b

1

, a

2

, . . . , a

n

), (a

1

+ h

1

, b

2

, . . . , a

n

) itd. odpowiednio przez c

1

, c

2

, . . . , c

n

.

Wtedy

f (a + h) − f (a) =

n

X

i=1

∂f

∂x

i

(c

i

) h

i

,

zatem

f (a + h) − f (a)

n

P

i=1

∂f

∂x

i

(a) h

i

khk

=

n

P

i=1



∂f

∂x

i

(c

i

)

∂f

∂x

i

(a)



h

i

khk

¬

n

X

i=1

∂f

∂x

i

(c

i

)

∂f

∂x

i

(a)

,

background image

10 ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH

bo |h

i

|/khk ¬ 1. Przechodząc do granicy przy h → 0, na mocy założonej ciągłości

w punkcie a każdej z funkcji

∂f

∂x

i

, otrzymamy równość

lim

h→0

f (a + h) − f (a)

n

P

i=1

∂f

∂x

i

(a) h

i

khk

= 0

oznaczającą różniczkowalność funkcji f w punkcie a.

Podstawowe własności pochodnej

Wprost z definicji różniczkowalności wynika, że funkcja stała f jest różnicz-

kowalna i Df (a) = 0. Także każda funkcja liniowa f jest różniczkowalna i
Df (a) = f . Inną natychmiastową konsekwencją jest wzór

D(αf + βg)(a) = αDf (a) + βDg(a).

Dokładnie tak samo, jak dla funkcji zmiennej rzeczywistej dla funkcji wektorowych
różniczkowalnych o wartościach rzeczywistych dowodzi się wzorów:

D(f × g)(a) = g(a)Df (a) + f (a) Dg(a),

D



f

g



(a) =

g(a)Df (a) − f (a)Dg(a)

g(a)

2

,

gdy g(a) 6= 0.

1.17. Twierdzenie (o pochodnej funkcji złożonej). Jeżeli funkcja f :
R

n

R

m

jest różniczkowalna w punkcie a zaś funkcja g : R

m

R

k

jest róż-

niczkowalna w punkcie b = f (a), to funkcja złożona h = g ◦ f : R

n

R

k

jest

różniczkowalna w punkcie a i

Dh(a) = Dg(b) ◦ Df (a),

czyli

h

0

(a) = g

0

(b) · f

0

(a),

gdzie · oznacza iloczyn macierzy.

Dowód: Oznaczmy ϕ = Df (a), ψ = Dg(b) i wprowadźmy funkcje pomocnicze
u, v , w kładąc

u(x) = f (x) − f (a) − ϕ(x − a),

v(y) = g(y) − g(b) − ψ(y − b),

w(x) = h(x) − h(a) − ψ ◦ ϕ(x − a).

background image

Podstawowe własności pochodnej

11

Z założenia wiemy, że

(1. 4)

lim

x→a

ku(x)k

kx − ak

= 0,

lim

y→b

kv(y)k

ky − bk

= 0,

a chcemy pokazać, że

lim

x→a

kw(x)k

kx − ak

= 0

Z określenia funkcji h i reszty w wiemy, że

w(x) = g f (x)



− g f (a)



− ψ ϕ(x − a)



= g f (x)



− g(b) − ψ f (x) − b



+ ψ f (x) − b − ϕ(x − a)



,

tak więc

w(x) = v f (x)



+ ψ u(x)



.

Jeżeli dana jest liczba ε > 0, to z drugiej równości (1. 4) wynika istnienie takiej
liczby η > 0, że

kv(y)k ¬ ε ky − bk,

gdy ky − bk ¬ η,

a z ciągłości funkcji f w punkcie a i z pierwszej z równości (1. 4) istnienie takiej
liczby δ > 0, że jednocześnie

kf (x) − bk ¬ η i ku(x)k ¬ ε kx − ak,

gdy kx − ak ¬ δ.

Stąd

v f(x)



¬ ε kf(x) − bk = ε ku(x) + ϕ(x − a)k

¬ ε

2

kx − ak + εM kx − ak,

ψ u(x)



k ¬ N ku(x)k ¬ εN kx − ak,

gdy kx − ak ¬ δ . To daje

kw(x)k

kx − ak

¬ ε (M + N + ε),

gdy kx − ak ¬ δ.

Stałe M i N dobraliśmy do funkcji ϕ i ψ tak, by (x)k ¬ M kxk i (y)k ¬
N kyk
.

1.18. Przykład. Funkcję f (x, y) =

xy

x

2

+ y

2

na R

2

\ {(0, 0)} możemy przedsta-

wić we współrzędnych biegunowych przyjmując x = r cos t, y = r sin t. Oznaczmy
tak otrzymaną funkcję zmiennych r , t przez h

h(r, t) = f (r cos t, r sin t) = cos t sin t =

1
2

sin 2t,

background image

12 ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH

a ponieważ

∂h

∂r

= 0,

∂h

∂t

= cos 2t, więc h

0

(r, t) = ( 0 cos 2t ). Z drugiej strony

h = f ◦ g , gdzie funkcja g : R

2

R

2

ma postać

g(r, t) = (r cos t, r sin t),

zatem h

0

(r, t) = f

0

g(r, t)



· g

0

(r, t). Ponieważ

f

0

(x, y) =



−y(x

2

−y

2

)

(x

2

+y

2

)

2

x(x

2

−y

2

)

(x

2

+y

2

)

2



,

f

0

g(r, t)



=



−r

3

sin t(cos

2

t−sin

2

t)

r

4

r

3

cos t(cos

2

t−sin

2

t)

r

4



=



sin t cos 2t

r

cos t cos 2t

r



,

g

0

(r, t) =



cos t −r sin t

sin t

r cos t



,

więc

h

0

(r, t) =



sin t cos 2t

r

cos t cos 2t

r

 

cos t −r sin t

sin t

r cos t



= ( 0 cos 2t ) .

Twierdzenie o funkcji odwrotnej

Przedstawimy teraz jedno z najważniejszych twierdzeń teorii funkcji wielu

zmiennych.

1.19. Twierdzenie (o funkcji odwrotnej). Załóżmy, że funkcja f : R

n

R

n

jest różniczkowalna w sposób ciągły w pewnym zbiorze otwartym zawierającym

punkt a ∈ R

n

oraz, że

det f

0

(a) 6= 0.

Wtedy istnieją takie zbiory otwarte U punktu a oraz V punktu f (a), że funkcja
f
: U → V jest odwracalna a funkcja odwrotna f

1

: V → U jest różniczkowalna

w sposób ciągły i zachodzi równość

(1. 5)

f

1



0

f (x)



=



f

0

(x)



1

.

Dowód tego twierdzenia jest długi i trudny, zostanie więc pominięty. Można

go znaleźć w wielu podręcznikach z analizy, np. w podręczniku W. Rudina „Pod-
stawy analizy matematycznej
”. Sama teza nie wydaje się jednak zaskakująca.
Znamy dokładnie tak samo brzmiące twierdzenie o pochodnej funkcji odwrotnej

background image

Twierdzenie o funkcji odwrotnej

13

dla funkcji jednej zmiennej. Nieoczekiwana nie jest też sama równość (1. 5), bo
skoro f

1

◦ f = id , to z twierdzenia o pochodnej funkcji złożonej otrzymujemy

= f

1

◦ f



0

(x) = f

1



0

f (x)



· f

0

(x),

gdzie oznacza macierz jednostkową. Mnożąc powyższą równość obustronnie
przez macierz



f

0

(x)



1

otrzymamy (1. 5). Aby można było dokonać tej ope-

racji należy założyć odwracalność macierzy f

0

(x). Stąd warunek det f

0

(a) 6= 0

w założeniu twierdzenia (z założonej ciągłości pochodnych cząstkowych funkcji
f wynika ciągłość funkcji det f

0

(x), zatem warunek det f

0

(x) 6= 0 w pewnym

otoczeniu punktu a).

Największą trudność w dowodzie sprawia wykazanie istnienia zbiorów otwar-

tych U i V , dla których funkcja f : U → V jest odwracalna. Trudność sprawia
nie tylko wykazanie tego, że f jest funkcją różnowartościową, lecz także tego, że
f odwzorowuje zbiór U na pewien zbiór otwarty. W odpowiednim twierdzeniu
dla funkcji jednej zmiennej różnowartościowość jest równoważna monotoniczno-
ści funkcji f , a więc stałemu znakowi pochodnej a własność „na” funkcji jest
natychmiastową konsekwencją twierdzenia Darboux.

1.20. Wniosek. Jeżeli funkcja f : R

n

R

n

jest różniczkowalna w sposób ciągły

na pewnym zbiorze otwartym W ⊂ R

n

oraz det f

0

(x) 6= 0 dla wszystkich punktów

x ∈ W , to f (W ) jest także zbiorem otwartym.

Dowód: Z twierdzenia o funkcji odwrotnej wnosimy, że dla każdego punktu x ∈
W
istnieje taki zbiór otwarty U

x

⊂ W zawierający x i taki zbiór otwarty V

x

zawierający f (x), że funkcja f : U

x

→ V

x

jest odwracalna. W szczególności

f (U

x

) = V

x

, co pociąga, że zbiór

f (W ) = f

 [

x∈W

U

x



=

[

x∈W

f (U

x

) =

[

x∈W

V

x

jest otwarty.

Definicja. Niech U i V będą zbiorami otwartymi w R

n

. Funkcję odwracalną

f : U → V nazwiemy dyfeomorfizmem jeżeli f i f

1

są funkcjami różniczko-

walnymi w sposób ciągły odpowiednio na zbiorach U i V .

Twierdzenie o funkcji odwrotnej jest zatem twierdzeniem o lokalnym dyfe-

omorfizmie.

1.21. Przykład. Dla funkcji g : R

2

R

2

g(r, t) = (r cos t, r sin t),

background image

14 ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH

zamieniającej współrzędne kartezjańskie na współrzędne biegunowe, mamy

det g

0

(r, t) = det



cos t −r sin t

sin t

r cos t



= r,

zatem gdy r 6= 0, to g jest funkcją lokalnie odwracalną. Słowo „lokalnie” jest
tu istotne, bo g nie jest funkcją różnowartościową, np. g(r, t) = g(r, t + 2π) =
g(−r, t + π). Jak wiemy g jest funkcją różnowartościową, a nawet odwracalną,
gdy r > 0 i 0 ¬ t < 2π . Na tym zbiorze funkcja odwrotna g

1

ma postać

(1. 6)

g

1

(x, y) =

p

x

2

+ y

2

, arc tg

y
x



.

twierdzenia o funkcji odwrotnej mamy

g

1



0

(x, y) =



g

0

(r, t)



1

=



cos t −r sin t

sin t

r cos t



1

=



cos t

sin t

1

r

sin t

1

r

cos t



=

x

p

x

2

+ y

2

y

p

x

2

+ y

2

−y

x

2

+ y

2

x

x

2

+ y

2

.

Związek między (x, y) i (r, t) dany jest równością (x, y) = g(r, t), tj. (r, t) =
g

1

(x, y).

Bezpośrednie obliczenie macierzy g

1



0

(x, y) ze wzoru (1. 6) daje ten sam

wynik.

Twierdzenie o funkcji uwikłanej

Teraz przedstawimy jeszcze jedno ważne twierdzenie dotyczące różniczkowal-

ności funkcji — twierdzenie o funkcji uwikłanej. Poprzedzimy je przykładem, który
wprowadzi nas w zagadnienie.

1.22. Przykład. Rozpatrzmy funkcję f : R

2

R określoną wzorem

f (x, y) = x

2

+ y

2

1.

Zbiór



(x, y) R

2

: f (x, y) = 0

jest okręgiem jednostkowym a dla przykładu

punkt (a, b) =

1

2

,

3

2



należy do tego zbioru. Zauważmy, że funkcja g określona

na przedziale (1, 1) wzorem

g(x) =

p

1 − x

2

background image

Twierdzenie o funkcji uwikłanej

15

ma tą własność, że

f x, g(x)



= 0 dla x ∈ (1, 1) oraz g(a) = b,

tj. równanie x

2

+ y

2

1 = 0 daje się lokalnie rozwikłać w otoczeniu punktu (a, b).

Jeśli wybrać (a, b) =

1

2

, −

3

2



, to funkcją rozwikłującą jest g(x) =

1 − x

2

na przedziale (1, 1). W punktach (a, b) = (1, 0) lub (a, b) = (1, 0) równanie
f (x, y) = 0 nie da się lokalnie rozwikłać.

1.23. Twierdzenie (o funkcji uwikłanej). Załóżmy, że funkcja f : (R

n

×

R

m

) R

m

jest różniczkowalna w sposób ciągły w pewnym zbiorze otwartym za-

wierającym punkt (a, b) oraz, że f (a, b) = 0. Niech A będzie macierzą

A =



∂f

j

∂x

n+i

(a, b)



m

i,j=1

.

Jeżeli det A 6= 0, to istnieje taki zbiór otwarty W ⊂ R

n

zawierający punkt a i

jednoznacznie określona funkcja g : W → R

m

, że g(a) = b oraz

(1. 7)

f x, g(x)



= 0

dla wszystkich x ∈ W . Funkcja g jest różniczkowalna na W .

Dowód: Określmy funkcję pomocniczą F : R

n+m

R

n+m

wzorem

F (x, y) = x, f (x, y)



.

Wtedy

det F

0

(a, b) = det



I

0

∗ A



= det A 6= 0.

Z twierdzenia o funkcji odwrotnej wynika istnienie w R

n+m

takich zbiorów otwar-

tych U i V , zawierających odpowiednio punkt (a, b) i punkt F (a, b) = (a, 0) i
mające tą własność, że funkcja F : U → V ma różniczkowalną funkcję odwrotną

F

1

: V → U.

Funkcja odwrotna musi mieć postać

F

1

(x, y) = x, h(x, y)



dla pewnej funkcji różniczkowalnej h : V → R

m

. Oznaczmy przez π : R

n

× R

m

R

m

rzut na „drugą oś” π(x, y) = y . Jest to funkcja liniowa, jest więc funkcją

różniczkowalną oraz f = π ◦ F . Wobec tego

f x, h(x, y)



= f ◦ F

1

(x, y) = (π ◦ F ) ◦ F

1

(x, y)

= π ◦ F ◦ F

1



(x, y) = π(x, y) = y,

.

background image

16 ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH

Jeśli przyjmiemy za W zbiór otwarty

W =



x ∈ R

n

: (x, 0) ∈ V

,

to f x, h(x, 0)



= 0 dla x ∈ W i wystarczy określić

g(x) = h(x, 0).

Jedyność funkcji g wynika z różnowartościowości funkcji F , bo jeśli dla pew-

nych (x, y

0

), (x, y

00

) ∈ U zachodzi równość f (x, y

0

) = f (x, y

00

), to F (x, y

0

) =

F (x, y

00

) i musi być y

0

= y

00

.

1.24. Przykład. Prześledzimy dowód twierdzenia o funkcji uwikłanej dla funk-
cji f (x, y) = x

2

+ y

2

1 z przykładu 1.22 i punktu (a, b) =

1

2

,

3

2



.

Funkcja F : R

2

R

2

ma tu postać

F (x, y) = (x, x

2

+ y

2

1),

jest także

det F

0

(a, b) = det



1

0

1

3



=

3 6= 0.

Łatwo sprawdzamy, że funkcja F odwzorowuje wzajemnie jednoznacznie półpłasz-
czyznę U = {(x, y) R

2

: y > 0} na zbiór otwarty

V = {(x, y) R

2

: y > x

2

1}

a jej funkcja odwrotna F

1

: V → U jest określona wzorem

F

1

(x, y) =



x,

p

1 − x

2

+ y



.

Zatem h(x, y) =

p

1 − x

2

+ y a zbiór W ma postać

W =



x ∈ R : (x, 0) ∈ V

= (1, 1).

To każe określić funkcję g : (1, 1) R wzorem

g(x) =

p

1 − x

2

.

Jeżeli za U wybierzemy inne, mniejsze otoczenie punktu

1

2

,

3

2



, np. koło

otwarte

U =

n

(x, y) R

2

:

(x, y)

1

2

,

3

2



< ε

o

=

n

1

2

+ r cos t,

3

2

+ r sin t



R

2

: 0 ¬ r < ε, 0 ¬ t < 2π

o

,

background image

Twierdzenie o funkcji uwikłanej

17

gdzie 0 < ε <

3

2

, to zbiór V będzie elipsą

V =

n

1

2

+ r cos t, r

2

+ 2r cos t −

π

6



R

2

: 0 ¬ r < ε, 0 ¬ t < 2π

o

a w konsekwencji zbiór W właściwym podzbiorem przedziału (1, 1), np. dla
ε = 0.5 przedziałem (0.0182, 0.8568) (patrz rysunek) a dla ε = 0.1 przedziałem
(0.4110, 0.5839).

-0.5

0.5

1

1

0.8

0.6

0.4

0.2

U

V

W

Zbiory U i V dla ε = 0.5.

Uwaga. Twierdzenie o funkcji uwikłanej mówi o różniczkowalności funkcji g ale
nie daje przepisu jak tą pochodną obliczyć. Można to zrobić następująco: ustalamy
wskaźnik k (k = 1, 2, . . . , n) i każdą z równości f

j

x, g(x)



= 0, j = 1, 2, . . . , m,

zróżniczkujmy względem zmiennej x

k

otrzymując

(1. 8)

0 =

∂x

k

h

f

j

x, g(x)

i

=

∂f

j

∂x

k

x, g(x)



+

m

X

i=1

∂f

j

∂x

n+i

x, g(x)



·

∂g

i

∂x

k

(x).

Ponieważ det A 6= 0, to w pewnym otoczeniu punktu a także

det



∂f

j

∂x

n+i

x, g(x)





m

i,j=1

6= 0,

więc dla każdego ustalonego x z tego otoczenia układ równań algebraicznych (1. 8)
ma dokładnie jedno rozwiązanie względem niewiadomych

∂g

i

∂x

k

(x), i = 1, 2, . . . , m.

Oczywiście otrzymany wynik będzie zależał od wartości

∂f

j

∂x

n+i

x, g(x)



, a więc

także od wartości g(x). Jest to nieuniknione, bo funkcja g spełniająca równa-
nie (1. 7) zwykle nie jest jedyna, a jej jednoznaczność jest wymuszona warun-
kiem g(a) = b. Jak pamiętamy, w przykładzie 1.22 znaleźliśmy dwie funkcje g

background image

18 ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH

spełniające równanie (1. 7), mianowicie g(x) =

1 − x

2

oraz g(x) =

1 − x

2

.

Różniczkując to równanie otrzymujemy

∂f
∂x

x, g(x)



+

∂f

∂y

x, g(x)



· g

0

(x) = 0,

tj. 2x + 2g(x) g

0

(x) = 0, co daje

g

0

(x) =

−x

g(x)

.

Równość powyższa jest spełniona zarówno dla funkcji g(x) =

1 − x

2

jak i dla

g(x) =

1 − x

2

.

1.25. Przykład. Jak w praktyce wygląda rozwiązywanie układu równań (1. 8)?
Prześledzimy to na przykładzie funkcji f : R

2

× R

2

R

2

f (x, y) = (x

1

y

1

− x

2

y

2

, x

1

y

2

+ x

2

y

1

2)

i punktu (a, b) = (1, 1), (1, 1)



. Założenia twierdzenia o funkcji uwikłanej są

spełnione, bo f (a, b) = 0 oraz

det A = det

∂f

1

(a,b)

∂y

1

∂f

1

(a,b)

∂y

2

∂f

2

(a,b)

∂y

1

∂f

2

(a,b)

∂y

2

 = det



1 1

1

1



= 2 6= 0,

zatem istnieje takie otoczenie W punktu a w R

2

i funkcja g : W → R

2

, że

f x, g(x)



= 0 dla x ∈ W.

Równanie powyższe możemy zapisać w postaci układu dwóch tożsamości

(1. 9)

x

1

g

1

(x

1

, x

2

) − x

2

g

2

(x

1

, x

2

) = 0,

x

1

g

2

(x

1

, x

2

) + x

2

g

1

(x

1

, x

2

) 2 = 0.

Różniczkując je stronami względem zmiennej x

1

otrzymamy układ równań

x

1

∂g

1

∂x

1

(x

1

, x

2

) − x

2

∂g

2

∂x

1

(x

1

, x

2

) = −g

1

(x

1

, x

2

),

x

2

∂g

1

∂x

1

(x

1

, x

2

) + x

1

∂g

2

∂x

1

(x

1

, x

2

) = −g

2

(x

1

, x

2

),

z którego obliczamy

∂g

1

∂x

1

=

−x

1

g

1

− x

2

g

2

x

2

1

+ x

2

2

,

∂g

2

∂x

1

=

−x

1

g

2

+ x

2

g

1

x

2

1

+ x

2

2

.

background image

Twierdzenie o funkcji uwikłanej

19

Różniczkując (1. 9) względem zmiennej x

2

w podobny sposób obliczamy

∂g

1

∂x

2

=

x

1

g

2

− x

2

g

1

x

2

1

+ x

2

2

,

∂g

2

∂x

2

=

−x

1

g

1

− x

2

g

2

x

2

1

+ x

2

2

.

W szczególności otrzymujemy

g

0

(1, 1) =



1

0

0

1



.

Wyniki te można łatwo zweryfikować wyznaczając funkcję g bezpośrednio z uk-
ładu równań (1. 9)

g(x) =



2x

2

x

2

1

+ x

2

2

,

2x

1

x

2

1

+ x

2

2



.

background image

Rozdział 2

Pochodne wyższych rzędów

Pojęcie różniczkowalności

Załóżmy, że funkcja f : R

n

R

m

jest różniczkowalna w pewnym zbiorze

otwartym U ⊂ R

n

. Wtedy dla x ∈ U macierz f

0

(x) możemy traktować jako

wektor przestrzeni R

n·m

— określona jest zatem funkcja f

0

: R

n

R

n×m

i

można pytać, czy jest to funkcja różniczkowalna w wybranym punkcie a ∈ U .
Jeśli tak jest, to f

00

(a) winna być macierzą n × (n × m), czyli trójwymiarową

macierzą A = {a

ijk

: i, j = 1, 2, . . . , n, k = 1, 2, . . . , m}, gdzie

a

ijk

=

∂x

i



∂f

k

∂x

j



(a) =

2

f

k

∂x

i

∂x

j

(a).

Zobaczmy jak wtedy należy interpretować pochodną D

2

f (a). Jak pamiętamy,

zbiór wszystkich odwzorowań liniowych z przestrzeni R

n

do R

m

, z operacjami

dodawania odwzorowań i mnożenia ich przez skalary, sam jest przestrzenią liniową
a z każdym jego elementem związana jest pewna macierz n × m. Jest to zatem
przestrzeń liniowa wymiaru n · m. Oznaczmy ją przez L(R

n

, R

m

). Otóż D

2

f (x)

należy traktować jako odwzorowanie liniowe z R

n

do L(R

n

, R

m

). Oznacza to, że

dla każdego wektora h ∈ R

n

wartość D

2

f (x)(h) jest odwzorowaniem liniowym

z R

n

do R

m

zatem odwzorowaniem, które dowolnemu wektorowi k ∈ R

n

przy-

porządkowuje wektor z R

m

, W konsekwencji parze wektorów (h, k) z R

n

zostaje

przyporządkowany wektor z R

m

a przyporządkowanie to jest liniowe zarówno

względem h jak i k . Odwzorowania takie nazywamy dwuliniowym a zbiór, który
tworzą jest znów przestrzenią liniową, którą oznaczamy L

2

(R

n

, R

m

). Tak więc

D

2

f (a) ∈ L

2

(R

n

, R

m

). W międzyczasie otrzymaliśmy opis wszystkich odwzoro-

wań ϕ z L

2

(R

n

, R

m

), wyznaczone one są jednoznacznie przez macierze n×n×m.

Jeżeli h = (h

1

, h

2

, . . . , h

n

), k = (k

1

, k

2

, . . . , k

n

) są wektorami z R

n

, to

ϕ(h, k) = (y

1

, y

2

, . . . , y

m

),

gdzie

y

k

=

n

X

i=1

n

X

j=1

a

ijk

h

i

k

j

20

background image

Pojęcie różniczkowalności

21

dla pewnej macierzy A = {a

ijk

: i, j = 1, 2, . . . , n, k = 1, 2, . . . , m}.

Powtarzając powyższe rozumowanie dla macierzy f

00

(x) i dla odwzorowania

D

2

f (x), jako funkcji zmiennej x możemy określić f

000

(a) jako macierz n×n×n×m

o wyrazach

a

ijkl

=

3

f

l

∂x

i

∂x

j

∂x

k

(a),

i, j, k = 1, 2, . . . , n, l = 1, 2, . . . , m,

zaś D

3

f (a) jako odpowiadające tej macierzy odwzorowanie trójliniowe z R

n

do

R

m

, itd.

Definicja. Powiemy, że funkcja f : R

n

R

m

jest klasy C

k

na zbiorze otwar-

tym U ⊂ R

n

, jeżeli każda z jej funkcji składowych posiada wszystkie pochodne

cząstkowe wszystkich rzędów do k włącznie na U i wszystkie one są funkcjami
ciągłymi. Gwarantuje to, że dla x ∈ U funkcja f posiada pochodne D

i

f (x) do

rzędu k włącznie.

Uwaga. Gdy m = 1, to f

00

(a) jest w istocie macierzą n × n

f

00

(a) =

2

f (a)

∂x

2

1

2

f (a)

∂x

1

∂x

2

· · ·

2

f (a)

∂x

1

∂x

n

2

f (a)

∂x

2

∂x

1

2

f (a)

∂x

2

2

· · ·

2

f (a)

∂x

2

∂x

n

...

...

...

2

f (a)

∂x

n

∂x

1

2

f (a)

∂x

n

∂x

1

· · ·

2

f (a)

∂x

2

n

zwaną hessianem (od Ludwika Otto Hessa 1811–1874) funkcji f w punkcie a.

2.1. Przykład. Obliczymy kolejne pochodne funkcji f : R

2

R określonej

wzorem

f (x) = x

2

1

x

2

− x

1

x

2

2

+ 1

w punkcie a = (2, 1). Mamy tu

∂f

∂x

1

(a) = 2a

1

a

2

−a

2

2

= 3,

∂f

∂x

2

(a) = a

2

1

a

2

2a

2

= 2,

2

f

∂x

2

1

(a) = 2a

2

= 2,

2

f

∂x

1

∂x

2

(a) =

2

f

∂x

2

∂x

1

(a) = 2a

1

2a

2

= 2,

2

f

∂x

2

2

(a) = 2a

1

= 4,

3

f

∂x

2

1

∂x

2

(a) =

3

f

∂x

1

∂x

2

∂x

1

(a) =

3

f

∂x

2

∂x

2

1

(a) = 2 oraz

3

f

∂x

1

∂x

2

2

(a) =

3

f

∂x

2

∂x

1

∂x

2

(a) =

3

f

∂x

2

2

∂x

1

(a) = 2, natomiast

3

f

∂x

3

1

(a),

3

f

∂x

3

2

(a) oraz wszystkie pochodne cząstkowe

wyższych rzędów są już równe zeru. Stąd dla dowolnych wektorów h, k, l ∈ R

2

background image

22

ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW

otrzymujemy

D

1

f (a)(h) = 3h

1

+ 2h

2

,

D

2

f (a)(h, k) = 2h

1

k

1

+ 2h

1

k

2

+ 2h

2

k

1

+ 4h

2

k

2

,

D

3

f (a)(h, k, l) = 2h

1

k

1

l

2

+ 2h

1

k

2

l

1

+ 2h

2

k

1

l

1

2h

1

k

2

l

2

2h

2

k

1

l

2

2h

2

k

2

l

1

.

Pochodne D

4

f (a), D

5

f (a) itd. są już funkcjami zerowymi.

Równość

2

f

∂x

1

∂x

2

(a) =

2

f

∂x

2

∂x

1

(a) oznacza, że kolejność różniczkowania funkcji

f po zmiennych x

1

i x

2

nie jest istotna. Sytuację taką należy traktować jako

typową.

2.2. Twierdzenie (o pochodnych mieszanych). Jeżeli pochodne mieszane
drugiego rzędu

2

f

∂x

i

∂x

j

i

2

f

∂x

j

∂x

i

funkcji f : R

n

R

m

są ciągłe w punkcie a ∈ R

n

,

to zachodzi równość

(2. 10)

2

f

∂x

i

∂x

j

(a) =

2

f

∂x

j

∂x

i

(a).

Dowód: Ponieważ równość (2. 10) należy sprawdzić dla każdej z funkcji składo-
wych z osobna, więc w istocie zagadnienie redukuje się do przypadku, gdy f funk-
cją rzeczywistą dwóch zmiennych. Załóżmy zatem, że f : R

2

R i wprowadźmy

funkcję pomocniczą

h(x

1

, x

2

) = f (a

1

+ x

1

, a

2

+ x

2

) − f (a

1

+ x

1

, a

2

) − f (a

1

, a

2

+ x

2

) − f (a

1

, a

2

).

Jeżeli ustalimy najpierw zmienną x

2

i oznaczymy

g(t) = f (t, a

2

+ x

2

) − f (t, a

2

),

to

h(x

1

, x

2

) = g(a

1

+ x

1

) − g(a

1

).

Z twierdzenia Lagrange’a o wartości średniej otrzymujemy h(x

1

, x

2

) = g

0

(α

1

) x

1

dla pewnej liczby α

1

leżącej między a

1

i a

1

+ x

1

, tj.

h(x

1

, x

2

) =



∂f

∂x

1

(α

1

, a

2

+ x

2

)

∂f

∂x

1

(α

1

, a

2

)



x

1

.

Ustalmy teraz x

1

i skorzystajmy ponownie z twierdzenia o wartości średniej. Do-

staniemy wtedy

h(x

1

, x

2

) =

2

f

∂x

1

∂x

2

(α

1

, α

2

) x

1

x

2

background image

Pojęcie różniczkowalności

23

dla pewnego α

2

leżącego między a

2

i a

2

+ x

2

. Z ciągłości funkcji

2

f

∂x

1

∂x

2

wynika,

że

2

f

∂x

1

∂x

2

(a

1

, a

2

) =

lim

(x

1

,x

2

)(0,0)

h(x

1

, x

2

)

x

1

x

2

.

Dokładnie taką samą wartość prawej strony otrzymamy, jeśli zmienimy kolejność
postępowania ze zmiennymi x

1

i x

2

, z lewej strony otrzymamy zaś

2

f

∂x

2

∂x

1

(α

1

, α

2

),

stąd równość (2. 10).

Uwaga. Jest oczywiste, że twierdzenie o pochodnych mieszanych przez iterację
przenosi się na pochodne wyższych rzędów. W praktyce dla funkcji dwóch zmien-
nych oznacza to, że zamiast obliczania 2

k

pochodnych cząstkowych k -tego rzędu

należy obliczyć ich tylko k + 1 a ogólnie dla funkcji n zmiennych zamiast n

k

tylko

n+k

k



, np. tylko pochodne po zmiennych, których wskaźniki tworzą ciąg

niemalejący.

2.3. Wniosek. Jeżeli f jest funkcją klasy C

2

, to D

2

f (a) jest funkcją dwuli-

niową symetryczną, tj.

D

2

f (a)(h, k) = D

2

f (a)(k, h)

dla dowolnych wektorów h, k ∈ R

n

.

2.4. Przykład. Równość drugich pochodnych mieszanych nie jest rzeczą au-
tomatyczną. Założenie ciągłości w twierdzeniu o pochodnych mieszanych jest
istotne. Widać to na przykładzie funkcji f : R

2

R określonej następująco:

f (x, y) =

xy(x

2

− y

2

)

x

2

+ y

2

gdy (x, y) 6= (0, 0),

0

gdy (x, y) = (0, 0).

Pochodne cząstkowe

∂f
∂x

i

∂f

∂y

mają postać

∂f
∂x

(x, y) =

x

4

+ 4x

2

y

2

− y

4

(x

2

+ y

2

)

2

y,

∂f

∂y

(x, y) =

x

4

4x

2

y

2

− y

4

(x

2

+ y

2

)

2

x,

gdy (x, y) 6= (0, 0) oraz

∂f
∂x

(0, 0) =

∂f

∂y

(0, 0) = 0. Stąd

2

f

∂x ∂y

(0, 0) = lim

x→0

1

x

∂f

∂y

(x, 0) = 1,

zaś

2

f

∂y ∂x

(0, 0) = lim

y→0

1
y

∂f
∂x

(0, y) = 1.

W pozostałych punktach płaszczyzny R

2

pochodne mieszane są sobie równe. Jest

tak, bo f w obszarze R

2

\ {(0, 0)} jest funkcją klasy C

2

(jest funkcją klasy C

k

dla każdego k ).

background image

24

ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW

Wzór Taylora

Wzór Taylora dla funkcji wielu zmiennych można otrzymać ze wzoru Taylora

za pomocą pewnego wybiegu. Zobaczmy jak to zrobić w praktyce.

2.5. Przykład. Załóżmy, że f : R

2

R jest funkcją klasy C

r+1

w pewnym

wypukłym otoczeniu punktu (0, 0). Wybierzmy punkt (x, y) z tego otoczenia i
określmy funkcję g : R R wzorem

g(t) = f (tx, ty).

Wtedy g jest funkcją klasy C

r+1

w pewnym zbiorze otwartym zawierającym

przedział [0, 1] a korzystając wielokrotnie ze wzoru na pochodną funkcji złożonej
dla punktów t z tego przedziału otrzymujemy

g

0

(t) =

∂f
∂x

(tx, ty) x +

∂f

∂y

(tx, ty) y,

g

00

(t) =

2

f

∂x

2

(tx, ty) x

2

+ 2

2

f

∂z ∂y

(tx, ty) xy +

2

f

∂y

2

(tx, ty) y

2

,

itd., ogólnie

g

(m)

(t) =

k

X

i=0



m

i



m

f

∂x

i

∂y

m−i

(tx, ty) x

i

y

m−i

.

Jeżeli wartość g(1) przedstawimy ze wzoru Taylora dla funkcji g w postaci

g(1) =

r

X

m=0

1

m!

g

(m)

(0) +

1

(r + 1)!

g

(r+1)

(θ) dla pewnego θ ∈ (0, 1)

i wstawimy obliczone wcześniej wartości funkcji g i jej pochodnych, to otrzymamy

(2. 11)

f (x, y) =

r

X

m=0

1

m!

m

X

k=0



m

k



m

f

∂x

k

∂y

m−k

(0, 0) x

k

y

m−k

+ R

r

,

gdzie R

r

jest resztą

R

r

=

1

(r + 1)!

r+1

X

k=0



r + 1

k



r+1

f

∂x

k

∂y

r+1−k

(θx, θy) x

k

y

r+1−k

.

Wzór (2. 11) to właśnie wzór Taylora funkcji f w punkcie (0, 0) z resztą w

postaci Lagrange’a. Rozwinięcie funkcji f w punkcie (a, b) ma postać

(2. 12)

f (x, y) =

r

X

m=0

1

m!

m

X

k=0



m

k



m

f

∂x

k

∂y

m−k

(a, b) (x − a)

k

(y − b)

m−k

+ R

r

background image

Wzór Taylora

25

a reszta R

r

postać

R

r

=

1

(r + 1)!

r+1

X

k=0



r + 1

k



r+1

f

∂x

k

∂y

r+1−k

a+θ(x−a), b+θ(y−b)



(x−a)

k

(y−b)

r+1−k

.

Można je otrzymać ze wzoru (2. 11) przez łatwą zamianę zmiennych lub powtórzyć
rozumowanie dla funkcji

g(t) = f a + t(x − a), b + t(y − b)



.

2.6. Przykład. Znajdziemy postać wzoru Taylora funkcji f (x, y) = arc tg

x
y

w

punkcie (0, 1) z wyrazami do rzędu 5 włącznie. Ponieważ

∂f
∂x

=

y

x

2

+ y

2

i

∂f

∂y

=

−x

x

2

+ y

2

więc pochodne cząstkowe wyższych rzędów można stąd już łatwo wyznaczyć

2

f

∂x

2

=

2xy

(x

2

+ y

2

)

2

,

2

f

∂x ∂y

=

x

2

− y

2

(x

2

+ y

2

)

2

,

2

f

∂y

2

=

2xy

(x

2

+ y

2

)

2

,

itd.

Zatem ze wzoru (2. 12) otrzymujemy

arc tg

x
y

= x +

h

− x(y − 1)

i

+

h

1
3

x

3

+ x(y − 1)

2

i

+

h

x

3

(y − 1) − x(y − 1)

3

i

+

h

1
5

x

5

2x

3

(y − 1)

2

+ x(y − 1)

4

i

+ R

5

.

Uwaga. Jeżeli f jest funkcją trzech zmiennych a funkcję g z przykładu 2.5
określimy wzorem

g(t) = f (tx, ty, tz),

to

g

(m)

(t) =

X

i+j+k=m

m!

i! j! k!

m

f

∂x

i

∂y

j

∂z

k

(tx, ty, tz) x

i

y

j

z

k

.

Sumę powyższą możemy także zapisać w postaci zwykłej sumy podwójnej

m

X

i=0

m−i

X

j=0

przyjmując k = m − i − j . Daje to wzór Taylora dla funkcji trzech zmiennych,
który jak widać jest znacznie bardziej skomplikowany niż wzór Taylora dla funkcji
dwóch zmiennych.

background image

26

ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW

Ogólnie, jeżeli f : R

n

R jest funkcją n zmiennych, oraz a i h ustalonymi

wektorami w R

n

, to dla funkcji g : R R określonej wzorem g(t) = f (a + th)

otrzymujemy

g

(m)

(t) =

n

X

i

1

n

X

i

2

· · ·

n

X

i

m

m

f

∂x

i

1

∂x

i

2

. . . ∂x

i

m

(a + th) h

i

1

h

i

2

. . . h

i

m

.

Wyrażenie po prawej stronie to po prostu D

m

f (a + th)(h, h, . . . , h). Najczęściej

jednak zapisujemy je w postaci f

(m)

(a + th) · h

m

. Uzasadnieniem dla tego zapisu

jest to, że f

(m)

(a + th) jest macierzą m-wymiarową, czyli układem n

m

liczb

m

f

∂x

i1

∂x

i2

...∂x

im

(a + th), a gdy o h

m

też pomyślimy jako o macierzy m-wymiarowej

złożonej z liczb h

i

1

h

i

2

. . . h

i

m

, to g

(m)

(t) jest iloczynem skalarnym tych macierzy.

Stąd kropka · w zapisie.

Posługując się wyżej przyjętym oznaczeniem iloczynu skalarnego macierzy i

przyjmując h = x − a możemy napisać:

2.7. Twierdzenie (wzór Taylora). Załóżmy, że funkcja f : R

n

R jest

funkcją klasy C

r+1

w pewnym zbiorze otwartym zawierającym odcinek łączący

punkty a i x. Wtedy

f (x) = f (a) +

1

1!

f

0

(a) · (x − a) +

1

2!

f

00

(a) · (x − a)

2

+ . . . +

1

r!

f

(r)

(a) · (x − a)

r

+ R

r

,

gdzie R

r

jest resztą w postaci Lagrange’a

R

r

=

1

(r + 1)!

f

(r+1)

a + θ(x − a)



· (x − a)

r+1

dla pewnego θ ∈ (0, 1).

Ekstrema lokalne

Podobnie jak dla funkcji jednej zmiennej powiemy, że funkcja f : R

n

R

ma w punkcie a ∈ R

n

maksimum lokalne jeżeli f (x) ¬ f (a) dla wszystkich

punktów x z pewnego otoczenia punktu a. Jeżeli dla x 6= a z tego otoczenia
zachodzi ostra nierówność f (x) < f (a), to powiemy, że jest to maksimum
lokalne właściwe
. W analogiczny sposób określamy minimum lokalne oraz
minimum lokalne właściwe. Minima i maksyma lokalne obejmujemy wspólną
nazwą ekstremów lokalnych.

background image

Ekstrema lokalne

27

2.8. Twierdzenie (test pierwszych pochodnych). Załóżmy, że funkcja
f
: R

n

R ma w punkcie a ∈ R

n

ekstremum lokalne. Jeżeli istnieją pochodne

cząstkowe

∂f

∂x

i

(a), i = 1, 2, . . . , n, to wszystkie są równe zeru.

Dowód: Niech e

i

będzie jednym z wektorów bazowych R

n

. Przy założeniach

twierdzenia funkcja g : R R postaci g(t) = f (a + t e

i

) ma w punkcie t = 0

ekstremum lokalne i jest w tym punkcie różniczkowalna. Musi więc być

0 = g

0

(0) =

∂f

∂x

i

(a).

2.9. Przykład. Rozważmy funkcję f : R

2

R postaci

f (x, y) = Ax

2

+ 2Bxy + Cy

2

.

Przy założeniu, że AC − B

2

6= 0 z testu pierwszych pochodnych widać, że (0, 0)

jest jedynym punktem, w którym funkcja f może mieć ekstremum lokalne. Poka-
żemy, że

(1) jeżeli A > 0 oraz AC − B

2

> 0, to f ma w tym punkcie minimum lokalne

właściwe.

(2) jeżeli A < 0 oraz AC −B

2

> 0, to f ma w tym punkcie maksimum właściwe.

(3) jeżeli AC − B

2

< 0, to w dowolnym otoczeniu punktu (0, 0) funkcja f przyj-

muje zarówno wartości dodatnie jak i ujemne, nie ma więc ekstremum lokal-
nego w tym punkcie.

Rozpatrzmy w tym celu dwa przypadki. W pierwszym załóżmy, że A = 0.

Wtedy f (x, y) = 2Bxy + Cy

2

oraz B 6= 0. Przy zbliżaniu się do punktu (0, 0)

wzdłuż prostej 2Bx + (C − 1)y = 0 funkcja f przyjmuje stale wartości dodat-
nie, a wzdłuż prostej 2Bx − (C − 1)y = 0 stale wartości ujemne. Dowodzi to
prawdziwości (3) w tym przypadku.

Załóżmy teraz, że A 6= 0. Wtedy

f (x, y) = A x +

B

A

y



2

+

1

A

(AC − B

2

)y

2

.

Jeżeli AC − B

2

> 0, to f (x, y) > 0, gdy A > 0 oraz f (x, y) < 0, gdy A < 0

dla każdego punktu (x, y) 6= (0, 0), co dowodzi prawdziwości (1) i (2). Jeżeli
AC − B

2

< 0, to na prostej y = 0 funkcja f przyjmuje wartości tego samego

znaku co A a na prostej Ax + By = 0 znaku przeciwnego. To kończy dowód
prawdziwości (3).

Definicja. O punkcie, dla którego zachodzi sytuacja opisana w punkcie (3) mó-
wimy, że jest punktem siodłowym dla funkcji f .

background image

28

ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW

Dla funkcji f (x, y) = x

2

−y

2

punktem siodłowym jest punkt (0, 0). Poruszając

się po prostej y = 0 w punkcie (0, 0) natrafiamy na najmniejszą wartość jaką
funkcja f przyjmuje na tej prostej a poruszając się po prostej x = 0 na wartość
największą, stąd nazwa „punkt siodłowy”.

Wykres funkcji f (x, y) = x

2

+ y

2

.

Wykres funkcji f (x, y) = x

2

− y

2

.

2.10. Twierdzenie (test drugich pochodnych). Załóżmy, że funkcja f :
R

2

R ma ciągłe wszystkie pochodne cząstkowe drugiego rzędu w punkcie (a, b)

oraz, że

∂f
∂x

(a, b) = 0,

∂f

∂y

(a, b) = 0.

Oznaczmy A =

2

f

∂x

2

(a, b), B =

2

f

∂x ∂y

(a, b) i C =

2

t

∂y

2

(a, b).

(1) jeżeli A > 0 oraz AC − B

2

> 0, to w punkcie (a, b) funkcja f ma minimum

lokalne właściwe.

(2) jeżeli A < 0 oraz AC − B

2

> 0, to w punkcie (a, b) funkcja f ma maksimum

lokalne właściwe.

(3) jeżeli AC − B

2

< 0, to (a, b) jest punktem siodłowym dla funkcji f .

Dowód: Załóżmy najpierw, że A > 0 i AC − B

2

> 0. Z przykładu 2.9 wiemy, że

wtedy

Ax

2

+ 2Bxy + Cy

2

> 0

dla wszystkich punktów (x, y) 6= (0, 0). Zauważmy, że skoro okrąg



(x, y) R

2

:

x

2

+ y

2

= 1

jest zbiorem zwartym, to liczba

m = inf



Ax

2

+ 2Bxy + Cy

2

: x

2

+ y

2

= 1

musi być ściśle dodatnia oraz, że dla każdego punktu (x, y) R

2

zachodzi nie-

równość

Ax

2

+ 2Bxy + Cy

2

­ m(x

2

+ y

2

).

background image

Ekstrema lokalne

29

Ponieważ

∂f
∂x

(a, b) = 0 i

∂f

∂y

(a, b) = 0, więc ze wzoru Taylora dla dowolnych

x, y dostajemy

f (a + x, b + y) − f (a, b) =

1
2



2

f

∂x

2

(a + θx, b + θy) x

2

+ 2

2

f

∂x ∂y

(a + θx, b + θy) xy

+

2

f

∂y

2

(a + θx, b + θy) y

2



=

1
2

Ax

2

+ 2Bxy + Cy

2



+

1
2

ε

1

x

2

+ 2ε

2

xy + ε

3

y

2



,

gdzie θ ∈ (0, 1) zaś ε

1

, ε

2

, ε

3

są poprawkami pochodnych.

Wybierzmy liczbę r > 0 tak, aby w każdym z punktów koła o środku (a, b) i

promieniu r wartość każdej z pochodnych cząstkowych drugiego rzędu różniła się
od swojej wartości w punkcie (a, b) o nie więcej niż m/4. Jeśli x

2

+ y

2

< r

2

, to

(a + x, b + y) jest punktem tego koła i

i

| < m/4 dla i = 1, 2, 3, więc

1
2

ε

1

x

2

+ 2ε

2

xy + ε

3

y

2



¬

m

8

x

2

+ 2|xy| + y

2



¬

m

4

x

2

+ y

2



.

zaś

1
2

Ax

2

+ 2Bxy + Cy

2



­

m

2

x

2

+ y

2



. Dlatego też

f (a + x, b + y) − f (a, b) > 0 gdy 0 < x

2

+ y

2

< r

2

,

co dowodzi punktu (1).

Dowód (2) otrzymujemy z (1) zastępując f przez −f . Pozostaje więc tylko

dowód punktu (3). Wprowadźmy tu funkcję pomocniczą

g

(x,y)

(t) = f (a + tx, b + ty),

t ∈ R,

(x, y) 6= (0, 0),

opisującą zachowanie funkcji f na prostej mającej kierunek wektora (x, y) i
przechodzącej przez punkt (a, b). Mamy dla niej g

0

(x,y)

(0) = 0 oraz g

00

(x,y)

(0) =

Ax

2

+ 2Bxy + Cy

2

. Jak wiemy z przykładu 2.9, przy założeniu AC − B

2

< 0

można tak wybrać kierunki (x

1

, y

1

) i (x

2

, y

2

), aby było g

00

(x

1

,y

1

)

(0) > 0 oraz

g

00

(x

2

,y

2

)

(0) < 0. Funkcja f ma wtedy w punkcie (a, b) w pierwszym kierunku

minimum a w drugim kierunku maksimum, mamy zatem do czynienia z punktem
siodłowym.

background image

30

ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW

α

β

γ

β

α

0

D

2.11. Przykład. Pokażemy jak spośród wszystkich
trójkątów wpisanych w okrąg jednostkowy wybrać ten
o największym polu. Ponieważ pole S takiego trójkąta
wyraża się wzorem

S =

1
2

R

2

sin α +

1
2

R

2

sin β +

1
2

R

2

sin γ

więc szukamy maksimum funkcji

S(α, β) =

1
2



sin α + sin β − sin(α + β)



na zbiorze

D =



(α, β) R

2

: α > 0, β > 0, α + β < 2π

.

Mamy tu

∂S
∂α

(α, β) =

1
2

cos α −

1
2

cos(α + β),

∂S

∂β

(α, β) =

1
2

cos β −

1
2

cos(α + β),

zatem równość

∂S
∂α

(α, β) =

∂S
∂β

(α, β) = 0 zachodzi tylko wtedy, gdy cos α =

cos β = cos(α + β), tj. gdy α = β =

2
3

π . Chodzi zatem o trójkąt równoboczny

(równokątny).

2.12. Przykład. Na paraboloidzie eliptycznej z = 4x

2

+ y

2

chcemy znaleźć

punkt najbliższy punktowi (0, 0, 8). Rozwiązanie tego zagadnienia otrzymamy
znajdując minimum funkcji

f (x, y) = x

2

+ y

2

+ (4x

2

+ y

2

8)

2

=

(x, y, 4x

2

+ y

2

) (0, 0, 8)

2

mierzącej kwadrat odległości punktu (x, y, 4x

2

+y

2

) na paraboloidzie od podanego

punktu (0, 0, 8). Mamy tu

∂f
∂x

(x, y) = 2x + 64x

3

+ 16xy

2

128x,

∂f

∂y

(x, y) = 2y + 4y

3

+ 16x

2

y − 32y.

background image

Ekstrema lokalne

31

Jeżeli w punkcie (x, y) funkcja f osiąga minimum, to na mocy testu pierwszych
pochodnych zachodzi równość

∂f
∂x

(x, y) =

∂f

∂y

(x, y) = 0, tj.

2x(32x

2

+ 8y

2

63) = 0,

2y(2y

2

+ 8x

2

15) = 0.

Przedstawiony układ równań ma następujące rozwiązania:

(a) x = 0 i y = 0,

(b) x = 0 i y = ±

q

15

2

,

(c) x = ±

q

63

32

i y = 0,

(d) 32x

2

+ 8y

2

63 = 0 i 8x

2

+ 2y

2

15 = 0 (ten przypadek nie może zachodzić).

Do przedstawionych rozwiązań zastosujemy teraz test drugich pochodnych.

Ponieważ

2

f

∂x

2

(x, y) = 192 + 16y

2

126,

2

f

∂x ∂y

(x, y) = 32xy,

2

f

∂y

2

(x, y) = 16x

2

+ 12y

2

30,

więc w przypadku (a) otrzymujemy A = 126, B = 0, C = − − 30, co oznacza,
że funkcja f osiąga w punkcie (0, 0) maksimum. W przypadku (b) otrzymujemy
A = 6, B = 0, C = 60, chodzi zatem o dwa punkty siodłowe. W przypadku
(c) otrzymujemy A = 192 ·

63

32

126 > 0, B = 0 i C =

63

2

30 =

3

2

> 0,

zatem dostajemy dwa punkty

p

63/32, 0



i

p

63/32, 0



w których funk-

cja osiąga minimum lokalne, są to punkty na paraboloidzie, które leżą najbliżej
punktu (0, 0, 8).

Powstaje pytanie, czy test drugich pochodnych daje się uogólnić na funkcje

trzech lub większej ilości zmiennych. Spodziewamy się, że jeżeli uogólnienie takie
jest możliwe, to warunek na ekstremum warunkowe przyjmie pewnie bardzo skom-
plikowaną formę i będzie zależał istotnie od wszystkich pochodnych cząstkowych
drugiego rzędu badanej funkcji. Uogólnienie, o którym myślimy, rzeczywiście jest
możliwe a stopień komplikacji warunków nie jest duży.

2.13. Twierdzenie (test drugich pochodnych w przypadku ogólnym).
Załóżmy, że funkcja f : R

n

R ma w punkcie a ∈ R

n

ciągłe pochodne cząstkowe

drugiego rzędu oraz, że

∂f

∂x

i

(a) = 0 dla i = 1, 2, . . . , n.

background image

32

ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW

Niech A będzie Hessianem funkcji f w punkcie a, tj. macierzą n × n

A = {a

ij

}

n

i,j=1

,

gdzie a

ij

=

2

t

∂x

i

∂x

j

(a).

(a). Jeżeli

a

11

> 0, det



a

11

a

12

a

21

a

22



> 0, det

a

11

a

12

a

13

a

21

a

22

a

23

a

31

a

32

a

33

!

> 0,

. . . , det

a

11

a

12

. . . a

1n

a

21

a

22

. . . a

2n

...

...

...

a

n1

a

n2

. . . a

nn

> 0,

to w punkcie a funkcja f osiąga lokalne minimum właściwe.

(b). Jeżeli

a

11

< 0, det



a

11

a

12

a

21

a

22



> 0, det

a

11

a

12

a

13

a

21

a

22

a

23

a

31

a

32

a

33

!

< 0,

. . . , (1)

n

det

a

11

a

12

. . . a

1n

a

21

a

22

. . . a

2n

...

...

...

a

n1

a

n2

. . . a

nn

> 0,

to w punkcie a funkcja f osiąga lokalne maksimum właściwe.

Dowód tego twierdzenia jest identyczny jak dla funkcji dwóch zmiennych. Po-

kazujemy w oparciu o wzór Taylora, że funkcja f ma w punkcie a minimum lokalne
właściwe tj., że f (a + h) > f (a) dla wszystkich wektorów h ∈ R

n

spełniających

dla pewnego ε > 0 warunek 0 < |h| < ε, gdy

hAh, hi =

n

X

i=1

n

X

j=1

a

ij

h

i

h

j

> 0

dla takich wektorów. W tym miejscu korzystamy z następującego twierdzenia z
algebry:

2.14. Twierdzenie Sylvestera. Niech A = {a

ij

}

n

i,j=1

będzie macierzą syme-

tryczną n × n (tj. a

ji

= a

ij

). Warunkiem koniecznym i wystarczającym na to,

background image

Ekstrema lokalne

33

aby hAh, hi > 0 dla wszystkich wektorów 0 6= h ∈ R

n

jest, aby

a

11

> 0, det



a

11

a

12

a

21

a

22



> 0, . . . , det

a

11

a

12

. . . a

1n

a

21

a

22

. . . a

2n

...

...

...

a

n1

a

n2

. . . a

nn

> 0.

Daje to dowód punktu ( a). Przypadek (b) otrzymujemy stosując wyniki punktu
(a) do funkcji −f .

Uwaga. Jeżeli macierz A nie spełnia ani warunku (a) ani (b), ale det A 6= 0, to
istnieją takie wektory h i k w R

n

, że hAh, hi > 0 i hAk, ki < 0. Wynika stąd,

że wtedy a jest punktem siodłowym dla funkcji f .

2.15. Przykład. Uogólnimy wyniki przykładu 2.11 na dowolne (n + 1)-kąty
wpisane w okrąg. Pole takiego (n + 1)-kąta wyraża się wzorem

S =

1
2

R

2

sin α

1

+

1
2

R

2

sin α

2

+ . . . +

1
2

R

2

sin α

n+1

,

gdzie α

1

, α

2

, . . . , α

n+1

są kątami środkowymi opartymi na bokach tego wielokąta.

Ponieważ α

n+1

= 2π − α

1

− α

2

− . . . − α

n

, więc szukamy maksimum funkcji

S(α

1

, α

2

, . . . , α

n

) =

1
2

sin α

1

+

1
2

sin α

2

+ . . . +

1
2

sin α

n

sin(α

1

+ α

2

+

1
2

. . . + α

n

)

na sympleksie

α

1

> 0,

α

2

> 0,

. . . ,

α

n

> 0,

α

1

+ α

2

+ . . . + α

n

< 2π.

Test pierwszych pochodnych daje n równań

∂S

∂α

i

=

1
2

cos α

i

1
2

cos(α

1

+ α

2

+

1
2

. . . + α

n

) = 0 dla i = 1, 2, . . . , n

z jedynym rozwiązaniem

α

1

= α

2

= . . . = α

n

=

2π

n + 1

dającym w wyniku (n + 1)-kąt foremny.

By sprawdzić, czy istotnie dla powyższych wartości kątów funkcja S osiąga

swoje maksimum zastosujemy test drugich pochodnych. Wyrazy Hessianu mają
tu postać

a

ij

=

2

S

∂α

i

∂α

j

2π

n+1

,

2π

n+1

, . . . ,

2π

n+1



=

(

sin

2π

n+1

gdy i = j,

1

2

sin

2π

n+1

gdy i 6= j,

background image

34

ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW

Jeżeli A

k

= {a

ij

}

k

i,j=1

, dla k = 1, 1, . . . , n, oznacza macierz k × k utworzoną z

Hessianu przez wybranie z niej wyrazów z pierwszych k kolumn i pierwszych k
wierszy, to przyjmując oznaczenie

a =

1
2

sin

2π

n + 1

otrzymamy

det A

1

= 2a < 0,

det A

2

= a

2

det



2 1

1 2



= 3a

2

> 0,

det A

3

= a

3

det

2 1 1

1 2 1

1 1 2

!

= 4a

3

< 0, itd.

Ogólnie otrzymamy det A

k

= (k + 1)a

k

, liczbę ujemną dla k nieparzystych i

dodatnią dla k parzystych. Twierdzenie 2.13 potwierdza, że chodzi tu o maksimum
lokalne właściwe funkcji S .

Ekstrema warunkowe

Przypomnijmy klasyczny problem, w którym szukamy takiej proporcji wyso-

kości h do promienia podstawy r puszki w kształcie walca o objętości 1, by ilość
blachy na jej wytworzenie była najmniejsza. Szukamy zatem minimum funkcji
S(r, h) = 2πr

2

+ 2πrh pod warunkiem V (r, h) = πr

2

h = 1. Jeśli z warunku na

objętość wyznaczamy h =

1

πr

2

i wstawiamy do funkcji S , to zagadnienie sprowa-

dzi się do znalezienia zwykłego minimum funkcji f (r) = 2πr

2

+

2

r

na półprostej

(0, ∞). W wyniku otrzymamy optymalną proporcję h : r = 2. Można też z wa-
runku na objętość wyznaczyć r i szukać minimum pewnej funkcji zmiennej h.
Prowadzi to do tego samego wyniku, ale rachunki są bardziej skomplikowane. W
przypadku ogólnym, gdy szukamy ekstremum lokalnego funkcji f (x, y) pod wa-
runkiem g(x, y) = 0, postępujemy podobnie. Równanie g(x, y) = 0 rozwikłujemy
względem jednej ze zmiennych, np. y = γ(x) i szukamy ekstremum lokalnego
funkcji jednej zmiennej f x, γ(x)



. Możliwość takiego postępowania gwarantuje

nam twierdzenie o funkcji uwikłanej. Możemy tu jednak napotkać znaczne trudno-
ści. Nie zawsze możliwe jest rozwikłanie równania g(x, y) = 0 względem zmiennej
y (jest tak np., gdy

∂g
∂y

(x, y) = 0), wtedy należy próbować rozwikłać je względem

zmiennej x. Powoduje to jednak, że zmienne x i y nie są traktowane jednakowo.
Może się też okazać, że istnieje wiele funkcji rozwikłujących, mogą one mieć bardzo
skomplikowaną postać, mogą nawet być funkcjami nieelementarnymi.

background image

Ekstrema warunkowe

35

Lagrange podał metodę rozwiązywania zagadnienia ekstremum lokalnego, w

której nie ma potrzeby rozwikływania równania g(x, y) = 0 a zmienne x i y
odrywają jednakowe role.

2.16. Twierdzenie Lagrange’a. Jeżeli funkcja f : R

2

R ma na krzy-

wej opisanej równaniem g(x, y) = 0 ekstremum lokalne w punkcie (x

0

, y

0

) oraz

g

0

(x

0

, y

0

) jest macierzą niezerową, to istnieje taka stała λ

0

, że

(2. 13)

f

0

(x

0

, y

0

) = λ

0

g

0

(x

0

, y

0

).

Dowód: Załóżmy dla ustalenia uwagi, że

∂g
∂y

(x

0

, y

0

) 6= 0. Wtedy z twierdzenia

o funkcji uwikłanej wynika istnienie takiego otoczenia W ⊂ R punktu x

0

oraz

funkcji γ : W → R, że γ(x

0

) = y

0

oraz g x, γ(x)



= 0 dla x ∈ W . Jeżeli funkcja

f ma ekstremum warunkowe w punkcie (x

0

, y

0

), to funkcja ϕ : W → R postaci

ϕ(x) = f x, γ(x)



ma zwykłe ekstremum w punkcie x

0

, zatem

0 = ϕ

0

(x

0

) =

∂f
∂x

(x

0

, y

0

) +

∂f

∂y

(x

0

, y

0

) · γ

0

(x

0

).

Oznacza to, że wektor ∇f (x

0

, y

0

) =



∂f
∂x

(x

0

, y

0

),

∂f

∂y

(x

0

, y

0

)



jest prostopadły do

wektora 1, γ

0

(x

0

)



. Z tożsamości g x, γ(x)



= 0 wynika, że taką samą własność

ma wektor ∇g(x

0

, y

0

). Musi zatem być ∇f (x

0

, y

0

) = λ

0

∇g(x

0

, y

0

) dla pewnej

stałej λ

0

.

Jeśli

∂g
∂y

(x

0

, y

0

) = 0, to musi być

∂g
∂y

(x

0

, y

0

) 6= 0 i równanie g(x, y) = 0 da się

rozwikłać względem zmiennej x.

Z twierdzenia Lagrange’a wynika, że funkcja F : R

2

R określona wzorem

F (x, y) = f (x, y) − λ

0

g(x, y)

ma w punkcie (x

0

, y

0

) obie pochodne cząstkowe równe zeru, spełnia zatem test

pierwszych pochodnych. Jeśli teraz zastosujemy do niej test drugich pochodnych i
stwierdzimy, że w punkcie (x

0

, y

0

) ma maksimum (minimum) lokalne właściwe to

funkcja f ma w tym punkcie lokalne maksimum (minimum) właściwe warunkowe,
gdyż g(x, y) = 0 na zbiorze, na którym szukamy ekstremum warunkowego. Jak
jednak w praktyce szukać x

0

, y

0

oraz liczby λ

0

? Należy po prostu rozwiązać

background image

36

ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW

układ trzech równań

∂f
∂x

(x, y) − λ

∂g

∂x

(x, y) = 0,

∂f

∂y

(x, y) − λ

∂g
∂y

(x, y) = 0,

(2. 14)

g(x, y) = 0.

2.17. Przykład. Znajdziemy ekstrema lokalne funkcji

f (x, y) = x − y

pod warunkiem

g(x, y) = x

2

+ xy + y

2

1 = 0,

czyli ekstrema funkcji f na elipsie o równaniu x

2

+ xy + y

2

= 1. Rozwiążemy w

tym celu układ równań (2. 14), który dla naszych funkcji przyjmuje postać

1 2λx − λy = 0,

1 − λx − 2λy = 0,

x

2

+ xy + y

2

1 = 0.

Z niego łatwo wyznaczamy x

0

= λ

0

, y

0

= −λ

0

, λ

0

= ±1 a stosując test drugich

pochodnych do funkcji F (x, y) = f (x, y)−λ

0

g(x, y) w punkcie (x

0

, y

0

) dostajemy

A = 2λ

0

, AC − B

2

= 3λ

2

0

= 3. Wnioskujemy stąd, że funkcja f ma w punkcie

(1, −1) maksimum a w punkcie (1, 1) minimum warunkowe właściwe.

Zagadnienie to można też rozwiązać bezpośrednio, bez odwoływania się do

twierdzenie Lagrange’a. Zrobimy to, by porównać stopień komplikacji obu metod.
Jeżeli z równania x

2

+xy +y

2

1 = 0 wyliczamy y =

1
2

q

1

3

4

x

2

, to zadanie

sprowadzi się do znalezienia zwykłych ekstremów lokalnych dwóch funkcji

ϕ

1

(x) =

3
2

x +

r

1

3
4

x

2

oraz ϕ

2

(x) =

3
2

x −

r

1

3
4

x

2

w przedziale otwartym



2

3

,

2

3



. Zajmiemy się tylko pierwszą z nich. Ponieważ

ϕ

0

1

(x) =

3
2

3x

2

4 3x

2

,

więc równość ϕ

0

1

(x) = 0 zachodzi tylko dla x = 1, a ponieważ

ϕ

00

1

(x) =

6

4 3x

2

18x

2

4 3x

2

4 4 3x

2



=

6

4 3x

2



3/2

,

background image

Ekstrema warunkowe

37

więc ϕ

00

1

(1) = 6 < 0, zatem funkcja ϕ

1

ma dokładnie jedno ekstremum lokalne,

mianowicie maksimum lokalne właściwe w punkcie x = 1.

W podobny sposób pokazujemy, że funkcja ϕ

2

ma tylko jedno ekstremum

lokalne, jest nim minimum lokalne właściwe w punkcie x = 1. Na tym jednak
nie koniec zadania. Uwadze naszej uszły dwa punkty elipsy x =

2

3

, y =

1

3

oraz

x =

2

3

, y =

1

3

. Aby pokazać, że funkcja f nie ma w żadnym z nich ekstremum

warunkowego najłatwiej jest zobaczyć, że przy zbliżaniu się do każdego z końców
przedziału

2

3

,

2

3



wartości funkcji ϕ

1

maleją a wartości funkcji ϕ

2

rosną,

łatwo to zrobić odczytując znaki pochodnych obu funkcji. Można też rozwikłać
równanie x

2

+ xy + y

2

1 = 0 względem zmiennej x i powtórzyć rozumowanie.

Punkty y =

1

3

i y =

1

3

znajdą się wtedy wewnątrz przedziału określoności

badanych funkcji.

Jest jeszcze trzeci sposób rozwiązania tego zagadnienia. Można sparametryzo-

wać elipsę x

2

+ xy + y

2

= 1 przyjmując na przykład x(t) =

2

3

cos t +

π

3



oraz

y(t) =

2

3

cos t −

π

3



dla t z przedziału [−π, π] i szukać ekstremów lokalnych

funkcji

f x(t), y(t)



= x(t) − y(t) = 2 sin t

na tym przedziale (lub na dowolnym innym przedziale długości 2π ). Tu sytuacja
jednak jest wyjątkowa, gdyż mamy do czynienia z elipsą. Zwykle znalezienie glo-
balnej parametryzacji krzywej opisanej równaniem g(x, y) = 0 jest bardzo trudne
lub wręcz niemożliwe.

Twierdzenie o ekstremach warunkowych można uogólnić w następujący spo-

sób:

2.18. Twierdzenie Lagrange’a (przypadek ogólny). Jeżeli funkcja f :
R

n

R jest różniczkowalna w punkcie a ∈ R

n

i ma w tym punkcie ekstremum

warunkowe pod warunkiem, że g(x) = 0 dla pewnej funkcji g : R

n

R

m

różnicz-

kowalnej w sposób ciągły i macierz g

0

(a) ma rząd m, to istnieje taki układ stałych

λ

1

, λ

2

, . . . , λ

m

, że wszystkie pochodne cząstkowe funkcji

F (x) = f (x)

m

X

j=1

λ

j

g

j

(x)

znikają w punkcie a.

Dowód twierdzenia w przypadku ogólnym jest podobny jak dla funkcji dwóch

zmiennych. Jest oparty na twierdzeniu o funkcji uwikłanej, ale jest skomplikowany
technicznie i wymaga większej wiedzy z algebry liniowej. Z tych powodów zostanie
pominięty.

background image

38

ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW

Zwróćmy uwagę, że w twierdzeniu powyższym ukryte jest założenie m < n.

Istotnie, z założenia o rzędzie macierzy g

0

(a) wynika, że m ¬ n, przy czym w

przypadku m = n funkcja g musi być odwracalna w pewnym otoczeniu punktu
a, więc a jest punktem izolowanym zbioru {x ∈ R

n

: g(x) = 0} i dyskusja o

ekstremum lokalnym w tym punkcie jest bezprzedmiotowa. Warunek g(x) = 0
oznacza, że zbiór w R

n

, na którym badamy funkcję f składa się z punktów x

spełniających układ m równań

g

1

(x) = 0,

g

2

(x) = 0,

. . . ,

g

m

(x) = 0,

tworzy zatem powierzchnią wymiaru n − m.

Z twierdzenia Lagrange’a wynika, że przy poszukiwaniu punktu a ∈ R

n

, w

którym funkcja f ma ekstremum warunkowe musimy sprawdzić czy g(a) = 0
oraz F

0

(a) = 0, mamy zatem do rozwiązania n + m równań

∂F

∂x

1

(a

1

, a

2

, . . . , a

n

) = 0,

. . . . . . . . . . . . . . . . . . . . .

∂F

∂x

n

(a

1

, a

2

, . . . , a

n

) = 0,

g

1

(a

1

, a

2

, . . . , a

n

) = 0,

. . . . . . . . . . . . . . . . . . . . .

g

m

(a

1

, a

2

, . . . , a

n

) = 0,

o niewiadomych λ

1

, λ

2

, . . . , λ

m

, a

1

, a

2

, . . . , a

n

. Potem możemy stosować test dru-

gich pochodnych do funkcji F .

2.19. Przykład. Zbadamy dla jakich liczb rzeczywistych a wszystkie pierwia-
stki wielomianu

W (t) = t

n

+ t

n−1

+ a

są rzeczywiste.

Dla n = 2 zagadnienie to jest bardzo proste, warunkiem koniecznym i wystar-

czającym jest, aby wyróżnik ∆ = 1 4a był liczbą nieujemną, tj. aby a ­ −

1

4

.

Jeżeli wielomian w ma pierwiastki rzeczywiste −x

1

, −x

2

, . . . , −x

n

, to jest po-

staci

W (t) = (t + x

1

)(t + x

2

) · · · (t + x

n

)

= t

n

+ S

1

(x) t

n−1

+ S

2

(x) t

n−2

+ . . . + S

n−1

(x) t + S

n

(x),

gdzie S

1

, S

2

, . . . , S

n

są wielomianami symetrycznymi podstawowymi

S

1

(x) =

X

1¬i

1

¬n

x

i

1

,

S

2

(x) =

X

1¬i

1

<i

2

¬n

x

i

1

x

i

2

,

. . . ,

S

n

(x) = x

1

x

2

· · · x

n

.

background image

Ekstrema warunkowe

39

Zagadnienie nasze sprowadza się do znalezienia wszystkich wartości funkcji S

n

na

zbiorze C tych x ∈ R

n

, dla których

(2. 15)

S

1

(x) = 1,

S

2

(x) = S

3

(x) = . . . = S

n−1

(x) = 0.

Ponieważ kxk

2

= S

1

(x)

2

2 S

2

(x), więc z warunków (2. 15) wynika, że dla n ­ 3

jest to zbiór (krzywa zamknięta) leżący na sferze jednostkowej przestrzeni R

n

.

Funkcja S

n

jest ciągła, zatem obraz S

n

(C) jest przedziałem domkniętym [α, β],

gdzie α jest minimalną a β maksymalną wartością funkcji S

n

na C , w szczegól-

ności są to ekstrema warunkowe funkcji S

n

pod warunkiem (2. 15). By je znaleźć

należy stosować twierdzenie Lagrange’a. Zrobimy to szczegółowo dla n = 3.

W tym przypadku zbiór C jest częścią wspólną płaszczyzny x

1

+ x

2

+ x

3

= 1 i

sfery x

2

1

+ x

2

2

+ x

2

3

= 1, jest zatem okręgiem przechodzącym przez punkty (1, 0, 0),

(0, 1, 0) i (0, 0, 1). Zgodnie z twierdzeniem Lagrange’a, by znaleźć ekstrema wa-
runkowe funkcji S

3

należy rozwiązać układ równań

x

2

x

3

− λ

1

− λ

2

(x

2

+ x

3

) = 0,

x

1

x

3

− λ

1

− λ

2

(x

1

+ x

3

) = 0,

x

1

x

2

− λ

1

− λ

2

(x

1

+ x

2

) = 0,

x

1

+ x

2

+ x

3

= 1,

x

1

x

2

+ x

1

x

3

+ x

2

x

3

= 0.

Dodając stronami pierwsze trzy równania dostajemy

3λ

1

2λ

2

= 0,

skąd możemy wyliczyć λ

1

a układ powyższy zapisać w postaci

x

2

1

+ (λ

2

1) x

1

1
3

λ

2

= 0,

x

2

2

+ (λ

2

1) x

2

1
3

λ

2

= 0,

x

2

3

+ (λ

2

1) x

3

1
3

λ

2

= 0,

x

1

+ x

2

+ x

3

= 1.

Widać stąd, że

x

i

=

1 − λ

2

+ ε

i

q

λ

2

2

2

3

λ

2

+ 1

2

,

i = 1, 2, 3,

gdzie ε

i

= ±1 a równanie czwarte przyjmuje formę

3 3λ

2

+ (ε

1

+ ε

2

+ ε

3

)

r

λ

2

2

2
3

λ

2

+ 1 = 2.

background image

40

ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW

Równanie to możemy rozwiązać względem λ

2

w zależności od wartości ε

1

, ε

2

, ε

3

.

Jeśli ε

1

= ε

2

= ε

3

= 1 lub ε

1

= ε

2

= ε

3

= 1, to brak jest rozwiązań, jeśli

ε

1

= ε

2

= 1 i ε

3

= 1 (kolejność wskaźników nie jest istotna), to λ

2

=

2

3

, skąd

x

1

= x

2

=

2

3

, x

3

=

1

3

a odpowiednia wartość funkcji S

3

wynosi

4

27

, jeśli zaś

ε

1

= 1, e

2

= ε

3

= 1, to λ

2

= 0, więc x

1

= 1, x

2

= x

3

= 0 a wartość funkcji

S

3

wynosi 0. Daje to odpowiedź na postawione pytanie: Warunkiem koniecznym

i wystarczającym na to, by równanie

t

3

+ t

2

+ a = 0

miało wszystkie pierwiastki rzeczywiste jest, aby a ∈



4

27

, 0



.

Przy próbie rozwiązania zagadnienia dla n = 4, 5, . . . warto zauważyć, że układ

równań (2. 15) jest równoważny układowi

x

1

+ x

2

+ . . . + x

n

= 1, x

2

1

+ x

2

2

+ . . . + x

2

n

= 1, . . . , x

n−1

1

+ x

n−1

2

+ . . . + x

n−1

n

= 1

oraz

S

n

(x) =

(1)

n−1

n

x

n

1

+ x

n

2

+ . . . + x

n

n

1



.


Wyszukiwarka

Podobne podstrony:
analiza ryzyka bio id 61320 Nieznany
Analiza kosztow 2012 id 60726 Nieznany (2)
Instrumenty pochodne id 217770 Nieznany
ANALIZA STANU BHP id 61423 Nieznany (2)
Analiza wytworow ucznia id 6181 Nieznany (2)
analiza i badanie rynku id 6045 Nieznany (2)
ANALIZA MAKROSKOPOWA PNEN id 60 Nieznany
Analiza sL,owotwAlrcza id 61333 Nieznany (2)
egz sem 2 analiza 2011 12 id 15 Nieznany
Fenol i pochodne id 169195 Nieznany
AMI 17 1 Pochodne id 59051 Nieznany (2)
Analiza finansowa w5 id 60387 Nieznany (2)
analiza finansowa egzamin id 61 Nieznany (2)
Analiza finansowa w3 id 60386 Nieznany
Analiza finansowa w1 id 60384 Nieznany
analiza 2012 zima id 59801 Nieznany (2)
analiza ekonomiczna firm id 601 Nieznany
dodatkowe6 analiza 11 12 id 138 Nieznany

więcej podobnych podstron