Rozdział 1
Pojęcie pochodnej
funkcji wielu zmiennych
Pojęcie różniczkowalności
Zaczniemy od przeniesienia pojęcia różniczkowalności na funkcje wielu zmien-
nych. Chcemy, aby pojęcie to miało podobne własności jak dla funkcji jednej
zmiennej, a więc w szczególności by różniczkowalność pociągała ciągłość. Wydaje
się naturalnym nazywać różniczkowalną funkcję posiadającą wszystkie pochodne
cząstkowe. Istnienie pochodnych cząstkowych jednak nie wystarczy. Jak pokażemy,
nie wystarczy nawet dla ciągłości funkcji.
Wykres funkcji f (x, y) =
xy
x
2
+ y
2
.
Układ poziomic funkcji f .
1.1. Przykład. Określmy funkcję f : R
2
→ R wzorem
f (x, y) =
(
xy
x
2
+ y
2
gdy (x, y) 6= (0, 0),
0
gdy (x, y) = (0, 0).
Funkcja ta nie jest ciągła w punkcie (0, 0) bo choć (t, t) → (0, 0) gdy t → 0 to
f (t, t) =
1
2
nie dąży do f (0, 0) = 0. Natomiast
∂f
∂x
(0, 0) = lim
t→0
f (t, 0) − f (0, 0)
t
= 0.
Podobnie
∂f
∂y
(0, 0) = 0.
1
2
ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH
1.2. Przykład. Jeżeli na powyższej funkcji dokonamy operacji obrócenia jej
wykresu o kąt 45
◦
względem osi wartości, czyli dokonamy złożenia funkcji f z
funkcją
g(x, y) =
x − y
√
2
,
x + y
√
2
,
to otrzymamy funkcję
h(x, y) = f ◦ g(x, y) =
(
x
2
− y
2
2(x
2
+ y
2
)
gdy (x, y) 6= (0, 0),
0
gdy (x, y) = (0, 0),
która w punkcie (0, 1) nie ma pochodnych cząstkowych.
Jak widać z powyższych przykładów pochodne cząstkowe związane są ze spo-
sobem zbliżania się do punktu (0, 0) z kierunków wyznaczonych przez osie układu
współrzędnych. Zbliżanie się z innego kierunku nie musi gwarantować różniczko-
walności. Wybór kierunków osi współrzędnych jako ważniejszych od innych nie
ma uzasadnienia, dlatego proponujemy:
Definicja. Powiemy, że funkcja f : R
n
→ R ma w punkcie a ∈ R
n
pochodną
kierunkową w kierunku niezerowego wektora h ∈ R
n
, gdy istnieje granica
D
h
(a) = lim
t→0
f (a + th) − f (a)
t
.
Pochodne cząstkowe są zatem szczególnymi pochodnymi kierunkowymi — po-
chodnymi w kierunkach wektorów bazowych. Przykład 1.2 pokazuje, że funkcja
f z przykładu 1.1 nie ma pochodnych kierunkowych w kierunkach
1
√
2
,
1
√
2
i
−1
√
2
,
1
√
2
. Łatwo można sprawdzić, że nie ma też pochodnych kierunkowych w
żadnym z kierunków h = (h
1
, h
2
), gdy h
1
6= 0 i h
2
6= 0. Istnienie wszystkich
pochodnych kierunkowych także nie musi gwarantować jej ciągłości.
1.3. Przykład. Funkcja f : R
2
→ R
f (x, y) =
(
x
2
y
x
4
+ y
2
gdy (x, y) 6= (0, 0),
0
gdy (x, y) = (0, 0),
ma w punkcie (0, 0) pochodne kierunkowe we wszystkich kierunkach. Pochodna
w kierunku wektora (x, y) wynosi
x
2
y
gdy y 6= 0 i 0 gdy y = 0.
Funkcja ta jest także nieciągła w punkcie (0, 0). Zbliżając się do tego punktu
wzdłuż paraboli (t, t
2
) funkcja stale przyjmuje wartość
1
2
, zatem f (t, t
2
) nie dąży
do 0, gdy t → 0.
Pojęcie różniczkowalności
3
Wykres funkcji f (x, y) =
xy
2
x
2
+ y
4
.
Układ poziomic funkcji f .
1.4. Uwaga. Pojęcia pochodnych cząstkowych i pochodnych kierunkowych moż-
na rozszerzyć na funkcje o wartościach wektorowych f : R
n
→ R
m
. Jedyna róż-
nica polega na tym, że wartości funkcji f są wektorami z R
m
. Przypomnijmy tu
twierdzenie:
1.5. Twierdzenie (o różniczkowalności funkcji wektorowych). Fun-
kcja f : R → R
n
jest różniczkowalna w punkcie a ∈ R wtedy i tylko wtedy, gdy
różniczkowalna w punkcie a jest każda z jej funkcji składowych. Wtedy
f
0
(a) = f
0
1
(a), f
0
2
(a), . . . , f
0
m
(a)
.
Bezpośrednie zastosowanie tego twierdzenia do pochodnych cząstkowych funk-
cji f : R
n
→ R
m
w punkcie a ∈ R
n
daje
∂f
∂x
i
(a) =
∂f
1
∂x
i
(a),
∂f
2
∂x
i
(a), . . . ,
∂f
m
∂x
i
(a)
,
i = 1, 2, . . . , n.
Jak pamiętamy, dla funkcji jednej zmiennej f : R → R pochodna f
0
(a) to
liczba, dla której
(1. 1)
lim
h→0
|f (a + h) − f (a) − f
0
(a)h|
|h|
= 0.
Zauważmy, że funkcje postaci h → c h to jedyne funkcje liniowe jednej zmiennej,
a więc jedyne funkcje, których wykresami są linie proste na płaszczyźnie R
2
,
przechodzące przez środek układu. Funkcja liniowa ϕ : R
2
→ R musi mieć postać
ϕ(h) = c
1
h
1
+ c
2
h
2
a jej wykresem jest płaszczyzna w R
3
przechodząca przez
4
ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH
środek układu. Przez analogię do (1. 1) — mówiąc o różniczkowalności — możemy
dla funkcji f : R
2
→ R i punktu a ∈ R
2
żądać, by istniała taka funkcja liniowa
ϕ : R
2
→ R, że
lim
h→0
f(a + h) − f(a) − ϕ(h)
khk
= 0.
Definicja. Powiemy, że funkcja f : R
n
→ R
m
jest różniczkowalna w punkcie
a ∈ R
n
, jeśli istnieje taka funkcja liniowa ϕ : R
n
→ R
m
, że
(1. 2)
lim
h→0
f(a + h) − f(a) − ϕ(h)
khk
= 0.
1.6. Przykład. Rozpatrzmy funkcję f : R → R
2
postaci f (t) = (cos t, sin t).
Zbadamy, czy jest ona różniczkowalna w punkcie (0, 0). Funkcja liniowa ϕ : R →
R
2
musi mieć postać ϕ(t) = (at, bt) dla pewnych stałych a, b ∈ R a ponieważ
kf (t) − f (0) − ϕ(t)k
|t|
=
r
(cos t − 1 − at)
2
+ (sin t − bt)
2
t
2
dąży do
p
a
2
+ (1 − b)
2
gdy t → 0, więc warunek (1. 2) jest spełniony jedynie
przy wyborze a = 0, b = 1.
Uwaga. W geometrii mówi się, że dwie funkcje f, g : R
n
→ R
m
są styczne w
punkcie a ∈ R
n
, gdy
lim
x→a
x6=a
kf (x) − g(x)k
kx − ak
= 0.
Styczność jest relacją typu równoważności. Różniczkowalność funkcji f w punkcie
a oznacza istnienie takiej funkcji liniowej ϕ : R
n
→ R
m
, że funkcje f i g są
styczne w punkcie a, gdzie
g(x) = f (a) + ϕ(x − a).
Ponieważ funkcje liniowe odgrywają ważną rolę w naszej teorii przedstawimy
krótkie repetytorium wiedzy o nich z wykładu algebry.
1.7. Twierdzenie. Istnieje odpowiedniość wzajemnie jednoznaczna między fun-
kcjami liniowymi z R
n
do R
m
a macierzami n × n. Dana jest ona wzorem
ϕ (x
1
, x
2
, . . . , x
n
)
=
a
11
a
12
. . .
a
1n
a
21
a
22
. . .
a
2n
...
...
...
a
m1
a
m2
. . . a
mn
x
1
x
2
...
x
n
.
Odpowiedniość ta zachowuje strukturę liniową, tj. kombinacji liniowej funkcji od-
powiada kombinacja liniowa macierzy.
Określenie pochodnej
5
1.8. Twierdzenie. Jeżeli ϕ : R
n
→ R
m
i ψ : R
m
→ R
k
są funkcjami linio-
wymi, to ψ ◦ ϕ : R
n
→ R
k
jest także funkcją liniową. Odpowiadająca jej macierz
jest iloczynem macierzy odpowiadających ψ i ϕ
1.9. Twierdzenie. Dla funkcji liniowej ϕ : R
n
→ R
m
istnieje taka stała M ,
że
(1. 3)
kϕ(x)k ¬ M kxk.
Dowód: Z nierówności Schwarza otrzymujemy
kϕ(x)k
2
=
m
X
i=1
n
X
j=1
a
ij
x
j
2
¬
m
X
i=1
n
X
j=1
a
2
ij
n
X
j=1
x
2
j
= M
2
kxk
2
,
gdzie
M =
v
u
u
t
m
X
i=1
n
X
j=1
a
2
ij
.
Z własności (1. 3) wynika jednostajna ciągłość funkcji ϕ, mianowicie
kϕ(x) − ϕ(y)k = kϕ(x − y)k ¬ M kx − yk.
Określenie pochodnej
Domyślamy się, że pochodna musi mieć związek z funkcją liniową ϕ występu-
jącą w definicji (1. 2).
1.10. Twierdzenie. Jeżeli funkcja f : R
n
→ R
m
jest różniczkowalna w punkcie
a ∈ R
n
, to funkcja liniowa ϕ : R
n
→ R
m
występująca w definicji różniczkowalno-
ści jest wyznaczona jednoznacznie
Dowód: Jeżeli funkcje liniowe ϕ i ψ spełniają definicję (1. 2), to
kϕ(h) − ψ(h)k
khk
¬
kf (a + h) − f (a) − ϕ(h)k
khk
+
kf (a + h) − f (a) − ψ(h)k
khk
.
Ponieważ prawa strona powyższej nierówności dąży do zera przy h → 0, więc
lim
h→0
kϕ(h) − ψ(h)k
khk
= 0.
6
ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH
Ustalmy dowolnie wektor x ∈ R
n
, x 6= 0, i połóżmy h = tx, t ∈ R. Jeżeli t → 0,
to h → 0 w R
n
, zatem
0 = lim
t→0
kϕ(tx) − ψ(tx)k
ktxk
=
kϕ(x) − ψ(x)k
kxk
i musi być ϕ(x) = ψ(x).
Definicja. Funkcję ϕ z definicji (1. 2) nazywamy pochodną funkcji f w punk-
cie a i oznaczamy symbolem Df (a). Macierz funkcji ϕ dla odróżnienia oznaczamy
symbolem f
0
(a).
1.11. Twierdzenie. Jeżeli funkcja f : R
n
→ R
m
jest różniczkowalna w punkcie
a ∈ R
n
, to jest w tym punkcie ciągła.
Dowód: Oznaczmy przez ε : R
n
→ R
m
funkcję
ε(h) = f (a + h) − f (a) − ϕ(h).
Wtedy kε(h)k/khk dąży do zera, gdy h → 0, w szczególności kε(h)k ¬ khk, gdy
khk ¬ δ . Także kϕ(h)k ¬ Mkhk z nierówności (1. 3), zatem
kf (a + h) − f (a)k = kϕ(h) + ε(h)k ¬ kϕ(h)k + kε(h)k ¬ (M + 1)khk
dąży do zera, gdy h → 0.
1.12. Twierdzenie. Funkcja f : R
n
→ R
m
jest różniczkowalna w punkcie a ∈
R
n
wtedy i tylko wtedy, gdy w punkcie a różniczkowalna jest każda z jej funkcji
składowych f
1
, f
2
, . . . , f
m
. Nadto
Df (a) = Df
1
(a), Df
2
(a), . . . , Df
m
(a)
.
Dowód: Załóżmy, że funkcja f jest różniczkowalna w punkcie a i oznaczmy przez
ϕ
1
, ϕ
2
, . . . , ϕ
m
funkcje składowe jej pochodnej Df (a). Wtedy dla każdego j =
1, 2, . . . , m zachodzi nierówność
|f
j
(a + h) − f
j
(a) − ϕ
j
(h)|
khk
¬
kf (a + h) − f (a) − Df (a)(h)k
khk
,
zatem różniczkowalność funkcji f w punkcie a gwarantuje różniczkowalność w
tym punkcie każdej z funkcji składowych. Także musi być Df
j
(a) = ϕ
j
.
Odwrotnie, jeżeli oznaczymy przez ϕ odwzorowanie liniowe R
n
do R
m
, któ-
rego składowymi są funkcje Df
1
(a), Df
2
(a), . . . , Df
m
(a), to
kf (a + h) − f (a) − ϕ(h)k
khk
¬
m
X
j=1
|f
j
(a + h) − f
j
(a) − Df
j
(a)(h)|
khk
,
stąd zaś łatwo wynika różniczkowalność f w a.
Określenie pochodnej
7
1.13. Przykład. Rozpatrzmy funkcję f : R
n
→ R
m
postaci
f (x) = hx, bi x,
gdzie b jest ustalonym wektorem w R
n
a hx, bi oznacza iloczyn skalarny wektorów
x i b. Mamy tu
f (a + h) = hh, bi a + ha, bi h + hh, bi h.
Zauważmy, że funkcja
ϕ(h) = hh, bi a + ha, bi h
jest liniowa, bo iloczyn skalarny i mnożenie przez skalar są operacjami liniowymi.
Funkcja ϕ musi być pochodną f w a, gdyż
lim
h→0
kf (a + h) − f (a) − ϕ(h)k
khk
=
k hh, bi hk
khk
¬ kbk khk
dąży do zera przy h → 0
Przyjmijmy n = 2 oraz a = (1, 2), b = (1, 1). Wtedy
ϕ(h) = (4h
1
+ h
2
, 2h
1
+ 5h
2
).
zatem
f
0
(a) =
4 1
2 5
.
Zauważmy też, że
f (x) = (x
2
1
+ x
1
x
2
, x
1
x
2
+ x
2
2
),
więc
∂f
∂x
1
(a) = (4, 2) i
∂f
∂x
2
(a) = (1, 5), co w ogólnym przypadku sugeruje związek
pochodnych cząstkowych
∂f
∂x
i
(a), i = 1, 2, . . . , n i wyrazów macierzy f
0
(a).
1.14. Twierdzenie. Jeżeli funkcja f : R
n
→ R
m
jest różniczkowalna w punkcie
a ∈ R
n
, to posiada w tym punkcie wszystkie pochodne kierunkowe. Nadto
D
y
f (a) = Df (a) y
= f
0
(a) · y,
gdzie · oznacza iloczyn macierzy.
Dowód: Przyjmując oznaczenie ϕ na pochodną funkcji f w punkcie a oraz
ε(h) = f (a + h) − f (a) − ϕ(h),
z definicji różniczkowalności otrzymujemy kε(h)k/khk → 0 przy h → 0. Zatem
f (a + ty) − f (a)
t
=
ϕ(ty) − ε(ty)
t
= ϕ(y) +
1
t
ε(ty),
8
ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH
a ponieważ
1
t
ε(ty)
= kyk
kε(ty)k
ktyk
dąży do zera przy t → 0, więc
lim
t→0
f (a + ty) − f (a)
t
= ϕ(y).
1.15. Wniosek. Jeżeli funkcja f : R
n
→ R
m
jest różniczkowalna w punkcie
a ∈ R
n
, to
f
0
(a) =
∂f
∂x
1
(a),
∂f
∂x
2
(a), . . . ,
∂f
∂x
n
(a)
=
∂f
1
∂x
1
(a)
∂f
1
∂x
2
(a)
. . .
∂f
1
∂x
n
(a)
∂f
2
∂x
1
(a)
∂f
2
∂x
2
(a)
. . .
∂f
2
∂x
n
(a)
...
...
...
∂f
m
∂x
1
(a)
∂f
m
∂x
2
(a) . . .
∂f
m
∂x
n
(a)
Uwaga. Przypomnijmy jednak, że istnienie wszystkich pochodnych cząstkowych
funkcji w punkcie nie gwarantuje różniczkowalności funkcji w tym punkcie, nie
gwarantuje nawet ciągłości (patrz przykład 1.1). Zjawisko to można zilustrować
geometrycznie. Dla funkcji f : R
2
→ R pochodne cząstkowe wyznaczają dwie pro-
ste styczne w punkcie a
1
, a
2
, f (a
1
, a
2
)
do powierzchni będącej wykresem funkcji
f . Wyznaczają zatem dokładnie jedną płaszczyznę, nie musi to jednak być płasz-
czyzna styczna do powierzchni.
f
(
x,y
)
(
x,y
)
Interpretacja geometryczna pochodnych cząstkowych.
Określenie pochodnej
9
Mimo to przedstawiona wyżej sytuacja jest wyjątkowa. Wynika to z następu-
jącego twierdzenia:
1.16. Twierdzenie. Jeżeli funkcja f : R
n
→ R
m
posiada wszystkie pochodne
cząstkowe
∂f
∂x
i
, i = 1, 2, . . . , n, w pewnym otoczeniu punktu a ∈ R
n
i wszystkie
one są ciągłe w punkcie a, to funkcja f jest różniczkowalna w tym punkcie.
Funkcję o tej własności nazywamy różniczkowalną w sposób ciągły w
punkcie a
Dowód: Zgodnie z twierdzeniem 1.12 wystarczy rozpatrzyć przypadek, gdy m =
1, tj. f : R
n
→ R. Wtedy
f (a + h) − f (a) = f (a
1
+ h
1
, a
2
, a
3
, . . . , a
n
) − f (a
1
, a
2
, a
3
, . . . , a
n
)
+ f (a
1
+ h
1
, a
2
+ h
2
, a
3
, . . . , a
n
) − f (a
1
+ h
1
, a
2
, a
3
, . . . , a
n
)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
+ f (a
1
+ h
1
, a
2
+ h
2
, . . . , a
n
+ h
n
) − f (a
1
+ h
1
, a
2
+ h
2
, . . . , a
n
).
Stosując do każdego z wierszy twierdzenie Lagrange’a o wartości średniej otrzy-
mamy kolejno
f (a
1
+ h
1
, a
2
, a
3
, . . . , a
n
) − f (a
1
, a
2
, a
3
, . . . , a
n
) = h
1
∂f
∂x
1
(b
1
, a
2
, a
3
, . . . , a
n
)
dla pewnego punktu b
1
leżącego między punktami a
1
i a
1
+ h
1
,
f (a
1
+ h
1
, a
2
+ h
2
, . . . , a
n
) − f (a
1
+ h
1
, a
2
, . . . , a
n
) = h
2
∂f
∂x
2
(a
1
+ h
1
, b
2
, . . . , a
n
)
dla pewnego punktu b
2
leżącego między punktami a
2
i a
2
+ h
2
, itd. Oznaczmy
punkty (b
1
, a
2
, . . . , a
n
), (a
1
+ h
1
, b
2
, . . . , a
n
) itd. odpowiednio przez c
1
, c
2
, . . . , c
n
.
Wtedy
f (a + h) − f (a) =
n
X
i=1
∂f
∂x
i
(c
i
) h
i
,
zatem
f (a + h) − f (a) −
n
P
i=1
∂f
∂x
i
(a) h
i
khk
=
n
P
i=1
∂f
∂x
i
(c
i
) −
∂f
∂x
i
(a)
h
i
khk
¬
n
X
i=1
∂f
∂x
i
(c
i
) −
∂f
∂x
i
(a)
,
10 ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH
bo |h
i
|/khk ¬ 1. Przechodząc do granicy przy h → 0, na mocy założonej ciągłości
w punkcie a każdej z funkcji
∂f
∂x
i
, otrzymamy równość
lim
h→0
f (a + h) − f (a) −
n
P
i=1
∂f
∂x
i
(a) h
i
khk
= 0
oznaczającą różniczkowalność funkcji f w punkcie a.
Podstawowe własności pochodnej
Wprost z definicji różniczkowalności wynika, że funkcja stała f jest różnicz-
kowalna i Df (a) = 0. Także każda funkcja liniowa f jest różniczkowalna i
Df (a) = f . Inną natychmiastową konsekwencją jest wzór
D(αf + βg)(a) = αDf (a) + βDg(a).
Dokładnie tak samo, jak dla funkcji zmiennej rzeczywistej dla funkcji wektorowych
różniczkowalnych o wartościach rzeczywistych dowodzi się wzorów:
D(f × g)(a) = g(a)Df (a) + f (a) Dg(a),
D
f
g
(a) =
g(a)Df (a) − f (a)Dg(a)
g(a)
2
,
gdy g(a) 6= 0.
1.17. Twierdzenie (o pochodnej funkcji złożonej). Jeżeli funkcja f :
R
n
→ R
m
jest różniczkowalna w punkcie a zaś funkcja g : R
m
→ R
k
jest róż-
niczkowalna w punkcie b = f (a), to funkcja złożona h = g ◦ f : R
n
→ R
k
jest
różniczkowalna w punkcie a i
Dh(a) = Dg(b) ◦ Df (a),
czyli
h
0
(a) = g
0
(b) · f
0
(a),
gdzie · oznacza iloczyn macierzy.
Dowód: Oznaczmy ϕ = Df (a), ψ = Dg(b) i wprowadźmy funkcje pomocnicze
u, v , w kładąc
u(x) = f (x) − f (a) − ϕ(x − a),
v(y) = g(y) − g(b) − ψ(y − b),
w(x) = h(x) − h(a) − ψ ◦ ϕ(x − a).
Podstawowe własności pochodnej
11
Z założenia wiemy, że
(1. 4)
lim
x→a
ku(x)k
kx − ak
= 0,
lim
y→b
kv(y)k
ky − bk
= 0,
a chcemy pokazać, że
lim
x→a
kw(x)k
kx − ak
= 0
Z określenia funkcji h i reszty w wiemy, że
w(x) = g f (x)
− g f (a)
− ψ ϕ(x − a)
= g f (x)
− g(b) − ψ f (x) − b
+ ψ f (x) − b − ϕ(x − a)
,
tak więc
w(x) = v f (x)
+ ψ u(x)
.
Jeżeli dana jest liczba ε > 0, to z drugiej równości (1. 4) wynika istnienie takiej
liczby η > 0, że
kv(y)k ¬ ε ky − bk,
gdy ky − bk ¬ η,
a z ciągłości funkcji f w punkcie a i z pierwszej z równości (1. 4) istnienie takiej
liczby δ > 0, że jednocześnie
kf (x) − bk ¬ η i ku(x)k ¬ ε kx − ak,
gdy kx − ak ¬ δ.
Stąd
v f(x)
¬ ε kf(x) − bk = ε ku(x) + ϕ(x − a)k
¬ ε
2
kx − ak + εM kx − ak,
ψ u(x)
k ¬ N ku(x)k ¬ εN kx − ak,
gdy kx − ak ¬ δ . To daje
kw(x)k
kx − ak
¬ ε (M + N + ε),
gdy kx − ak ¬ δ.
Stałe M i N dobraliśmy do funkcji ϕ i ψ tak, by kϕ(x)k ¬ M kxk i kψ(y)k ¬
N kyk.
1.18. Przykład. Funkcję f (x, y) =
xy
x
2
+ y
2
na R
2
\ {(0, 0)} możemy przedsta-
wić we współrzędnych biegunowych przyjmując x = r cos t, y = r sin t. Oznaczmy
tak otrzymaną funkcję zmiennych r , t przez h
h(r, t) = f (r cos t, r sin t) = cos t sin t =
1
2
sin 2t,
12 ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH
a ponieważ
∂h
∂r
= 0,
∂h
∂t
= cos 2t, więc h
0
(r, t) = ( 0 cos 2t ). Z drugiej strony
h = f ◦ g , gdzie funkcja g : R
2
→ R
2
ma postać
g(r, t) = (r cos t, r sin t),
zatem h
0
(r, t) = f
0
g(r, t)
· g
0
(r, t). Ponieważ
f
0
(x, y) =
−y(x
2
−y
2
)
(x
2
+y
2
)
2
x(x
2
−y
2
)
(x
2
+y
2
)
2
,
f
0
g(r, t)
=
−r
3
sin t(cos
2
t−sin
2
t)
r
4
r
3
cos t(cos
2
t−sin
2
t)
r
4
=
− sin t cos 2t
r
cos t cos 2t
r
,
g
0
(r, t) =
cos t −r sin t
sin t
r cos t
,
więc
h
0
(r, t) =
− sin t cos 2t
r
cos t cos 2t
r
cos t −r sin t
sin t
r cos t
= ( 0 cos 2t ) .
Twierdzenie o funkcji odwrotnej
Przedstawimy teraz jedno z najważniejszych twierdzeń teorii funkcji wielu
zmiennych.
1.19. Twierdzenie (o funkcji odwrotnej). Załóżmy, że funkcja f : R
n
→
R
n
jest różniczkowalna w sposób ciągły w pewnym zbiorze otwartym zawierającym
punkt a ∈ R
n
oraz, że
det f
0
(a) 6= 0.
Wtedy istnieją takie zbiory otwarte U punktu a oraz V punktu f (a), że funkcja
f : U → V jest odwracalna a funkcja odwrotna f
−1
: V → U jest różniczkowalna
w sposób ciągły i zachodzi równość
(1. 5)
f
−1
0
f (x)
=
f
0
(x)
−1
.
Dowód tego twierdzenia jest długi i trudny, zostanie więc pominięty. Można
go znaleźć w wielu podręcznikach z analizy, np. w podręczniku W. Rudina „Pod-
stawy analizy matematycznej”. Sama teza nie wydaje się jednak zaskakująca.
Znamy dokładnie tak samo brzmiące twierdzenie o pochodnej funkcji odwrotnej
Twierdzenie o funkcji odwrotnej
13
dla funkcji jednej zmiennej. Nieoczekiwana nie jest też sama równość (1. 5), bo
skoro f
−1
◦ f = id , to z twierdzenia o pochodnej funkcji złożonej otrzymujemy
= f
−1
◦ f
0
(x) = f
−1
0
f (x)
· f
0
(x),
gdzie oznacza macierz jednostkową. Mnożąc powyższą równość obustronnie
przez macierz
f
0
(x)
−1
otrzymamy (1. 5). Aby można było dokonać tej ope-
racji należy założyć odwracalność macierzy f
0
(x). Stąd warunek det f
0
(a) 6= 0
w założeniu twierdzenia (z założonej ciągłości pochodnych cząstkowych funkcji
f wynika ciągłość funkcji det f
0
(x), zatem warunek det f
0
(x) 6= 0 w pewnym
otoczeniu punktu a).
Największą trudność w dowodzie sprawia wykazanie istnienia zbiorów otwar-
tych U i V , dla których funkcja f : U → V jest odwracalna. Trudność sprawia
nie tylko wykazanie tego, że f jest funkcją różnowartościową, lecz także tego, że
f odwzorowuje zbiór U na pewien zbiór otwarty. W odpowiednim twierdzeniu
dla funkcji jednej zmiennej różnowartościowość jest równoważna monotoniczno-
ści funkcji f , a więc stałemu znakowi pochodnej a własność „na” funkcji jest
natychmiastową konsekwencją twierdzenia Darboux.
1.20. Wniosek. Jeżeli funkcja f : R
n
→ R
n
jest różniczkowalna w sposób ciągły
na pewnym zbiorze otwartym W ⊂ R
n
oraz det f
0
(x) 6= 0 dla wszystkich punktów
x ∈ W , to f (W ) jest także zbiorem otwartym.
Dowód: Z twierdzenia o funkcji odwrotnej wnosimy, że dla każdego punktu x ∈
W istnieje taki zbiór otwarty U
x
⊂ W zawierający x i taki zbiór otwarty V
x
zawierający f (x), że funkcja f : U
x
→ V
x
jest odwracalna. W szczególności
f (U
x
) = V
x
, co pociąga, że zbiór
f (W ) = f
[
x∈W
U
x
=
[
x∈W
f (U
x
) =
[
x∈W
V
x
jest otwarty.
Definicja. Niech U i V będą zbiorami otwartymi w R
n
. Funkcję odwracalną
f : U → V nazwiemy dyfeomorfizmem jeżeli f i f
−1
są funkcjami różniczko-
walnymi w sposób ciągły odpowiednio na zbiorach U i V .
Twierdzenie o funkcji odwrotnej jest zatem twierdzeniem o lokalnym dyfe-
omorfizmie.
1.21. Przykład. Dla funkcji g : R
2
→ R
2
g(r, t) = (r cos t, r sin t),
14 ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH
zamieniającej współrzędne kartezjańskie na współrzędne biegunowe, mamy
det g
0
(r, t) = det
cos t −r sin t
sin t
r cos t
= r,
zatem gdy r 6= 0, to g jest funkcją lokalnie odwracalną. Słowo „lokalnie” jest
tu istotne, bo g nie jest funkcją różnowartościową, np. g(r, t) = g(r, t + 2π) =
g(−r, t + π). Jak wiemy g jest funkcją różnowartościową, a nawet odwracalną,
gdy r > 0 i 0 ¬ t < 2π . Na tym zbiorze funkcja odwrotna g
−1
ma postać
(1. 6)
g
−1
(x, y) =
p
x
2
+ y
2
, arc tg
y
x
.
twierdzenia o funkcji odwrotnej mamy
g
−1
0
(x, y) =
g
0
(r, t)
−1
=
cos t −r sin t
sin t
r cos t
−1
=
cos t
sin t
−
1
r
sin t
1
r
cos t
=
x
p
x
2
+ y
2
y
p
x
2
+ y
2
−y
x
2
+ y
2
x
x
2
+ y
2
.
Związek między (x, y) i (r, t) dany jest równością (x, y) = g(r, t), tj. (r, t) =
g
−1
(x, y).
Bezpośrednie obliczenie macierzy g
−1
0
(x, y) ze wzoru (1. 6) daje ten sam
wynik.
Twierdzenie o funkcji uwikłanej
Teraz przedstawimy jeszcze jedno ważne twierdzenie dotyczące różniczkowal-
ności funkcji — twierdzenie o funkcji uwikłanej. Poprzedzimy je przykładem, który
wprowadzi nas w zagadnienie.
1.22. Przykład. Rozpatrzmy funkcję f : R
2
→ R określoną wzorem
f (x, y) = x
2
+ y
2
− 1.
Zbiór
(x, y) ∈ R
2
: f (x, y) = 0
jest okręgiem jednostkowym a dla przykładu
punkt (a, b) =
1
2
,
√
3
2
należy do tego zbioru. Zauważmy, że funkcja g określona
na przedziale (−1, 1) wzorem
g(x) =
p
1 − x
2
Twierdzenie o funkcji uwikłanej
15
ma tą własność, że
f x, g(x)
= 0 dla x ∈ (−1, 1) oraz g(a) = b,
tj. równanie x
2
+ y
2
− 1 = 0 daje się lokalnie rozwikłać w otoczeniu punktu (a, b).
Jeśli wybrać (a, b) =
1
2
, −
√
3
2
, to funkcją rozwikłującą jest g(x) = −
√
1 − x
2
na przedziale (−1, 1). W punktach (a, b) = (−1, 0) lub (a, b) = (1, 0) równanie
f (x, y) = 0 nie da się lokalnie rozwikłać.
1.23. Twierdzenie (o funkcji uwikłanej). Załóżmy, że funkcja f : (R
n
×
R
m
) → R
m
jest różniczkowalna w sposób ciągły w pewnym zbiorze otwartym za-
wierającym punkt (a, b) oraz, że f (a, b) = 0. Niech A będzie macierzą
A =
∂f
j
∂x
n+i
(a, b)
m
i,j=1
.
Jeżeli det A 6= 0, to istnieje taki zbiór otwarty W ⊂ R
n
zawierający punkt a i
jednoznacznie określona funkcja g : W → R
m
, że g(a) = b oraz
(1. 7)
f x, g(x)
= 0
dla wszystkich x ∈ W . Funkcja g jest różniczkowalna na W .
Dowód: Określmy funkcję pomocniczą F : R
n+m
→ R
n+m
wzorem
F (x, y) = x, f (x, y)
.
Wtedy
det F
0
(a, b) = det
I
0
∗ A
= det A 6= 0.
Z twierdzenia o funkcji odwrotnej wynika istnienie w R
n+m
takich zbiorów otwar-
tych U i V , zawierających odpowiednio punkt (a, b) i punkt F (a, b) = (a, 0) i
mające tą własność, że funkcja F : U → V ma różniczkowalną funkcję odwrotną
F
−1
: V → U.
Funkcja odwrotna musi mieć postać
F
−1
(x, y) = x, h(x, y)
dla pewnej funkcji różniczkowalnej h : V → R
m
. Oznaczmy przez π : R
n
× R
m
→
R
m
rzut na „drugą oś” π(x, y) = y . Jest to funkcja liniowa, jest więc funkcją
różniczkowalną oraz f = π ◦ F . Wobec tego
f x, h(x, y)
= f ◦ F
−1
(x, y) = (π ◦ F ) ◦ F
−1
(x, y)
= π ◦ F ◦ F
−1
(x, y) = π(x, y) = y,
.
16 ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH
Jeśli przyjmiemy za W zbiór otwarty
W =
x ∈ R
n
: (x, 0) ∈ V
,
to f x, h(x, 0)
= 0 dla x ∈ W i wystarczy określić
g(x) = h(x, 0).
Jedyność funkcji g wynika z różnowartościowości funkcji F , bo jeśli dla pew-
nych (x, y
0
), (x, y
00
) ∈ U zachodzi równość f (x, y
0
) = f (x, y
00
), to F (x, y
0
) =
F (x, y
00
) i musi być y
0
= y
00
.
1.24. Przykład. Prześledzimy dowód twierdzenia o funkcji uwikłanej dla funk-
cji f (x, y) = x
2
+ y
2
− 1 z przykładu 1.22 i punktu (a, b) =
1
2
,
√
3
2
.
Funkcja F : R
2
→ R
2
ma tu postać
F (x, y) = (x, x
2
+ y
2
− 1),
jest także
det F
0
(a, b) = det
1
0
1
√
3
=
√
3 6= 0.
Łatwo sprawdzamy, że funkcja F odwzorowuje wzajemnie jednoznacznie półpłasz-
czyznę U = {(x, y) ∈ R
2
: y > 0} na zbiór otwarty
V = {(x, y) ∈ R
2
: y > x
2
− 1}
a jej funkcja odwrotna F
−1
: V → U jest określona wzorem
F
−1
(x, y) =
x,
p
1 − x
2
+ y
.
Zatem h(x, y) =
p
1 − x
2
+ y a zbiór W ma postać
W =
x ∈ R : (x, 0) ∈ V
= (−1, 1).
To każe określić funkcję g : (−1, 1) → R wzorem
g(x) =
p
1 − x
2
.
Jeżeli za U wybierzemy inne, mniejsze otoczenie punktu
1
2
,
√
3
2
, np. koło
otwarte
U =
n
(x, y) ∈ R
2
:
(x, y) −
1
2
,
√
3
2
< ε
o
=
n
1
2
+ r cos t,
√
3
2
+ r sin t
∈ R
2
: 0 ¬ r < ε, 0 ¬ t < 2π
o
,
Twierdzenie o funkcji uwikłanej
17
gdzie 0 < ε <
√
3
2
, to zbiór V będzie elipsą
V =
n
1
2
+ r cos t, r
2
+ 2r cos t −
π
6
∈ R
2
: 0 ¬ r < ε, 0 ¬ t < 2π
o
a w konsekwencji zbiór W właściwym podzbiorem przedziału (−1, 1), np. dla
ε = 0.5 przedziałem (0.0182, 0.8568) (patrz rysunek) a dla ε = 0.1 przedziałem
(0.4110, 0.5839).
-0.5
0.5
1
1
0.8
0.6
0.4
0.2
U
V
W
Zbiory U i V dla ε = 0.5.
Uwaga. Twierdzenie o funkcji uwikłanej mówi o różniczkowalności funkcji g ale
nie daje przepisu jak tą pochodną obliczyć. Można to zrobić następująco: ustalamy
wskaźnik k (k = 1, 2, . . . , n) i każdą z równości f
j
x, g(x)
= 0, j = 1, 2, . . . , m,
zróżniczkujmy względem zmiennej x
k
otrzymując
(1. 8)
0 =
∂
∂x
k
h
f
j
x, g(x)
i
=
∂f
j
∂x
k
x, g(x)
+
m
X
i=1
∂f
j
∂x
n+i
x, g(x)
·
∂g
i
∂x
k
(x).
Ponieważ det A 6= 0, to w pewnym otoczeniu punktu a także
det
∂f
j
∂x
n+i
x, g(x)
m
i,j=1
6= 0,
więc dla każdego ustalonego x z tego otoczenia układ równań algebraicznych (1. 8)
ma dokładnie jedno rozwiązanie względem niewiadomych
∂g
i
∂x
k
(x), i = 1, 2, . . . , m.
Oczywiście otrzymany wynik będzie zależał od wartości
∂f
j
∂x
n+i
x, g(x)
, a więc
także od wartości g(x). Jest to nieuniknione, bo funkcja g spełniająca równa-
nie (1. 7) zwykle nie jest jedyna, a jej jednoznaczność jest wymuszona warun-
kiem g(a) = b. Jak pamiętamy, w przykładzie 1.22 znaleźliśmy dwie funkcje g
18 ROZDZIAŁ 1. POJĘCIE POCHODNEJ FUNKCJI WIELU ZMIENNYCH
spełniające równanie (1. 7), mianowicie g(x) =
√
1 − x
2
oraz g(x) = −
√
1 − x
2
.
Różniczkując to równanie otrzymujemy
∂f
∂x
x, g(x)
+
∂f
∂y
x, g(x)
· g
0
(x) = 0,
tj. 2x + 2g(x) g
0
(x) = 0, co daje
g
0
(x) =
−x
g(x)
.
Równość powyższa jest spełniona zarówno dla funkcji g(x) =
√
1 − x
2
jak i dla
g(x) = −
√
1 − x
2
.
1.25. Przykład. Jak w praktyce wygląda rozwiązywanie układu równań (1. 8)?
Prześledzimy to na przykładzie funkcji f : R
2
× R
2
→ R
2
f (x, y) = (x
1
y
1
− x
2
y
2
, x
1
y
2
+ x
2
y
1
− 2)
i punktu (a, b) = (1, 1), (1, 1)
. Założenia twierdzenia o funkcji uwikłanej są
spełnione, bo f (a, b) = 0 oraz
det A = det
∂f
1
(a,b)
∂y
1
∂f
1
(a,b)
∂y
2
∂f
2
(a,b)
∂y
1
∂f
2
(a,b)
∂y
2
= det
1 −1
1
1
= 2 6= 0,
zatem istnieje takie otoczenie W punktu a w R
2
i funkcja g : W → R
2
, że
f x, g(x)
= 0 dla x ∈ W.
Równanie powyższe możemy zapisać w postaci układu dwóch tożsamości
(1. 9)
x
1
g
1
(x
1
, x
2
) − x
2
g
2
(x
1
, x
2
) = 0,
x
1
g
2
(x
1
, x
2
) + x
2
g
1
(x
1
, x
2
) − 2 = 0.
Różniczkując je stronami względem zmiennej x
1
otrzymamy układ równań
x
1
∂g
1
∂x
1
(x
1
, x
2
) − x
2
∂g
2
∂x
1
(x
1
, x
2
) = −g
1
(x
1
, x
2
),
x
2
∂g
1
∂x
1
(x
1
, x
2
) + x
1
∂g
2
∂x
1
(x
1
, x
2
) = −g
2
(x
1
, x
2
),
z którego obliczamy
∂g
1
∂x
1
=
−x
1
g
1
− x
2
g
2
x
2
1
+ x
2
2
,
∂g
2
∂x
1
=
−x
1
g
2
+ x
2
g
1
x
2
1
+ x
2
2
.
Twierdzenie o funkcji uwikłanej
19
Różniczkując (1. 9) względem zmiennej x
2
w podobny sposób obliczamy
∂g
1
∂x
2
=
x
1
g
2
− x
2
g
1
x
2
1
+ x
2
2
,
∂g
2
∂x
2
=
−x
1
g
1
− x
2
g
2
x
2
1
+ x
2
2
.
W szczególności otrzymujemy
g
0
(1, 1) =
−1
0
0
−1
.
Wyniki te można łatwo zweryfikować wyznaczając funkcję g bezpośrednio z uk-
ładu równań (1. 9)
g(x) =
2x
2
x
2
1
+ x
2
2
,
2x
1
x
2
1
+ x
2
2
.
Rozdział 2
Pochodne wyższych rzędów
Pojęcie różniczkowalności
Załóżmy, że funkcja f : R
n
→ R
m
jest różniczkowalna w pewnym zbiorze
otwartym U ⊂ R
n
. Wtedy dla x ∈ U macierz f
0
(x) możemy traktować jako
wektor przestrzeni R
n·m
— określona jest zatem funkcja f
0
: R
n
→ R
n×m
i
można pytać, czy jest to funkcja różniczkowalna w wybranym punkcie a ∈ U .
Jeśli tak jest, to f
00
(a) winna być macierzą n × (n × m), czyli trójwymiarową
macierzą A = {a
ijk
: i, j = 1, 2, . . . , n, k = 1, 2, . . . , m}, gdzie
a
ijk
=
∂
∂x
i
∂f
k
∂x
j
(a) =
∂
2
f
k
∂x
i
∂x
j
(a).
Zobaczmy jak wtedy należy interpretować pochodną D
2
f (a). Jak pamiętamy,
zbiór wszystkich odwzorowań liniowych z przestrzeni R
n
do R
m
, z operacjami
dodawania odwzorowań i mnożenia ich przez skalary, sam jest przestrzenią liniową
a z każdym jego elementem związana jest pewna macierz n × m. Jest to zatem
przestrzeń liniowa wymiaru n · m. Oznaczmy ją przez L(R
n
, R
m
). Otóż D
2
f (x)
należy traktować jako odwzorowanie liniowe z R
n
do L(R
n
, R
m
). Oznacza to, że
dla każdego wektora h ∈ R
n
wartość D
2
f (x)(h) jest odwzorowaniem liniowym
z R
n
do R
m
zatem odwzorowaniem, które dowolnemu wektorowi k ∈ R
n
przy-
porządkowuje wektor z R
m
, W konsekwencji parze wektorów (h, k) z R
n
zostaje
przyporządkowany wektor z R
m
a przyporządkowanie to jest liniowe zarówno
względem h jak i k . Odwzorowania takie nazywamy dwuliniowym a zbiór, który
tworzą jest znów przestrzenią liniową, którą oznaczamy L
2
(R
n
, R
m
). Tak więc
D
2
f (a) ∈ L
2
(R
n
, R
m
). W międzyczasie otrzymaliśmy opis wszystkich odwzoro-
wań ϕ z L
2
(R
n
, R
m
), wyznaczone one są jednoznacznie przez macierze n×n×m.
Jeżeli h = (h
1
, h
2
, . . . , h
n
), k = (k
1
, k
2
, . . . , k
n
) są wektorami z R
n
, to
ϕ(h, k) = (y
1
, y
2
, . . . , y
m
),
gdzie
y
k
=
n
X
i=1
n
X
j=1
a
ijk
h
i
k
j
20
Pojęcie różniczkowalności
21
dla pewnej macierzy A = {a
ijk
: i, j = 1, 2, . . . , n, k = 1, 2, . . . , m}.
Powtarzając powyższe rozumowanie dla macierzy f
00
(x) i dla odwzorowania
D
2
f (x), jako funkcji zmiennej x możemy określić f
000
(a) jako macierz n×n×n×m
o wyrazach
a
ijkl
=
∂
3
f
l
∂x
i
∂x
j
∂x
k
(a),
i, j, k = 1, 2, . . . , n, l = 1, 2, . . . , m,
zaś D
3
f (a) jako odpowiadające tej macierzy odwzorowanie trójliniowe z R
n
do
R
m
, itd.
Definicja. Powiemy, że funkcja f : R
n
→ R
m
jest klasy C
k
na zbiorze otwar-
tym U ⊂ R
n
, jeżeli każda z jej funkcji składowych posiada wszystkie pochodne
cząstkowe wszystkich rzędów do k włącznie na U i wszystkie one są funkcjami
ciągłymi. Gwarantuje to, że dla x ∈ U funkcja f posiada pochodne D
i
f (x) do
rzędu k włącznie.
Uwaga. Gdy m = 1, to f
00
(a) jest w istocie macierzą n × n
f
00
(a) =
∂
2
f (a)
∂x
2
1
∂
2
f (a)
∂x
1
∂x
2
· · ·
∂
2
f (a)
∂x
1
∂x
n
∂
2
f (a)
∂x
2
∂x
1
∂
2
f (a)
∂x
2
2
· · ·
∂
2
f (a)
∂x
2
∂x
n
...
...
...
∂
2
f (a)
∂x
n
∂x
1
∂
2
f (a)
∂x
n
∂x
1
· · ·
∂
2
f (a)
∂x
2
n
zwaną hessianem (od Ludwika Otto Hessa 1811–1874) funkcji f w punkcie a.
2.1. Przykład. Obliczymy kolejne pochodne funkcji f : R
2
→ R określonej
wzorem
f (x) = x
2
1
x
2
− x
1
x
2
2
+ 1
w punkcie a = (2, 1). Mamy tu
∂f
∂x
1
(a) = 2a
1
a
2
−a
2
2
= 3,
∂f
∂x
2
(a) = a
2
1
a
2
−2a
2
= 2,
∂
2
f
∂x
2
1
(a) = 2a
2
= 2,
∂
2
f
∂x
1
∂x
2
(a) =
∂
2
f
∂x
2
∂x
1
(a) = 2a
1
− 2a
2
= 2,
∂
2
f
∂x
2
2
(a) = 2a
1
= 4,
∂
3
f
∂x
2
1
∂x
2
(a) =
∂
3
f
∂x
1
∂x
2
∂x
1
(a) =
∂
3
f
∂x
2
∂x
2
1
(a) = 2 oraz
∂
3
f
∂x
1
∂x
2
2
(a) =
∂
3
f
∂x
2
∂x
1
∂x
2
(a) =
∂
3
f
∂x
2
2
∂x
1
(a) = −2, natomiast
∂
3
f
∂x
3
1
(a),
∂
3
f
∂x
3
2
(a) oraz wszystkie pochodne cząstkowe
wyższych rzędów są już równe zeru. Stąd dla dowolnych wektorów h, k, l ∈ R
2
22
ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW
otrzymujemy
D
1
f (a)(h) = 3h
1
+ 2h
2
,
D
2
f (a)(h, k) = 2h
1
k
1
+ 2h
1
k
2
+ 2h
2
k
1
+ 4h
2
k
2
,
D
3
f (a)(h, k, l) = 2h
1
k
1
l
2
+ 2h
1
k
2
l
1
+ 2h
2
k
1
l
1
− 2h
1
k
2
l
2
− 2h
2
k
1
l
2
− 2h
2
k
2
l
1
.
Pochodne D
4
f (a), D
5
f (a) itd. są już funkcjami zerowymi.
Równość
∂
2
f
∂x
1
∂x
2
(a) =
∂
2
f
∂x
2
∂x
1
(a) oznacza, że kolejność różniczkowania funkcji
f po zmiennych x
1
i x
2
nie jest istotna. Sytuację taką należy traktować jako
typową.
2.2. Twierdzenie (o pochodnych mieszanych). Jeżeli pochodne mieszane
drugiego rzędu
∂
2
f
∂x
i
∂x
j
i
∂
2
f
∂x
j
∂x
i
funkcji f : R
n
→ R
m
są ciągłe w punkcie a ∈ R
n
,
to zachodzi równość
(2. 10)
∂
2
f
∂x
i
∂x
j
(a) =
∂
2
f
∂x
j
∂x
i
(a).
Dowód: Ponieważ równość (2. 10) należy sprawdzić dla każdej z funkcji składo-
wych z osobna, więc w istocie zagadnienie redukuje się do przypadku, gdy f funk-
cją rzeczywistą dwóch zmiennych. Załóżmy zatem, że f : R
2
→ R i wprowadźmy
funkcję pomocniczą
h(x
1
, x
2
) = f (a
1
+ x
1
, a
2
+ x
2
) − f (a
1
+ x
1
, a
2
) − f (a
1
, a
2
+ x
2
) − f (a
1
, a
2
).
Jeżeli ustalimy najpierw zmienną x
2
i oznaczymy
g(t) = f (t, a
2
+ x
2
) − f (t, a
2
),
to
h(x
1
, x
2
) = g(a
1
+ x
1
) − g(a
1
).
Z twierdzenia Lagrange’a o wartości średniej otrzymujemy h(x
1
, x
2
) = g
0
(α
1
) x
1
dla pewnej liczby α
1
leżącej między a
1
i a
1
+ x
1
, tj.
h(x
1
, x
2
) =
∂f
∂x
1
(α
1
, a
2
+ x
2
) −
∂f
∂x
1
(α
1
, a
2
)
x
1
.
Ustalmy teraz x
1
i skorzystajmy ponownie z twierdzenia o wartości średniej. Do-
staniemy wtedy
h(x
1
, x
2
) =
∂
2
f
∂x
1
∂x
2
(α
1
, α
2
) x
1
x
2
Pojęcie różniczkowalności
23
dla pewnego α
2
leżącego między a
2
i a
2
+ x
2
. Z ciągłości funkcji
∂
2
f
∂x
1
∂x
2
wynika,
że
∂
2
f
∂x
1
∂x
2
(a
1
, a
2
) =
lim
(x
1
,x
2
)→(0,0)
h(x
1
, x
2
)
x
1
x
2
.
Dokładnie taką samą wartość prawej strony otrzymamy, jeśli zmienimy kolejność
postępowania ze zmiennymi x
1
i x
2
, z lewej strony otrzymamy zaś
∂
2
f
∂x
2
∂x
1
(α
1
, α
2
),
stąd równość (2. 10).
Uwaga. Jest oczywiste, że twierdzenie o pochodnych mieszanych przez iterację
przenosi się na pochodne wyższych rzędów. W praktyce dla funkcji dwóch zmien-
nych oznacza to, że zamiast obliczania 2
k
pochodnych cząstkowych k -tego rzędu
należy obliczyć ich tylko k + 1 a ogólnie dla funkcji n zmiennych zamiast n
k
tylko
n+k
k
, np. tylko pochodne po zmiennych, których wskaźniki tworzą ciąg
niemalejący.
2.3. Wniosek. Jeżeli f jest funkcją klasy C
2
, to D
2
f (a) jest funkcją dwuli-
niową symetryczną, tj.
D
2
f (a)(h, k) = D
2
f (a)(k, h)
dla dowolnych wektorów h, k ∈ R
n
.
2.4. Przykład. Równość drugich pochodnych mieszanych nie jest rzeczą au-
tomatyczną. Założenie ciągłości w twierdzeniu o pochodnych mieszanych jest
istotne. Widać to na przykładzie funkcji f : R
2
→ R określonej następująco:
f (x, y) =
xy(x
2
− y
2
)
x
2
+ y
2
gdy (x, y) 6= (0, 0),
0
gdy (x, y) = (0, 0).
Pochodne cząstkowe
∂f
∂x
i
∂f
∂y
mają postać
∂f
∂x
(x, y) =
x
4
+ 4x
2
y
2
− y
4
(x
2
+ y
2
)
2
y,
∂f
∂y
(x, y) =
x
4
− 4x
2
y
2
− y
4
(x
2
+ y
2
)
2
x,
gdy (x, y) 6= (0, 0) oraz
∂f
∂x
(0, 0) =
∂f
∂y
(0, 0) = 0. Stąd
∂
2
f
∂x ∂y
(0, 0) = lim
x→0
1
x
∂f
∂y
(x, 0) = −1,
zaś
∂
2
f
∂y ∂x
(0, 0) = lim
y→0
1
y
∂f
∂x
(0, y) = 1.
W pozostałych punktach płaszczyzny R
2
pochodne mieszane są sobie równe. Jest
tak, bo f w obszarze R
2
\ {(0, 0)} jest funkcją klasy C
2
(jest funkcją klasy C
k
dla każdego k ).
24
ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW
Wzór Taylora
Wzór Taylora dla funkcji wielu zmiennych można otrzymać ze wzoru Taylora
za pomocą pewnego wybiegu. Zobaczmy jak to zrobić w praktyce.
2.5. Przykład. Załóżmy, że f : R
2
→ R jest funkcją klasy C
r+1
w pewnym
wypukłym otoczeniu punktu (0, 0). Wybierzmy punkt (x, y) z tego otoczenia i
określmy funkcję g : R → R wzorem
g(t) = f (tx, ty).
Wtedy g jest funkcją klasy C
r+1
w pewnym zbiorze otwartym zawierającym
przedział [0, 1] a korzystając wielokrotnie ze wzoru na pochodną funkcji złożonej
dla punktów t z tego przedziału otrzymujemy
g
0
(t) =
∂f
∂x
(tx, ty) x +
∂f
∂y
(tx, ty) y,
g
00
(t) =
∂
2
f
∂x
2
(tx, ty) x
2
+ 2
∂
2
f
∂z ∂y
(tx, ty) xy +
∂
2
f
∂y
2
(tx, ty) y
2
,
itd., ogólnie
g
(m)
(t) =
k
X
i=0
m
i
∂
m
f
∂x
i
∂y
m−i
(tx, ty) x
i
y
m−i
.
Jeżeli wartość g(1) przedstawimy ze wzoru Taylora dla funkcji g w postaci
g(1) =
r
X
m=0
1
m!
g
(m)
(0) +
1
(r + 1)!
g
(r+1)
(θ) dla pewnego θ ∈ (0, 1)
i wstawimy obliczone wcześniej wartości funkcji g i jej pochodnych, to otrzymamy
(2. 11)
f (x, y) =
r
X
m=0
1
m!
m
X
k=0
m
k
∂
m
f
∂x
k
∂y
m−k
(0, 0) x
k
y
m−k
+ R
r
,
gdzie R
r
jest resztą
R
r
=
1
(r + 1)!
r+1
X
k=0
r + 1
k
∂
r+1
f
∂x
k
∂y
r+1−k
(θx, θy) x
k
y
r+1−k
.
Wzór (2. 11) to właśnie wzór Taylora funkcji f w punkcie (0, 0) z resztą w
postaci Lagrange’a. Rozwinięcie funkcji f w punkcie (a, b) ma postać
(2. 12)
f (x, y) =
r
X
m=0
1
m!
m
X
k=0
m
k
∂
m
f
∂x
k
∂y
m−k
(a, b) (x − a)
k
(y − b)
m−k
+ R
r
Wzór Taylora
25
a reszta R
r
postać
R
r
=
1
(r + 1)!
r+1
X
k=0
r + 1
k
∂
r+1
f
∂x
k
∂y
r+1−k
a+θ(x−a), b+θ(y−b)
(x−a)
k
(y−b)
r+1−k
.
Można je otrzymać ze wzoru (2. 11) przez łatwą zamianę zmiennych lub powtórzyć
rozumowanie dla funkcji
g(t) = f a + t(x − a), b + t(y − b)
.
2.6. Przykład. Znajdziemy postać wzoru Taylora funkcji f (x, y) = arc tg
x
y
w
punkcie (0, 1) z wyrazami do rzędu 5 włącznie. Ponieważ
∂f
∂x
=
y
x
2
+ y
2
i
∂f
∂y
=
−x
x
2
+ y
2
więc pochodne cząstkowe wyższych rzędów można stąd już łatwo wyznaczyć
∂
2
f
∂x
2
=
−2xy
(x
2
+ y
2
)
2
,
∂
2
f
∂x ∂y
=
x
2
− y
2
(x
2
+ y
2
)
2
,
∂
2
f
∂y
2
=
2xy
(x
2
+ y
2
)
2
,
itd.
Zatem ze wzoru (2. 12) otrzymujemy
arc tg
x
y
= x +
h
− x(y − 1)
i
+
h
−
1
3
x
3
+ x(y − 1)
2
i
+
h
x
3
(y − 1) − x(y − 1)
3
i
+
h
1
5
x
5
− 2x
3
(y − 1)
2
+ x(y − 1)
4
i
+ R
5
.
Uwaga. Jeżeli f jest funkcją trzech zmiennych a funkcję g z przykładu 2.5
określimy wzorem
g(t) = f (tx, ty, tz),
to
g
(m)
(t) =
X
i+j+k=m
m!
i! j! k!
∂
m
f
∂x
i
∂y
j
∂z
k
(tx, ty, tz) x
i
y
j
z
k
.
Sumę powyższą możemy także zapisać w postaci zwykłej sumy podwójnej
m
X
i=0
m−i
X
j=0
przyjmując k = m − i − j . Daje to wzór Taylora dla funkcji trzech zmiennych,
który jak widać jest znacznie bardziej skomplikowany niż wzór Taylora dla funkcji
dwóch zmiennych.
26
ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW
Ogólnie, jeżeli f : R
n
→ R jest funkcją n zmiennych, oraz a i h ustalonymi
wektorami w R
n
, to dla funkcji g : R → R określonej wzorem g(t) = f (a + th)
otrzymujemy
g
(m)
(t) =
n
X
i
1
n
X
i
2
· · ·
n
X
i
m
∂
m
f
∂x
i
1
∂x
i
2
. . . ∂x
i
m
(a + th) h
i
1
h
i
2
. . . h
i
m
.
Wyrażenie po prawej stronie to po prostu D
m
f (a + th)(h, h, . . . , h). Najczęściej
jednak zapisujemy je w postaci f
(m)
(a + th) · h
m
. Uzasadnieniem dla tego zapisu
jest to, że f
(m)
(a + th) jest macierzą m-wymiarową, czyli układem n
m
liczb
∂
m
f
∂x
i1
∂x
i2
...∂x
im
(a + th), a gdy o h
m
też pomyślimy jako o macierzy m-wymiarowej
złożonej z liczb h
i
1
h
i
2
. . . h
i
m
, to g
(m)
(t) jest iloczynem skalarnym tych macierzy.
Stąd kropka · w zapisie.
Posługując się wyżej przyjętym oznaczeniem iloczynu skalarnego macierzy i
przyjmując h = x − a możemy napisać:
2.7. Twierdzenie (wzór Taylora). Załóżmy, że funkcja f : R
n
→ R jest
funkcją klasy C
r+1
w pewnym zbiorze otwartym zawierającym odcinek łączący
punkty a i x. Wtedy
f (x) = f (a) +
1
1!
f
0
(a) · (x − a) +
1
2!
f
00
(a) · (x − a)
2
+ . . . +
1
r!
f
(r)
(a) · (x − a)
r
+ R
r
,
gdzie R
r
jest resztą w postaci Lagrange’a
R
r
=
1
(r + 1)!
f
(r+1)
a + θ(x − a)
· (x − a)
r+1
dla pewnego θ ∈ (0, 1).
Ekstrema lokalne
Podobnie jak dla funkcji jednej zmiennej powiemy, że funkcja f : R
n
→ R
ma w punkcie a ∈ R
n
maksimum lokalne jeżeli f (x) ¬ f (a) dla wszystkich
punktów x z pewnego otoczenia punktu a. Jeżeli dla x 6= a z tego otoczenia
zachodzi ostra nierówność f (x) < f (a), to powiemy, że jest to maksimum
lokalne właściwe. W analogiczny sposób określamy minimum lokalne oraz
minimum lokalne właściwe. Minima i maksyma lokalne obejmujemy wspólną
nazwą ekstremów lokalnych.
Ekstrema lokalne
27
2.8. Twierdzenie (test pierwszych pochodnych). Załóżmy, że funkcja
f : R
n
→ R ma w punkcie a ∈ R
n
ekstremum lokalne. Jeżeli istnieją pochodne
cząstkowe
∂f
∂x
i
(a), i = 1, 2, . . . , n, to wszystkie są równe zeru.
Dowód: Niech e
i
będzie jednym z wektorów bazowych R
n
. Przy założeniach
twierdzenia funkcja g : R → R postaci g(t) = f (a + t e
i
) ma w punkcie t = 0
ekstremum lokalne i jest w tym punkcie różniczkowalna. Musi więc być
0 = g
0
(0) =
∂f
∂x
i
(a).
2.9. Przykład. Rozważmy funkcję f : R
2
→ R postaci
f (x, y) = Ax
2
+ 2Bxy + Cy
2
.
Przy założeniu, że AC − B
2
6= 0 z testu pierwszych pochodnych widać, że (0, 0)
jest jedynym punktem, w którym funkcja f może mieć ekstremum lokalne. Poka-
żemy, że
(1) jeżeli A > 0 oraz AC − B
2
> 0, to f ma w tym punkcie minimum lokalne
właściwe.
(2) jeżeli A < 0 oraz AC −B
2
> 0, to f ma w tym punkcie maksimum właściwe.
(3) jeżeli AC − B
2
< 0, to w dowolnym otoczeniu punktu (0, 0) funkcja f przyj-
muje zarówno wartości dodatnie jak i ujemne, nie ma więc ekstremum lokal-
nego w tym punkcie.
Rozpatrzmy w tym celu dwa przypadki. W pierwszym załóżmy, że A = 0.
Wtedy f (x, y) = 2Bxy + Cy
2
oraz B 6= 0. Przy zbliżaniu się do punktu (0, 0)
wzdłuż prostej 2Bx + (C − 1)y = 0 funkcja f przyjmuje stale wartości dodat-
nie, a wzdłuż prostej 2Bx − (C − 1)y = 0 stale wartości ujemne. Dowodzi to
prawdziwości (3) w tym przypadku.
Załóżmy teraz, że A 6= 0. Wtedy
f (x, y) = A x +
B
A
y
2
+
1
A
(AC − B
2
)y
2
.
Jeżeli AC − B
2
> 0, to f (x, y) > 0, gdy A > 0 oraz f (x, y) < 0, gdy A < 0
dla każdego punktu (x, y) 6= (0, 0), co dowodzi prawdziwości (1) i (2). Jeżeli
AC − B
2
< 0, to na prostej y = 0 funkcja f przyjmuje wartości tego samego
znaku co A a na prostej Ax + By = 0 znaku przeciwnego. To kończy dowód
prawdziwości (3).
Definicja. O punkcie, dla którego zachodzi sytuacja opisana w punkcie (3) mó-
wimy, że jest punktem siodłowym dla funkcji f .
28
ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW
Dla funkcji f (x, y) = x
2
−y
2
punktem siodłowym jest punkt (0, 0). Poruszając
się po prostej y = 0 w punkcie (0, 0) natrafiamy na najmniejszą wartość jaką
funkcja f przyjmuje na tej prostej a poruszając się po prostej x = 0 na wartość
największą, stąd nazwa „punkt siodłowy”.
Wykres funkcji f (x, y) = x
2
+ y
2
.
Wykres funkcji f (x, y) = x
2
− y
2
.
2.10. Twierdzenie (test drugich pochodnych). Załóżmy, że funkcja f :
R
2
→ R ma ciągłe wszystkie pochodne cząstkowe drugiego rzędu w punkcie (a, b)
oraz, że
∂f
∂x
(a, b) = 0,
∂f
∂y
(a, b) = 0.
Oznaczmy A =
∂
2
f
∂x
2
(a, b), B =
∂
2
f
∂x ∂y
(a, b) i C =
∂
2
t
∂y
2
(a, b).
(1) jeżeli A > 0 oraz AC − B
2
> 0, to w punkcie (a, b) funkcja f ma minimum
lokalne właściwe.
(2) jeżeli A < 0 oraz AC − B
2
> 0, to w punkcie (a, b) funkcja f ma maksimum
lokalne właściwe.
(3) jeżeli AC − B
2
< 0, to (a, b) jest punktem siodłowym dla funkcji f .
Dowód: Załóżmy najpierw, że A > 0 i AC − B
2
> 0. Z przykładu 2.9 wiemy, że
wtedy
Ax
2
+ 2Bxy + Cy
2
> 0
dla wszystkich punktów (x, y) 6= (0, 0). Zauważmy, że skoro okrąg
(x, y) ∈ R
2
:
x
2
+ y
2
= 1
jest zbiorem zwartym, to liczba
m = inf
Ax
2
+ 2Bxy + Cy
2
: x
2
+ y
2
= 1
musi być ściśle dodatnia oraz, że dla każdego punktu (x, y) ∈ R
2
zachodzi nie-
równość
Ax
2
+ 2Bxy + Cy
2
m(x
2
+ y
2
).
Ekstrema lokalne
29
Ponieważ
∂f
∂x
(a, b) = 0 i
∂f
∂y
(a, b) = 0, więc ze wzoru Taylora dla dowolnych
x, y dostajemy
f (a + x, b + y) − f (a, b) =
1
2
∂
2
f
∂x
2
(a + θx, b + θy) x
2
+ 2
∂
2
f
∂x ∂y
(a + θx, b + θy) xy
+
∂
2
f
∂y
2
(a + θx, b + θy) y
2
=
1
2
Ax
2
+ 2Bxy + Cy
2
+
1
2
ε
1
x
2
+ 2ε
2
xy + ε
3
y
2
,
gdzie θ ∈ (0, 1) zaś ε
1
, ε
2
, ε
3
są poprawkami pochodnych.
Wybierzmy liczbę r > 0 tak, aby w każdym z punktów koła o środku (a, b) i
promieniu r wartość każdej z pochodnych cząstkowych drugiego rzędu różniła się
od swojej wartości w punkcie (a, b) o nie więcej niż m/4. Jeśli x
2
+ y
2
< r
2
, to
(a + x, b + y) jest punktem tego koła i |ε
i
| < m/4 dla i = 1, 2, 3, więc
1
2
ε
1
x
2
+ 2ε
2
xy + ε
3
y
2
¬
m
8
x
2
+ 2|xy| + y
2
¬
m
4
x
2
+ y
2
.
zaś
1
2
Ax
2
+ 2Bxy + Cy
2
m
2
x
2
+ y
2
. Dlatego też
f (a + x, b + y) − f (a, b) > 0 gdy 0 < x
2
+ y
2
< r
2
,
co dowodzi punktu (1).
Dowód (2) otrzymujemy z (1) zastępując f przez −f . Pozostaje więc tylko
dowód punktu (3). Wprowadźmy tu funkcję pomocniczą
g
(x,y)
(t) = f (a + tx, b + ty),
t ∈ R,
(x, y) 6= (0, 0),
opisującą zachowanie funkcji f na prostej mającej kierunek wektora (x, y) i
przechodzącej przez punkt (a, b). Mamy dla niej g
0
(x,y)
(0) = 0 oraz g
00
(x,y)
(0) =
Ax
2
+ 2Bxy + Cy
2
. Jak wiemy z przykładu 2.9, przy założeniu AC − B
2
< 0
można tak wybrać kierunki (x
1
, y
1
) i (x
2
, y
2
), aby było g
00
(x
1
,y
1
)
(0) > 0 oraz
g
00
(x
2
,y
2
)
(0) < 0. Funkcja f ma wtedy w punkcie (a, b) w pierwszym kierunku
minimum a w drugim kierunku maksimum, mamy zatem do czynienia z punktem
siodłowym.
30
ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW
α
β
γ
2π
2π
β
α
0
D
2.11. Przykład. Pokażemy jak spośród wszystkich
trójkątów wpisanych w okrąg jednostkowy wybrać ten
o największym polu. Ponieważ pole S takiego trójkąta
wyraża się wzorem
S =
1
2
R
2
sin α +
1
2
R
2
sin β +
1
2
R
2
sin γ
więc szukamy maksimum funkcji
S(α, β) =
1
2
sin α + sin β − sin(α + β)
na zbiorze
D =
(α, β) ∈ R
2
: α > 0, β > 0, α + β < 2π
.
Mamy tu
∂S
∂α
(α, β) =
1
2
cos α −
1
2
cos(α + β),
∂S
∂β
(α, β) =
1
2
cos β −
1
2
cos(α + β),
zatem równość
∂S
∂α
(α, β) =
∂S
∂β
(α, β) = 0 zachodzi tylko wtedy, gdy cos α =
cos β = cos(α + β), tj. gdy α = β =
2
3
π . Chodzi zatem o trójkąt równoboczny
(równokątny).
2.12. Przykład. Na paraboloidzie eliptycznej z = 4x
2
+ y
2
chcemy znaleźć
punkt najbliższy punktowi (0, 0, 8). Rozwiązanie tego zagadnienia otrzymamy
znajdując minimum funkcji
f (x, y) = x
2
+ y
2
+ (4x
2
+ y
2
− 8)
2
=
(x, y, 4x
2
+ y
2
) − (0, 0, 8)
2
mierzącej kwadrat odległości punktu (x, y, 4x
2
+y
2
) na paraboloidzie od podanego
punktu (0, 0, 8). Mamy tu
∂f
∂x
(x, y) = 2x + 64x
3
+ 16xy
2
− 128x,
∂f
∂y
(x, y) = 2y + 4y
3
+ 16x
2
y − 32y.
Ekstrema lokalne
31
Jeżeli w punkcie (x, y) funkcja f osiąga minimum, to na mocy testu pierwszych
pochodnych zachodzi równość
∂f
∂x
(x, y) =
∂f
∂y
(x, y) = 0, tj.
2x(32x
2
+ 8y
2
− 63) = 0,
2y(2y
2
+ 8x
2
− 15) = 0.
Przedstawiony układ równań ma następujące rozwiązania:
(a) x = 0 i y = 0,
(b) x = 0 i y = ±
q
15
2
,
(c) x = ±
q
63
32
i y = 0,
(d) 32x
2
+ 8y
2
− 63 = 0 i 8x
2
+ 2y
2
− 15 = 0 (ten przypadek nie może zachodzić).
Do przedstawionych rozwiązań zastosujemy teraz test drugich pochodnych.
Ponieważ
∂
2
f
∂x
2
(x, y) = 192 + 16y
2
− 126,
∂
2
f
∂x ∂y
(x, y) = 32xy,
∂
2
f
∂y
2
(x, y) = 16x
2
+ 12y
2
− 30,
więc w przypadku (a) otrzymujemy A = −126, B = 0, C = − − 30, co oznacza,
że funkcja f osiąga w punkcie (0, 0) maksimum. W przypadku (b) otrzymujemy
A = −6, B = 0, C = 60, chodzi zatem o dwa punkty siodłowe. W przypadku
(c) otrzymujemy A = 192 ·
63
32
− 126 > 0, B = 0 i C =
63
2
− 30 =
3
2
> 0,
zatem dostajemy dwa punkty
p
63/32, 0
i
−
p
63/32, 0
w których funk-
cja osiąga minimum lokalne, są to punkty na paraboloidzie, które leżą najbliżej
punktu (0, 0, 8).
Powstaje pytanie, czy test drugich pochodnych daje się uogólnić na funkcje
trzech lub większej ilości zmiennych. Spodziewamy się, że jeżeli uogólnienie takie
jest możliwe, to warunek na ekstremum warunkowe przyjmie pewnie bardzo skom-
plikowaną formę i będzie zależał istotnie od wszystkich pochodnych cząstkowych
drugiego rzędu badanej funkcji. Uogólnienie, o którym myślimy, rzeczywiście jest
możliwe a stopień komplikacji warunków nie jest duży.
2.13. Twierdzenie (test drugich pochodnych w przypadku ogólnym).
Załóżmy, że funkcja f : R
n
→ R ma w punkcie a ∈ R
n
ciągłe pochodne cząstkowe
drugiego rzędu oraz, że
∂f
∂x
i
(a) = 0 dla i = 1, 2, . . . , n.
32
ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW
Niech A będzie Hessianem funkcji f w punkcie a, tj. macierzą n × n
A = {a
ij
}
n
i,j=1
,
gdzie a
ij
=
∂
2
t
∂x
i
∂x
j
(a).
(a). Jeżeli
a
11
> 0, det
a
11
a
12
a
21
a
22
> 0, det
a
11
a
12
a
13
a
21
a
22
a
23
a
31
a
32
a
33
!
> 0,
. . . , det
a
11
a
12
. . . a
1n
a
21
a
22
. . . a
2n
...
...
...
a
n1
a
n2
. . . a
nn
> 0,
to w punkcie a funkcja f osiąga lokalne minimum właściwe.
(b). Jeżeli
a
11
< 0, det
a
11
a
12
a
21
a
22
> 0, det
a
11
a
12
a
13
a
21
a
22
a
23
a
31
a
32
a
33
!
< 0,
. . . , (−1)
n
det
a
11
a
12
. . . a
1n
a
21
a
22
. . . a
2n
...
...
...
a
n1
a
n2
. . . a
nn
> 0,
to w punkcie a funkcja f osiąga lokalne maksimum właściwe.
Dowód tego twierdzenia jest identyczny jak dla funkcji dwóch zmiennych. Po-
kazujemy w oparciu o wzór Taylora, że funkcja f ma w punkcie a minimum lokalne
właściwe tj., że f (a + h) > f (a) dla wszystkich wektorów h ∈ R
n
spełniających
dla pewnego ε > 0 warunek 0 < |h| < ε, gdy
hAh, hi =
n
X
i=1
n
X
j=1
a
ij
h
i
h
j
> 0
dla takich wektorów. W tym miejscu korzystamy z następującego twierdzenia z
algebry:
2.14. Twierdzenie Sylvestera. Niech A = {a
ij
}
n
i,j=1
będzie macierzą syme-
tryczną n × n (tj. a
ji
= a
ij
). Warunkiem koniecznym i wystarczającym na to,
Ekstrema lokalne
33
aby hAh, hi > 0 dla wszystkich wektorów 0 6= h ∈ R
n
jest, aby
a
11
> 0, det
a
11
a
12
a
21
a
22
> 0, . . . , det
a
11
a
12
. . . a
1n
a
21
a
22
. . . a
2n
...
...
...
a
n1
a
n2
. . . a
nn
> 0.
Daje to dowód punktu ( a). Przypadek (b) otrzymujemy stosując wyniki punktu
(a) do funkcji −f .
Uwaga. Jeżeli macierz A nie spełnia ani warunku (a) ani (b), ale det A 6= 0, to
istnieją takie wektory h i k w R
n
, że hAh, hi > 0 i hAk, ki < 0. Wynika stąd,
że wtedy a jest punktem siodłowym dla funkcji f .
2.15. Przykład. Uogólnimy wyniki przykładu 2.11 na dowolne (n + 1)-kąty
wpisane w okrąg. Pole takiego (n + 1)-kąta wyraża się wzorem
S =
1
2
R
2
sin α
1
+
1
2
R
2
sin α
2
+ . . . +
1
2
R
2
sin α
n+1
,
gdzie α
1
, α
2
, . . . , α
n+1
są kątami środkowymi opartymi na bokach tego wielokąta.
Ponieważ α
n+1
= 2π − α
1
− α
2
− . . . − α
n
, więc szukamy maksimum funkcji
S(α
1
, α
2
, . . . , α
n
) =
1
2
sin α
1
+
1
2
sin α
2
+ . . . +
1
2
sin α
n
− sin(α
1
+ α
2
+
1
2
. . . + α
n
)
na sympleksie
α
1
> 0,
α
2
> 0,
. . . ,
α
n
> 0,
α
1
+ α
2
+ . . . + α
n
< 2π.
Test pierwszych pochodnych daje n równań
∂S
∂α
i
=
1
2
cos α
i
−
1
2
cos(α
1
+ α
2
+
1
2
. . . + α
n
) = 0 dla i = 1, 2, . . . , n
z jedynym rozwiązaniem
α
1
= α
2
= . . . = α
n
=
2π
n + 1
dającym w wyniku (n + 1)-kąt foremny.
By sprawdzić, czy istotnie dla powyższych wartości kątów funkcja S osiąga
swoje maksimum zastosujemy test drugich pochodnych. Wyrazy Hessianu mają
tu postać
a
ij
=
∂
2
S
∂α
i
∂α
j
2π
n+1
,
2π
n+1
, . . . ,
2π
n+1
=
(
− sin
2π
n+1
gdy i = j,
−
1
2
sin
2π
n+1
gdy i 6= j,
34
ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW
Jeżeli A
k
= {a
ij
}
k
i,j=1
, dla k = 1, 1, . . . , n, oznacza macierz k × k utworzoną z
Hessianu przez wybranie z niej wyrazów z pierwszych k kolumn i pierwszych k
wierszy, to przyjmując oznaczenie
a = −
1
2
sin
2π
n + 1
otrzymamy
det A
1
= 2a < 0,
det A
2
= a
2
det
2 1
1 2
= 3a
2
> 0,
det A
3
= a
3
det
2 1 1
1 2 1
1 1 2
!
= 4a
3
< 0, itd.
Ogólnie otrzymamy det A
k
= (k + 1)a
k
, liczbę ujemną dla k nieparzystych i
dodatnią dla k parzystych. Twierdzenie 2.13 potwierdza, że chodzi tu o maksimum
lokalne właściwe funkcji S .
Ekstrema warunkowe
Przypomnijmy klasyczny problem, w którym szukamy takiej proporcji wyso-
kości h do promienia podstawy r puszki w kształcie walca o objętości 1, by ilość
blachy na jej wytworzenie była najmniejsza. Szukamy zatem minimum funkcji
S(r, h) = 2πr
2
+ 2πrh pod warunkiem V (r, h) = πr
2
h = 1. Jeśli z warunku na
objętość wyznaczamy h =
1
πr
2
i wstawiamy do funkcji S , to zagadnienie sprowa-
dzi się do znalezienia zwykłego minimum funkcji f (r) = 2πr
2
+
2
r
na półprostej
(0, ∞). W wyniku otrzymamy optymalną proporcję h : r = 2. Można też z wa-
runku na objętość wyznaczyć r i szukać minimum pewnej funkcji zmiennej h.
Prowadzi to do tego samego wyniku, ale rachunki są bardziej skomplikowane. W
przypadku ogólnym, gdy szukamy ekstremum lokalnego funkcji f (x, y) pod wa-
runkiem g(x, y) = 0, postępujemy podobnie. Równanie g(x, y) = 0 rozwikłujemy
względem jednej ze zmiennych, np. y = γ(x) i szukamy ekstremum lokalnego
funkcji jednej zmiennej f x, γ(x)
. Możliwość takiego postępowania gwarantuje
nam twierdzenie o funkcji uwikłanej. Możemy tu jednak napotkać znaczne trudno-
ści. Nie zawsze możliwe jest rozwikłanie równania g(x, y) = 0 względem zmiennej
y (jest tak np., gdy
∂g
∂y
(x, y) = 0), wtedy należy próbować rozwikłać je względem
zmiennej x. Powoduje to jednak, że zmienne x i y nie są traktowane jednakowo.
Może się też okazać, że istnieje wiele funkcji rozwikłujących, mogą one mieć bardzo
skomplikowaną postać, mogą nawet być funkcjami nieelementarnymi.
Ekstrema warunkowe
35
Lagrange podał metodę rozwiązywania zagadnienia ekstremum lokalnego, w
której nie ma potrzeby rozwikływania równania g(x, y) = 0 a zmienne x i y
odrywają jednakowe role.
2.16. Twierdzenie Lagrange’a. Jeżeli funkcja f : R
2
→ R ma na krzy-
wej opisanej równaniem g(x, y) = 0 ekstremum lokalne w punkcie (x
0
, y
0
) oraz
g
0
(x
0
, y
0
) jest macierzą niezerową, to istnieje taka stała λ
0
, że
(2. 13)
f
0
(x
0
, y
0
) = λ
0
g
0
(x
0
, y
0
).
Dowód: Załóżmy dla ustalenia uwagi, że
∂g
∂y
(x
0
, y
0
) 6= 0. Wtedy z twierdzenia
o funkcji uwikłanej wynika istnienie takiego otoczenia W ⊂ R punktu x
0
oraz
funkcji γ : W → R, że γ(x
0
) = y
0
oraz g x, γ(x)
= 0 dla x ∈ W . Jeżeli funkcja
f ma ekstremum warunkowe w punkcie (x
0
, y
0
), to funkcja ϕ : W → R postaci
ϕ(x) = f x, γ(x)
ma zwykłe ekstremum w punkcie x
0
, zatem
0 = ϕ
0
(x
0
) =
∂f
∂x
(x
0
, y
0
) +
∂f
∂y
(x
0
, y
0
) · γ
0
(x
0
).
Oznacza to, że wektor ∇f (x
0
, y
0
) =
∂f
∂x
(x
0
, y
0
),
∂f
∂y
(x
0
, y
0
)
jest prostopadły do
wektora 1, γ
0
(x
0
)
. Z tożsamości g x, γ(x)
= 0 wynika, że taką samą własność
ma wektor ∇g(x
0
, y
0
). Musi zatem być ∇f (x
0
, y
0
) = λ
0
∇g(x
0
, y
0
) dla pewnej
stałej λ
0
.
Jeśli
∂g
∂y
(x
0
, y
0
) = 0, to musi być
∂g
∂y
(x
0
, y
0
) 6= 0 i równanie g(x, y) = 0 da się
rozwikłać względem zmiennej x.
Z twierdzenia Lagrange’a wynika, że funkcja F : R
2
→ R określona wzorem
F (x, y) = f (x, y) − λ
0
g(x, y)
ma w punkcie (x
0
, y
0
) obie pochodne cząstkowe równe zeru, spełnia zatem test
pierwszych pochodnych. Jeśli teraz zastosujemy do niej test drugich pochodnych i
stwierdzimy, że w punkcie (x
0
, y
0
) ma maksimum (minimum) lokalne właściwe to
funkcja f ma w tym punkcie lokalne maksimum (minimum) właściwe warunkowe,
gdyż g(x, y) = 0 na zbiorze, na którym szukamy ekstremum warunkowego. Jak
jednak w praktyce szukać x
0
, y
0
oraz liczby λ
0
? Należy po prostu rozwiązać
36
ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW
układ trzech równań
∂f
∂x
(x, y) − λ
∂g
∂x
(x, y) = 0,
∂f
∂y
(x, y) − λ
∂g
∂y
(x, y) = 0,
(2. 14)
g(x, y) = 0.
2.17. Przykład. Znajdziemy ekstrema lokalne funkcji
f (x, y) = x − y
pod warunkiem
g(x, y) = x
2
+ xy + y
2
− 1 = 0,
czyli ekstrema funkcji f na elipsie o równaniu x
2
+ xy + y
2
= 1. Rozwiążemy w
tym celu układ równań (2. 14), który dla naszych funkcji przyjmuje postać
1 − 2λx − λy = 0,
−1 − λx − 2λy = 0,
x
2
+ xy + y
2
− 1 = 0.
Z niego łatwo wyznaczamy x
0
= λ
0
, y
0
= −λ
0
, λ
0
= ±1 a stosując test drugich
pochodnych do funkcji F (x, y) = f (x, y)−λ
0
g(x, y) w punkcie (x
0
, y
0
) dostajemy
A = −2λ
0
, AC − B
2
= 3λ
2
0
= 3. Wnioskujemy stąd, że funkcja f ma w punkcie
(1, −1) maksimum a w punkcie (−1, 1) minimum warunkowe właściwe.
Zagadnienie to można też rozwiązać bezpośrednio, bez odwoływania się do
twierdzenie Lagrange’a. Zrobimy to, by porównać stopień komplikacji obu metod.
Jeżeli z równania x
2
+xy +y
2
−1 = 0 wyliczamy y = −
1
2
x±
q
1 −
3
4
x
2
, to zadanie
sprowadzi się do znalezienia zwykłych ekstremów lokalnych dwóch funkcji
ϕ
1
(x) =
3
2
x +
r
1 −
3
4
x
2
oraz ϕ
2
(x) =
3
2
x −
r
1 −
3
4
x
2
w przedziale otwartym
−
2
√
3
,
2
√
3
. Zajmiemy się tylko pierwszą z nich. Ponieważ
ϕ
0
1
(x) =
3
2
−
3x
2
√
4 − 3x
2
,
więc równość ϕ
0
1
(x) = 0 zachodzi tylko dla x = 1, a ponieważ
ϕ
00
1
(x) =
−6
√
4 − 3x
2
−
18x
2
√
4 − 3x
2
4 4 − 3x
2
=
−6
4 − 3x
2
3/2
,
Ekstrema warunkowe
37
więc ϕ
00
1
(1) = −6 < 0, zatem funkcja ϕ
1
ma dokładnie jedno ekstremum lokalne,
mianowicie maksimum lokalne właściwe w punkcie x = 1.
W podobny sposób pokazujemy, że funkcja ϕ
2
ma tylko jedno ekstremum
lokalne, jest nim minimum lokalne właściwe w punkcie x = −1. Na tym jednak
nie koniec zadania. Uwadze naszej uszły dwa punkty elipsy x = −
2
√
3
, y =
1
√
3
oraz
x =
2
√
3
, y = −
1
√
3
. Aby pokazać, że funkcja f nie ma w żadnym z nich ekstremum
warunkowego najłatwiej jest zobaczyć, że przy zbliżaniu się do każdego z końców
przedziału
−
2
√
3
,
2
√
3
wartości funkcji ϕ
1
maleją a wartości funkcji ϕ
2
rosną,
łatwo to zrobić odczytując znaki pochodnych obu funkcji. Można też rozwikłać
równanie x
2
+ xy + y
2
− 1 = 0 względem zmiennej x i powtórzyć rozumowanie.
Punkty y =
1
√
3
i y = −
1
√
3
znajdą się wtedy wewnątrz przedziału określoności
badanych funkcji.
Jest jeszcze trzeci sposób rozwiązania tego zagadnienia. Można sparametryzo-
wać elipsę x
2
+ xy + y
2
= 1 przyjmując na przykład x(t) =
2
√
3
cos t +
π
3
oraz
y(t) =
2
√
3
cos t −
π
3
dla t z przedziału [−π, π] i szukać ekstremów lokalnych
funkcji
f x(t), y(t)
= x(t) − y(t) = −2 sin t
na tym przedziale (lub na dowolnym innym przedziale długości 2π ). Tu sytuacja
jednak jest wyjątkowa, gdyż mamy do czynienia z elipsą. Zwykle znalezienie glo-
balnej parametryzacji krzywej opisanej równaniem g(x, y) = 0 jest bardzo trudne
lub wręcz niemożliwe.
Twierdzenie o ekstremach warunkowych można uogólnić w następujący spo-
sób:
2.18. Twierdzenie Lagrange’a (przypadek ogólny). Jeżeli funkcja f :
R
n
→ R jest różniczkowalna w punkcie a ∈ R
n
i ma w tym punkcie ekstremum
warunkowe pod warunkiem, że g(x) = 0 dla pewnej funkcji g : R
n
→ R
m
różnicz-
kowalnej w sposób ciągły i macierz g
0
(a) ma rząd m, to istnieje taki układ stałych
λ
1
, λ
2
, . . . , λ
m
, że wszystkie pochodne cząstkowe funkcji
F (x) = f (x) −
m
X
j=1
λ
j
g
j
(x)
znikają w punkcie a.
Dowód twierdzenia w przypadku ogólnym jest podobny jak dla funkcji dwóch
zmiennych. Jest oparty na twierdzeniu o funkcji uwikłanej, ale jest skomplikowany
technicznie i wymaga większej wiedzy z algebry liniowej. Z tych powodów zostanie
pominięty.
38
ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW
Zwróćmy uwagę, że w twierdzeniu powyższym ukryte jest założenie m < n.
Istotnie, z założenia o rzędzie macierzy g
0
(a) wynika, że m ¬ n, przy czym w
przypadku m = n funkcja g musi być odwracalna w pewnym otoczeniu punktu
a, więc a jest punktem izolowanym zbioru {x ∈ R
n
: g(x) = 0} i dyskusja o
ekstremum lokalnym w tym punkcie jest bezprzedmiotowa. Warunek g(x) = 0
oznacza, że zbiór w R
n
, na którym badamy funkcję f składa się z punktów x
spełniających układ m równań
g
1
(x) = 0,
g
2
(x) = 0,
. . . ,
g
m
(x) = 0,
tworzy zatem powierzchnią wymiaru n − m.
Z twierdzenia Lagrange’a wynika, że przy poszukiwaniu punktu a ∈ R
n
, w
którym funkcja f ma ekstremum warunkowe musimy sprawdzić czy g(a) = 0
oraz F
0
(a) = 0, mamy zatem do rozwiązania n + m równań
∂F
∂x
1
(a
1
, a
2
, . . . , a
n
) = 0,
. . . . . . . . . . . . . . . . . . . . .
∂F
∂x
n
(a
1
, a
2
, . . . , a
n
) = 0,
g
1
(a
1
, a
2
, . . . , a
n
) = 0,
. . . . . . . . . . . . . . . . . . . . .
g
m
(a
1
, a
2
, . . . , a
n
) = 0,
o niewiadomych λ
1
, λ
2
, . . . , λ
m
, a
1
, a
2
, . . . , a
n
. Potem możemy stosować test dru-
gich pochodnych do funkcji F .
2.19. Przykład. Zbadamy dla jakich liczb rzeczywistych a wszystkie pierwia-
stki wielomianu
W (t) = t
n
+ t
n−1
+ a
są rzeczywiste.
Dla n = 2 zagadnienie to jest bardzo proste, warunkiem koniecznym i wystar-
czającym jest, aby wyróżnik ∆ = 1 − 4a był liczbą nieujemną, tj. aby a −
1
4
.
Jeżeli wielomian w ma pierwiastki rzeczywiste −x
1
, −x
2
, . . . , −x
n
, to jest po-
staci
W (t) = (t + x
1
)(t + x
2
) · · · (t + x
n
)
= t
n
+ S
1
(x) t
n−1
+ S
2
(x) t
n−2
+ . . . + S
n−1
(x) t + S
n
(x),
gdzie S
1
, S
2
, . . . , S
n
są wielomianami symetrycznymi podstawowymi
S
1
(x) =
X
1¬i
1
¬n
x
i
1
,
S
2
(x) =
X
1¬i
1
<i
2
¬n
x
i
1
x
i
2
,
. . . ,
S
n
(x) = x
1
x
2
· · · x
n
.
Ekstrema warunkowe
39
Zagadnienie nasze sprowadza się do znalezienia wszystkich wartości funkcji S
n
na
zbiorze C tych x ∈ R
n
, dla których
(2. 15)
S
1
(x) = 1,
S
2
(x) = S
3
(x) = . . . = S
n−1
(x) = 0.
Ponieważ kxk
2
= S
1
(x)
2
− 2 S
2
(x), więc z warunków (2. 15) wynika, że dla n 3
jest to zbiór (krzywa zamknięta) leżący na sferze jednostkowej przestrzeni R
n
.
Funkcja S
n
jest ciągła, zatem obraz S
n
(C) jest przedziałem domkniętym [α, β],
gdzie α jest minimalną a β maksymalną wartością funkcji S
n
na C , w szczegól-
ności są to ekstrema warunkowe funkcji S
n
pod warunkiem (2. 15). By je znaleźć
należy stosować twierdzenie Lagrange’a. Zrobimy to szczegółowo dla n = 3.
W tym przypadku zbiór C jest częścią wspólną płaszczyzny x
1
+ x
2
+ x
3
= 1 i
sfery x
2
1
+ x
2
2
+ x
2
3
= 1, jest zatem okręgiem przechodzącym przez punkty (1, 0, 0),
(0, 1, 0) i (0, 0, 1). Zgodnie z twierdzeniem Lagrange’a, by znaleźć ekstrema wa-
runkowe funkcji S
3
należy rozwiązać układ równań
x
2
x
3
− λ
1
− λ
2
(x
2
+ x
3
) = 0,
x
1
x
3
− λ
1
− λ
2
(x
1
+ x
3
) = 0,
x
1
x
2
− λ
1
− λ
2
(x
1
+ x
2
) = 0,
x
1
+ x
2
+ x
3
= 1,
x
1
x
2
+ x
1
x
3
+ x
2
x
3
= 0.
Dodając stronami pierwsze trzy równania dostajemy
−3λ
1
− 2λ
2
= 0,
skąd możemy wyliczyć λ
1
a układ powyższy zapisać w postaci
x
2
1
+ (λ
2
− 1) x
1
−
1
3
λ
2
= 0,
x
2
2
+ (λ
2
− 1) x
2
−
1
3
λ
2
= 0,
x
2
3
+ (λ
2
− 1) x
3
−
1
3
λ
2
= 0,
x
1
+ x
2
+ x
3
= 1.
Widać stąd, że
x
i
=
1 − λ
2
+ ε
i
q
λ
2
2
−
2
3
λ
2
+ 1
2
,
i = 1, 2, 3,
gdzie ε
i
= ±1 a równanie czwarte przyjmuje formę
3 − 3λ
2
+ (ε
1
+ ε
2
+ ε
3
)
r
λ
2
2
−
2
3
λ
2
+ 1 = 2.
40
ROZDZIAŁ 2. POCHODNE WYŻSZYCH RZĘDÓW
Równanie to możemy rozwiązać względem λ
2
w zależności od wartości ε
1
, ε
2
, ε
3
.
Jeśli ε
1
= ε
2
= ε
3
= 1 lub ε
1
= ε
2
= ε
3
= −1, to brak jest rozwiązań, jeśli
ε
1
= ε
2
= 1 i ε
3
= −1 (kolejność wskaźników nie jest istotna), to λ
2
=
2
3
, skąd
x
1
= x
2
=
2
3
, x
3
= −
1
3
a odpowiednia wartość funkcji S
3
wynosi −
4
27
, jeśli zaś
ε
1
= 1, e
2
= ε
3
= −1, to λ
2
= 0, więc x
1
= 1, x
2
= x
3
= 0 a wartość funkcji
S
3
wynosi 0. Daje to odpowiedź na postawione pytanie: Warunkiem koniecznym
i wystarczającym na to, by równanie
t
3
+ t
2
+ a = 0
miało wszystkie pierwiastki rzeczywiste jest, aby a ∈
−
4
27
, 0
.
Przy próbie rozwiązania zagadnienia dla n = 4, 5, . . . warto zauważyć, że układ
równań (2. 15) jest równoważny układowi
x
1
+ x
2
+ . . . + x
n
= 1, x
2
1
+ x
2
2
+ . . . + x
2
n
= 1, . . . , x
n−1
1
+ x
n−1
2
+ . . . + x
n−1
n
= 1
oraz
S
n
(x) =
(−1)
n−1
n
x
n
1
+ x
n
2
+ . . . + x
n
n
− 1
.