SIECI NEURONOWE
W PROBLEMACH APROKSYMACJI I MODELOWANIA
Witold Kosi´
nski i Martyna Weigl
1. WykÃlad I
(a) Dlaczego problemy aproksymacji i modelowania?
(b) Dlaczego sieci neuronowe w problemach aproksymacji?
(c) Zagadnienia teorii aproksymacji
(d) Uniwersalne aproksymatory
(e) Problem normalizacji
(f) Aproksymacja liniowa - podstawowe zagadnienia
(g) Sieci neuronowe jako uniwersalne aproksymatory
2. WykÃlad II
(a) Wprowadzenie do teorii sieci neuronowych
(b) Modele neuronu
(c) PodziaÃl sieci neuronowych
(d) Architektura sieci neuronowych
3. WykÃlad III
(a) Metody uczenia sieci neuronowych
(b) Nieliniowe sieci z uczeniem propagacj
,
a wsteczn
,
a bÃl
,
edu
(c) Nowe modele sieci neuronowych
4. WykÃlad IV
(a) Jednorodna sie´
c neuronowa M-Delta
(b) Niejednorodna sie´
c neuronowa NM-Delta
5. WykÃlad V
(a) Niejednorodna sie´
c neuronowa NM-Delta jako uniwersalny aproksymator
(b) Dyskusja zbie˙zno´sci algorytm´
ow adaptacyjnych
(c) Dalsze kierunki bada´
n
1
1
Dlaczego problemy aproksymacji i modelowania?
W analizie wynik´ow bada´
n eksperymentalnych, w problemach modelowania zjawisk fizycznych,
czy te˙z w analizie obserwacji statystycznych cz
,
esto trafia si
,
e na zagadnienia aproksymacji.
W teorii aproksymacji zadanie to sprowadza si
,
e do problemu przybli˙zania ci
,
agÃlej i wielowymi-
arowej funkcji g przez funkcj
,
e f (Θ, x) ∈ F posiadaj
,
ac
,
a staÃl
,
a liczb
,
e parametr´ow Θ ∈ R, gdzie
R jest zbiorem parametr´ow wektorowych, za´s F jest klas
,
a funkcji sparametryzowanych przez
Θ ∈ R.
Po wyborze funkcji f ∈ F dalszy problem aproksymacji polega na znajdowaniu zbioru parametr´ow
Θ tak, aby dla danego zbioru przykÃlad´ow, tj. punkt´ow z grafu funkcji g, otrzyma´c najlepsz
,
a z
mo˙zliwych aproksymacj
,
e.
Niech d
A
(g, f ) b
,
edzie odlegÃlo´sci
,
a mi
,
edzy funkcjami, g ∈ C(A; n, m), gdzie A jest zwartym
podzbiorem A ⊂ R
n
, za´s f (Θ, x) ∈ F funkcj
,
a aproksymuj
,
ac
,
a g, zale˙zn
,
a w spos´ob ci
,
agÃly od x
oraz Θ ∈ R.
Problem optymalnej aproksymacji polega na doborze Θ
∗
tak, aby
d
A
(f (Θ
∗
, x), g) ≤ d
A
(f (Θ, x), g),
(1)
dla ka˙zdego Θ ∈ R.
Rozwa˙zamy dwa gÃl´owne problemy teorii aproksymacji:
1. Problem reprezentacji - wyb´or klasy funkcji F,
2. Problem doboru algorytmu adaptacji dla znajdowania optymalnego zbioru parametr´ow
Θ.
2
2
Dlaczego sieci neuronowe w problemach aproksymacji?
Je˙zeli zdefiniujemy sieci neuronowe jako
wielki zbi´or wzajemnie na siebie oddziaÃlywuj
,
acych element´ow,
to prawie wszystkie schematy aproksymacyjne mog
,
a by´c traktowane jako pewnego rodzaju sieci
neuronowe przy czym:
1. Klasyczny przypadek liniowej aproksymacji
f (Θ, x) = Θ x,
(2)
gdzie Θ ∈ IR, x ∈ IR
- odpowiada sieci bez warstw ukrytych.
2. Aproksymacja wielomianami ortogonalnymi, lub rozwini
,
eciami w szeregi
f (Θ, x) =
m
X
k=1
Θ
k
Φ
k
(x),
(3)
gdzie Φ
k
(x)
m
k=1
jest - odpowiedni
,
a baz
,
a funkcji
- odpowiada sieci z jedn
,
a warstw
,
a ukryt
,
a.
3. Aproksymacja funkcjami ci
,
agÃlymi
f (Θ, x) =
X
i
ω
i
ρ
p
(
X
k
υ
k
(... ρ
1
(
X
l
ϑ
l
x
l
)...)),
(4)
gdzie ρ
q
, q = 1, 2, ..., p s
,
a funkcjami jednej zmiennej, a Θ = (ω
i
, υ
k
, ..., ϑ
l
) parametrem
wektorowym.
- odpowiada sieci wielowarstwowej.
3
W og´olno´sci, ka˙zdy schemat aproksymacyjny ma pewien specyficzny algorytm (poprawniej
m´owi
,
ac – metod
,
e) dla znajdowania optymalnego zbioru parametr´ow Θ. Problem uczenia sieci
neuronowych (adaptacji ich wag i parametr´ow) traktujemy jako metod
,
e doboru aproksymacji
funkcji.
Projektowanie, odwzorowuj
,
acych sieci neuronowych (mapping neural networks) skÃlada si
,
e z
dw´och gÃl´ownych krok´ow:
1. definiowanie wieloparametrowej rodziny (klasy) funkcji przez formowanie warstw sieci
i definiowanie relacji pomi
,
edzy poszczeg´olnymi neuronami z indywidualnymi funkcjami
aktywacji,
2. proces uczenia (trenowania) (the learning (or training) process), w kt´orym parametry
i wagi poÃl
,
acze´
n s
,
a adaptowane (poprawiane).
4
3
Zagadnienia teorii aproksymacji i estymacji funkcji
1. Gdzie spotykamy sie z zagadnieniami aproksymacji i estymacji funkcji?
W analizie wynik´ow bada´
n eksperymentalnych, w problemach modelowania zjawisk fizycznych
lub statystycznych.
2. Jak post
,
epujemy dla rozwi
,
azania tych zagadnie´
n?
a. Typowym zadaniem staje si
,
e wtedy specyfikacja klasy funkcji F, w kt´orej b
,
edziemy
poszukiwa´c elementu najlepiej przybli˙zaj
,
acego zadan
,
a funkcj
,
e g(·), czy te˙z z g´ory zadane – w
sko´
nczonej liczbie punkt´ow – warto´sci tej funkcji.
b. Dob´
or dla danej funkcji g(·) optymalnego elementu (czy kombinacji liniowej ele-
ment´ow) z wybranej klasy funkcji F. Zasada doboru takiego elementu jest przy tym oparta na
pewnych kryteriach optymalizacyjnych; np. na minimalizacji pewnej miary odlegÃlo´sci d(f, g)
zdefiniowanej w przestrzeni (klasie) funkcji F.
Je´sli ka˙zdy element f (Θ, ·) ∈ F jest sparametryzowany pewnym sko´
nczonym zbiorem (wek-
torem) parametr´ow Θ, to
Podstawowe zagadnienie teorii aproksymacji jest problemem znalezienia
takiego wektora parametr´
ow Θ, dla kt´
orego odlegÃlo´s´
c d(g(·), f (Θ, ·)) jest
najmniejsza na zbiorze F, lub te˙z jest mniejsza, ni˙z pewna z g´
ory
zadana wielko´s´
c.
Oczywi´scie nale˙zy okre´sli´c, co oznacza odlegÃlo´s´c d mi
,
edzy funkcjami. Z tym zagadnieniem
Ãl
,
aczy si
,
e problem istnienia i jednoznaczno´sci elementu optymalnego.
5
4
Aproksymacja liniowa - podstawowe zagadnienia
Teoria aproksymacji si
,
ega ko´
nca XIX wieku i rozpocz
,
eÃla si
,
e od pierwszego twierdzenia Weier-
strassa z 1885 o jednostajnej aproksymacji wielomianami dowolnej funkcji ci
,
agÃlej okre´slonej na
przedziale domkni
,
etym.
Twierdzenie 1 (Weiestrass 1885) Je˙zeli f (x) jest funkcj
,
a ci
,
agÃl
,
a w przedziale sko´
nczonym
[a, b], to dla ka˙zdego ² > 0 mo˙zna utworzy´c wielomian P
n
(x) stopnia n = n(²), kt´ory speÃlnia
nier´owno´s´c
| f (x) − P
n
(x) |≤ ².
(5)
w caÃlym przedziale [a, b].
u
t
Twierdzenie oznacza, ˙ze ka˙zda ci
,
agÃla funkcja mo˙ze by´c aproksymowana z dowoln
,
a dokÃladno´sci
,
a
przez wielomiany algebraiczne.
Z kolei drugie twierdzenie Weierstrassa dotyczyÃlo przybli˙zania funkcji ci
,
agÃlej i okresowej przy
pomocy wielomian´ow trygonometrycznych, tj. przy pomocy funkcji postaci
f
n
(t) =
n
X
k=1
(a
k
cos kt + b
k
sin kt) + a
0
, dla t ∈ (−π, π)
(6)
Z twierdze´
n Weiestrassa wynikaj
,
a
Wniosek 1 Zbi´or wielomian´ow P
n
jest g
,
esty w przestrzeni C(A; m, 1),
Wniosek 2 Zbi´or wielomian´ow o wsp´oÃlczynnikach wymiernych jest g
,
esty w C(A; m, 1),
Wniosek 3 Zbi´or sum trygonometrycznych S
n
jest g
,
esty w przestrzeni funkcji ci
,
agÃlych o okre-
sie 2π.
6
Istnieje wiele uog´olnie´
n pierwszego twierdzenia Weierstrassa. Na przykÃlad twierdzenia o lin-
iowej aproksymacji funkcjami wymiernymi.
Dla funkcji zmiennej zespolonej mo˙zna znale´z´c podobne twierdzenia.
Teoria Weiestrassa postawiÃla wiele pyta´
n, takich jak:
1. Czy istniej
,
a takie wielomiany P
∗
, kt´ore osi
,
agaj
,
a kres dolny ?
2. Je˙zeli istniej
,
a, to czy s
,
a jedyne ?
3. Jak je znale´z´c?
4. Czy mo˙zemy powiedzie´c jak szybko funkcja d
F
(g) := min{d(g, f ), f ∈ F} zbiega do zera?
Odpowiedzi na te pytania stanowi
,
a podstaw
,
e teorii aproksymacji Czebyszewa.
W 1899 Czebyszew zaj
,
aÃl si
,
e problemem minimalizacji funkcji odlegÃlo´sci d(g, ·) w klasach funkcji
ci
,
agÃlych o szczeg´olnych wÃlasno´sciach, w tzw. ukÃladach Czebyszewa. Wynikami tych bada´
n s
,
a
liczne twierdzenia egzystencjalne oraz twierdzenia o jednoznacznym doborze elementu minimal-
izuj
,
acego funkcj
,
e odlegÃlo´sci, oraz wydzielenie szczeg´olnej klasy funkcji przybli˙zaj
,
acych: T
n
(x)
i U
n
(x), zwanych odpowiednio wielomianami Czebyszewa pierwszego i drugiego rodzaju, tj.
funkcjami postaci T
n
(x) = cos(n arccos x) oraz
U
n
(x) =
1
n + 1
T
0
n+1
(x) =
sin((n + 1) arccos x)
sin(arccos x)
,
(7)
przy czym n = 0, 1, ..., x ∈ [−1, 1].
7
W teorii aproksymacji rozr´o˙znia si
,
e zagadnienia liniowe od nieliniowych. Je´sli funkcja aproksy-
muj
,
aca f (Θ, x) dla ustalonego x jest liniowa w parametrze Θ, to m´owimy, ˙ze mamy do czynienia
z przypadkiem aproksymacji liniowej. W takim przypadku mo˙zna znale´z´c liczne, ju˙z klasy-
czne, twierdzenia o istnieniu optymalnej funkcji w danej klasie najlepiej przybli˙zaj
,
acej zadan
,
a
funkcj
,
e. Twierdzenia te wykorzystuj
,
a sko´
nczon
,
a wymiarowo´s´c oraz fakt, ˙ze odlegÃlo´s´c mi
,
edzy
dwoma funkcjami okre´slona przez norm
,
e ich r´o˙znicy, jest funkcj
,
a ci
,
agÃl
,
a. Natomiast wykazanie
jednoznaczno´sci optymalnego elementu, kt´ory minimalizuje odlegÃlo´s´c na przestrzeni, nie jest w
og´olnym przypadku mo˙zliwe, o ile przestrze´
n funkcji nie posiada szczeg´olnych wÃlasno´sci (jest
silnie unormowana). Niestety typowa przestrze´
n wyst
,
epuj
,
aca w zagadnieniach aproksymacji,
tzn. przestrze´
n C(A) funkcji ci
,
agÃlych okre´slonych na pewnym ograniczonym (zwartym) zbiorze
A takiej wÃlasno´sci nie posiada.
W przypadku teorii nieliniowej a tak˙ze, gdy rozpatruje si
,
e przybli˙zenia w klasie funkcji,
b
,
ed
,
acych tylko podzbiorami przestrzeni niesko´
nczenie wymiarowych i nie posiadaj
,
acych struk-
tury liniowej, problem istnienia optymalnego elementu mo˙ze by´c rozwi
,
azany przez warunek
g
,
esto´sci. Taki wÃla´snie przypadek wyst
,
epuje w przypadku stosowania odwzorowuj
,
acych sieci
neuronowych (mapping neural network).
Wiele klasycznych metod i wynik´ow dotyczy gÃl´ownie aproksymacji funkcji jednej zmiennej
(univariant functions). W wykÃladach zajmujemy si
,
e zagadnieniami aproksymacji funkcji
wielu zmiennych (multivariant functions).
8
5
Sieci neuronowe jako uniwersalne aproksymatory
Jednym z wa˙zniejszych zada´
n rozwi
,
azywanych w teorii sieci neuronowych, ostatnich lat jest
poszukiwanie uniwersalnych aproksymator´ow.
Poszukiwania aproksymator´ow w´sr´od sieci neuronowych rozpocz
,
eÃly si
,
e od wyst
,
apienia
Roberta Hecht - Nielsena na I Mi
,
edzynarodowym Kongresie IEEE n. t. Neural Networks
w 1987 roku.
Metody i wyniki bada´
n s
,
a r´o˙zne:
1. Cybenko przy pomocy twierdze´
n Hahna - Banacha o rozszerzaniu funkcjonaÃlu liniowego i
reprezentacji Riesza badaÃl wÃlasno´sci aproksymacyjne sieci neuronowych.
2. Caroll i Dickinson u˙zyli odwrotnej transformacji Radona.
3. Funahashi w swoich twierdzeniach zastosowaÃl aproksymacj
,
e caÃlkowej reprezentacji przez
sko´
nczon
,
a sum
,
e Riemanna.
4. Gallant i White w 1988 r. udowodnili ˙ze sie´c neuronowa z neuronami o funkcji aktywacji
typu cosinus ma wszystkie wÃlasno´sci aproksymacyjne szereg´ow Fouriera.
5. Hornik, Stinchcombe i White w 1989 r. udowodnili wa˙zne dla teorii sieci neuronowych
twierdzenie o warunkach, jakie musz
,
a speÃlnia´c funkcje aktywacji neuron´ow aby sie´c neuronowa
miaÃla wÃlasno´sci aproksymacyjne.
6. Leshno, Lin, Pinkus i Schocken pracowali r´ownie˙z nad warunkami, jakie musz
,
a spe´
nia´c
funkcje aktywacji neuron´ow aby, sie´c neuronowa miaÃla wÃlasno´sci aproksymacyjne.
7. Mhaskar i Micchelli w 1994 r. zastosowali drugie twierdzenie Stone’a - Weiestrassa, aby
udowodni´c wÃlasno´sci aproksymacyjne sieci neuronowych. Jednym z ciekawszych ich wynik´ow
jest stwierdzenie, ˙ze funkcje aktywacji nie mog
,
a mie´c postaci wielomianowej.
9
Definicja 1 Przez sie´c neuronow
,
a typu perceptronowego rozumiemy wielowarstwow
,
a sie´c z
wielowymiarowym wej´sciem i jednowymiarowym wyj´sciem, przy czym neurony w ka˙zdej warst-
wie sumuj
,
a sygnaÃly wej´sciowe z poprzedniej warstwy dodaj
,
ac staÃl
,
a progow
,
a (bias). Dla wszys-
tkich neuron´ow opr´ocz neuron´ow warstwy wyj´sciowej stosuje si
,
e tak
,
a sam
,
a funkcj
,
e aktywacji.
Przez I
n
(I = [0, 1]) b
,
edziemy rozumieli n wymiarow
,
a kostk
,
e.
Definicja 2 Przez sigmoidaln
,
a funkcj
,
e aktywacji ρ rozumiemy funkcj
,
e ρ : IR −→ I tak
,
a, ˙ze
lim
t→−∞
ρ(t) = 0
i
lim
t→∞
ρ(t) = 1.
(8)
Definicja 3 Je˙zeli dla aktywacji neuronu jako funkcj
,
e sigmoidaln
,
a u˙zyjemy funkcj
,
e Heaviside
H(z) =
½
+1 je˙zeli z > 0
0
je˙zeli z ≤ 0
,
(9)
to takie neurony nazywamy typu McCulloch - Pitts (Mc-P type).
Funkcje u˙zywane przez sie´c neuronow
,
a typu perceptronowego s
,
a sko´
nczon
,
a liniow
,
a kombinacj
,
a
pewnych transformacji afinicznych z pewnymi funkcjami sigmoidalnymi ρ postaci
s(ρ) =
k
X
j=1
a
j
ρ(ω
T
j
x + c
j
),
(10)
przy czym ω
j
, j = 1, ..., k, s
,
a staÃlymi wektorami, za´s a
j
, c
j
- staÃlymi. DziaÃlanie ω
T
j
x jest
iloczynem skalarnym.
Definicja 4 Standardow
,
a sieci
,
a neuronow
,
a (o aktywacji ρ) nazywamy sie´c typu perceptronowego
z jedn
,
a warstw
,
a ukryt
,
a, realizuj
,
ac
,
a funkcj
,
e s(ρ) dan
,
a przez (10) z pewn
,
a funkcj
,
a aktywacji ρ.
Wprowadzona t
,
a definicj
,
a klasa sieci neuronowych jest najcz
,
e´sciej u˙zywan
,
a i do niej si
,
e odnosi
wi
,
ekszo´s´c istniej
,
acych twierdze´
n o aproksymacji.
Przegl
,
ad najwa˙zniejszych twierdze´
n rozpoczynamy od teorii Kolmogorowa
Twierdzenie 2 (Kolmogorov 1957) Istniej
,
a ustalone, ci
,
agle, rosn
,
ace funkcje Φ
pq
() : I =
[0, 1] −→ IR, przy czym p = 1, ..., n, q = 1, ..., 2n + 1, takie, ˙ze ka˙zd
,
a ci
,
agÃl
,
a
funkcj
,
e f okre´slon
,
a
na I
n
mo˙zna przedstawi´c w postaci
f (x
1
, x
2
, ...x
n
) =
2n+1
X
q=1
g
q
(
n
X
p=1
Φ
pq
(x
p
)),
(11)
przy czym g
q
s
,
a odpowiednio dobranymi ci
,
agÃlymi funkcjami jednej zmiennej.
u
t
Sprecher wykazaÃl, ˙ze Φ
pq
mog
,
a by´c zast
,
apione przez iloczyn λ
p
Φ
q
.
10
x
x
x
g
g
g
g
g
g
g
Σ
Σ
Σ
Φ
Φ
Φ
Φ
Φ
Φ
λ
λ
λ
λ
λ
λ
1
1
1
7
7
7
1
2
3
1
2
3
1
2
3
4
5
6
7
1
2
3
x
x
x
x
x
x
Rysunek 1: Przedstawienie reprezentacji funkcji Kolmogorova w postaci sieci neuronowej
Twierdzenie 3 (Sprecher 1965) Istniej
,
a staÃle λ
p
i ustalone ci
,
agÃle, rosn
,
ace funkcje Φ
q
: I =
[0, 1] −→ IR takie, ˙ze ka˙zd
,
a
ci
,
agÃl
,
a funkcj
,
e f okre´slon
,
a na I
n
mo˙zna przedstawi´c w postaci
f (x
1
, x
2
, ...x
n
) =
2n+1
X
q=1
g
q
(
n
X
p=1
λ
p
Φ
q
(x
p
)),
(12)
w kt´orej g
q
s
,
a odpowiednio dobranymi ci
,
agÃlymi funkcjami jednej zmiennej.
Oczywi´scie funkcje g
q
zale˙z
,
a od funkcji f , natomiast λ
p
oraz Φ
q
nie zale˙z
,
a od f .
u
t
Nast
,
epne uog´olnienie zostaÃlo podane przez Lorentza.
Twierdzenie 4 (Lorentz 1966) Istnieje n staÃlych 0 < λ
p
< 1, p = 1, ..., n i 2n + 1 ci
,
agÃlych
i rosn
,
acych funkcji Φ
q
: I = [0, 1] → IR, q = 1, .., 2n + 1 takich, ˙ze dla ka˙zdej ci
,
agÃlej funkcji
f ∈ C(I
n
; n, 1) mo˙zna znale´z´c ci
,
agÃl
,
a funkcj
,
e g, prowadz
,
ac
,
a do nast
,
epuj
,
acej reprezentacji
f (x
1
, x
2
, ...x
n
) =
2n+1
X
q=1
g(
n
X
p=1
λ
p
Φ
q
(x
p
)).
(13)
u
t
Warstwa wej´sciowa jest utworzona ze wsp´oÃlrz
,
ednych wektora x = [x
1
, x
2
, ..., x
n
]. Ka˙zda z tych
wsp´oÃlrz
,
ednych jest poÃl
,
aczona z n neuronami warstwy pierwszej. Dla ka˙zdego q = 1, 2, ...2n + 1,
bierzemy n neuron´ow, posiadaj
,
acych funkcj
,
e aktywacji Φ
q
. Neurony te tworz
,
a pierwsz
,
a warstw
,
e
ukryt
,
a sieci. Wyj´sciami z tych neuron´ow s
,
a {Φ
q
(x
p
)}
q=1,2,..,2n+1,p=1,2,...,n
. S
,
a one jednocze´snie
wej´sciami to drugiej warstwy ukrytej, skÃladaj
,
acej si
,
e z 2n + 1 neuron´ow z tak
,
a sam
,
a funkcj
,
a
aktywacji g, okre´slon
,
a na sumie wa˙zonej wej´s´c do tego neuronu z wagami λ
p
. Ko´
ncowe wyj´scie
z sieci jest prost
,
a sum
,
a wyj´s´c drugiej warstwy.
Fakt, ˙ze dowoln
,
a ci
,
agÃl
,
a funkcj
,
e mo˙zna przedstawi´c w postaci prawie uniwersalnej sieci, w
kt´orej wszystko, opr´ocz funkcji aktywacji na warstwie drugiej jest niezale˙zne od funkcji f ,
jest bardzo ciekawym i obiecuj
,
acym wynikiem. Nawet liczba neuron´ow na warstwie drugiej
jest sko´
nczona i zale˙zy tylko od wymiaru zadania, czyli wymiaru wektora wej´sciowego. Ni-
estety twierdzenia Kolgomorowa, Sprechera i Lorentza s
,
a twierdzeniami m´owi
,
acymi o istnieniu
11
uniwersalnej reprezentacji, a tym samym aproksymator´ow, ale nie s
,
a to twierdzenia konstruk-
tywne. Nie podaj
,
a metod w jaki spos´ob zbudowa´c funkcje aproksymuj
,
ace Φ
q
oraz g. Robiono
oczywi´scie pr´oby, znalezienia przepisu na budow
,
e tych reprezentacji.
Inny ciekawy dow´od przeprowadziÃla w 1992 r Vera Kurkova. Wykorzystuj
,
ac twierdzenia Kol-
gomorowa i Sprechera, Vera Kurkova udowodniÃla, ˙ze sie´c neuronowa typu perceptronowego z
dwoma ukrytymi warstwami i z jedn
,
a funkcj
,
a aktywacji typu sigmoidalnego jest uniwersalnym
aproksymatorem. Kurkova podaÃla r´ownie˙z g´orne oszacowanie na liczb
,
e neuron´ow w warstwach
ukrytych. Niestety liczba neuron´ow jest nadal bardzo du˙za, a budowa funkcji aproksymuj
,
acych
tak bardzo skomplikowana, ˙ze uniemo˙zliwia to bezpo´srednie wykorzystanie przeprowadzonego
dowodu.
Twierdzenie 5 (Kurkova 1992) Niech n ∈ N i n ≥ 2, ρ : IR −→ I b
,
edzie funkcj
,
a sig-
moidaln
,
a typu (8), dla dowolnej funkcji f ∈ C(I
n
; n, 1) i dla dowolnej liczby ² > 0, istnieje
k ∈ N i funkcje Φ
pq
(x
p
) i g
q
takie, ˙ze
| f (x
1
, x
2
, ...x
n
) −
k
X
q=1
g
q
(
n
X
p=1
Φ
pq
(x
p
)) |< ²
(14)
dla ka˙zdego (x
1
, x
2
, ...x
n
) ∈ I
n
.
u
t
Hornik, Stinchcombe i White w 1989 r. udowodnili nast
,
epuj
,
ace bardzo wa˙zne dla teorii sieci
neuronowych twierdzenie
Twierdzenie 6 (Hornik, Stinchcombe i White 1989) Niech f ∈ C(A; n, 1), przy czym
A ⊂ IR
n
jest zwartym podzbiorem. Dla dowolnego ² > 0 istnieje w´owczas dwuwarstwowa sie´c
neuronowa zawieraj
,
aca neurony typu Mc-P w warstwie ukrytej i jest z liniowym wyj´sciem,
kt´ora przybli˙za funkcj
,
e f z bÃl
,
edem mniejszym ni˙z ².
u
t
Tez
,
e tego twierdzenia mo˙zna wypowiedzie´c z wykorzystaniem ostatnio wprowadzonej definicji
4: istnieje standardowa sie´c neuronowa z funkcj
,
a Heaviside’a (9) jako funkcj
,
a aktywacji, kt´ora
przybli˙za funkcj
,
e f z bÃl
,
edem mniejszym ni˙z ².
W 1991 twierdzenie to zostaÃlo przez Hornika uog´olnione
Twierdzenie 7 (Hornik 1991) Niech f ∈ C(A; n, 1), przy czym A ⊂ IR
n
jest zwartym podzbiorem.
Dla dowolnego ² > 0 istnieje wtedy standardowa sie´c neuronowa z sigmoidaln
,
a funkcj
,
a ak-
tywacji, kt´ora przybli˙za funkcj
,
e f z bÃl
,
edem mniejszym ni˙z ².
u
t
Twierdzenie Hornika (7) uog´olnili Leshno, Lin, Pinkus i Schocken podaj
,
ac konieczne i wystar-
czaj
,
ace warunki, jakie musz
,
a speÃlnia´c funkcje aktywacji, aby standardowa sie´c neuronowa mogÃla
by´c uniwersalnym aproksymatorem. Autorzy w swojej pracy dyskutuj
,
a r´ownie˙z rol
,
e jak
,
a speÃlnia
pr´og funkcji aktywacji (treshold value, bias). Z udowodnionego przez nich twierdzenia wynika
w szczeg´olno´sci, ˙ze funkcja sin x jest dopuszczona jako funkcja aktywacji standardowej sieci neu-
ronowej realizuj
,
acej uniwersalny aproksymator.
12
Twierdzenie 8 (Leshno, Lin, Pinkus i Schocken 1993) Niech ρ ∈ L
∞
loc
(IR) i domkni
,
ecie
zbioru jej punkt´ow nieci
,
agÃlo´sci jest miary Lebesgue’a zero. Je´sli ρ nie jest wielomianem, to
standardowa sie´c neuronowa o aktywacji ρ przybli˙za dowoln
,
a funkcj
,
a ci
,
agÃl
,
a f ∈ C(IR
n
; n, 1) z
dowoln
,
a dokÃladno´sci
,
a w normie przestrzeni L
∞
loc
(IR
n
), przy czym liczba k neuron´ow w warst-
wie ukrytej i posta´c wektor´ow i staÃlych ω
j
, c
j
zale˙zy od funkcji aproksymowanej i wymaganej
dokÃladno´sci.
Du˙zy wkÃlad w badanie wÃlasno´sci aproksymacyjnych sieci neuronowych wni´osÃl Cybenko (1989).
PodaÃl on warunki, jakie musi speÃlnia´c zbi´or funkcji w postaci sumy (10), aby byÃl g
,
esty w
przestrzeni C(I
n
; n, 1).
Twierdzenie 9 (Cybenko 1989) Niech ρ b
,
edzie dowoln
,
a ci
,
agÃl
,
a funkcj
,
a sigmoidaln
,
a. W´owczas
sko´
nczony zbi´or sum postaci
G(x) =
k
X
j=1
a
j
ρ(ω
T
j
x + c
j
)
(15)
jest g
,
esty w C(I
n
; n, 1).
u
t
Cybenko udowodniÃl r´ownie˙z podobne twierdzenie dla funkcji caÃlkowalnych z przestrzeni L
1
(I
n
).
Jednym z pierwszych badaczy zajmuj
,
acych si
,
e wÃlasno´sciami aproksymacyjnymi sieci neu-
ronowych byÃl Funahashi (1989). UdowodniÃl on niezale˙znie od Cybenki, Hornika, Stinchcombe
i White’a, podobne twierdzenie dla dowolnej monotonicznej funkcji aktywacji.
Twierdzenie 10 (Funahashi 1989) Niech ρ b
,
edzie dowoln
,
a monotoniczn
,
a funkcj
,
a sigmoidaln
,
a.
W´owczas sko´
nczony zbi´or sum postaci
G(x) =
k
X
j=1
a
j
ρ(ω
T
j
x + c
j
)
(16)
jest g
,
esty w C(I
n
; n, 1). Innymi sÃlowy dla dowolnej funkcji f ∈ C(I
n
; n, 1) i dowolnego ² > 0
istnieje suma G(x) postaci (16), ˙ze zachodzi
| G(x) − f (x) |< ²,
(17)
dla ka˙zdego x ∈ I
n
u
t
W dalszej cz
,
e´sci ograniczamy si
,
e do przestrzeni X r´ownej C(A; n, 1) i za Mhaskarem i Mic-
chellim wprowadzamy nast
,
epuj
,
ace poj
,
ecie.
Definicja 5 Powiemy, ˙ze funkcja σ : IR → IR ma wÃlasno´s´c g
,
esto´sci (density property), je´sli
dla ka˙zdego caÃlkowitego n ≥ 2 i ka˙zdego zwartego zbioru A ⊂ IR
n
, rodzina A
σ
funkcji okre´slonych
dla x ∈ A przez
A
σ
:= {σ(w · x + c) : w ∈ IR
n
, c ∈ IR},
(18)
jest podstawowa w C(A; n, 1), tzn. zbi´or span(A
σ
) wszystkich sko´
nczonych kombinacji jest g
,
esty.
13
Zgodnie z t
,
a definicj
,
a, je´sli σ ma wÃlasno´s´c g
,
esto´sci, to zbi´or F
σ
:=span(A
σ
) powinien by´c
uniwersalnym aproksymatorem. Ale elementy zbioru F
σ
s
,
a w postaci sko´
nczonych sum s(σ),
tj.
s(σ) =
k
X
j=1
a
j
σ(ω
j
· x + c
j
).
(19)
Wniosek 4 Je´sli funkcja σ : IR → IR ma wÃlasno´s´c g
,
esto´sci, to dla ka˙zdego n ≥ 2 i dla ka˙zdego
zwartego A ⊂ IR
n
standardowa sie´c neuronowa o aktywacji σ jest uniwersalnym aproksymatorem
dla C(A; n, 1).
Twierdzenie 11 (Mhaskar i Micchelli 1994) Je´sli ci
,
agÃla funkcja σ : IR → IR nie jest wielo-
mianem, istnieje za´s wielomian P taki, ˙ze iloraz σ/P jest ograniczony, to wtedy σ ma wÃlasno´s´c
g
,
esto´sci.
u
t
14
6
Wprowadzenie do teorii sieci neuronowych
Najkr´otsz
,
a definicj
,
e sieci neuronowych mo˙zna przedstawi´c nast
,
epuj
,
aco:
jest to wielki zbi´
or wzajemnie na siebie oddziaÃlywuj
,
acych element´
ow.
Ka˙zdy z element´ow mo˙ze wykonywa´c pewn
,
a funkcj
,
e i ma przyporz
,
adkowany sobie zbi´or
parametr´ow. Elementy sieci mog
,
a by´c wszystkie wzajemnie poÃl
,
aczone, mog
,
a te˙z by´c pogrupowane
w warstwy. Elementy w danej warstwie mog
,
a by´c wzajemnie ze sob
,
a poÃl
,
aczone, lub mie´c
poÃl
,
aczenia tylko z elementami poprzedniej i nast
,
epnej warstwy. Zwykle w´sr´od warstw wyr´o˙zniamy
warstw
,
e wej´sciow
,
a (input layer), kt´orej zadaniem jest wprowadzenie danych, oraz warstw
,
e
wyj´sciow
,
a (output layer) ; przez te dwie warstwy sie´c komunikuje si
,
e ze ´swiatem zewn
,
etrznym.
PozostaÃle warstwy to warstwy ukryte (hidden layer), kt´ore nie maj
,
a kontaktu ze ´swiatem
zewn
,
etrznym.
6.1
Modele neuronu
W 1943 r McCulloch i Pitts zaproponowali prosty model neuronu w postaci dwuwarto´sciowego
elementu progowego. Neuron McCullocha i Pittsa obliczaÃl sum
,
e wa˙zon
,
a sygnaÃl´ow wej´sciowych
od innych neuron´ow i dawaÃl na wyj´sciu warto´s´c 0 lub 1 w zale˙zno´sci od tego czy suma przekroczyÃla
ustalon
,
a warto´s´c progow
,
a
u
j
(t + 1) = f (
n
X
i=1
ω
ji
z
i
− ω
j0
),
(20)
t jest parametrem czasowym, z
i
oznacza sygnaÃl wej´sciowy od i-tego elementu, natomiast ω
ji
oznaczaj
,
a warto´s´c synapsy Ãl
,
acz
,
acej i-ty neuron z j-tym. Warto´s´c synapsy mo˙ze by´c dodatnia,
ujemna lub zerowa. Dodatnia odpowiada synapsie pobudzaj
,
acej, ujemna odpowiada synapsie
hamuj
,
acej, zerowa oznacza brak poÃl
,
aczenia mi
,
edzy neuronami. Charakterystyczny parametr
ω
j0
oznacza warto´s´
c progow
,
a (bias) j-tego elementu.
Aby nast
,
apiÃla aktywacja neuronu,
suma wa˙zona wej´s´c do neuronu (potencjaÃl kom´orki) musi przekroczy´c warto´s´c progow
,
a
f (z) =
½
1
je˙zeli z > ω
j0
0 w pozostaÃlych przypadkach
.
(21)
Du˙zo ciekawsze s
,
a sieci budowane z neuron´ow, kt´orych funkcja aktywacji jest nieliniow
,
a,
rosn
,
ac
,
a funkcj
,
a rzeczywist
,
a. PrzykÃlady funkcji aktywacji:
1. sigmoida
f (z) =
1
1 + exp(−β z)
,
(22)
2. tangens hiperboliczny
f (z) =
exp(η z) − exp(−η z)
exp(η z) + exp(−η z)
,
(23)
15
-3
-2
-1
0
1
2
3
4
0
0.2
0.4
0.6
0.8
1
x
-3
-2
-1
0
1
2
3
4
-1
-0.5
0
0.5
1
x
Rysunek 2: a) Funkcja aktywacji – sigmoida, b) Funkcja aktywacji – tangens hiperboliczny
3. sinusoida
f (z) =
−1
je˙zeliζ z < −0.5π
sin(ζ z) je˙zeli − 0.5 π ≤ ζz ≤ 0.5π
+1
je˙zeli ζ z > 0.5π
,
(24)
przy czym β, η oraz ζ s
,
a zadanymi parametrami, kt´ore mog
,
a podlega´c adaptacji.
6.2
PodziaÃl sieci neuronowych
Sieci neuronowe mo˙zna podzieli´c:
1. Ze wzgl
,
edu na zastosowania:
(a) Sieci odwzorowuj
,
ace, dla zagadnie´
n aproksymacji (modelowania) (mapping net-
works)
(b) Sieci klasyfikujce, dla zagadnie´
n klasyfikacji .
2. Ze wzgl
,
edu na spos´ob dziaÃlania i architektur
,
e poÃl
,
acze´
n:
(a) Sieci jednokierunkowe (feedforward) - bez sprz
,
e˙zenia zwrotnego, jednokierunkowe.
(b) Sieci rekurencyjne (feedback) - ze sprz
,
e˙zeniem zwrotnym.
(c) Sieci neuronowe kom´orkowe (cellular neural networks).
3. Ze wzgl
,
edu na spos´ob uczenia:
(a) Sieci uczone pod nadzorem (supervised learning).
(b) Sieci uczone bez nadzoru (unsupervised learning).
16
Kiedy´s dokonywano podziaÃlu ze wzgl
,
edu na wykorzystywany model neuronu:
1. Sieci liniowe (linear network).
2. Sieci nieliniowe (nonlinear network).
Wydaje si
,
e, ˙ze obecnie sieci liniowe straciÃly zastosowania, wi
,
ec takie kryterium podziaÃlu jest
nieadekwatne.
17
6.3
Architektura sieci neuronowych
Sieci jednokierunkowe (feedforward) - bez sprz
,
e˙zenia zwrotnego.
Jest to sie´c neuronowa zÃlo˙zona z warstw.
Mo˙zemy tu wyr´o˙zni´c:
- warstw
,
e wej´sciow
,
a, kt´ora wst
,
epnie przetwarza wektory wej´sciowe, mo˙ze to by´c np. skalowanie,
lub normalizacja,
- warstwy ukryte, gdzie nast
,
epuje wÃla´sciwe przetwarzanie,
- warstw
,
e wyj´sciow
,
a, kt´ora generuje wyj´scie u
k
.
Niech
h
b
,
edzie numerem warstwy, przy czym h = 1, 2, ..., H,
H
oznacza liczb
,
e wszystkich warstw,
κ
h
b
,
edzie indeksem warstwy, przy czym κ
h
= 1, 2, ..., K
h
,
K
h
oznacza liczb
,
e element´ow w warstwie h.
k = 1, 2, ..., m
oznacza wymiar wyj´scia.
Warstwa h mo˙ze by´c opisana jako dziaÃlanie funkcji aktywacji f na wektor wej´sciowh u
h−1
z
warstwy poprzedniej
u
h
κ
h
= f
h
(z
h
κ
h
) = f
h
(
K
h
−1
X
κ
h
=0
ω
h
l κ
h
u
h−1
κ
h
) = f
h
(ω
h
u
h−1
).
(25)
Og´olne odwzorowanie wej´scia - wyj´scia sieci, to
u
H
= f
H
(ω
H
f
H−1
(ω
H−1
..., f
1
(ω
1
u
0
)..., )),
(26)
przy czym u
H
= [u
H
1
, u
H
2
, ..., u
H
m
]
T
, to wektor sygnaÃl´ow wyj´sciowych, za´s ω
H
– macierz wsp´oÃlczynnik´ow
wag poÃl
,
acze´
n pomi
,
edzy warstw
,
a H i warstw
,
a H − 1.
18
WARSTWA
WEJSCIOWA
WARSTWA
UKRYTA
WARSTWA
WYJSCIOWA
Rysunek 3: Og´olny schemat architektury sieci jednokierunkowej, wielowarstwowej.
6.4
Metody uczenia sieci neuronowych
Zastosowanie odpowiedniej architektury do konkretnego zastosowania wi
,
a˙ze si
,
e z zagadnieniem
doboru odpowiedniego algorytmu uczenia sieci neuronowej.
Definicja 6 Algorytm uczenia sieci neuronowej (algorytm adaptacyjny) jest to przepis na dob´or
wag poÃl
,
acze´
n synaptycznych ω
ij
pomi
,
edzy j-tym a i-tym neuronem tak, aby sie´c neuronowa po-
trafiÃla wykona´c zlecone jej zadanie. Dob´or wag zazwyczaj nast
,
epuje przez iteracyjne dostrajanie
warto´sci
ω
ij
.
Istniej
,
a dwa typy algorytm´ow adaptacyjnych:
1. Uczenie pod nadzorem (supervised learning).
Uczenie pod nadzorem polega na bezpo´srednim por´ownywaniu sygnaÃlu wyj´sciowego sieci ze
znan
,
a oczekiwan
,
a odpowiedzi
,
a i takie zmodyfikowanie warto´sci wag poÃl
,
acze´
n synaptycznych
ω
ij
, aby caÃlkowicie zredukowa´c wyst
,
epuj
,
acy bÃl
,
ad sieci (lub zminimalizowa´c absolutn
,
a warto´s´c
bÃl
,
edu).
Definicja 7 BÃl
,
ad sieci F jest to r´o˙znica pomi
,
edzy warto´sciami sygnaÃlu oczekiwanego y i sygnaÃlu
wyznaczonego przez sie´c u.
Czas uczenia sieci pod nadzorem, czyli liczba krok´ow iteracyjnych zale˙zy od obranych strategii,
od ˙z
,
adanej dokÃladno´sci uczenia i od sposobu prezentowania par trenuj
,
acych.
2. Uczenie bez nadzoru (unsupervised learning).
W sytuacji, gdy nie mamy dost
,
epu do informacji o prawidÃlowych wyj´sciach, stosujemy ucze-
nie bez nadzoru. Jedyne dost
,
epne informacje z kt´orych korzysta sie´c to korelacje danych
wej´sciowych. Od sieci oczekujemy, ˙ze bez zewn
,
etrznej pomocy sie´c ”odkryje” wzajemne zale˙zno´sci,
uporz
,
adkowanie danych wej´sciowych i na wyj´sciu poda te informacje w zakodowany spos´ob.
19
7
Nieliniowe sieci z uczeniem propagacj
,
a wsteczn
,
a bÃl
,
edu
Jedn
,
a z najbardziej znanych i wykorzystywanych sieci neuronowych jest sie´c perceptronowa z
uczeniem typu propagacji wstecznej bÃl
,
edu (back – propagation). Algorytm uczenia opracowaÃl
w 1974 roku Werbos, ale przez wiele lat nie doceniano jego ogromnych mo˙zliwo´sci. Dopiero w
pocz
,
atkach lat osiemdziesi
,
atych Rumelhart i Parker niezale˙znie od siebie odkryli go na nowo.
Do uczenia takiej sieci wykorzystuje si
,
e gradientow
,
a metod
,
e najszybszego spadku GDM
(gradient descent method), kt´ora polega na minimalizacji sumy kwadrat´ow funkcji bÃl
,
edu
poszczeg´olnych r´o˙znic w warto´sciach wygenerowanego przez sie´c sygnaÃlu i oczekiwanej warto´sci.
Przy prezentacji p-tego wzorca trenuj
,
acego na wej´sciu sieci w s-tym kroku iteracji oznaczamy
- x
p
= [x
p
1
, x
p
2
, ..., x
p
n
] - wektor wej´sciowy,
- z
I
(p) = [z
I
1
(p), z
I
2
(p), ..., z
I
k
(p)] - wektor pobudzenia sieciowego I warstwy,
- u
I
(p) = [u
I
1
(p), u
I
2
(p), ..., u
I
k
(p)] - wektor wyj´sciowy I warstwy po dziaÃlaniu funkcji progowej,
- z
II
(p) = [z
II
1
(p), z
II
2
(p), ..., z
II
m
(p)] - wektor pobudzenia sieciowego II warstwy,
- u
II
(p) = [u
II
1
(p), u
II
2
(p), ..., u
II
m
(p)] - wektor wyj´sciowy II warstwy po dziaÃlaniu funkcji pro-
gowej,
- Ω
I
= [ω
I
1
, ω
I
2
, ..., ω
I
k
] - uog´olniony wektor wag I warstwy,
- Ω
II
= [ω
II
1
, ω
II
2
, ..., ω
II
m
] - uog´olniony wektor wag II warstwy,
- ω
I
j
= [ω
I
j0
, ω
I
j1
, ..., ω
I
jn
], - wektor wag j-tego neuronu warstwy I,
- ω
II
α
= [ω
II
α0
, ω
II
α1
, ..., ω
II
αk
] - wektor wag neuronu α warstwy II,
- y
p
= [y
p
1
, y
p
2
, ..., y
p
m
] - oczekiwany wektor wyj´sciowy.
Zbi´or danych trenuj
,
acych (training data set), reprezentuj
,
acych poszukiwan
,
a zale˙zno´s´c g :
X −→ Y , jest zÃlo˙zony z par wektor´ow,
T RE = {(x
p
, y
p
) | y
p
= g(x
p
), p = 1, 2, ..., P },
(27)
Zbi´or danych testuj
,
acych (testing data set) zÃlo˙zony z par wektor´ow wej´sciowych i wyj´sciowych
jest okre´slony jako
T ES = {(x
t
, y
t
) | y
t
= g(x
t
), t = 1, 2, ..., T }.
(28)
Wektor wag sieci Θ = (Ω
I
, Ω
II
) skÃlada si
,
e z wag poÃl
,
acze´
n wszystkich neuron´ow sieci
rozpoczynaj
,
ac od pierwszego neuronu pierwszej warstwy wej´sciowej i ko´
ncz
,
ac na ostatnim neu-
ronie warstwy wyj´sciowej.
Dla danego p-tego wzorca j-ty neuron warstwy I (ukrytej) otrzymuje sygnaÃl pobudzenia sieciowego
z
I
j
(p) =
n
X
i=0
ω
I
ji
x
p
i
,
(29)
i po dziaÃlaniu funkcji progowej f
I
j
wytwarza sygnaÃl wyj´sciowy
u
I
j
(p) = f
I
j
(z
I
j
(p)) = f
I
j
(
n
X
i=0
ω
I
ji
x
p
i
).
(30)
20
WARSTWA
WEJSCIOWA
WARSTWA
UKRYTA I
WARSTWA
WYJSCIOWA II
i=1,2,...n
j=1,2,...k
=1,2,...m
x
x
x
z
z
z
z
z
u
u
y
y
u
u
u
α
k
k
n
i
1
1
1
1
1
n
n
1
n
j
j
1
1
1
1
1
Rysunek 4: Og´olny schemat architektury dwuwarstwowej sieci z propagacj
,
a wsteczn
,
a bÃledu.
Ka˙zdy neuron warstwy II (wyj´sciowej) otrzymuje sygnaÃl
z
II
α
(p) =
k
X
j=0
ω
II
αj
u
I
j
(p) =
k
X
j=0
ω
II
αj
f
I
j
(
n
X
i=0
ω
I
ji
x
p
i
),
(31)
i ostatecznie po dziaÃlaniu funkcji progowej f
II
α
wytwarza sygnaÃl wyj´sciowy
u
II
α
(p) = f
II
α
(z
II
α
(p)) = f
II
α
(
k
X
j=0
ω
II
αj
f
I
j
(
n
X
i=0
ω
I
ji
x
p
i
)).
(32)
Podstaw
,
a algorytmu propagacji wstecznej bÃl
,
edu (back - propagation) jest procedura min-
imalizacji sumy kwadrat´ow funkcji bÃl
,
edu (zwanej te˙z funkcj
,
a kosztu, czy miar
,
a bÃl
,
edu) (error
function). Algorytm ten wykorzystuje metod
,
e najszybszego spadku, w kt´orej w spos´ob iter-
acyjny wyznacza si
,
e kolejne warto´sci wektora wag proporcjonalnie do gradientu funkcji bÃl
,
edu
F (Θ, x, y), wzgl
,
edem Θ, przy czym (x, y) ∈ TRE w danym punkcie. Funkcja bÃl
,
edu (zwana
te˙z funkcj
,
a kosztu, lub miar
,
a bÃl
,
edu) ma nast
,
epuj
,
ac
,
a posta´c
F (Ω
I
, Ω
II
, X, Y) =
P
X
p=1
F
p
(Ω
I
, Ω
II
, x, y),
(33)
przy czym
{X, Y} =
P
[
p=1
{(x
p
, y
p
)},
(34)
za´s
F
p
(Ω
I
, Ω
II
, x, y) =
1
2
m
X
α=1
(f
II
α
(x
p
1
, x
p
2
, ..., x
p
n
, Θ) − y
p
α
)
2
,
(35)
21
oraz
F
p
(Θ, x, y) jest funkcj
,
a bÃl
,
edu odpowiadaj
,
ac
,
a trenuj
,
acej parze (x
p
1
, ..., x
p
n
; y
p
1
, ..., y
p
m
),
przy czym p = 1, ..., P , za´s
y
p
α
jest skÃladow
,
a α oczekiwanego wektora wyj´sciowego, a
f
II
α
(x
p
1
, x
p
2
, ..., x
p
n
, Θ) = u
II
α
(p) jest skÃladow
,
a α warto´sci sygnaÃlu wyj´sciowego wygenerowanego
przez sie´c.
Funkcja F
p
(Θ, x, y) jest ci
,
agÃl
,
a i r´o˙zniczkowaln
,
a funkcj
,
a wszystkich wag, wi
,
ec mo˙zemy tu
zastosowa´c algorytm najszybszego spadku gradientu dla adaptacji wszystkich wag. Tworzymy
zatem taki algorytm zmiany wag sieci przez kolejne przybli˙zenia, aby minimalizowa´c funkcj
,
e
bÃl
,
edu, przy dowolnych warunkach pocz
,
atkowych. Ze´slizguj
,
ac si
,
e w d´oÃl po powierzchni, jak
,
a
tworzy funkcja bÃl
,
edu w przestrzeni Θ, b
,
edziemy poprawia´c ka˙zd
,
a wag
,
e Ω
i
, (przy czym i =
1, 2, ..., Q, za´s Q jest liczb
,
a wszystkich wag), o pewn
,
a wielko´s´c proporcjonaln
,
a do gradientu
funkcji F w danym punkcie
•
Θ = − ξ ∇Θ F(Θ; X, Y),
(36)
przy czym • oznacza pochodn
,
a czasow
,
a Θ, za´s ξ jest liczb
,
a dodatni
,
a odpowiedzialn
,
a za szybko´s´c
uczenia. R´ownanie to nale˙zy wzbogaci´c warunkiem pocz
,
atkowym Θ(0) = Θ
0
.
Algorytm adaptacyjny polega na obliczaniu poprawek dla wektora wag wedÃlug nast
,
epuj
,
acych
wzor´ow iteracyjnych
Ω
s+1
= Ω
s
− µ ∇Ω F(Θ
s
; X, Y),
(37)
przy czym wska´znik s odpowiada t = s ∆t, i µ = ∆t ξ jest nazwany krokiem uczenia, s + 1 jest
kolejnym krokiem iteracyjnym.
- γ
I
j
(p) - bÃl
,
ad cz
,
e´sci liniowej j-tego neuronu warstwy ukrytej (I),
- γ
II
α
(p) - bÃl
,
ad cz
,
e´sci liniowej neuronu α warstwy wyj´sciowej (II),
- g
I
j
(p) - bÃl
,
ad cz
,
e´sci nieliniowej j-tego neuronu warstwy ukrytej (I),
- g
II
α
(p) - bÃl
,
ad cz
,
e´sci nieliniowej neuronu α warstwy wyj´sciowej (II).
γ
I
j
(p) = −
∂F
p
∂z
I
j
(p)
,
γ
II
α
(p) = −
∂F
p
∂z
II
α
(p)
,
(38)
g
I
j
(p) = −
∂F
p
∂u
I
j
(p)
,
g
II
α
(p) = −
∂F
p
∂u
II
α
(p)
.
(39)
22
Przeprowadzaj
,
ac obliczenia otrzymujemy nast
,
epuj
,
ace wzory iteracyjne na zmian
,
e wag w
poszczeg´olnych warstwach
1. Dla neuron´ow warstwy I ukrytej zmiany wag s
,
a okre´slone przez
ω
I,s+1
jl
= ω
I,s
jl
+ µ
P
X
p=1
x
p
l
γ
I
j
(p).
(40)
2. Dla neuron´ow warstwy wyj´sciowej zmiany wektor´ow wag s
,
a dane przez
ω
II,s+1
αl
= ω
II,s
αl
+ µ
P
X
p=1
u
I
l
(p) γ
II
α
(p),
(41)
przy czym
γ
I
j
(p) = f
I
0
j
(z
I
j
(p)) g
I
j
(p),
(42)
γ
II
α
(p) = f
II
0
α
(z
II
α
(p)) g
II
α
(p),
(43)
oraz
g
I
j
(p) =
m
X
α=1
γ
II
α
(p) ω
II
αj
(p),
(44)
g
II
α
(p) = (u
II
α
− y
p
α
),
(45)
wska´znik s odpowiada t = s ∆t, natomiast µ = ∆t ξ jest nazwany krokiem uczenia.
Analizuj
,
ac poszczeg´olne skÃladniki wzor´ow adaptacyjnych mo˙zna zauwa˙zy´c, ˙ze:
1. zmiana wag danego neuronu jest tym wi
,
eksza im wi
,
ekszy jest bÃl
,
ad obliczony na wyj´sciu
danego neuronu. Gdy bÃl
,
ad jest zerowy nie dokonujemy zmian wag.
2. im wi
,
eksza jest warto´s´c sygnaÃlu wyj´sciowego neuronu warstwy poprzedniej tym wi
,
eksza jest
zmiana wag neuronu, co oznacza, ˙ze wkÃlad tego wyj´scia w powstawaniu bÃl
,
edu jest wi
,
ekszy.
23
8
Jednorodna sie´
c neuronowa M-Delta.
Jednym z kierunk´ow poprawiania algorytmu GDM jest zmiana funkcji progowej neuronu tak,
aby poprzez wprowadzenie nowych stopni swobody, zwi
,
ekszy´c mo˙zliwo´sci aproksymacyjne caÃlej
sieci.
W naszej pracy zmienili´smy definicj
,
e neuronu wprowadzaj
,
ac now
,
a form
,
e nieliniowo´sci zamiast
standardowej funkcji sigmoidalnej. Ka˙zdy neuron posiada wÃlasn
,
a nast
,
epuj
,
ac
,
a funkcj
,
e progow
,
a,
zwan
,
a funkcj
,
a aktywacji
f (s, m, δ) =
m
1 + exp(−δs)
(46)
z dwoma dodatkowymi parametrami m i δ, kt´ore s
,
a adaptowane podczas procesu uczenia.
Funkcja aktywacji f jest rosn
,
ac
,
a, nieliniow
,
a funkcj
,
a.
Parametr m jest parametrem kontroluj
,
acym zakres wyj´sciowych wektor´ow (parameters which
control the range of node outputs).
Parametr δ jest parametrem kontroluj
,
acym ksztaÃlt funkcji progowej (parameters which con-
trol the shape of the activation function). Zastosowanie tego parametru pozwoliÃlo na
zwi
,
ekszenie wra˙zliwo´sci sieci na nasycenie, a tym samym zwi
,
ekszenie zakresu wykorzystania
sieci.
Jednorodny algorytm adaptacyjny M-Delta - nazwany jest jednorodnym, gdy˙z wszystkie
parametry uog´olnionego wektora wag Θ s
,
a adaptowane zgodnie z gradientow
,
a metod
,
a na-
jwi
,
ekszego spadku GDM (gradient descent method) wyprowadzon
,
a przez Widrow’a i Hoff’a
w latach 60-tych.
Uog´olniony wektor wag Θ w jednorodnej sieci M-Delta skÃlada si
,
e z trzech cz
,
e´sci : Ω, ∆
oraz M.
24
9
Niejednorodna sie´
c neuronowa NM-Delta.
1. Wady metod gradientowych GDM – jest wolno zbie˙zna i ma tendencje do wpadania w
minima lokalne.
2. Modyfikacje – id
,
a w kierunku zast
,
apienia wolno zbie˙znego algorytmu GDM innym,
bardziej odpornym na wpadanie w minima lokalne.
3. Realizacja – dla cz
,
e´sci parametr´ow uog´olnionego wektora wag zastosujemy inny algorytm
iteracyjny dziaÃlaj
,
acy dla funkcji liniowej swoich zmiennych.
Dzielimy uog´olniony wektor wag Θ na dwa podzbiory Θ = (Θ
1
, Θ
2
), przy czym pierwsza cz
,
e´s´c
Θ
1
zawiera parametry M
I
kontroluj
,
ace zakres wyj´sciowych wektor´ow oraz odpowiednio dobrane
staÃle M
II
0
peÃlni
,
ace rol
,
e funkcji skaluj
,
acej i parametry ∆
I
kontroluj
,
ace ksztaÃlt funkcji progowej
oraz odpowiednio dobrane staÃle
∆
II
0
.
Natomiast druga cz
,
e´s´c Θ
2
zawiera wagi (weights) poÃl
,
acze´
n wszystkich neuron´ow sieci
rozpoczynaj
,
ac od pierwszego neuronu pierwszej warstwy wej´sciowej i ko´
ncz
,
ac na ostatnim neu-
ronie warstwy wyj´sciowej.
1. Do adaptacji element´ow wektora Θ
2
zastosujemy szybciej zbie˙zny algorytm RLS (recur-
sive least squares method ), wyprowadzony przez Godarta.
2. PozostaÃl
,
a cz
,
e´s´c Θ
1
b
,
edziemy adaptowali tak jak w metodzie jednorodnej metod
,
a GDM.
Tak skonstruowany algorytm nazywamy niejednorodnym algorytmem
adaptacyjnym NM-Delta.
25
W niejednorodnej sieci NM-Delta nie progujemy neuron´ow ostatniej warstwy, natomiast prze-
puszczamy oczekiwany wektor wyj´scia przez odwrotn
,
a funkcj
,
e progow
,
a. W wyniku tej operacji
dokonujemy aproksymacji nie funkcji g a f
−1
◦ g.
Tu r´ownie˙z korzystamy z nowej definicji neuronu z wprowadzon
,
a now
,
a form
,
a nieliniowo´sci
f (s, m, δ) = m (1 + exp(−δs))
−1
. Zastosowanie algorytmu RLS jest mo˙zliwe, poniewa˙z dla
funkcji progowej f (s, m, δ) istnieje odwrotna funkcja proguj
,
aca (antithreshold function)
f
−1
(t, m, δ) = (δ)
−1
log(
t
m − t
)
(47)
f
−1
◦ f = Ident.
(48)
Dla algorytmu NM-Delta zastosujemy r´ownie˙z inn
,
a funkcj
,
e bÃl
,
edu
b
F (Θ, X, Y, p) =
p
X
q=1
λ
p−q
b
F
q
(Θ, x, y),
(49)
przy czym
b
F
q
(Θ, x, y) =
1
2
m
X
α=1
( z
II
α
(Θ, x
q
) − f
−1
(y
q
α
))
2
,
(50)
za´s b
F
q
(Θ, x, y) jest funkcj
,
a bÃl
,
edu odpowiadaj
,
ac
,
a parze trenuj
,
acej (x
q
1
, ..., x
q
n
; y
q
1
, ..., y
q
m
) przy
q = 1, ..., P , natomiast f
−1
(y
q
α
) jest skÃladow
,
a α wyj´sciowego q-tego wektora oczekiwanego,
a z
II
α
(q)(Θ, x) jest skÃladow
,
a α warto´sci sygnaÃlu wyj´sciowego wygenerowanego przez sie´c, na
q-tej parze trenuj
,
acej, za´s λ jest dodatni
,
a liczb
,
a zwan
,
a wsp´oÃlczynnikiem zapominania (forget-
ting factor). Funkcja bÃl
,
edu dla λ 6= 1 jest bardziej czuÃla na zapominanie wzorc´ow wcze´sniej
nauczonych.
26
10
Niejednorodna sie´
c neuronowa NM-Delta jako uniw-
ersalny aproksymator
Niejednorondna sie´c neuronowa NM-Delta zawiera jedn
,
a warstw
,
e ukryt
,
a, kt´ora realizuje oper-
acj
,
e afiniczn
,
a na wektorze wej´scia a nast
,
epnie wykonana zostaje nieliniowa funkcja aktywacji.
Wynik z dziaÃlania (wyj´scie) sieci przy wektorze wej´scia x mo˙zna zapisa´c jako
z =
k
X
j=0
ω
II
1j
f
I
j
(
n
X
i
ω
I
ji
x
i
),
(51)
przy czym poszczeg´olne funkcje aktywacji f
I
j
s
,
a zbudowane na bazie funkcji
f (s, m, δ) = m(1 + exp(−δs))
−1
.
(52)
Zauwa˙zmy, ˙ze we wzorze (51) α = 1. W problemach aproksymacji wykorzystujemy sie´c NM-
Delta, w kt´orej wej´scie jest wielowymiarowe, natomiast wyj´scie jest jednowymiarowe.
Dla wykazania, ˙ze sie´c ma wÃlasno´sci uniwersalnego aproksymatora, oprzemy si
,
e na ostatnich
wynikach Mhaskara i Micchelliego.
W tym celu wprowadzimy niezb
,
edne definicje i oznaczenia.
Definicja 8 Niech S b
,
edzie podzbiorem pewnej przestrzeni wektorowej unormowanej X. Zbi´or
wszystkich sko´
nczonych liniowych kombinacji element´ow zbioru S oznaczamy przez span(S).
Czasami zbi´or span(S) nazywa si
,
e powÃlok
,
a liniow
,
a zbioru S i oznacza si
,
e przez Lin (S).
Definicja 9 Niech X b
,
edzie przestrzeni
,
a Banacha. t.j. unormowan
,
a i zupeÃln
,
a w swojej normie
|| · ||. Zbi´or A nazywamy zbiorem podstawowym (fundamental set ) w X, je´sli domkni
,
ecie
zbioru span(A), tj. zbioru wszystkich sko´
nczonych liniowych kombinacji element´ow z A, jest
caÃl
,
a przestrzeni
,
a X.
Z definicji wynika, ˙ze je´sli A jest zbiorem podstawowym, to ka˙zdy element przestrzeni Ba-
nacha X jest granic
,
a ci
,
agu zÃlo˙zonego ze sko´
nczonych liniowych kombinacji element´ow zbioru
A. Innymi sÃlowy zbi´or, span (A) jest g
,
esty w X.
27
Mo˙zemy wypowiedzie´c nast
,
epuj
,
acy
Wniosek 5 Zbi´or A jest podstawowy w przestrzeni X wtedy i tylko wtedy, gdy zbi´or span(A)
jest uniwersalnym aproksymatorem dla X.
W dalszej cz
,
e´sci ograniczamy si
,
e do przestrzeni X r´ownej C(A; n, 1) i za Mhaskarem i Mic-
chellim wprowadzamy nast
,
epuj
,
ace poj
,
ecie.
Definicja 10 Powiemy, ˙ze funkcja σ : IR → IR ma wÃlasno´s´c g
,
esto´sci (density property),
je´sli dla ka˙zdego caÃlkowitego n ≥ 2 i ka˙zdego zwartego zbioru A ⊂ IR
n
, rodzina A
σ
funkcji
okre´slonych dla x ∈ A przez
A
σ
:= {σ(w · x + c) : w ∈ IR
n
, c ∈ IR},
(53)
jest podstawowa w C(A; n, 1).
Zauwa˙zmy, ˙ze je´sli σ ma wÃlasno´s´c g
,
esto´sci, to zbi´or F
σ
:=span(A
σ
) powinien by´c uniwersalnym
aproksymatorem.
Ale elementy zbioru F
σ
s
,
a w postaci sko´
nczonych sum s(σ), tj.
s(σ) =
k
X
j=1
a
j
σ(ω
j
· x + c
j
).
(54)
Tym samym z def. 10 wynika nast
,
epuj
,
acy
Wniosek 6 Je´sli funkcja σ : IR → IR ma wÃlasno´s´c g
,
esto´sci, to dla ka˙zdego n ≥ 2 i dla ka˙zdego
zwartego A ⊂ IR
n
standardowa sie´c neuronowa o aktywacji σ jest uniwersalnym aproksymatorem
dla C(A; n, 1).
Twierdzenie 12 (Mhaskar i Micchelli 1994) Je´sli ci
,
agÃla funkcja σ : IR → IR nie jest wielo-
mianem, istnieje za´s wielomian P taki, ˙ze iloraz σ/P jest ograniczony, to wtedy σ ma wÃlasno´s´c
g
,
esto´sci.
u
t
28
Jest oczywiste, ˙ze funkcje aktywacji postaci (52) speÃlniaj
,
a zaÃlo˙zenia ostatniego twierdzenia ze
staÃlym wielomianem r´ownym m.
Wniosek 7 Dla ka˙zdego j = 1, 2, ..., k funkcja
f
I
j
(s) =
m
I
j
1 + exp(−δ
I
j
s)
,
(55)
ma wÃlasno´s´c g
,
esto´sci.
St
,
ad ju˙z Ãlatwo udowodni´c nast
,
epuj
,
ace twierdzenie.
Twierdzenie 13 Niejednorodna sie´c neuronowa NM-Delta jest uniwersalnym aproksymatorem
dla C(A; n, 1).
Dow´
od. Ostatni wniosek pozwala nam stwierdzi´c, ˙ze dla ka˙zdego j = 1, 2, ..., k zbi´or funkcji
okre´slonych dla x ∈ A
spanA
f
I
j
:= span{f
I
j
(ω · x + c) : ω ∈ IR
n
, c ∈ IR},
(56)
jest g
,
esty w C(A; n, 1). Tym samym suma mnogo´sciowa tych zbior´ow, tj. zbi´or
F = span{f
I
1
(ω
1
· x + c
1
), f
I
2
(ω
2
· x + c
2
), .
..ω
1
, ω
2
, ..., ∈ IR
n
, c
1
, c
2
, ... ∈ IR},
(57)
jest g
,
esty w C(A; n, 1). A to oznacza, ˙ze dla ka˙zdej funkcji ci
,
agÃlej g i ka˙zdego ² > 0 istnieje
sko´
nczona suma postaci
f (x) =
k
X
j=1
ω
II
1j
f
I
j
(ω
j
· x + c
j
),
(58)
przybli˙zaj
,
aca funkcj
,
e g z dokÃladno´sci
,
a ². To ko´
nczy dow´od twierdzenia.
u
t
Zauwa˙zmy, ˙ze gdy m
j
1
= m
j
2
i δ
j
1
= δ
j
2
, r´o˙znym indeksom j
1
, j
2
mo˙ze odpowiada´c taka sama
funkcja aktywacji w (55).
29
11
Dyskusja zbie˙zno´sci algorytm´
ow adaptacyjnych
Przejd´zmy do iteracyjnego algorytmu uczenia
Θ
s+1
= Θ
s
− µ ∇Θ
s
F (Θ
s
, X, Y),
s = 1, 2, ...,
(59)
przy czym wska´znik s odpowiada numerowi kroku iteracji, za´s µ jest nazwany krokiem uczenia.
Z naszych bada´
n testowych i eksperyment´ow przeprowadzanych przez innych autor´ow por. np.
(Jang, 1993, Du et al.,1992) wynika, ˙ze parametr µ odpowiedzialny za szybko´s´c uczenia, nie
mo˙ze by´c staÃly podczas caÃlego procesu uczenia. W pierwszym okresie uczenia, gdy jeste´smy
daleko od rozwi
,
azania µ powinno by´c du˙ze, aby proces dochodzenie do minimum funkcji bÃl
,
edu
byÃl dostatecznie szybki. W pobli˙zu rozwi
,
azania zbyt du˙ze µ powoduje wpadanie w oscylacje,
co uniemo˙zliwia zako´
nczenie procesu. Wtedy nale˙zaÃloby zmniejszy´c krok uczenia.
Warunkiem koniecznym zbie˙zno´sci algorytmu uczenia jest speÃlnienie nast
,
epuj
,
acej relacji
lim
s→∞
| Θ
s+1
− Θ
s
|
Q
= 0,
(60)
przy czym Θ
s
∈ IR
Q
, za´s Q jest liczb
,
a element´ow uog´olnionego wektora wag.
Zapiszmy wz´or iteracyjny (59) w postaci
Θ
s+1
− Θ
s
= − µ
s
∂F
∂Θ
s
= − γ
s
∂F
∂Θ
s
| ∂F
∂Θ
s
|
Q
,
(61)
przy czym zwi
,
azek mi
,
edzy µ
s
a γ
s
jest nast
,
epuj
,
acy
µ
s
= γ
s
1
r
∂F
∂Θ
s
·
∂F
∂Θ
s
= γ
s
1
s
Q
P
i=1
∂F
∂Θ
s
i
∂F
∂Θ
s
i
.
(62)
Warunek (60) b
,
edzie speÃlniony, je´sli
γ
s
→ 0.
(63)
Wyniki prac Pol’aka (1983) wskazuj
,
a, ˙ze je´sli opr´ocz warunku (71) zachodzi
∞
X
s=0
γ
s
= ∞ ,
(64)
to w przypadku wypukÃlej funkcji F (Θ
s
) algorytm iteracyjny jest zbie˙zny do minimalnej warto´sci
funkcji F .
Postawienie tego warunku daje mo˙zliwo´s´c uzale˙znienia parametru γ od kroku s.
PrzykÃladami funkcji speÃlniaj
,
acych (71) i (72) mog
,
a by´c
γ
s
=
γ
0
s + c
, c ∈ IR,
γ
s
=
γ
0
s
ρ
, 0 < ρ ≤ 1,
γ
s
=
γ
0
s log s
,
(65)
30
przy czym γ
0
jest pewn
,
a staÃl
,
a traktowan
,
a jako warto´s´c pocz
,
atkowa. Jest oczywiste, ˙ze wystar-
czy, aby zale˙zno´sci (73) byÃly speÃlnione dla du˙zych s.
W licznych pracach niniejsi autorzy zastosowali uzmiennienie parametru µ w postaci
µ
s
=
µ
0
(s + 1) || ∇
Ω
F (Ω
s−1
) ||
.
(66)
Przeprowadzone eksperymenty numeryczne potwierdzaj
,
a wybran
,
a heurystyk
,
e doboru zmien-
nego µ
s
. W pierwszej fazie uczenia dobieramy µ
0
na podstawie maksymalnej warto´sci norm
wektor´ow zbioru trenuj
,
acego. Obliczamy µ
0
µ
0
=
1
max
p=1,2,...P
Ã
n
X
i=0
(x
p
i
)
2
! ,
x
p
0
= 1.
(67)
Uzmiennianie µ od kroku iteracyjnego dokonujemy dla du˙zych s, tj. dopiero wtedy, gdy mamy
podejrzenie, i˙z znajdujemy si
,
e blisko rozwi
,
azania i bÃl
,
ad si
,
e niewiele zmienia lub zmienia si
,
e
bardzo wolno.
Twierdzenia Pola’ka zakÃladaj
,
a tylko warunek wypukÃlo´sci funkcji. Z drugiej strony mo˙zna
dobiera´c parametr uczenia z warunku, aby funkcja Φ okre´slona przez
Φ(µ) := F
µ
Θ
s
− µ
∂F (Θ
s
, X, Y)
∂Θ
s
, X, Y
¶
.
(68)
osi
,
agaÃla warto´s´c minimaln
,
a na p´oÃlprostej normalnej do powierzchni staÃlej warto´sci funkcji bÃl
,
edu
F . Wyprowadza si
,
e cz
,
esto zale˙zno´sci zakÃladaj
,
ac, ˙ze wszystkie rozwi
,
azania r´ownania Φ
0
(µ
s
) =
0 s
,
a odosobnione, to znaczy s
,
a punktami istotnego minimum funkcji Φ. W ten spos´ob nie
dopuszcza si
,
e sytuacji, kt´ora jest bardzo cz
,
esto realna, ˙ze ksztaÃlt funkcji bÃl
,
edu jest pÃlask
,
a
rynn
,
a; a wtedy rozwi
,
azania (76) nie s
,
a odosobnione. Wyniki por´owna´
n obu metod skÃloniÃly nas
do wyboru i zastosowania metody Pola’ka z warunkami (71), (72).
Zapiszmy wz´or iteracyjny (59) w postaci
Θ
s+1
− Θ
s
= − µ
s
∂F
∂Θ
s
= − γ
s
∂F
∂Θ
s
| ∂F
∂Θ
s
|
Q
,
(69)
przy czym zwi
,
azek mi
,
edzy µ
s
a γ
s
jest nast
,
epuj
,
acy
µ
s
= γ
s
1
r
∂F
∂Θ
s
·
∂F
∂Θ
s
= γ
s
1
s
Q
P
i=1
∂F
∂Θ
s
i
∂F
∂Θ
s
i
.
(70)
Warunek (60) b
,
edzie speÃlniony, je´sli
γ
s
→ 0.
(71)
Wyniki prac Pol’aka (1983) wskazuj
,
a, ˙ze je´sli opr´ocz warunku (71) zachodzi
∞
X
s=0
γ
s
= ∞ ,
(72)
31
to w przypadku wypukÃlej funkcji F (Θ
s
) algorytm iteracyjny jest zbie˙zny do minimalnej warto´sci
funkcji F .
Postawienie tego warunku daje mo˙zliwo´s´c uzale˙znienia parametru γ od kroku s.
PrzykÃladami funkcji speÃlniaj
,
acych (71) i (72) mog
,
a by´c
γ
s
=
γ
0
s + c
, c ∈ IR,
γ
s
=
γ
0
s
ρ
, 0 < ρ ≤ 1,
γ
s
=
γ
0
s log s
,
(73)
przy czym γ
0
jest pewn
,
a staÃl
,
a traktowan
,
a jako warto´s´c pocz
,
atkowa. Jest oczywiste, ˙ze wystar-
czy, aby zale˙zno´sci (73) byÃly speÃlnione dla du˙zych s.
W licznych pracach niniejsi autorzy zastosowali uzmiennienie parametru µ w postaci
µ
s
=
µ
0
(s + 1) || ∇
Ω
F (Ω
s−1
) ||
.
(74)
Przeprowadzone eksperymenty numeryczne potwierdzaj
,
a wybran
,
a heurystyk
,
e doboru zmien-
nego µ
s
. W pierwszej fazie uczenia dobieramy µ
0
na podstawie maksymalnej warto´sci norm
wektor´ow zbioru trenuj
,
acego. Obliczamy µ
0
µ
0
=
1
max
p=1,2,...P
Ã
n
X
i=0
(x
p
i
)
2
! ,
x
p
0
= 1.
(75)
Uzmiennianie µ od kroku iteracyjnego dokonujemy dla du˙zych s, tj. dopiero wtedy, gdy mamy
podejrzenie, i˙z znajdujemy si
,
e blisko rozwi
,
azania i bÃl
,
ad si
,
e niewiele zmienia lub zmienia si
,
e
bardzo wolno.
Twierdzenia Pola’ka zakÃladaj
,
a tylko warunek wypukÃlo´sci funkcji. Z drugiej strony mo˙zna
dobiera´c parametr uczenia z warunku, aby funkcja Φ okre´slona przez
Φ(µ) := F
µ
Θ
s
− µ
∂F (Θ
s
, X, Y)
∂Θ
s
, X, Y
¶
.
(76)
osi
,
agaÃla warto´s´c minimaln
,
a na p´oÃlprostej normalnej do powierzchni staÃlej warto´sci funkcji bÃl
,
edu
F . Wyprowadza si
,
e cz
,
esto zale˙zno´sci zakÃladaj
,
ac, ˙ze wszystkie rozwi
,
azania r´ownania Φ
0
(µ
s
) =
0 s
,
a odosobnione, to znaczy s
,
a punktami istotnego minimum funkcji Φ. W ten spos´ob nie
dopuszcza si
,
e sytuacji, kt´ora jest bardzo cz
,
esto realna, ˙ze ksztaÃlt funkcji bÃl
,
edu jest pÃlask
,
a
rynn
,
a, a wtedy rozwi
,
azania (76) nie s
,
a odosobnione. Wyniki por´owna´
n obu metod skÃloniÃly nas
do wyboru i zastosowania metody Pola’ka z warunkami (71), (72).
32
12
Kierunki dalszych bada´
n
Poszukiwanie uniwersalnych aproksymator´ow jest spraw
,
a otwart
,
a ze wzgl
,
edu na brak konstruk-
tywnych matematycznych dowod´ow jak budowa´c takie aproksymatory. Z przeprowadzonych
test´ow wynika, ˙ze dla du˙zej klasy zada´
n poszukiwanie uniwersalnych aproksymator´ow powinno
i´s´c w kierunku rozwoju hybrydowych adaptacyjnych system´ow powstaÃlych z poÃl
,
aczenia sieci
neuronowych z rozmytymi systemami wnioskuj
,
acymi .
1. W skomplikowanych zadaniach aproksymacyjnych, w kt´orych po˙z
,
adana jest du˙za
dokÃladno´s´c, celowe wydaje si
,
e przeprowadzanie wst
,
epnej analizy danych trenuj
,
acych
dla wykrycia nieregularno´sci i skupie´
n danych. PozwoliÃloby to na zastosowanie hierarchii
sieci neuronowych do poszczeg´olnych partii danych. Zastosowanie klasyfikacji jako pre-
procesora danych, a nast
,
epnie u˙zycie r´o˙znych system´ow do poszczeg´olnych klas danych,
pozwoli naszym zdaniem na otrzymanie znacznie lepszej dokÃladno´sci.
2. W zagadnieniach modelowania, kiedy dane numeryczne (np.pochodz
,
ace z eksperymentu
fizycznego) mog
,
a by´c obdarzone du˙zymi bÃledami (zaszumieniami), wydaje si
,
e konieczne
rozwin
,
ecie metod zabezpieczaj
,
acych przed nadmiernym dopasowaniem do zbioru
trenuj
,
acego; proces uczenia winien by´c odpowiednio wcze´sniej zatrzymany.
3. Wykorzystanie jako preprocesora modelu rozmytego klasyfikatora k–najbli˙zszych
s
,
asiad´
ow, pozwalaj
,
acego na redukcj
,
e cech zbioru wej´sciowego spowoduje znaczne zm-
niejszenie rozmiaru wej´s´c sieci neuronowej i rozmytego systemu wnioskuj
,
acego, co ma
du˙zy wpÃlyw na obni˙zenie zÃlo˙zono´sci obliczeniowej i wzrost szybko´sci uczenia.
4. Wprowadzenie dalszej automatyzacji doboru parametr´
ow sieci neuronowych.
Przetestowanie r´o˙znych heurystyk doboru i zmian tych parametr´ow mo˙ze przyspieszy´c
zbie˙zno´s´c uczenia system´ow, oraz uÃlatwi´c u˙zytkownikom korzystanie z system´ow.
5. Zast
,
apienie klasycznego algorytmu gradientowego algorytmami bardziej zÃlo˙zonymi np.
algorytmem wykorzystuj
,
acym metod
,
e sprz
,
e˙zonych gradient´
ow, przy jednoczesnym
zastosowaniu nowego wyprowadzonego w pracy modelu neuronu.
6. Zastosowanie metod genetycznych przy doborze parametr´ow sieci.
7. Rozwini
,
ecie praktycznych zastosowa´
n budowanych system´ow aproksymacji jako
moduÃl´ow wspomagaj
,
acych w mechanice eksperymentalnej, modelowaniu zjawisk fizy-
cznych.
33