SIECI NEURONOWE w problemach aproksymacji i modelowania W Kosiński(1)

background image

SIECI NEURONOWE

W PROBLEMACH APROKSYMACJI I MODELOWANIA

Witold Kosi´

nski i Martyna Weigl

1. WykÃlad I

(a) Dlaczego problemy aproksymacji i modelowania?

(b) Dlaczego sieci neuronowe w problemach aproksymacji?

(c) Zagadnienia teorii aproksymacji

(d) Uniwersalne aproksymatory

(e) Problem normalizacji

(f) Aproksymacja liniowa - podstawowe zagadnienia

(g) Sieci neuronowe jako uniwersalne aproksymatory

2. WykÃlad II

(a) Wprowadzenie do teorii sieci neuronowych

(b) Modele neuronu

(c) PodziaÃl sieci neuronowych

(d) Architektura sieci neuronowych

3. WykÃlad III

(a) Metody uczenia sieci neuronowych

(b) Nieliniowe sieci z uczeniem propagacj

,

a wsteczn

,

a bÃl

,

edu

(c) Nowe modele sieci neuronowych

4. WykÃlad IV

(a) Jednorodna sie´

c neuronowa M-Delta

(b) Niejednorodna sie´

c neuronowa NM-Delta

5. WykÃlad V

(a) Niejednorodna sie´

c neuronowa NM-Delta jako uniwersalny aproksymator

(b) Dyskusja zbie˙zno´sci algorytm´

ow adaptacyjnych

(c) Dalsze kierunki bada´

n

1

background image

1

Dlaczego problemy aproksymacji i modelowania?

W analizie wynik´ow bada´

n eksperymentalnych, w problemach modelowania zjawisk fizycznych,

czy te˙z w analizie obserwacji statystycznych cz

,

esto trafia si

,

e na zagadnienia aproksymacji.

W teorii aproksymacji zadanie to sprowadza si

,

e do problemu przybli˙zania ci

,

agÃlej i wielowymi-

arowej funkcji g przez funkcj

,

e f , x) ∈ F posiadaj

,

ac

,

a staÃl

,

a liczb

,

e parametr´ow Θ ∈ R, gdzie

R jest zbiorem parametr´ow wektorowych, za´s F jest klas

,

a funkcji sparametryzowanych przez

Θ ∈ R.

Po wyborze funkcji f ∈ F dalszy problem aproksymacji polega na znajdowaniu zbioru parametr´ow

Θ tak, aby dla danego zbioru przykÃlad´ow, tj. punkt´ow z grafu funkcji g, otrzyma´c najlepsz

,

a z

mo˙zliwych aproksymacj

,

e.

Niech d

A

(g, f ) b

,

edzie odlegÃlo´sci

,

a mi

,

edzy funkcjami, g ∈ C(A; n, m), gdzie A jest zwartym

podzbiorem A ⊂ R

n

, za´s f , x) ∈ F funkcj

,

a aproksymuj

,

ac

,

a g, zale˙zn

,

a w spos´ob ci

,

agÃly od x

oraz Θ ∈ R.

Problem optymalnej aproksymacji polega na doborze Θ

tak, aby

d

A

(f

, x), g) ≤ d

A

(f , x), g),

(1)

dla ka˙zdego Θ ∈ R.

Rozwa˙zamy dwa gÃl´owne problemy teorii aproksymacji:

1. Problem reprezentacji - wyb´or klasy funkcji F,

2. Problem doboru algorytmu adaptacji dla znajdowania optymalnego zbioru parametr´ow

Θ.

2

background image

2

Dlaczego sieci neuronowe w problemach aproksymacji?

Je˙zeli zdefiniujemy sieci neuronowe jako

wielki zbi´or wzajemnie na siebie oddziaÃlywuj

,

acych element´ow,

to prawie wszystkie schematy aproksymacyjne mog

,

a by´c traktowane jako pewnego rodzaju sieci

neuronowe przy czym:

1. Klasyczny przypadek liniowej aproksymacji

f , x) = Θ x,

(2)

gdzie Θ IR, x IR

- odpowiada sieci bez warstw ukrytych.

2. Aproksymacja wielomianami ortogonalnymi, lub rozwini

,

eciami w szeregi

f , x) =

m

X

k=1

Θ

k

Φ

k

(x),

(3)

gdzie Φ

k

(x)

m

k=1

jest - odpowiedni

,

a baz

,

a funkcji

- odpowiada sieci z jedn

,

a warstw

,

a ukryt

,

a.

3. Aproksymacja funkcjami ci

,

agÃlymi

f , x) =

X

i

ω

i

ρ

p

(

X

k

υ

k

(... ρ

1

(

X

l

ϑ

l

x

l

)...)),

(4)

gdzie ρ

q

, q = 1, 2, ..., p s

,

a funkcjami jednej zmiennej, a Θ = (ω

i

, υ

k

, ..., ϑ

l

) parametrem

wektorowym.

- odpowiada sieci wielowarstwowej.

3

background image

W og´olno´sci, ka˙zdy schemat aproksymacyjny ma pewien specyficzny algorytm (poprawniej
m´owi

,

ac – metod

,

e) dla znajdowania optymalnego zbioru parametr´ow Θ. Problem uczenia sieci

neuronowych (adaptacji ich wag i parametr´ow) traktujemy jako metod

,

e doboru aproksymacji

funkcji.

Projektowanie, odwzorowuj

,

acych sieci neuronowych (mapping neural networks) skÃlada si

,

e z

dw´och gÃl´ownych krok´ow:

1. definiowanie wieloparametrowej rodziny (klasy) funkcji przez formowanie warstw sieci

i definiowanie relacji pomi

,

edzy poszczeg´olnymi neuronami z indywidualnymi funkcjami

aktywacji,

2. proces uczenia (trenowania) (the learning (or training) process), w kt´orym parametry

i wagi poÃl

,

acze´

n s

,

a adaptowane (poprawiane).

4

background image

3

Zagadnienia teorii aproksymacji i estymacji funkcji

1. Gdzie spotykamy sie z zagadnieniami aproksymacji i estymacji funkcji?

W analizie wynik´ow bada´

n eksperymentalnych, w problemach modelowania zjawisk fizycznych

lub statystycznych.

2. Jak post

,

epujemy dla rozwi

,

azania tych zagadnie´

n?

a. Typowym zadaniem staje si

,

e wtedy specyfikacja klasy funkcji F, w kt´orej b

,

edziemy

poszukiwa´c elementu najlepiej przybli˙zaj

,

acego zadan

,

a funkcj

,

e g(·), czy te˙z z g´ory zadane – w

sko´

nczonej liczbie punkt´ow – warto´sci tej funkcji.

b. Dob´

or dla danej funkcji g(·) optymalnego elementu (czy kombinacji liniowej ele-

ment´ow) z wybranej klasy funkcji F. Zasada doboru takiego elementu jest przy tym oparta na
pewnych kryteriach optymalizacyjnych; np. na minimalizacji pewnej miary odlegÃlo´sci d(f, g)
zdefiniowanej w przestrzeni (klasie) funkcji F.

Je´sli ka˙zdy element f , ·) ∈ F jest sparametryzowany pewnym sko´

nczonym zbiorem (wek-

torem) parametr´ow Θ, to

Podstawowe zagadnienie teorii aproksymacji jest problemem znalezienia

takiego wektora parametr´

ow Θ, dla kt´

orego odlegÃlo´s´

c d(g(·), f , ·)) jest

najmniejsza na zbiorze F, lub te˙z jest mniejsza, ni˙z pewna z g´

ory

zadana wielko´s´

c.

Oczywi´scie nale˙zy okre´sli´c, co oznacza odlegÃlo´s´c d mi

,

edzy funkcjami. Z tym zagadnieniem

Ãl

,

aczy si

,

e problem istnienia i jednoznaczno´sci elementu optymalnego.

5

background image

4

Aproksymacja liniowa - podstawowe zagadnienia

Teoria aproksymacji si

,

ega ko´

nca XIX wieku i rozpocz

,

eÃla si

,

e od pierwszego twierdzenia Weier-

strassa z 1885 o jednostajnej aproksymacji wielomianami dowolnej funkcji ci

,

agÃlej okre´slonej na

przedziale domkni

,

etym.

Twierdzenie 1 (Weiestrass 1885) Je˙zeli f (x) jest funkcj

,

a ci

,

agÃl

,

a w przedziale sko´

nczonym

[a, b], to dla ka˙zdego ² > 0 mo˙zna utworzy´c wielomian P

n

(x) stopnia n = n(²), kt´ory speÃlnia

nier´owno´s´c

| f (x) − P

n

(x) |≤ ².

(5)

w caÃlym przedziale [a, b].

u

t

Twierdzenie oznacza, ˙ze ka˙zda ci

,

agÃla funkcja mo˙ze by´c aproksymowana z dowoln

,

a dokÃladno´sci

,

a

przez wielomiany algebraiczne.

Z kolei drugie twierdzenie Weierstrassa dotyczyÃlo przybli˙zania funkcji ci

,

agÃlej i okresowej przy

pomocy wielomian´ow trygonometrycznych, tj. przy pomocy funkcji postaci

f

n

(t) =

n

X

k=1

(a

k

cos kt + b

k

sin kt) + a

0

, dla t ∈ (−π, π)

(6)

Z twierdze´

n Weiestrassa wynikaj

,

a

Wniosek 1 Zbi´or wielomian´ow P

n

jest g

,

esty w przestrzeni C(A; m, 1),

Wniosek 2 Zbi´or wielomian´ow o wsp´oÃlczynnikach wymiernych jest g

,

esty w C(A; m, 1),

Wniosek 3 Zbi´or sum trygonometrycznych S

n

jest g

,

esty w przestrzeni funkcji ci

,

agÃlych o okre-

sie 2π.

6

background image

Istnieje wiele uog´olnie´

n pierwszego twierdzenia Weierstrassa. Na przykÃlad twierdzenia o lin-

iowej aproksymacji funkcjami wymiernymi.

Dla funkcji zmiennej zespolonej mo˙zna znale´z´c podobne twierdzenia.

Teoria Weiestrassa postawiÃla wiele pyta´

n, takich jak:

1. Czy istniej

,

a takie wielomiany P

, kt´ore osi

,

agaj

,

a kres dolny ?

2. Je˙zeli istniej

,

a, to czy s

,

a jedyne ?

3. Jak je znale´z´c?

4. Czy mo˙zemy powiedzie´c jak szybko funkcja d

F

(g) := min{d(g, f ), f ∈ F} zbiega do zera?

Odpowiedzi na te pytania stanowi

,

a podstaw

,

e teorii aproksymacji Czebyszewa.

W 1899 Czebyszew zaj

,

aÃl si

,

e problemem minimalizacji funkcji odlegÃlo´sci d(g, ·) w klasach funkcji

ci

,

agÃlych o szczeg´olnych wÃlasno´sciach, w tzw. ukÃladach Czebyszewa. Wynikami tych bada´

n s

,

a

liczne twierdzenia egzystencjalne oraz twierdzenia o jednoznacznym doborze elementu minimal-
izuj

,

acego funkcj

,

e odlegÃlo´sci, oraz wydzielenie szczeg´olnej klasy funkcji przybli˙zaj

,

acych: T

n

(x)

i U

n

(x), zwanych odpowiednio wielomianami Czebyszewa pierwszego i drugiego rodzaju, tj.

funkcjami postaci T

n

(x) = cos(n arccos x) oraz

U

n

(x) =

1

n + 1

T

0

n+1

(x) =

sin((n + 1) arccos x)

sin(arccos x)

,

(7)

przy czym n = 0, 1, ..., x ∈ [1, 1].

7

background image

W teorii aproksymacji rozr´o˙znia si

,

e zagadnienia liniowe od nieliniowych. Je´sli funkcja aproksy-

muj

,

aca f , x) dla ustalonego x jest liniowa w parametrze Θ, to m´owimy, ˙ze mamy do czynienia

z przypadkiem aproksymacji liniowej. W takim przypadku mo˙zna znale´z´c liczne, ju˙z klasy-
czne, twierdzenia o istnieniu optymalnej funkcji w danej klasie najlepiej przybli˙zaj

,

acej zadan

,

a

funkcj

,

e. Twierdzenia te wykorzystuj

,

a sko´

nczon

,

a wymiarowo´s´c oraz fakt, ˙ze odlegÃlo´s´c mi

,

edzy

dwoma funkcjami okre´slona przez norm

,

e ich r´o˙znicy, jest funkcj

,

a ci

,

agÃl

,

a. Natomiast wykazanie

jednoznaczno´sci optymalnego elementu, kt´ory minimalizuje odlegÃlo´s´c na przestrzeni, nie jest w
og´olnym przypadku mo˙zliwe, o ile przestrze´

n funkcji nie posiada szczeg´olnych wÃlasno´sci (jest

silnie unormowana). Niestety typowa przestrze´

n wyst

,

epuj

,

aca w zagadnieniach aproksymacji,

tzn. przestrze´

n C(A) funkcji ci

,

agÃlych okre´slonych na pewnym ograniczonym (zwartym) zbiorze

A takiej wÃlasno´sci nie posiada.

W przypadku teorii nieliniowej a tak˙ze, gdy rozpatruje si

,

e przybli˙zenia w klasie funkcji,

b

,

ed

,

acych tylko podzbiorami przestrzeni niesko´

nczenie wymiarowych i nie posiadaj

,

acych struk-

tury liniowej, problem istnienia optymalnego elementu mo˙ze by´c rozwi

,

azany przez warunek

g

,

esto´sci. Taki wÃla´snie przypadek wyst

,

epuje w przypadku stosowania odwzorowuj

,

acych sieci

neuronowych (mapping neural network).

Wiele klasycznych metod i wynik´ow dotyczy gÃl´ownie aproksymacji funkcji jednej zmiennej

(univariant functions). W wykÃladach zajmujemy si

,

e zagadnieniami aproksymacji funkcji

wielu zmiennych (multivariant functions).

8

background image

5

Sieci neuronowe jako uniwersalne aproksymatory

Jednym z wa˙zniejszych zada´

n rozwi

,

azywanych w teorii sieci neuronowych, ostatnich lat jest

poszukiwanie uniwersalnych aproksymator´ow.

Poszukiwania aproksymator´ow w´sr´od sieci neuronowych rozpocz

,

eÃly si

,

e od wyst

,

apienia

Roberta Hecht - Nielsena na I Mi

,

edzynarodowym Kongresie IEEE n. t. Neural Networks

w 1987 roku.

Metody i wyniki bada´

n s

,

a r´o˙zne:

1. Cybenko przy pomocy twierdze´

n Hahna - Banacha o rozszerzaniu funkcjonaÃlu liniowego i

reprezentacji Riesza badaÃl wÃlasno´sci aproksymacyjne sieci neuronowych.

2. Caroll i Dickinson u˙zyli odwrotnej transformacji Radona.

3. Funahashi w swoich twierdzeniach zastosowaÃl aproksymacj

,

e caÃlkowej reprezentacji przez

sko´

nczon

,

a sum

,

e Riemanna.

4. Gallant i White w 1988 r. udowodnili ˙ze sie´c neuronowa z neuronami o funkcji aktywacji

typu cosinus ma wszystkie wÃlasno´sci aproksymacyjne szereg´ow Fouriera.

5. Hornik, Stinchcombe i White w 1989 r. udowodnili wa˙zne dla teorii sieci neuronowych

twierdzenie o warunkach, jakie musz

,

a speÃlnia´c funkcje aktywacji neuron´ow aby sie´c neuronowa

miaÃla wÃlasno´sci aproksymacyjne.

6. Leshno, Lin, Pinkus i Schocken pracowali r´ownie˙z nad warunkami, jakie musz

,

a spe´

nia´c

funkcje aktywacji neuron´ow aby, sie´c neuronowa miaÃla wÃlasno´sci aproksymacyjne.

7. Mhaskar i Micchelli w 1994 r. zastosowali drugie twierdzenie Stone’a - Weiestrassa, aby

udowodni´c wÃlasno´sci aproksymacyjne sieci neuronowych. Jednym z ciekawszych ich wynik´ow
jest stwierdzenie, ˙ze funkcje aktywacji nie mog

,

a mie´c postaci wielomianowej.

9

background image

Definicja 1 Przez sie´c neuronow

,

a typu perceptronowego rozumiemy wielowarstwow

,

a sie´c z

wielowymiarowym wej´sciem i jednowymiarowym wyj´sciem, przy czym neurony w ka˙zdej warst-
wie sumuj

,

a sygnaÃly wej´sciowe z poprzedniej warstwy dodaj

,

ac staÃl

,

a progow

,

a (bias). Dla wszys-

tkich neuron´ow opr´ocz neuron´ow warstwy wyj´sciowej stosuje si

,

e tak

,

a sam

,

a funkcj

,

e aktywacji.

Przez I

n

(I = [0, 1]) b

,

edziemy rozumieli n wymiarow

,

a kostk

,

e.

Definicja 2 Przez sigmoidaln

,

a funkcj

,

e aktywacji ρ rozumiemy funkcj

,

e ρ : IR −→ I tak

,

a, ˙ze

lim

t→−∞

ρ(t) = 0

i

lim

t→∞

ρ(t) = 1.

(8)

Definicja 3 Je˙zeli dla aktywacji neuronu jako funkcj

,

e sigmoidaln

,

a u˙zyjemy funkcj

,

e Heaviside

H(z) =

½

+1 je˙zeli z > 0

0

je˙zeli z ≤ 0

,

(9)

to takie neurony nazywamy typu McCulloch - Pitts (Mc-P type).

Funkcje u˙zywane przez sie´c neuronow

,

a typu perceptronowego s

,

a sko´

nczon

,

a liniow

,

a kombinacj

,

a

pewnych transformacji afinicznych z pewnymi funkcjami sigmoidalnymi ρ postaci

s(ρ) =

k

X

j=1

a

j

ρ(ω

T

j

x + c

j

),

(10)

przy czym ω

j

, j = 1, ..., k, s

,

a staÃlymi wektorami, za´s a

j

, c

j

- staÃlymi. DziaÃlanie ω

T

j

x jest

iloczynem skalarnym.

Definicja 4 Standardow

,

a sieci

,

a neuronow

,

a (o aktywacji ρ) nazywamy sie´c typu perceptronowego

z jedn

,

a warstw

,

a ukryt

,

a, realizuj

,

ac

,

a funkcj

,

e s(ρ) dan

,

a przez (10) z pewn

,

a funkcj

,

a aktywacji ρ.

Wprowadzona t

,

a definicj

,

a klasa sieci neuronowych jest najcz

,

e´sciej u˙zywan

,

a i do niej si

,

e odnosi

wi

,

ekszo´s´c istniej

,

acych twierdze´

n o aproksymacji.

Przegl

,

ad najwa˙zniejszych twierdze´

n rozpoczynamy od teorii Kolmogorowa

Twierdzenie 2 (Kolmogorov 1957) Istniej

,

a ustalone, ci

,

agle, rosn

,

ace funkcje Φ

pq

() : I =

[0, 1] −→ IR, przy czym p = 1, ..., n, q = 1, ..., 2n + 1, takie, ˙ze ka˙zd

,

a ci

,

agÃl

,

a

funkcj

,

e f okre´slon

,

a

na I

n

mo˙zna przedstawi´c w postaci

f (x

1

, x

2

, ...x

n

) =

2n+1

X

q=1

g

q

(

n

X

p=1

Φ

pq

(x

p

)),

(11)

przy czym g

q

s

,

a odpowiednio dobranymi ci

,

agÃlymi funkcjami jednej zmiennej.

u

t

Sprecher wykazaÃl, ˙ze Φ

pq

mog

,

a by´c zast

,

apione przez iloczyn λ

p

Φ

q

.

10

background image

x

x

x

g

g

g

g

g

g

g

Σ

Σ

Σ

Φ

Φ

Φ

Φ

Φ

Φ

λ

λ

λ

λ

λ
λ

1

1

1

7

7

7

1

2

3

1

2

3

1

2

3

4

5

6

7

1

2

3

x

x

x

x

x

x

Rysunek 1: Przedstawienie reprezentacji funkcji Kolmogorova w postaci sieci neuronowej

Twierdzenie 3 (Sprecher 1965) Istniej

,

a staÃle λ

p

i ustalone ci

,

agÃle, rosn

,

ace funkcje Φ

q

: I =

[0, 1] −→ IR takie, ˙ze ka˙zd

,

a

ci

,

agÃl

,

a funkcj

,

e f okre´slon

,

a na I

n

mo˙zna przedstawi´c w postaci

f (x

1

, x

2

, ...x

n

) =

2n+1

X

q=1

g

q

(

n

X

p=1

λ

p

Φ

q

(x

p

)),

(12)

w kt´orej g

q

s

,

a odpowiednio dobranymi ci

,

agÃlymi funkcjami jednej zmiennej.

Oczywi´scie funkcje g

q

zale˙z

,

a od funkcji f , natomiast λ

p

oraz Φ

q

nie zale˙z

,

a od f .

u

t

Nast

,

epne uog´olnienie zostaÃlo podane przez Lorentza.

Twierdzenie 4 (Lorentz 1966) Istnieje n staÃlych 0 < λ

p

< 1, p = 1, ..., n i 2n + 1 ci

,

agÃlych

i rosn

,

acych funkcji Φ

q

: I = [0, 1] IR, q = 1, .., 2n + 1 takich, ˙ze dla ka˙zdej ci

,

agÃlej funkcji

f ∈ C(I

n

; n, 1) mo˙zna znale´z´c ci

,

agÃl

,

a funkcj

,

e g, prowadz

,

ac

,

a do nast

,

epuj

,

acej reprezentacji

f (x

1

, x

2

, ...x

n

) =

2n+1

X

q=1

g(

n

X

p=1

λ

p

Φ

q

(x

p

)).

(13)

u

t

Warstwa wej´sciowa jest utworzona ze wsp´oÃlrz

,

ednych wektora x = [x

1

, x

2

, ..., x

n

]. Ka˙zda z tych

wsp´oÃlrz

,

ednych jest poÃl

,

aczona z n neuronami warstwy pierwszej. Dla ka˙zdego q = 1, 2, ...2n + 1,

bierzemy n neuron´ow, posiadaj

,

acych funkcj

,

e aktywacji Φ

q

. Neurony te tworz

,

a pierwsz

,

a warstw

,

e

ukryt

,

a sieci. Wyj´sciami z tych neuron´ow s

,

a {Φ

q

(x

p

)}

q=1,2,..,2n+1,p=1,2,...,n

. S

,

a one jednocze´snie

wej´sciami to drugiej warstwy ukrytej, skÃladaj

,

acej si

,

e z 2n + 1 neuron´ow z tak

,

a sam

,

a funkcj

,

a

aktywacji g, okre´slon

,

a na sumie wa˙zonej wej´s´c do tego neuronu z wagami λ

p

. Ko´

ncowe wyj´scie

z sieci jest prost

,

a sum

,

a wyj´s´c drugiej warstwy.

Fakt, ˙ze dowoln

,

a ci

,

agÃl

,

a funkcj

,

e mo˙zna przedstawi´c w postaci prawie uniwersalnej sieci, w

kt´orej wszystko, opr´ocz funkcji aktywacji na warstwie drugiej jest niezale˙zne od funkcji f ,
jest bardzo ciekawym i obiecuj

,

acym wynikiem. Nawet liczba neuron´ow na warstwie drugiej

jest sko´

nczona i zale˙zy tylko od wymiaru zadania, czyli wymiaru wektora wej´sciowego. Ni-

estety twierdzenia Kolgomorowa, Sprechera i Lorentza s

,

a twierdzeniami m´owi

,

acymi o istnieniu

11

background image

uniwersalnej reprezentacji, a tym samym aproksymator´ow, ale nie s

,

a to twierdzenia konstruk-

tywne. Nie podaj

,

a metod w jaki spos´ob zbudowa´c funkcje aproksymuj

,

ace Φ

q

oraz g. Robiono

oczywi´scie pr´oby, znalezienia przepisu na budow

,

e tych reprezentacji.

Inny ciekawy dow´od przeprowadziÃla w 1992 r Vera Kurkova. Wykorzystuj

,

ac twierdzenia Kol-

gomorowa i Sprechera, Vera Kurkova udowodniÃla, ˙ze sie´c neuronowa typu perceptronowego z
dwoma ukrytymi warstwami i z jedn

,

a funkcj

,

a aktywacji typu sigmoidalnego jest uniwersalnym

aproksymatorem. Kurkova podaÃla r´ownie˙z g´orne oszacowanie na liczb

,

e neuron´ow w warstwach

ukrytych. Niestety liczba neuron´ow jest nadal bardzo du˙za, a budowa funkcji aproksymuj

,

acych

tak bardzo skomplikowana, ˙ze uniemo˙zliwia to bezpo´srednie wykorzystanie przeprowadzonego
dowodu.

Twierdzenie 5 (Kurkova 1992) Niech n ∈ N i n ≥ 2, ρ : IR −→ I b

,

edzie funkcj

,

a sig-

moidaln

,

a typu (8), dla dowolnej funkcji f ∈ C(I

n

; n, 1) i dla dowolnej liczby ² > 0, istnieje

k ∈ N i funkcje Φ

pq

(x

p

) i g

q

takie, ˙ze

| f (x

1

, x

2

, ...x

n

)

k

X

q=1

g

q

(

n

X

p=1

Φ

pq

(x

p

)) |< ²

(14)

dla ka˙zdego (x

1

, x

2

, ...x

n

) I

n

.

u

t

Hornik, Stinchcombe i White w 1989 r. udowodnili nast

,

epuj

,

ace bardzo wa˙zne dla teorii sieci

neuronowych twierdzenie

Twierdzenie 6 (Hornik, Stinchcombe i White 1989) Niech f ∈ C(A; n, 1), przy czym
A ⊂
IR

n

jest zwartym podzbiorem. Dla dowolnego ² > 0 istnieje w´owczas dwuwarstwowa sie´c

neuronowa zawieraj

,

aca neurony typu Mc-P w warstwie ukrytej i jest z liniowym wyj´sciem,

kt´ora przybli˙za funkcj

,

e f z bÃl

,

edem mniejszym ni˙z ².

u

t

Tez

,

e tego twierdzenia mo˙zna wypowiedzie´c z wykorzystaniem ostatnio wprowadzonej definicji

4: istnieje standardowa sie´c neuronowa z funkcj

,

a Heaviside’a (9) jako funkcj

,

a aktywacji, kt´ora

przybli˙za funkcj

,

e f z bÃl

,

edem mniejszym ni˙z ².

W 1991 twierdzenie to zostaÃlo przez Hornika uog´olnione

Twierdzenie 7 (Hornik 1991) Niech f ∈ C(A; n, 1), przy czym A ⊂ IR

n

jest zwartym podzbiorem.

Dla dowolnego ² > 0 istnieje wtedy standardowa sie´c neuronowa z sigmoidaln

,

a funkcj

,

a ak-

tywacji, kt´ora przybli˙za funkcj

,

e f z bÃl

,

edem mniejszym ni˙z ².

u

t

Twierdzenie Hornika (7) uog´olnili Leshno, Lin, Pinkus i Schocken podaj

,

ac konieczne i wystar-

czaj

,

ace warunki, jakie musz

,

a speÃlnia´c funkcje aktywacji, aby standardowa sie´c neuronowa mogÃla

by´c uniwersalnym aproksymatorem. Autorzy w swojej pracy dyskutuj

,

a r´ownie˙z rol

,

e jak

,

a speÃlnia

pr´og funkcji aktywacji (treshold value, bias). Z udowodnionego przez nich twierdzenia wynika
w szczeg´olno´sci, ˙ze funkcja sin x jest dopuszczona jako funkcja aktywacji standardowej sieci neu-
ronowej realizuj

,

acej uniwersalny aproksymator.

12

background image

Twierdzenie 8 (Leshno, Lin, Pinkus i Schocken 1993) Niech ρ ∈ L

loc

(IR) i domkni

,

ecie

zbioru jej punkt´ow nieci

,

agÃlo´sci jest miary Lebesgue’a zero. Je´sli ρ nie jest wielomianem, to

standardowa sie´c neuronowa o aktywacji ρ przybli˙za dowoln

,

a funkcj

,

a ci

,

agÃl

,

a f ∈ C(IR

n

; n, 1) z

dowoln

,

a dokÃladno´sci

,

a w normie przestrzeni L

loc

(IR

n

), przy czym liczba k neuron´ow w warst-

wie ukrytej i posta´c wektor´ow i staÃlych ω

j

, c

j

zale˙zy od funkcji aproksymowanej i wymaganej

dokÃladno´sci.

Du˙zy wkÃlad w badanie wÃlasno´sci aproksymacyjnych sieci neuronowych wni´osÃl Cybenko (1989).

PodaÃl on warunki, jakie musi speÃlnia´c zbi´or funkcji w postaci sumy (10), aby byÃl g

,

esty w

przestrzeni C(I

n

; n, 1).

Twierdzenie 9 (Cybenko 1989) Niech ρ b

,

edzie dowoln

,

a ci

,

agÃl

,

a funkcj

,

a sigmoidaln

,

a. W´owczas

sko´

nczony zbi´or sum postaci

G(x) =

k

X

j=1

a

j

ρ(ω

T

j

x + c

j

)

(15)

jest g

,

esty w C(I

n

; n, 1).

u

t

Cybenko udowodniÃl r´ownie˙z podobne twierdzenie dla funkcji caÃlkowalnych z przestrzeni L

1

(I

n

).

Jednym z pierwszych badaczy zajmuj

,

acych si

,

e wÃlasno´sciami aproksymacyjnymi sieci neu-

ronowych byÃl Funahashi (1989). UdowodniÃl on niezale˙znie od Cybenki, Hornika, Stinchcombe
i White’a, podobne twierdzenie dla dowolnej monotonicznej funkcji aktywacji.

Twierdzenie 10 (Funahashi 1989) Niech ρ b

,

edzie dowoln

,

a monotoniczn

,

a funkcj

,

a sigmoidaln

,

a.

W´owczas sko´

nczony zbi´or sum postaci

G(x) =

k

X

j=1

a

j

ρ(ω

T

j

x + c

j

)

(16)

jest g

,

esty w C(I

n

; n, 1). Innymi sÃlowy dla dowolnej funkcji f ∈ C(I

n

; n, 1) i dowolnego ² > 0

istnieje suma G(x) postaci (16), ˙ze zachodzi

| G(x) − f (x) |< ²,

(17)

dla ka˙zdego x ∈ I

n

u

t

W dalszej cz

,

e´sci ograniczamy si

,

e do przestrzeni X r´ownej C(A; n, 1) i za Mhaskarem i Mic-

chellim wprowadzamy nast

,

epuj

,

ace poj

,

ecie.

Definicja 5 Powiemy, ˙ze funkcja σ : IR IR ma wÃlasno´s´c g

,

esto´sci (density property), je´sli

dla ka˙zdego caÃlkowitego n ≥ 2 i ka˙zdego zwartego zbioru A ⊂ IR

n

, rodzina A

σ

funkcji okre´slonych

dla x ∈ A przez

A

σ

:= (w · x + c) : w IR

n

, c ∈ IR},

(18)

jest podstawowa w C(A; n, 1), tzn. zbi´or span(A

σ

) wszystkich sko´

nczonych kombinacji jest g

,

esty.

13

background image

Zgodnie z t

,

a definicj

,

a, je´sli σ ma wÃlasno´s´c g

,

esto´sci, to zbi´or F

σ

:=span(A

σ

) powinien by´c

uniwersalnym aproksymatorem. Ale elementy zbioru F

σ

s

,

a w postaci sko´

nczonych sum s(σ),

tj.

s(σ) =

k

X

j=1

a

j

σ(ω

j

· x + c

j

).

(19)

Wniosek 4 Je´sli funkcja σ : IR IR ma wÃlasno´s´c g

,

esto´sci, to dla ka˙zdego n ≥ 2 i dla ka˙zdego

zwartego A ⊂ IR

n

standardowa sie´c neuronowa o aktywacji σ jest uniwersalnym aproksymatorem

dla C(A; n, 1).

Twierdzenie 11 (Mhaskar i Micchelli 1994) Je´sli ci

,

agÃla funkcja σ : IR IR nie jest wielo-

mianem, istnieje za´s wielomian P taki, ˙ze iloraz σ/P jest ograniczony, to wtedy σ ma wÃlasno´s´c
g

,

esto´sci.

u

t

14

background image

6

Wprowadzenie do teorii sieci neuronowych

Najkr´otsz

,

a definicj

,

e sieci neuronowych mo˙zna przedstawi´c nast

,

epuj

,

aco:

jest to wielki zbi´

or wzajemnie na siebie oddziaÃlywuj

,

acych element´

ow.

Ka˙zdy z element´ow mo˙ze wykonywa´c pewn

,

a funkcj

,

e i ma przyporz

,

adkowany sobie zbi´or

parametr´ow. Elementy sieci mog

,

a by´c wszystkie wzajemnie poÃl

,

aczone, mog

,

a te˙z by´c pogrupowane

w warstwy. Elementy w danej warstwie mog

,

a by´c wzajemnie ze sob

,

a poÃl

,

aczone, lub mie´c

poÃl

,

aczenia tylko z elementami poprzedniej i nast

,

epnej warstwy. Zwykle w´sr´od warstw wyr´o˙zniamy

warstw

,

e wej´sciow

,

a (input layer), kt´orej zadaniem jest wprowadzenie danych, oraz warstw

,

e

wyj´sciow

,

a (output layer) ; przez te dwie warstwy sie´c komunikuje si

,

e ze ´swiatem zewn

,

etrznym.

PozostaÃle warstwy to warstwy ukryte (hidden layer), kt´ore nie maj

,

a kontaktu ze ´swiatem

zewn

,

etrznym.

6.1

Modele neuronu

W 1943 r McCulloch i Pitts zaproponowali prosty model neuronu w postaci dwuwarto´sciowego
elementu progowego. Neuron McCullocha i Pittsa obliczaÃl sum

,

e wa˙zon

,

a sygnaÃl´ow wej´sciowych

od innych neuron´ow i dawaÃl na wyj´sciu warto´s´c 0 lub 1 w zale˙zno´sci od tego czy suma przekroczyÃla
ustalon

,

a warto´s´c progow

,

a

u

j

(t + 1) = f (

n

X

i=1

ω

ji

z

i

− ω

j0

),

(20)

t jest parametrem czasowym, z

i

oznacza sygnaÃl wej´sciowy od i-tego elementu, natomiast ω

ji

oznaczaj

,

a warto´s´c synapsy Ãl

,

acz

,

acej i-ty neuron z j-tym. Warto´s´c synapsy mo˙ze by´c dodatnia,

ujemna lub zerowa. Dodatnia odpowiada synapsie pobudzaj

,

acej, ujemna odpowiada synapsie

hamuj

,

acej, zerowa oznacza brak poÃl

,

aczenia mi

,

edzy neuronami. Charakterystyczny parametr

ω

j0

oznacza warto´s´

c progow

,

a (bias) j-tego elementu.

Aby nast

,

apiÃla aktywacja neuronu,

suma wa˙zona wej´s´c do neuronu (potencjaÃl kom´orki) musi przekroczy´c warto´s´c progow

,

a

f (z) =

½

1

je˙zeli z > ω

j0

0 w pozostaÃlych przypadkach

.

(21)

Du˙zo ciekawsze s

,

a sieci budowane z neuron´ow, kt´orych funkcja aktywacji jest nieliniow

,

a,

rosn

,

ac

,

a funkcj

,

a rzeczywist

,

a. PrzykÃlady funkcji aktywacji:

1. sigmoida

f (z) =

1

1 + exp(−β z)

,

(22)

2. tangens hiperboliczny

f (z) =

exp(η z) exp(−η z)
exp(η z) + exp(−η z)

,

(23)

15

background image

-3

-2

-1

0

1

2

3

4

0

0.2

0.4

0.6

0.8

1

x

-3

-2

-1

0

1

2

3

4

-1

-0.5

0

0.5

1

x

Rysunek 2: a) Funkcja aktywacji – sigmoida, b) Funkcja aktywacji – tangens hiperboliczny

3. sinusoida

f (z) =

1

je˙zeliζ z < −0.5π

sin(ζ z) je˙zeli 0.5 π ≤ ζz ≤ 0.5π

+1

je˙zeli ζ z > 0.5π

,

(24)

przy czym β, η oraz ζ s

,

a zadanymi parametrami, kt´ore mog

,

a podlega´c adaptacji.

6.2

PodziaÃl sieci neuronowych

Sieci neuronowe mo˙zna podzieli´c:

1. Ze wzgl

,

edu na zastosowania:

(a) Sieci odwzorowuj

,

ace, dla zagadnie´

n aproksymacji (modelowania) (mapping net-

works)

(b) Sieci klasyfikujce, dla zagadnie´

n klasyfikacji .

2. Ze wzgl

,

edu na spos´ob dziaÃlania i architektur

,

e poÃl

,

acze´

n:

(a) Sieci jednokierunkowe (feedforward) - bez sprz

,

e˙zenia zwrotnego, jednokierunkowe.

(b) Sieci rekurencyjne (feedback) - ze sprz

,

e˙zeniem zwrotnym.

(c) Sieci neuronowe kom´orkowe (cellular neural networks).

3. Ze wzgl

,

edu na spos´ob uczenia:

(a) Sieci uczone pod nadzorem (supervised learning).

(b) Sieci uczone bez nadzoru (unsupervised learning).

16

background image

Kiedy´s dokonywano podziaÃlu ze wzgl

,

edu na wykorzystywany model neuronu:

1. Sieci liniowe (linear network).

2. Sieci nieliniowe (nonlinear network).

Wydaje si

,

e, ˙ze obecnie sieci liniowe straciÃly zastosowania, wi

,

ec takie kryterium podziaÃlu jest

nieadekwatne.

17

background image

6.3

Architektura sieci neuronowych

Sieci jednokierunkowe (feedforward) - bez sprz

,

e˙zenia zwrotnego.

Jest to sie´c neuronowa zÃlo˙zona z warstw.

Mo˙zemy tu wyr´o˙zni´c:

- warstw

,

e wej´sciow

,

a, kt´ora wst

,

epnie przetwarza wektory wej´sciowe, mo˙ze to by´c np. skalowanie,

lub normalizacja,

- warstwy ukryte, gdzie nast

,

epuje wÃla´sciwe przetwarzanie,

- warstw

,

e wyj´sciow

,

a, kt´ora generuje wyj´scie u

k

.

Niech

h

b

,

edzie numerem warstwy, przy czym h = 1, 2, ..., H,

H

oznacza liczb

,

e wszystkich warstw,

κ

h

b

,

edzie indeksem warstwy, przy czym κ

h

= 1, 2, ..., K

h

,

K

h

oznacza liczb

,

e element´ow w warstwie h.

k = 1, 2, ..., m

oznacza wymiar wyj´scia.

Warstwa h mo˙ze by´c opisana jako dziaÃlanie funkcji aktywacji f na wektor wej´sciowh u

h−1

z

warstwy poprzedniej

u

h

κ

h

= f

h

(z

h

κ

h

) = f

h

(

K

h

1

X

κ

h

=0

ω

h

l κ

h

u

h−1

κ

h

) = f

h

(ω

h

u

h−1

).

(25)

Og´olne odwzorowanie wej´scia - wyj´scia sieci, to

u

H

= f

H

(ω

H

f

H−1

(ω

H−1

..., f

1

(ω

1

u

0

)..., )),

(26)

przy czym u

H

= [u

H

1

, u

H

2

, ..., u

H

m

]

T

, to wektor sygnaÃl´ow wyj´sciowych, za´s ω

H

– macierz wsp´oÃlczynnik´ow

wag poÃl

,

acze´

n pomi

,

edzy warstw

,

a H i warstw

,

a H − 1.

18

background image

WARSTWA

WEJSCIOWA

WARSTWA

UKRYTA

WARSTWA

WYJSCIOWA

Rysunek 3: Og´olny schemat architektury sieci jednokierunkowej, wielowarstwowej.

6.4

Metody uczenia sieci neuronowych

Zastosowanie odpowiedniej architektury do konkretnego zastosowania wi

,

a˙ze si

,

e z zagadnieniem

doboru odpowiedniego algorytmu uczenia sieci neuronowej.

Definicja 6 Algorytm uczenia sieci neuronowej (algorytm adaptacyjny) jest to przepis na dob´or
wag poÃl

,

acze´

n synaptycznych ω

ij

pomi

,

edzy j-tym a i-tym neuronem tak, aby sie´c neuronowa po-

trafiÃla wykona´c zlecone jej zadanie. Dob´or wag zazwyczaj nast

,

epuje przez iteracyjne dostrajanie

warto´sci

ω

ij

.

Istniej

,

a dwa typy algorytm´ow adaptacyjnych:

1. Uczenie pod nadzorem (supervised learning).

Uczenie pod nadzorem polega na bezpo´srednim por´ownywaniu sygnaÃlu wyj´sciowego sieci ze

znan

,

a oczekiwan

,

a odpowiedzi

,

a i takie zmodyfikowanie warto´sci wag poÃl

,

acze´

n synaptycznych

ω

ij

, aby caÃlkowicie zredukowa´c wyst

,

epuj

,

acy bÃl

,

ad sieci (lub zminimalizowa´c absolutn

,

a warto´s´c

bÃl

,

edu).

Definicja 7 BÃl

,

ad sieci F jest to r´o˙znica pomi

,

edzy warto´sciami sygnaÃlu oczekiwanego y i sygnaÃlu

wyznaczonego przez sie´c u.

Czas uczenia sieci pod nadzorem, czyli liczba krok´ow iteracyjnych zale˙zy od obranych strategii,

od ˙z

,

adanej dokÃladno´sci uczenia i od sposobu prezentowania par trenuj

,

acych.

2. Uczenie bez nadzoru (unsupervised learning).

W sytuacji, gdy nie mamy dost

,

epu do informacji o prawidÃlowych wyj´sciach, stosujemy ucze-

nie bez nadzoru. Jedyne dost

,

epne informacje z kt´orych korzysta sie´c to korelacje danych

wej´sciowych. Od sieci oczekujemy, ˙ze bez zewn

,

etrznej pomocy sie´c ”odkryje” wzajemne zale˙zno´sci,

uporz

,

adkowanie danych wej´sciowych i na wyj´sciu poda te informacje w zakodowany spos´ob.

19

background image

7

Nieliniowe sieci z uczeniem propagacj

,

a wsteczn

,

a bÃl

,

edu

Jedn

,

a z najbardziej znanych i wykorzystywanych sieci neuronowych jest sie´c perceptronowa z

uczeniem typu propagacji wstecznej bÃl

,

edu (back – propagation). Algorytm uczenia opracowaÃl

w 1974 roku Werbos, ale przez wiele lat nie doceniano jego ogromnych mo˙zliwo´sci. Dopiero w
pocz

,

atkach lat osiemdziesi

,

atych Rumelhart i Parker niezale˙znie od siebie odkryli go na nowo.

Do uczenia takiej sieci wykorzystuje si

,

e gradientow

,

a metod

,

e najszybszego spadku GDM

(gradient descent method), kt´ora polega na minimalizacji sumy kwadrat´ow funkcji bÃl

,

edu

poszczeg´olnych r´o˙znic w warto´sciach wygenerowanego przez sie´c sygnaÃlu i oczekiwanej warto´sci.

Przy prezentacji p-tego wzorca trenuj

,

acego na wej´sciu sieci w s-tym kroku iteracji oznaczamy

- x

p

= [x

p
1

, x

p
2

, ..., x

p

n

] - wektor wej´sciowy,

- z

I

(p) = [z

I

1

(p), z

I

2

(p), ..., z

I

k

(p)] - wektor pobudzenia sieciowego I warstwy,

- u

I

(p) = [u

I

1

(p), u

I

2

(p), ..., u

I

k

(p)] - wektor wyj´sciowy I warstwy po dziaÃlaniu funkcji progowej,

- z

II

(p) = [z

II

1

(p), z

II

2

(p), ..., z

II

m

(p)] - wektor pobudzenia sieciowego II warstwy,

- u

II

(p) = [u

II

1

(p), u

II

2

(p), ..., u

II

m

(p)] - wektor wyj´sciowy II warstwy po dziaÃlaniu funkcji pro-

gowej,

- Ω

I

= [ω

I

1

, ω

I

2

, ..., ω

I

k

] - uog´olniony wektor wag I warstwy,

- Ω

II

= [ω

II

1

, ω

II

2

, ..., ω

II

m

] - uog´olniony wektor wag II warstwy,

- ω

I

j

= [ω

I

j0

, ω

I

j1

, ..., ω

I

jn

], - wektor wag j-tego neuronu warstwy I,

- ω

II

α

= [ω

II

α0

, ω

II

α1

, ..., ω

II

αk

] - wektor wag neuronu α warstwy II,

- y

p

= [y

p

1

, y

p

2

, ..., y

p

m

] - oczekiwany wektor wyj´sciowy.

Zbi´or danych trenuj

,

acych (training data set), reprezentuj

,

acych poszukiwan

,

a zale˙zno´s´c g :

X −→ Y , jest zÃlo˙zony z par wektor´ow,

T RE = {(x

p

, y

p

) | y

p

= g(x

p

), p = 1, 2, ..., P },

(27)

Zbi´or danych testuj

,

acych (testing data set) zÃlo˙zony z par wektor´ow wej´sciowych i wyj´sciowych

jest okre´slony jako

T ES = {(x

t

, y

t

) | y

t

= g(x

t

), t = 1, 2, ..., T }.

(28)

Wektor wag sieci Θ = (Ω

I

,

II

) skÃlada si

,

e z wag poÃl

,

acze´

n wszystkich neuron´ow sieci

rozpoczynaj

,

ac od pierwszego neuronu pierwszej warstwy wej´sciowej i ko´

ncz

,

ac na ostatnim neu-

ronie warstwy wyj´sciowej.

Dla danego p-tego wzorca j-ty neuron warstwy I (ukrytej) otrzymuje sygnaÃl pobudzenia sieciowego

z

I

j

(p) =

n

X

i=0

ω

I

ji

x

p
i

,

(29)

i po dziaÃlaniu funkcji progowej f

I

j

wytwarza sygnaÃl wyj´sciowy

u

I

j

(p) = f

I

j

(z

I

j

(p)) = f

I

j

(

n

X

i=0

ω

I

ji

x

p
i

).

(30)

20

background image

WARSTWA

WEJSCIOWA

WARSTWA

UKRYTA I

WARSTWA

WYJSCIOWA II

i=1,2,...n

j=1,2,...k

=1,2,...m

x

x

x

z

z

z

z

z

u

u

y

y

u

u

u

α

k

k

n

i

1

1

1

1

1

n

n

1

n

j

j

1

1

1

1

1

Rysunek 4: Og´olny schemat architektury dwuwarstwowej sieci z propagacj

,

a wsteczn

,

a bÃledu.

Ka˙zdy neuron warstwy II (wyj´sciowej) otrzymuje sygnaÃl

z

II

α

(p) =

k

X

j=0

ω

II

αj

u

I

j

(p) =

k

X

j=0

ω

II

αj

f

I

j

(

n

X

i=0

ω

I

ji

x

p
i

),

(31)

i ostatecznie po dziaÃlaniu funkcji progowej f

II

α

wytwarza sygnaÃl wyj´sciowy

u

II

α

(p) = f

II

α

(z

II

α

(p)) = f

II

α

(

k

X

j=0

ω

II

αj

f

I

j

(

n

X

i=0

ω

I

ji

x

p
i

)).

(32)

Podstaw

,

a algorytmu propagacji wstecznej bÃl

,

edu (back - propagation) jest procedura min-

imalizacji sumy kwadrat´ow funkcji bÃl

,

edu (zwanej te˙z funkcj

,

a kosztu, czy miar

,

a bÃl

,

edu) (error

function). Algorytm ten wykorzystuje metod

,

e najszybszego spadku, w kt´orej w spos´ob iter-

acyjny wyznacza si

,

e kolejne warto´sci wektora wag proporcjonalnie do gradientu funkcji bÃl

,

edu

F , x, y), wzgl

,

edem Θ, przy czym (x, y) TRE w danym punkcie. Funkcja bÃl

,

edu (zwana

te˙z funkcj

,

a kosztu, lub miar

,

a bÃl

,

edu) ma nast

,

epuj

,

ac

,

a posta´c

F (Ω

I

,

II

, X, Y) =

P

X

p=1

F

p

(Ω

I

,

II

, x, y),

(33)

przy czym

{X, Y} =

P

[

p=1

{(x

p

, y

p

)},

(34)

za´s

F

p

(Ω

I

,

II

, x, y) =

1
2

m

X

α=1

(f

II

α

(x

p
1

, x

p
2

, ..., x

p

n

, Θ) − y

p

α

)

2

,

(35)

21

background image

oraz

F

p

, x, y) jest funkcj

,

a bÃl

,

edu odpowiadaj

,

ac

,

a trenuj

,

acej parze (x

p
1

, ..., x

p

n

; y

p

1

, ..., y

p

m

),

przy czym p = 1, ..., P , za´s

y

p

α

jest skÃladow

,

a α oczekiwanego wektora wyj´sciowego, a

f

II

α

(x

p
1

, x

p
2

, ..., x

p

n

, Θ) = u

II

α

(p) jest skÃladow

,

a α warto´sci sygnaÃlu wyj´sciowego wygenerowanego

przez sie´c.

Funkcja F

p

, x, y) jest ci

,

agÃl

,

a i r´o˙zniczkowaln

,

a funkcj

,

a wszystkich wag, wi

,

ec mo˙zemy tu

zastosowa´c algorytm najszybszego spadku gradientu dla adaptacji wszystkich wag. Tworzymy
zatem taki algorytm zmiany wag sieci przez kolejne przybli˙zenia, aby minimalizowa´c funkcj

,

e

bÃl

,

edu, przy dowolnych warunkach pocz

,

atkowych. Ze´slizguj

,

ac si

,

e w d´oÃl po powierzchni, jak

,

a

tworzy funkcja bÃl

,

edu w przestrzeni Θ, b

,

edziemy poprawia´c ka˙zd

,

a wag

,

e Ω

i

, (przy czym i =

1, 2, ..., Q, za´s Q jest liczb

,

a wszystkich wag), o pewn

,

a wielko´s´c proporcjonaln

,

a do gradientu

funkcji F w danym punkcie

Θ = − ξ ∇Θ F(Θ; X, Y),

(36)

przy czym oznacza pochodn

,

a czasow

,

a Θ, za´s ξ jest liczb

,

a dodatni

,

a odpowiedzialn

,

a za szybko´s´c

uczenia. R´ownanie to nale˙zy wzbogaci´c warunkiem pocz

,

atkowym Θ(0) = Θ

0

.

Algorytm adaptacyjny polega na obliczaniu poprawek dla wektora wag wedÃlug nast

,

epuj

,

acych

wzor´ow iteracyjnych

s+1

= Ω

s

− µ ∇F

s

; X, Y),

(37)

przy czym wska´znik s odpowiada t = s t, i µ = ∆t ξ jest nazwany krokiem uczenia, s + 1 jest
kolejnym krokiem iteracyjnym.

- γ

I

j

(p) - bÃl

,

ad cz

,

e´sci liniowej j-tego neuronu warstwy ukrytej (I),

- γ

II

α

(p) - bÃl

,

ad cz

,

e´sci liniowej neuronu α warstwy wyj´sciowej (II),

- g

I

j

(p) - bÃl

,

ad cz

,

e´sci nieliniowej j-tego neuronu warstwy ukrytej (I),

- g

II

α

(p) - bÃl

,

ad cz

,

e´sci nieliniowej neuronu α warstwy wyj´sciowej (II).

γ

I

j

(p) =

∂F

p

∂z

I

j

(p)

,

γ

II

α

(p) =

∂F

p

∂z

II

α

(p)

,

(38)

g

I

j

(p) =

∂F

p

∂u

I

j

(p)

,

g

II

α

(p) =

∂F

p

∂u

II

α

(p)

.

(39)

22

background image

Przeprowadzaj

,

ac obliczenia otrzymujemy nast

,

epuj

,

ace wzory iteracyjne na zmian

,

e wag w

poszczeg´olnych warstwach

1. Dla neuron´ow warstwy I ukrytej zmiany wag s

,

a okre´slone przez

ω

I,s+1

jl

= ω

I,s

jl

+ µ

P

X

p=1

x

p
l

γ

I

j

(p).

(40)

2. Dla neuron´ow warstwy wyj´sciowej zmiany wektor´ow wag s

,

a dane przez

ω

II,s+1

αl

= ω

II,s

αl

+ µ

P

X

p=1

u

I

l

(p) γ

II

α

(p),

(41)

przy czym

γ

I

j

(p) = f

I

0

j

(z

I

j

(p)) g

I

j

(p),

(42)

γ

II

α

(p) = f

II

0

α

(z

II

α

(p)) g

II

α

(p),

(43)

oraz

g

I

j

(p) =

m

X

α=1

γ

II

α

(p) ω

II

αj

(p),

(44)

g

II

α

(p) = (u

II

α

− y

p

α

),

(45)

wska´znik s odpowiada t = s t, natomiast µ = ∆t ξ jest nazwany krokiem uczenia.

Analizuj

,

ac poszczeg´olne skÃladniki wzor´ow adaptacyjnych mo˙zna zauwa˙zy´c, ˙ze:

1. zmiana wag danego neuronu jest tym wi

,

eksza im wi

,

ekszy jest bÃl

,

ad obliczony na wyj´sciu

danego neuronu. Gdy bÃl

,

ad jest zerowy nie dokonujemy zmian wag.

2. im wi

,

eksza jest warto´s´c sygnaÃlu wyj´sciowego neuronu warstwy poprzedniej tym wi

,

eksza jest

zmiana wag neuronu, co oznacza, ˙ze wkÃlad tego wyj´scia w powstawaniu bÃl

,

edu jest wi

,

ekszy.

23

background image

8

Jednorodna sie´

c neuronowa M-Delta.

Jednym z kierunk´ow poprawiania algorytmu GDM jest zmiana funkcji progowej neuronu tak,
aby poprzez wprowadzenie nowych stopni swobody, zwi

,

ekszy´c mo˙zliwo´sci aproksymacyjne caÃlej

sieci.

W naszej pracy zmienili´smy definicj

,

e neuronu wprowadzaj

,

ac now

,

a form

,

e nieliniowo´sci zamiast

standardowej funkcji sigmoidalnej. Ka˙zdy neuron posiada wÃlasn

,

a nast

,

epuj

,

ac

,

a funkcj

,

e progow

,

a,

zwan

,

a funkcj

,

a aktywacji

f (s, m, δ) =

m

1 + exp(−δs)

(46)

z dwoma dodatkowymi parametrami m i δ, kt´ore s

,

a adaptowane podczas procesu uczenia.

Funkcja aktywacji f jest rosn

,

ac

,

a, nieliniow

,

a funkcj

,

a.

Parametr m jest parametrem kontroluj

,

acym zakres wyj´sciowych wektor´ow (parameters which

control the range of node outputs).

Parametr δ jest parametrem kontroluj

,

acym ksztaÃlt funkcji progowej (parameters which con-

trol the shape of the activation function). Zastosowanie tego parametru pozwoliÃlo na
zwi

,

ekszenie wra˙zliwo´sci sieci na nasycenie, a tym samym zwi

,

ekszenie zakresu wykorzystania

sieci.

Jednorodny algorytm adaptacyjny M-Delta - nazwany jest jednorodnym, gdy˙z wszystkie

parametry uog´olnionego wektora wag Θ s

,

a adaptowane zgodnie z gradientow

,

a metod

,

a na-

jwi

,

ekszego spadku GDM (gradient descent method) wyprowadzon

,

a przez Widrow’a i Hoff’a

w latach 60-tych.

Uog´olniony wektor wag Θ w jednorodnej sieci M-Delta skÃlada si

,

e z trzech cz

,

e´sci : Ω, ∆

oraz M.

24

background image

9

Niejednorodna sie´

c neuronowa NM-Delta.

1. Wady metod gradientowych GDM – jest wolno zbie˙zna i ma tendencje do wpadania w

minima lokalne.

2. Modyfikacje – id

,

a w kierunku zast

,

apienia wolno zbie˙znego algorytmu GDM innym,

bardziej odpornym na wpadanie w minima lokalne.

3. Realizacja – dla cz

,

e´sci parametr´ow uog´olnionego wektora wag zastosujemy inny algorytm

iteracyjny dziaÃlaj

,

acy dla funkcji liniowej swoich zmiennych.

Dzielimy uog´olniony wektor wag Θ na dwa podzbiory Θ = (Θ

1

, Θ

2

), przy czym pierwsza cz

,

e´s´c

Θ

1

zawiera parametry M

I

kontroluj

,

ace zakres wyj´sciowych wektor´ow oraz odpowiednio dobrane

staÃle M

II

0

peÃlni

,

ace rol

,

e funkcji skaluj

,

acej i parametry

I

kontroluj

,

ace ksztaÃlt funkcji progowej

oraz odpowiednio dobrane staÃle

II

0

.

Natomiast druga cz

,

e´s´c Θ

2

zawiera wagi (weights) poÃl

,

acze´

n wszystkich neuron´ow sieci

rozpoczynaj

,

ac od pierwszego neuronu pierwszej warstwy wej´sciowej i ko´

ncz

,

ac na ostatnim neu-

ronie warstwy wyj´sciowej.

1. Do adaptacji element´ow wektora Θ

2

zastosujemy szybciej zbie˙zny algorytm RLS (recur-

sive least squares method ), wyprowadzony przez Godarta.

2. PozostaÃl

,

a cz

,

e´s´c Θ

1

b

,

edziemy adaptowali tak jak w metodzie jednorodnej metod

,

a GDM.

Tak skonstruowany algorytm nazywamy niejednorodnym algorytmem

adaptacyjnym NM-Delta.

25

background image

W niejednorodnej sieci NM-Delta nie progujemy neuron´ow ostatniej warstwy, natomiast prze-

puszczamy oczekiwany wektor wyj´scia przez odwrotn

,

a funkcj

,

e progow

,

a. W wyniku tej operacji

dokonujemy aproksymacji nie funkcji g a f

1

◦ g.

Tu r´ownie˙z korzystamy z nowej definicji neuronu z wprowadzon

,

a now

,

a form

,

a nieliniowo´sci

f (s, m, δ) = m (1 + exp(−δs))

1

. Zastosowanie algorytmu RLS jest mo˙zliwe, poniewa˙z dla

funkcji progowej f (s, m, δ) istnieje odwrotna funkcja proguj

,

aca (antithreshold function)

f

1

(t, m, δ) = (δ)

1

log(

t

m − t

)

(47)

f

1

◦ f = Ident.

(48)

Dla algorytmu NM-Delta zastosujemy r´ownie˙z inn

,

a funkcj

,

e bÃl

,

edu

b

F , X, Y, p) =

p

X

q=1

λ

p−q

b

F

q

, x, y),

(49)

przy czym

b

F

q

, x, y) =

1
2

m

X

α=1

( z

II

α

, x

q

) − f

1

(y

q

α

))

2

,

(50)

za´s b

F

q

, x, y) jest funkcj

,

a bÃl

,

edu odpowiadaj

,

ac

,

a parze trenuj

,

acej (x

q
1

, ..., x

q

n

; y

q

1

, ..., y

q

m

) przy

q = 1, ..., P , natomiast f

1

(y

q

α

) jest skÃladow

,

a α wyj´sciowego q-tego wektora oczekiwanego,

a z

II

α

(q)(Θ, x) jest skÃladow

,

a α warto´sci sygnaÃlu wyj´sciowego wygenerowanego przez sie´c, na

q-tej parze trenuj

,

acej, za´s λ jest dodatni

,

a liczb

,

a zwan

,

a wsp´oÃlczynnikiem zapominania (forget-

ting factor). Funkcja bÃl

,

edu dla λ 6= 1 jest bardziej czuÃla na zapominanie wzorc´ow wcze´sniej

nauczonych.

26

background image

10

Niejednorodna sie´

c neuronowa NM-Delta jako uniw-

ersalny aproksymator

Niejednorondna sie´c neuronowa NM-Delta zawiera jedn

,

a warstw

,

e ukryt

,

a, kt´ora realizuje oper-

acj

,

e afiniczn

,

a na wektorze wej´scia a nast

,

epnie wykonana zostaje nieliniowa funkcja aktywacji.

Wynik z dziaÃlania (wyj´scie) sieci przy wektorze wej´scia x mo˙zna zapisa´c jako

z =

k

X

j=0

ω

II

1j

f

I

j

(

n

X

i

ω

I

ji

x

i

),

(51)

przy czym poszczeg´olne funkcje aktywacji f

I

j

s

,

a zbudowane na bazie funkcji

f (s, m, δ) = m(1 + exp(−δs))

1

.

(52)

Zauwa˙zmy, ˙ze we wzorze (51) α = 1. W problemach aproksymacji wykorzystujemy sie´c NM-
Delta, w kt´orej wej´scie jest wielowymiarowe, natomiast wyj´scie jest jednowymiarowe.

Dla wykazania, ˙ze sie´c ma wÃlasno´sci uniwersalnego aproksymatora, oprzemy si

,

e na ostatnich

wynikach Mhaskara i Micchelliego.

W tym celu wprowadzimy niezb

,

edne definicje i oznaczenia.

Definicja 8 Niech S b

,

edzie podzbiorem pewnej przestrzeni wektorowej unormowanej X. Zbi´or

wszystkich sko´

nczonych liniowych kombinacji element´ow zbioru S oznaczamy przez span(S).

Czasami zbi´or span(S) nazywa si

,

e powÃlok

,

a liniow

,

a zbioru S i oznacza si

,

e przez Lin (S).

Definicja 9 Niech X b

,

edzie przestrzeni

,

a Banacha. t.j. unormowan

,

a i zupeÃln

,

a w swojej normie

|| · ||. Zbi´or A nazywamy zbiorem podstawowym (fundamental set ) w X, je´sli domkni

,

ecie

zbioru span(A), tj. zbioru wszystkich sko´

nczonych liniowych kombinacji element´ow z A, jest

caÃl

,

a przestrzeni

,

a X.

Z definicji wynika, ˙ze je´sli A jest zbiorem podstawowym, to ka˙zdy element przestrzeni Ba-

nacha X jest granic

,

a ci

,

agu zÃlo˙zonego ze sko´

nczonych liniowych kombinacji element´ow zbioru

A. Innymi sÃlowy zbi´or, span (A) jest g

,

esty w X.

27

background image

Mo˙zemy wypowiedzie´c nast

,

epuj

,

acy

Wniosek 5 Zbi´or A jest podstawowy w przestrzeni X wtedy i tylko wtedy, gdy zbi´or span(A)
jest uniwersalnym aproksymatorem dla X.

W dalszej cz

,

e´sci ograniczamy si

,

e do przestrzeni X r´ownej C(A; n, 1) i za Mhaskarem i Mic-

chellim wprowadzamy nast

,

epuj

,

ace poj

,

ecie.

Definicja 10 Powiemy, ˙ze funkcja σ : IR IR ma wÃlasno´s´c g

,

esto´sci (density property),

je´sli dla ka˙zdego caÃlkowitego n ≥ 2 i ka˙zdego zwartego zbioru A ⊂ IR

n

, rodzina A

σ

funkcji

okre´slonych dla x ∈ A przez

A

σ

:= (w · x + c) : w IR

n

, c ∈ IR},

(53)

jest podstawowa w C(A; n, 1).

Zauwa˙zmy, ˙ze je´sli σ ma wÃlasno´s´c g

,

esto´sci, to zbi´or F

σ

:=span(A

σ

) powinien by´c uniwersalnym

aproksymatorem.

Ale elementy zbioru F

σ

s

,

a w postaci sko´

nczonych sum s(σ), tj.

s(σ) =

k

X

j=1

a

j

σ(ω

j

· x + c

j

).

(54)

Tym samym z def. 10 wynika nast

,

epuj

,

acy

Wniosek 6 Je´sli funkcja σ : IR IR ma wÃlasno´s´c g

,

esto´sci, to dla ka˙zdego n ≥ 2 i dla ka˙zdego

zwartego A ⊂ IR

n

standardowa sie´c neuronowa o aktywacji σ jest uniwersalnym aproksymatorem

dla C(A; n, 1).

Twierdzenie 12 (Mhaskar i Micchelli 1994) Je´sli ci

,

agÃla funkcja σ : IR IR nie jest wielo-

mianem, istnieje za´s wielomian P taki, ˙ze iloraz σ/P jest ograniczony, to wtedy σ ma wÃlasno´s´c
g

,

esto´sci.

u

t

28

background image

Jest oczywiste, ˙ze funkcje aktywacji postaci (52) speÃlniaj

,

a zaÃlo˙zenia ostatniego twierdzenia ze

staÃlym wielomianem r´ownym m.

Wniosek 7 Dla ka˙zdego j = 1, 2, ..., k funkcja

f

I

j

(s) =

m

I

j

1 + exp(−δ

I

j

s)

,

(55)

ma wÃlasno´s´c g

,

esto´sci.

St

,

ad ju˙z Ãlatwo udowodni´c nast

,

epuj

,

ace twierdzenie.

Twierdzenie 13 Niejednorodna sie´c neuronowa NM-Delta jest uniwersalnym aproksymatorem
dla C
(A; n, 1).

Dow´

od. Ostatni wniosek pozwala nam stwierdzi´c, ˙ze dla ka˙zdego j = 1, 2, ..., k zbi´or funkcji

okre´slonych dla x ∈ A

spanA

f

I

j

:= span{f

I

j

(ω · x + c) : ω ∈ IR

n

, c ∈ IR},

(56)

jest g

,

esty w C(A; n, 1). Tym samym suma mnogo´sciowa tych zbior´ow, tj. zbi´or

F = span{f

I

1

(ω

1

· x + c

1

), f

I

2

(ω

2

· x + c

2

), .

..ω

1

, ω

2

, ..., ∈ IR

n

, c

1

, c

2

, ... ∈ IR},

(57)

jest g

,

esty w C(A; n, 1). A to oznacza, ˙ze dla ka˙zdej funkcji ci

,

agÃlej g i ka˙zdego ² > 0 istnieje

sko´

nczona suma postaci

f (x) =

k

X

j=1

ω

II

1j

f

I

j

(ω

j

· x + c

j

),

(58)

przybli˙zaj

,

aca funkcj

,

e g z dokÃladno´sci

,

a ². To ko´

nczy dow´od twierdzenia.

u

t

Zauwa˙zmy, ˙ze gdy m

j

1

= m

j

2

i δ

j

1

= δ

j

2

, r´o˙znym indeksom j

1

, j

2

mo˙ze odpowiada´c taka sama

funkcja aktywacji w (55).

29

background image

11

Dyskusja zbie˙zno´sci algorytm´

ow adaptacyjnych

Przejd´zmy do iteracyjnego algorytmu uczenia

Θ

s+1

= Θ

s

− µ ∇Θ

s

F

s

, X, Y),

s = 1, 2, ...,

(59)

przy czym wska´znik s odpowiada numerowi kroku iteracji, za´s µ jest nazwany krokiem uczenia.
Z naszych bada´

n testowych i eksperyment´ow przeprowadzanych przez innych autor´ow por. np.

(Jang, 1993, Du et al.,1992) wynika, ˙ze parametr µ odpowiedzialny za szybko´s´c uczenia, nie
mo˙ze by´c staÃly podczas caÃlego procesu uczenia. W pierwszym okresie uczenia, gdy jeste´smy
daleko od rozwi

,

azania µ powinno by´c du˙ze, aby proces dochodzenie do minimum funkcji bÃl

,

edu

byÃl dostatecznie szybki. W pobli˙zu rozwi

,

azania zbyt du˙ze µ powoduje wpadanie w oscylacje,

co uniemo˙zliwia zako´

nczenie procesu. Wtedy nale˙zaÃloby zmniejszy´c krok uczenia.

Warunkiem koniecznym zbie˙zno´sci algorytmu uczenia jest speÃlnienie nast

,

epuj

,

acej relacji

lim

s→∞

| Θ

s+1

Θ

s

|

Q

= 0,

(60)

przy czym Θ

s

IR

Q

, za´s Q jest liczb

,

a element´ow uog´olnionego wektora wag.

Zapiszmy wz´or iteracyjny (59) w postaci

Θ

s+1

Θ

s

= − µ

s

∂F

Θ

s

= − γ

s

∂F

Θ

s

| ∂F

Θ

s

|

Q

,

(61)

przy czym zwi

,

azek mi

,

edzy µ

s

a γ

s

jest nast

,

epuj

,

acy

µ

s

= γ

s

1

r

∂F

Θ

s

·

∂F

Θ

s

= γ

s

1

s

Q

P

i=1

∂F

Θ

s

i

∂F

Θ

s

i

.

(62)

Warunek (60) b

,

edzie speÃlniony, je´sli

γ

s

0.

(63)

Wyniki prac Pol’aka (1983) wskazuj

,

a, ˙ze je´sli opr´ocz warunku (71) zachodzi

X

s=0

γ

s

= ∞ ,

(64)

to w przypadku wypukÃlej funkcji F

s

) algorytm iteracyjny jest zbie˙zny do minimalnej warto´sci

funkcji F .

Postawienie tego warunku daje mo˙zliwo´s´c uzale˙znienia parametru γ od kroku s.

PrzykÃladami funkcji speÃlniaj

,

acych (71) i (72) mog

,

a by´c

γ

s

=

γ

0

s + c

, c ∈ IR,

γ

s

=

γ

0

s

ρ

, 0 < ρ ≤ 1,

γ

s

=

γ

0

s log s

,

(65)

30

background image

przy czym γ

0

jest pewn

,

a staÃl

,

a traktowan

,

a jako warto´s´c pocz

,

atkowa. Jest oczywiste, ˙ze wystar-

czy, aby zale˙zno´sci (73) byÃly speÃlnione dla du˙zych s.

W licznych pracach niniejsi autorzy zastosowali uzmiennienie parametru µ w postaci

µ

s

=

µ

0

(s + 1) || ∇

F (Ω

s−1

) ||

.

(66)

Przeprowadzone eksperymenty numeryczne potwierdzaj

,

a wybran

,

a heurystyk

,

e doboru zmien-

nego µ

s

. W pierwszej fazie uczenia dobieramy µ

0

na podstawie maksymalnej warto´sci norm

wektor´ow zbioru trenuj

,

acego. Obliczamy µ

0

µ

0

=

1

max

p=1,2,...P

Ã

n

X

i=0

(x

p
i

)

2

! ,

x

p
0

= 1.

(67)

Uzmiennianie µ od kroku iteracyjnego dokonujemy dla du˙zych s, tj. dopiero wtedy, gdy mamy
podejrzenie, i˙z znajdujemy si

,

e blisko rozwi

,

azania i bÃl

,

ad si

,

e niewiele zmienia lub zmienia si

,

e

bardzo wolno.

Twierdzenia Pola’ka zakÃladaj

,

a tylko warunek wypukÃlo´sci funkcji. Z drugiej strony mo˙zna

dobiera´c parametr uczenia z warunku, aby funkcja Φ okre´slona przez

Φ(µ) := F

µ

Θ

s

− µ

∂F

s

, X, Y)

Θ

s

, X, Y

.

(68)

osi

,

agaÃla warto´s´c minimaln

,

a na p´oÃlprostej normalnej do powierzchni staÃlej warto´sci funkcji bÃl

,

edu

F . Wyprowadza si

,

e cz

,

esto zale˙zno´sci zakÃladaj

,

ac, ˙ze wszystkie rozwi

,

azania r´ownania Φ

0

(µ

s

) =

0 s

,

a odosobnione, to znaczy s

,

a punktami istotnego minimum funkcji Φ. W ten spos´ob nie

dopuszcza si

,

e sytuacji, kt´ora jest bardzo cz

,

esto realna, ˙ze ksztaÃlt funkcji bÃl

,

edu jest pÃlask

,

a

rynn

,

a; a wtedy rozwi

,

azania (76) nie s

,

a odosobnione. Wyniki por´owna´

n obu metod skÃloniÃly nas

do wyboru i zastosowania metody Pola’ka z warunkami (71), (72).

Zapiszmy wz´or iteracyjny (59) w postaci

Θ

s+1

Θ

s

= − µ

s

∂F

Θ

s

= − γ

s

∂F

Θ

s

| ∂F

Θ

s

|

Q

,

(69)

przy czym zwi

,

azek mi

,

edzy µ

s

a γ

s

jest nast

,

epuj

,

acy

µ

s

= γ

s

1

r

∂F

Θ

s

·

∂F

Θ

s

= γ

s

1

s

Q

P

i=1

∂F

Θ

s

i

∂F

Θ

s

i

.

(70)

Warunek (60) b

,

edzie speÃlniony, je´sli

γ

s

0.

(71)

Wyniki prac Pol’aka (1983) wskazuj

,

a, ˙ze je´sli opr´ocz warunku (71) zachodzi

X

s=0

γ

s

= ∞ ,

(72)

31

background image

to w przypadku wypukÃlej funkcji F

s

) algorytm iteracyjny jest zbie˙zny do minimalnej warto´sci

funkcji F .

Postawienie tego warunku daje mo˙zliwo´s´c uzale˙znienia parametru γ od kroku s.

PrzykÃladami funkcji speÃlniaj

,

acych (71) i (72) mog

,

a by´c

γ

s

=

γ

0

s + c

, c ∈ IR,

γ

s

=

γ

0

s

ρ

, 0 < ρ ≤ 1,

γ

s

=

γ

0

s log s

,

(73)

przy czym γ

0

jest pewn

,

a staÃl

,

a traktowan

,

a jako warto´s´c pocz

,

atkowa. Jest oczywiste, ˙ze wystar-

czy, aby zale˙zno´sci (73) byÃly speÃlnione dla du˙zych s.

W licznych pracach niniejsi autorzy zastosowali uzmiennienie parametru µ w postaci

µ

s

=

µ

0

(s + 1) || ∇

F (Ω

s−1

) ||

.

(74)

Przeprowadzone eksperymenty numeryczne potwierdzaj

,

a wybran

,

a heurystyk

,

e doboru zmien-

nego µ

s

. W pierwszej fazie uczenia dobieramy µ

0

na podstawie maksymalnej warto´sci norm

wektor´ow zbioru trenuj

,

acego. Obliczamy µ

0

µ

0

=

1

max

p=1,2,...P

Ã

n

X

i=0

(x

p
i

)

2

! ,

x

p
0

= 1.

(75)

Uzmiennianie µ od kroku iteracyjnego dokonujemy dla du˙zych s, tj. dopiero wtedy, gdy mamy
podejrzenie, i˙z znajdujemy si

,

e blisko rozwi

,

azania i bÃl

,

ad si

,

e niewiele zmienia lub zmienia si

,

e

bardzo wolno.

Twierdzenia Pola’ka zakÃladaj

,

a tylko warunek wypukÃlo´sci funkcji. Z drugiej strony mo˙zna

dobiera´c parametr uczenia z warunku, aby funkcja Φ okre´slona przez

Φ(µ) := F

µ

Θ

s

− µ

∂F

s

, X, Y)

Θ

s

, X, Y

.

(76)

osi

,

agaÃla warto´s´c minimaln

,

a na p´oÃlprostej normalnej do powierzchni staÃlej warto´sci funkcji bÃl

,

edu

F . Wyprowadza si

,

e cz

,

esto zale˙zno´sci zakÃladaj

,

ac, ˙ze wszystkie rozwi

,

azania r´ownania Φ

0

(µ

s

) =

0 s

,

a odosobnione, to znaczy s

,

a punktami istotnego minimum funkcji Φ. W ten spos´ob nie

dopuszcza si

,

e sytuacji, kt´ora jest bardzo cz

,

esto realna, ˙ze ksztaÃlt funkcji bÃl

,

edu jest pÃlask

,

a

rynn

,

a, a wtedy rozwi

,

azania (76) nie s

,

a odosobnione. Wyniki por´owna´

n obu metod skÃloniÃly nas

do wyboru i zastosowania metody Pola’ka z warunkami (71), (72).

32

background image

12

Kierunki dalszych bada´

n

Poszukiwanie uniwersalnych aproksymator´ow jest spraw

,

a otwart

,

a ze wzgl

,

edu na brak konstruk-

tywnych matematycznych dowod´ow jak budowa´c takie aproksymatory. Z przeprowadzonych
test´ow wynika, ˙ze dla du˙zej klasy zada´

n poszukiwanie uniwersalnych aproksymator´ow powinno

i´s´c w kierunku rozwoju hybrydowych adaptacyjnych system´ow powstaÃlych z poÃl

,

aczenia sieci

neuronowych z rozmytymi systemami wnioskuj

,

acymi .

1. W skomplikowanych zadaniach aproksymacyjnych, w kt´orych po˙z

,

adana jest du˙za

dokÃladno´s´c, celowe wydaje si

,

e przeprowadzanie wst

,

epnej analizy danych trenuj

,

acych

dla wykrycia nieregularno´sci i skupie´

n danych. PozwoliÃloby to na zastosowanie hierarchii

sieci neuronowych do poszczeg´olnych partii danych. Zastosowanie klasyfikacji jako pre-
procesora danych, a nast

,

epnie u˙zycie r´o˙znych system´ow do poszczeg´olnych klas danych,

pozwoli naszym zdaniem na otrzymanie znacznie lepszej dokÃladno´sci.

2. W zagadnieniach modelowania, kiedy dane numeryczne (np.pochodz

,

ace z eksperymentu

fizycznego) mog

,

a by´c obdarzone du˙zymi bÃledami (zaszumieniami), wydaje si

,

e konieczne

rozwin

,

ecie metod zabezpieczaj

,

acych przed nadmiernym dopasowaniem do zbioru

trenuj

,

acego; proces uczenia winien by´c odpowiednio wcze´sniej zatrzymany.

3. Wykorzystanie jako preprocesora modelu rozmytego klasyfikatora k–najbli˙zszych

s

,

asiad´

ow, pozwalaj

,

acego na redukcj

,

e cech zbioru wej´sciowego spowoduje znaczne zm-

niejszenie rozmiaru wej´s´c sieci neuronowej i rozmytego systemu wnioskuj

,

acego, co ma

du˙zy wpÃlyw na obni˙zenie zÃlo˙zono´sci obliczeniowej i wzrost szybko´sci uczenia.

4. Wprowadzenie dalszej automatyzacji doboru parametr´

ow sieci neuronowych.

Przetestowanie r´o˙znych heurystyk doboru i zmian tych parametr´ow mo˙ze przyspieszy´c
zbie˙zno´s´c uczenia system´ow, oraz uÃlatwi´c u˙zytkownikom korzystanie z system´ow.

5. Zast

,

apienie klasycznego algorytmu gradientowego algorytmami bardziej zÃlo˙zonymi np.

algorytmem wykorzystuj

,

acym metod

,

e sprz

,

e˙zonych gradient´

ow, przy jednoczesnym

zastosowaniu nowego wyprowadzonego w pracy modelu neuronu.

6. Zastosowanie metod genetycznych przy doborze parametr´ow sieci.

7. Rozwini

,

ecie praktycznych zastosowa´

n budowanych system´ow aproksymacji jako

moduÃl´ow wspomagaj

,

acych w mechanice eksperymentalnej, modelowaniu zjawisk fizy-

cznych.

33


Wyszukiwarka

Podobne podstrony:
Krzywański, Węgrzyn Wykorzystanie sztucznych sieci neuronowych dla celow modelowania rzeczywistości
B3 Sieci neuronowe w modelowaniu obiektów dynamicznych
Modelowanie sieci neuronów w GENESIS wojcik
MSI-program-stacjonarne-15h-2011, logistyka, semestr IV, sieci neuronowe w log (metody sztucznej int
Ontogeniczne sieci neuronowe skrypt(1)
04 Wyklad4 predykcja sieci neuronoweid 523 (2)
Pytania egz AGiSN, SiMR - st. mgr, Alg. i Sieci Neuronowe
MSI-ściaga, SiMR - st. mgr, Alg. i Sieci Neuronowe
32 Sieci neuronowe
Identyfikacja Procesów Technologicznych, Identyfikacja charakterystyki statycznej obiektu dynamiczne
sieci neuronowe, Sieci NeuronoweKolos
sztuczne sieci neuronowe sciaga
Identyfikacja Procesów Technologicznych, Identyfikacja charakterystyk statycznych obiektu dynamiczne
Projekt I Sztuczna Inteligencja, Sprawozdanie, Techniczne zastosowanie sieci neuronowych
badania operacyjne, badania operacyjne - skrypt z PUTINF, Sieci neuronowe

więcej podobnych podstron