34
3.4. Matematyczne aspekty procesu uczenia sieci
Wzór ten wygodnie będzie zapisać, w postaci
;'=i
gdzie oczywiście
Ponieważ Q = Q(W), zatem poszukiwanie minimum może być dokonywane metodą gradientową. Skupiając uwagę na i-tej składowej wektora W, możemy więc zapisać:
, A dQ
w i — ui| = Aw* = — 11-,— dti>i
Wzór ten można interpretować w sposób następujący: poprawka Atu,- jakiej powinna podlegać i-ta składowa wektora W, musi być proporcjonalna do i-tej składowej gradientu funkcji Q. Znak - w omawianym wzorze wynika z faktu, że gradient Q wskazuje kierunek najszybszego wzrastania tej funkcji, podczas gdy w omawianej metodzie zależy nam na tym. by zmieniać W w kierunku najszybszego malenia blcdu popełnianego przez sieć, czyli w kierunku najszybszego malenia funkcji Q. Współczynnik proporcjonalności // określa wielkość kroku Atv i może być w zasadzie wybierany dowolnie. W rzeczywistości jednak podlega on pewnym ograniczeniom. Przyjmując, że uczenie jest procesem stochastycznym (co znajduje uzasadnienie w stochastycznym charakterze ciągu uczącego (/), możemy stwierdzić, że wartości r/ powinny być zależne od numeru pokazu j, a zatem powinny tworzyć ciąg < »/2\ •••,>• Uwzględniono to we wzorze wprowadzającym regułę uczenia, pisząc
zamiast. jj. Z teorii aproksymacji stochastycznej można wyprowadzić wniosek, że >/U) powinny spełniać warunki
JJ) _
E
; = >
< cc
W najprostszym wypadku warunki te spełnia ciąg
ył(0)
J
-l
ale szybkie malenie, r/^ ze wzrostem j jest w tym wariancie czynnikiem zbyt silnie ogra-niczjącym efektywny czas uczenia (już dla niewielkich numerów j wartości stają się mniejsze od dokładności numerycznej używanego komputera i w kolejnych pokazach proces uczenia praktycznie zatrzymuje się, gdyż = o). Z tego względu, a także w celu ograniczenia'1 wzrostu modułu wektora W, proponuje się niekiedy w charakterze ciągu ryU) wartości obliczane ze wzoru
Ą Ogranicciiie wzrostu modułu W jest celowe, ponieważ uieograniczcnic rosnące bezwzględne wartości składowych w, prowadzą do trudności z ich praktyczną realizacją zarówno przy symulacji komputerowej (problem dokładności numerycznej) jak i przy fizycznym odwzorowaniu wag w elektronicznym modelu neuronu.