33
Rozdział 3. Ijiniowe sieci neuronowe
który nie powinien się buntować przeciwko wnioskom formułowanym z wykorzystaniem matematyki. Inżynier bowiem zawsze odpowiada za jakość zbudowanej przez siebie konstrukcji i w razie katastrofy to on jest stawiany przed sądem, a nie jakieś tam równanie!
Skupmy teraz uwagę na matematycznych właściwościach opisanego procesu uczenia. Przytoczony wyżej wzór opisujący regułę uczenia elementu ADALINE jest bardzo ważny, gdyż zastosowana w nim reguła DELTA jest. podstawą i punktem wyjścia przy konstrukcji większości algorytmów automatycznego uczenia. Z tego względu warto dokonać także matematycznej analizy istoty tej reguły. Dla skupienia uwagi podczas dalszych rozważań wygodnie jest wprowadzić pojęcie ciągu uczącego. Ciąg t.en ma następującą budowę:
U = >,< X<1 2\*<2> >.....< x<*V*>»
czyli składa się z par postaci < X<>), > zawierających wektor X podany w y-tym
kroku procesu uczenia i informację o wymaganej odpowiedzi neuronu z w tym kroku. Uwzględniając numerację par składających się na ciąg uczący, można zapisać w zmodyfikowany sposób rozważaną tu regułę uczenia:
W(;+D _ wo) + t)(i) $ij) x<>>
We wzorze tym
fi(j) — :0) _ y(})
gdzie
y(j) - w^1* Xlii
Regułą ta daje się łatwo stosować pod warunkiem wprowadzenia początkowego wektora wag W*1); zwykle zakłada się, że wektor t.en ma składowe wybrane losowo2. W programach symulujących pracę sieci neuronowych wykorzystuje się specjalne rozkazy, nakazujące nadanie losowych wartości składowym wektora wag. ale nie jest to konieczne, ponieważ mogą one pochodzić, na przykład z poprzedniego cyklu uczenia, kiedy neuronowi narzucano realizację innej funkcji. Jedyne, czego trzeba bezwarunkowo unikać, to przyjmowania jednakowych wartości dla różnych składowych wektora W na początku procesu uczenia (powinno się zapewnić V^i4, wjP £ u'^). Nie dotrzymanie tego warunku prowadzi niekiedy do braku postępów w początkowym etapie procesu uczenia.
Po wprowadzeniu przytoczonych oznaczeń można sformułować cel procesu uczenia. Celem tym jest- uzyskanie zgodności odpowiedzi neuronu z wymaganymi wartościami ćo daje się sprowadzić do mimiinałizacji funkcji kryterialnej:i
j=i
2Dodatkowo celowe jest przyjmowanie ma początku niezbyt dużych wartości składowych wektora W, tak, aby norma || JV(ł)|| była ograniczona. Wymaganie to wynika z faktu, że stosowanie reguły DELTA w procesie uczenia prowadzi do systematycznego zwiększania normy wektora W (j| M/{j+D|| > || Vt'*J'||) co może prowadzić do przepełnienia (overfiou<) podczas prowadzenia stosownych obliczeń. Przyjęcie małej wartości |('K/t,)|| wprawdzie nie eliminuje tego problemu, ałe może spowodować, że wystąpi on znacznie później.
Funkcja Q nawiązuje do szeroko znanej metody najmniejszych kwadratów (oznaczanej w literaturze jako LMS), dlatego omawiana metoda uczenia bywa także opisywana w skrócie jako metoda LMS.