33
Rozdział 3- Liniowe sieci neuronowe
który nie powinien się buntować przeciwko wnioskom formułowanym z wykorzystaniem matematyki. Inżynier bowiem zawsze odpowiada za jakość zbudowanej przez siebie konstrukcji i w razie katastrofy to on jest stawiany przed sądem, a nie jakieś tam równanie!
Skupmy teraz uwagę na matematycznych właściwościach opisanego procesu uczenia. Przytoczony wyżej wzór opisujący regułę uczenia elementu ADALINE jest. bardzo ważny, gdyż zastosowana w nim reguła DELTA jest podstawą i punktem wyjścia przy konstrukcji większości algorytmów automatycznego uczenia. L tego względu warto dokonać także matematycznej analizy istoty tej reguły. Dla skupienia uwagi podczas dalszych rozważań wygodnie jest. wprowadzić, pojęcie ciągu uczącego. Ciąg t.cn ma następującą budowę:
U= « >,< X‘V2ł >.....< »
czyli składa się z par postaci < X<;), > zawierający cli wektor X podany w j-tym
kroku procesu uczenia i informację o wymaganej odpowiedzi neuronu z w tym kroku. Uwzględniając numerację par składających się na ciąg uczący, można zapisać w zmodyfikowany sposób rozważaną tu regułę uczenia:
We wzorze tym
, frU) — A}) _ y(j)
gdzie
yii) - w(j
Regułą ta daje się łatwo stosować pod warunkiem wprowadzenia początkowego wektora wag W*1); zwykle zakłada się, że wektor ten ma składowe wybrane losowo*. W programach symulujących pracę sieci neuronowych wykorzystuje się specjalne rozkazy, nakazujące nadanie losowych wartości składowym wektora wag. ale nie jest to konieczne, ponieważ mogą one pochodzić na przykład z poprzedniego cyklu uczenia, kiedy neuronowi narzucano realizację innej funkcji. Jedyne, czego trzeba bezwarunkowo unikać, to przyjmowania jednakowych wartości dla różnych składowych wektora W na początku procesu uczenia (powinno się zapewnić Nie dotrzymanie tego warunku prowadzi niekiedy do braku
postępów w początkowym etapie procesu uczenia.
Po wprowadzeniu przytoczonych oznaczeń można sformułować cel procesu uczenia. Celem tytn jest uzyskanie zgodności odpowiedzi neuronu * z wymaganymi wartościami co daje się sprowadzić do mimimalizacji funkcji kryterialnej:ł
j = l
^Dodatkowo celowe jest przyjmowanie na początku niezbyc dużych wartości składowych wektora W, tak. aby norma || Hdł)|| była ograniczona. Wymaganie to wynika z faktu, żc stosowanie reguły DELTA w procesie uczenia prowadzi do systematycznego zwiększania normy wektora W (j| Md-i+D|| > )j o> może
prowadzić do przepełnienia {overfiou>) podczas prowadzenia sensownych obliczeń. Przyjęcie malej wartości || wprawdzie nie eliminuje tego problemu, ale może spowodować, że wystąpi on znacznie później.
a Funkcja Q nawiązuje do szeroko znanej metody najmniejszych kwadratów (oznaczanej w literaturze jako LMS), dlatego omawiana metoda uczenia bywa także opisywana w skrócie iako metoda LMS.