Rozdział 9
W poprzednich rozdziałach prezentowane były rozmaite modele sieci neuronowych i różne związane z nimi techniki uczenia. Uczenie (rozważane Lu chwilowo w odniesieniu tło pojedynczego neuronu) generalnie polegało na znajdowaniu nowych wartości wektora wag W' na podstawie poprzednich wartości tego wektora W oraz pewnych dodatkowych danych (wektora wejściowego X, sygnału wyjściowego t/. wielkości zadanej z itp.). W wyniku procesu uczenia wektor wag W zmieniał się w trakcie procesu uczenia, co zaznaczane było przez dopisywanie do tego wektora numeru kroku procesu uczenia j, najczęściej w postaci W^'>. Nasza dotychczasowa troska w trakcie procesu uczenia wiązała się głównie z efektem końcowym — czy neuron nauczy się wymaganej funkcji y = /(X) czy nie. Teraz natomiast zainteresujemy się bliżej samym procesem uczenia i dynamiką zmian wektora wag W w trakcie tego procesu. Wygodniej będzie jednak rozpatrywać zmiany wag jako proces ciągły, wprowadzając wektor wag jako funkcję czasu W(t), a regułę uczenia jako równanie różniczkowe wiążące zmiany tego wektora z czynnikami decydującymi o procesie uczenia. Wzorując się na podejściu Kohonena [Kolio89] ogólną postać tego równania można zapisać w formie
dW
-5- = *(•) *"7(.) W
gdzie <£(.) i 7(.) są pewnymi (być może nieliniowymi) skalarnymi funkcjami X, W oraz y. Składnik ó(.) X odpowiedzialny jest za proces nabywania nowych doświadczeń przez sieć; powoduje on w ogólnym przypadku całkowanie sygnałów wejściowych i przyczynia się do wytworzenia wewnętrznej reprezentacji nabywanych przez neuron umiejętności. Drugi składnik odpowiada za proces zapominania starych i nie aktualnych umiejętności, dzięki czemu mimo stałego dopływu nowych informacji X(/) nie dochodzi do przepełnienia pamięci.
W podanych niżej rozważaniach ograniczymy się do zadań, w których <p = ó(y) i 7 = 7(1/) analizując poszczególne przypadki funkcji o różnym stopniu nieliniowości.
Przypadek 1. Funkcje stałe: <f> = n i 7 = fi
-= iY X - flW
di