113
Rozdział 9. Dynamika procesu uczenia sieci neuronowych
Rozwiązanie ma ogólną postać
W(f) = f-** ^W(O) + « jf r*T X(r) dr
i można mu przypisać prostą interpretację: Uczenie prowadzi w tym wypadku jedynie do wyznaczania ruchomej średniej (ważonej wykładniczą funkcją czasu) wejściowego wektora X(J). Początkowa wartość wektora W(0) jest szybko zapominana.
Przypadek 2. Jedna funkcja jest liniowa, a druga stała: <f> = a y i -y = (i
— = CtyX-f)W
Jest to — jak pisze Kolionen — pierwszy nietrywialny model procesu uczenia najniższego rzędu. W tym wypadku sygnał wyjściowy neuronu y ingeruje w proces uczenia w najprostszy z możliwych sposobów, wywodzący się z klasycznych prac Ilebba [IIel>b49].
Zakładając, że neuron jest. typu ADALIIME (z liniową funkcją przejścia mamy oczywiście y = WTX, a zatem
gdzie I jest macierzą jednostkową o rozmiarach [n x u). Równanie to można zapisać w wygodniejszej postaci
./IV
^ = -/* (I — A X Xr) W
gdzie A = o/fi. Właściwości tego równania łatwiej będzie prześledzić, jeśli wprowadzi się dyskretną skalę czasu. Wówczas kolejne wartości wektora W(t) (gdzie { =0, 1,2,...) można wyznaczać z iteracyjnego równania
W(/ + 1)= [(l-/y)I + oX(/)XT(0] W(/)
Oznaczając występujący przy W(/) zależny od czasu (numeru kroku /) macierzowy mnożnik w tym równaniu przez P(/) otrzymujemy proste w formie równanie dynamiki procesu uczenia:
gdzie macierz P(t) wyznaczana jest za pomocą zależności:
P(/) = (l -/*)! + « X(/)XT(t)
Rozwiązanie opisanego równania daje dynamikę procesu uczenia w formie:
W(f + 1) =
t-=u
W(0)
Dość łatwo jest się zorientować, że rozwiązanie 1-o w ogólnym przypadku ma dość niekorzystne właściwości: albo jest rozbieżne (wartości W(/) „eksplodują” i osiągają nieskończenie duże wartości), albo zbiega się do wektora zerowego. Tak więc rozważaną tu metodę uczenia wolno stosować jedynie do modelowania systemów o skończonym i relatywnie krótkim