113
Rozdział 9. Dynamika procesu uczenia sieci neuronowych
Rozwiązanie ma ogólną posłać
i można mu przypisać prostą interpretację: Uczenie prowadzi w tym wypadku jedynie do wyznaczania ruchomej średniej (ważonej wykładniczą funkcją czasu) wejściowego wektora X(J). Początkowa wartość wektora W(0) jest szybko zapominana.
Przypadek 2. Jedna funkcja jest liniowa, a druga stała: 4> = a y i -y = fi
Jest to — jak pisze Kohonen pierwszy nietrywialny model procesu uczenia najniższego rzędu. W tym wypadku sygnał wyjściowy neuronu y ingeruje w proces uczenia w najprostszy z możliwych sposobów, wywodzący się z klasycznych prac Ilebba [HebbdO].
Zakładając, że neuron jest typu ADALINE (z liniową funkcją przejścia y?) mamy oczywiście y - WrX, a zatem
gdzie I jest macierzą jednostkową o rozmiarach [ii x »]. Równanie to można zapisać w wygodniejszej postaci
gdzie A = cc/}). Właściwości tego równania łatwiej będzie prześledzić, jeśli wprowadzi się dyskretną skalę czasu. Wówczas kolejne wartości wektora W{/) (gdzie / =0, 1,2,...) można wyznaczać z iteracyjnego równania
Oznaczając występujący przy W(/) zależny od czasu {numeru kroku /) macierzowy mnożnik w tym równaniu przez P(/) otrzymujemy proste w formie równanie dynamiki procesu uczenia:
W(t + 1) = P(/) W(0
gtlzie macierz P(t) wyznaczana jest za pomocą zależności:
Rozwiązanie opisanego równania daje dynamikę procesu uczenia w formie:
W(/+ 1) =
*=u
W(0)
Dość łatwo jest się zorientować, że rozwiązanie to w ogólnym przypadku ma dość niekorzystne właściwości: albo jest rozbieżne (wartości W(/) „eksplodują” i osiągają nieskończenie duże wartości), albo zbiega się do wektora zerowego. Tak więc rozważaną tu metodę uczenia wolno stosować jedynie tło modelowania systemów o skończonym i relatywnie krótkim