119
Rozdział 9. Dynamika procesu uczenia sieci neuronowych
albo — uwzględniając równanie opisujące funkcjonowanie neuronu dW
—— = aX Xr W - 0 (WT X W XT) W dt
Wprowadzając jak poprzednio oznaczenie:
E { X XT \ W } = Cx x
otrzymujemy równanie:
dW
Ten rnodei uczenia okazuje się — co może być zaskakujące — łatwiejszy do analizy, niż wcześniej dyskutowane przypadki. Rozważmy najpierw długość wektora W.
E { d ||W|| /,« | W } = 2Wt Cxx W (,. - fi ||W||2)
Ponieważ Wr CXXW jest skalarem i WTCXXW > 0, zatem łatwo dowieść, że ||W|| zmierza do wartości y/ct/f), podobnie jak w przypadku 3.
Następnie rozważymy zmienność kąta 9* pomiędzy wektorem W* i C, (?'-tyin wektorem własnym macierzy Cxx). batwo wykazać, że
E { rf(oosei)M | w } = o- cos ef (a,. - Wj|wpW)
czyli, że zachowanie wektora W jest tu analogiczne, jak w przypadku 4 . W sumie rozwiązanie W(<) zmierza więc do punktu na powierzchni sfery o promieniu y/ot/0, a położenie tego punktu wyznaczone jest przez wektor Cmox.
Opisane wyżej rozważania można teraz uogólnić. Rozważmy ponownie równanie dynamiki procesu uczenie w ogólnej postaci:
dW
~dt
Można sformułować następujące dwa ogólne twierdzenia:
Twierdzenie 1. Niech = ot i -y(.) = -y(y) a y = WT X. Niech funkcja 7(y) spełnia warunek, że istnieje wartość oczekiwana E{7(j/)|W), a dla każdego / wektor X(f) niech będzie wektorem stochastycznym o stacjonarnych parametrach statystycznych, niezależnych od W. Wówczas, jeśli równanie
—- = E {<xX-~f[y)W\W} dt
maniezerowe ograniczone rozwiązanie W*, to rozwiązanie to musi mieć ten smn kierunek co X — wartość średnia X(/) ).
Twierdzenie 2. Przyjmijmy wszystkie założenia twierdzenia 1, a ponadto załóżmy, że Cxx jest. macierzą kowariancji wektora X. Wówczas jeśli równanie