4 fi
■1.10. Przyspieszanie procesu uczeniu
momentu m):
>00+1) _
+ *h *
O)
(Jj)
/Jj) ^ „
\2»» ~ l/m ) > tyj
/ Ji) ,,0)\
Kgm — ym ) S *i-i
Z opisywanych w literaturze doświadczeń wynika, że parametr powinien na początku procesu uczenia przyjmować wartość 0,2, a następnie powinien być redukowany do zera [Klitna91].
Wybór współczynników ?/j, ?/2 i ty* jest w chwili obecnej w większym stopniu sprawą sztuki (a więc na przykład intuicji eksperymentatora), niż sprawą ściślej wiedzy. Zwykle należy zaczynać od dużych wartości tych współczynników i potem stopniowo je redukować, czasami jednak proces uczenia lepiej przebiega, gdy w pierwszych krokach współczynniki te mają bardzo małe wartości, dopiero potem zwiększane są do typowego (wyżej podanego) poziomu. Jest to kwestia doświadczenia i wyczucia, gdyż trudno znaleźć teoretyczne uzasadnienie dla tego zjawiska. Podobnie powszechnie akceptowana empirycznie sprawdzona reguła, głosząca, że wymienione współczynniki powinny mieć mniejsze wartości dla dużych sieci (w sensie liczby neuronów), nie może być chwilowo przekonywująco wyjaśniona na podstawie czystej teorii. Inna reguła, mająca duże znaczenie dla sieci złożonyrl» z nieliuio-wych neuronów, głosi konieczność stosowania mniejszych wartości łych współczynników dla warstw sieci bliższy cli wejścia systemu i większych dla warstw dalszych — także nie całkiem wiadomo dlaczego, chociaż sam fakt. nie podlega dyskusji.
Sejnowski i Rosneherg zaproponowali w 1987 roku jeszcze inną metodę przyspieszania procesu uczenia i polepszania jego zbieżności. Metoda ta, zwana czasem wygładzaniem wykładniczym, opiera się na wzorze podobnym w zasadzie do wzoru zawierającego mo-menlum, ale zakładającego nieco inne „ważenie” składników pochodzących od poprzedniej korekty wektora wagi i od określonego w kroku j błędu popełnianego przez sieć:
Poważnym problemem przy uczeniu sieci neuronowych (nie tylko typu MADAUNE)jest zapewnienie odpowiedniej ramlomizacji zbioru uczącego (••'. Chodzi o to, że kolejne elementy < X<>>, z<>) > powinny być losowo wybierane, a tymczasem z reguły ciąg uczący prezentowany jest cyklicznie, ponieważ liczba obiektów zarejestrowanych w tym ciągu (oznaczana N) jest zbyt mała w porównaniu z liczbą pokazów niezbędnych dla prawidłowego uczenia sieci. Można wprawdzie przed każdym cyklem mieszać starannie pokazy wchodzące w skład ciągu uczącego, ale nie zawsze daje to wystarczająco dobre rezultaty. W takim wypadku polepszenie efektów procesu uczenia można osiągnąć za pomocą kumulowania błędów. Technika ta polega na podzieleniu przedziału zmienności numerów obiektów ciągu uczącego j na odcinki o założonej długości t/ą (z praktyki wynika, że najlepsze wyniki daje 30 < >//j < 50), ponumerowanie tych odcinków pomocniczymi indeksami j'(j" = 0,1,2,...) i obliczanie w każdym z tych odcinków pomocniczej wartości S<J 1
j=U4j' + l