oprowadzenie do techniki sieci neuronowych 43
Rys. 3.1. Zmiany współczynników wag w sieci podczas uczenia bez współczynnika momentum (po lewej) i ze współczynnikiem momentum równym 0.5 (po prawej) dla tej samej ilości kroków.
Rysunek 3.1 pozwala porównać proces uczenia z momentum i bez. Na rysunku tym pokazano przebieg zmian współczynników wag (trzech - rysunek należy interpretować jako prezentację w perspektywie procesu, jaki ma miejsce w trójwymiarowej przestrzeni wag) dla pewnego neuronu sieci. Czerwone punkty przedstawiają punkty startowe (wynikające z początkowych - przed uczeniem - wartości współczynników wag), a żółte punkty to wartości współczynników wag uzyskiwane w kolejnych krokach procesu uczenia. Założono, że minimum funkcji błędu osiągane jest w punkcie +, a niebieska elipsa pokazuje kontur stałego błędu (zbiór wartości współczynników wag, dla których proces uczenia osiąga ten sam poziom błędu). Jak widać na rysunku wprowadzenie momentum rzeczywiście powoduje, że proces uczenia staje się spokojniejszy (wartości współczynników wag nie zmieniają się tak gwałtownie i tak często) a ponadto efektywniejszy (kolejne punkty szybciej zbliżają się do punktu + będącego rozwiązaniem problemu). Obecnie podczas uczenia sieci z reguły korzysta się z momentum, ponieważ usprawnia to proces dochodzenia do poprawnych rozwiązań a jednocześnie nie jest zbyt kosztowne.
Inny sposób polepszenia procesu uczenia polegać może na stosowaniu zmiennych wartości współczynników uczenia - małych na początku procesu uczenia, gdy sieć wybiera dopiero kierunki swego działania, większych w środkowej części uczenia, kiedy trzeba dość forsownie ale jeszcze zgrabnie dostosować wartości parametrów sieci do założonych zasad jej działania, i wreszcie ponownie mniejszych pod koniec procesu uczenia, w momencie kiedy sieć dopracowuje ostateczne wartości swoich parametrów (/ine tuning) i zbyt gwałtowne korekty mogą zburzyć konstrukcję wcześniej zbudowanej struktury wiedzy. Zauważmy, że te techniki działania, o matematycznie wyprowadzonej strukturze i empirycznie przebadanej przydatności żywo przypominają metody wypracowane przez nauczycieli o dużej prak-