42
przekazywanego przez rozważaną wagę - wszak te wejścia, na których występowały większe sygnały miały większy wpływ na wynik działania neuronu, który okazał się błędny, trzeba je więc silniej “temperować”. W szczególności opisany algorytm powoduje, że dla wejść, na których w danym momencie nie były podawane sygnały (podczas obliczeń miały one zerowe wartości) odpowiednie wagi nie są zmieniane, nie wiadomo bowiem, czy są dobre czy nie, gdyż nie uczestniczyły w tworzeniu aktualnego (błędnego, skoro trzeba coś poprawiać) sygnału wyjściowego.
W praktycznych realizacjach opisanego wyżej algorytmu dochodzi kilka dalszych godnych uwagi elementów. W pierwszej kolejności twórca sieci musi zdecydować, jak silne powinny być zmiany wag powodowane przez określone wartości sygnałów wejściowych i określoną wielkość błędu. Ten współczynnik proporcjonalności 17, zwany leaming ratę, może być wybierany dowolnie, jednak każda konkretna decyzja ma określone konsekwencje. Wybranie współczynnika za małego prowadzi do bardzo powolnego procesu uczenia (wagi są poprawiane w każdym kroku bardzo słabo, żeby więc osiągnęły pożądane wartości trzeba wykonać bardzo dużo takich kroków). Z kolei wybór za dużego współczynnika uczenia powoduje bardzo gwałtowne zmiany parametrów sieci, które w krańcowym przypadku prowadzić mogą nawet do niestabilności procesu uczenia (sieć miota się nie mogąc znaleźć prawidłowych wartości wag, które zmieniają się za szybko, by precyzyjnie “wstrzelić się” w potrzebne rozwiązanie). Duże wartości współczynnika uczenia t) odpowiadają postawie bardzo wymagającego i surowego nauczyciela, który zbyt radykalnie i surowo karze ucznia za popełniane błędy wprawiając go w zmieszanie i wywołując nadmierny stres, małe wartości tego współczynnika odpowiadają z kolei charakterystyce nauczyciela nadmiernie wyrozumiałego, którego uczniowie robią zbyt wolne postępy. Konieczny jest więc wybór kompromisowy, uwzględniający zarówno korzyści związane z szybką pracą, jak i względy bezpieczeństwa, wskazujące na konieczność uzyskania stabilnej pracy procesu uczenia.
Pewnym sposobem zwiększenia szybkości uczenia bez naruszania stabilności jest zastosowanie do algorytmu uczenia dodatkowego składnika, tzw. momentum. Obrazowo można powiedzieć, że momentum zwiększa bezwładność procesu uczenia - zmiany wag zależą wtedy zarówno od błędów popełnianych przez sieć w danym momencie, jak i od przebiegu procesu uczenia we wcześniejszym okresie.