Sieci Jednokierunkowe
Największym zainteresowaniem spośród wielu rodzajów
sieci neuronowych cieszy się sieć jednokierunkowa,
wielowarstwowa o neuronach typu sigmoidalnego,
zwane również perceptronem wielowarstwowym.
Przepływ w tych sieciach odbywają się w jednym
kierunku od wejścia do wyjścia.
Metody uczenia sieci są proste i łatwe do realizacji w
praktyce - zwykle uczenie odbywa się z nauczycielem.
Niektóre metody nauczania tego typu sieci to między
innymi: wsteczna propagacja błędu wraz z jej
modyfikacjami, algorytmy typu RLS, algorytm
Levenberga – Marquardta.
Modele neuronów
Na podstawie zasad działania rzeczywistego neuronu
stworzono wiele modeli matematycznych, w których
uwzględnione zostały w większym lub mniejszym stopniu
właściwości rzeczywistych komórek nerwowych. Schemat
obwodowy powiązany z większością tych modeli
odpowiada modelowi McCullocha-Pittsa.
Wsteczna propagacja błedu
Back Propagation (BP)
Algorytm wstecznej propagacji - BP (ang. BackPropagation) określa strategię doboru
wag w sieci wielowarstwowej przy wykorzystaniu gradientowych metod optymalizacji.
Podczas procesu uczenia sieci dokonuje się prezentacji pewnej ilości zestawów
uczących (tzn. wektorów wejściowych oraz odpowiadających im wektorów sygnałów
wzorcowych (wyjściowych)). Uczenie polega na takim doborze wag neuronów by w
efekcie końcowym błąd popełniany przez sieć był mniejszy od zadanego. Nazwa
"wsteczna propagacja" pochodzi od sposobu obliczania błędów w poszczególnych
warstwach sieci. Najpierw obliczane są błędy w warstwie ostatniej (na podstawie
sygnałów wyjściowych i wzorcowych. Błąd dla neuronów w dowolnej warstwie
wcześniejszej obliczany jest jako pewna funkcja błędów neuronów warstwy
poprzedzającej. Sygnał błędu rozprzestrzenia się od warstwy ostatniej, aż do warstwy
wejściowej, a więc wstecz.
wyprowadzona przez J. Werbos'a i ponownie odkryta przez E. Rumelhart'a i J.L. McCelland'a.
Korekcja wektora wag sieci oparta jest na minimalizacji funkcji miary błędu, która
określona jest jako suma kwadratów błędów na wyjściach sieci:
W celu minimalizacji błędu średniokwadratowego zostanie
wykorzystana reguła najszybszego spadku dla uczenia
dowolnej wagi
Odpowiednia składowa gradientu funkcji błędu przyjmuje postać