116
Na czym polega ten problem?
Otóż reguły uczenia, które poznałeś we wcześniejszych odcinkach cyklu, opierały się na prostej, ale bardzo skutecznej zasadzie: każdy neuron sieci sam wprowadzał poprawki do swego stanu wiedzy (zmieniając wartości współczynników wagowych na wszystkich swoich wejściach) na podstawie znanej wartości błędu, jaki popełnił. W przypadku sieci jednowarstwowej sytuacja była prosta i oczywista: sygnał wyjściowy każdego neuronu porównywany był z prawidłową wartością podaną przez nauczyciela, co dawało wystarczającą podstawę do korekty wag. W sieci wielowarstwowej nie jest już tak łatwo. Neurony końcowej (wyjściowej) warstwy mogą mieć oszacowane błędy w sposób w miarę prosty i pewny - jak poprzednio, poprzez porównanie sygnału produkowanego przez każdy neuron z wzorcowym sygnałem podawanym przez nauczyciela.
Natomiast neurony wcześniejszych warstw? Tu trzeba błędy oszacować matematycznie, bo wprost się ich zmierzyć nie da - brakuje wiadomości, jakie POWINNY być wartości odpowiednich sygnałów, bo nauczyciel nie określa tych wartości pośrednich, koncentrując się wyłącznie na efekcie końcowym.
Metodą, która powszechnie stosowana jest do “odgadywania” błędów neuronów warstw ukrytych, jest metoda zwana backpropagation (wstecznej propagacji błędów). Metoda ta tak bardzo jest popularna, że w większości gotowych programów służących do tworzenia modeli sieci i ich uczenia -stosuje się tę metodę jako domyślną, a często jest ona jedyną dostępną metodą uczenia sieci, co oszczędza użytkownikom zbędnych rozterek. Metodę backpropagation poznasz w działaniu, studiując zachowanie kolejnego programu, jaki za chwilę Ci zaproponuję, zanim to jednak nastąpi musimy wrócić do jednego zagadnienia szczegółowego, które okaże się teraz bardzo ważne, a które do tej pory traktowane było trochę po macoszemu. Zajmę się mianowicie kształtem nieliniowej charakterystyki używanych w badaniach neuronów.
W poprzednim rozdziale rozważaliśmy neurony oparte na zasadzie “wszystko albo nic”. Mogły one działać na zasadzie logicznej kategoryzacji wejściowych sygnałów (prawda lub fałsz - 0 lub 1), albo mogły opierać się na charakterystyce “bipolarnej” (aprobata lub dezaprobata czyli sygnały +1 lub -1). W obydwu rozważanych przypadkach przejście między dwoma wyróżnionymi stanami miało charakter gwałtowny: albo sygnały wyjściowe