32
3.3. Uczenie pojedynczego neuronu
skorygowanie wektora wag W, by neuron lepiej realizował zadaną funkcję y ~ /(X). Nowy wektor wag W' obliczany jest ze wzoru
gdzie;; jest współczynnikiem liczbowym, decydującym o szybkości uczenia. Zasadom wyboru tego współczynnika poświęcimy nieco uwagi później.
Za chwilę dokonamy matematycznego uzasadnienia, że podana metoda uczenia działa poprawnie. Zanim to jednak nastąpi — warto zastanowić się nad sensem podanej metody uczenia i spróbować intuicyjnie uzmysłowić sobie, dlaczego możemy oczekiwać, że metoda ta da dobre wyniki. Zacznijmy od interpretacji geometrycznej. Załóżmy, że 6 > 0, to znaczy, że z > y. Oznacza to, że sygnał wyjściowy z neuronu był za mały. Ponieważ sygnał ten zależy od kąta między wektorami X i W — domyślamy się, że kąt ten był za duży. Żeby sygnał y był maksymalny — trzeba by było uzgodnić kierunki wektorów X i W. Dodając (wektorowo) do W wektor X, otrzymujemy nowy wektor W' = W + X w każdym wypadku bliższy X niż poprzedni wektor W. W istocie reguła uczenia nakazuje dodawanie fragmentu wektora X (ponieważ zwykłe 7/ 6 < 1), co jest uzasadnione, gdyż zapobiega zbyt gwałtownym „obrotom” wektora W przy każdym napotkanym błędzie. Bardzo podobne rozumowanie pozwala się upewnić, że przy 6 < 0 następuje oddalanie wektora W od wektora X, który wywołał błąd polegający na zbyt silnej odpowiedzi neuronu [y > z).
Inne rozumowanie, które uwiarygodnia opisaną regułę liczenia, opiera się na spostrzeżeniu, że korekta wektora W jest tym silniejsza, im większy został odnotowany błąd (wielkość korekty jest proporcjonalna do ć). Jest to uzasadnione: trzeba silnie interweniować przy dużych błędach i dokonywać płynnego, subtelnego dostrajania w przypadku błędów małych. Przy okazji zapewniony jest automatycznie logicznie konieczny warunek, że w przypadku braku błędu (6 = OJ żadne korekty nie będą dokonywane. Kolejną zgodną ze zdrowym rozsądkiem zasadę, dostrzeżemy w opisanej regule uczenia skupiając uwagę na pojedynczych składowych wektorów W i X. Widać, że 7-ta składowa wektora W będzie tym silniej zmieniona w wyniku procesu uczenia, im większa była odpowiadająca jej składowa wektora X. Jest to prawidłowe i logiczne: jeśli odpowiednia składowa ar, była mała, to korygowana wartość te; w niewielkim tylko stopniu przyczyniła się do powstania usuwanego błędu 6. W szczególności, jeśli x, = 0, to odpowiadająca składowa wektora wcale nie będzie zmieniana — zupełnie słusznie, gdyż nie uczestniczyła w obliczaniu błędnej wartości y. Warto także zauważyć, że w przypadku ujemnych wartości xodpowiednie składowe W będą zmniejszane, a nie powiększane (oczywiście przy założeniu, że 6 > 0). Oznacza to, że w odróżnieniu od wejść „pobudzających”, które dla uzyskania większego sygnału y trzeba wzmocnić, wejścia „hamujące” trzeba właśnie osłabić.
Tego rodzaju impresje oparte na strukturze wzoru opisującego uczenie neuronu można by snuć jeszcze długo. Nie będziemy tu tego robili ze względu na brak miejsca, zachęca się jednak Czytelnika, by poświęcił nieco czasu i sam przemyślał różne kombinacje sygnałów wejściowych, wag i błędów, upewniając się, że w każdym przypadku efekty działania, opisanej wyżej reguły uczenia są możliwe do intuicyjnego uzasadnienia. Takie rozważania nie są oczywiście dowodem, że metoda jest. poprawnie zbudowana (dowód taki skonstruujemy za chwilę), jednak znaczenia intuicji nie można nie doceniać. Żadna metoda matematyczna, nawet bardzo wszechstronnie podbudowana dowodami, nie znajdzie uznania w technice, jeśli nic będzie zgodna z intuicją i zdrowym rozsądkiem. Cenimy bowiem bardzo matematykę, jako narzędzie i pomocniczy instrument inżyniera, jednak wyżej cenimy własny intelekt,