45
Rozdzinl :i. Liniowe sieci neuronowe
ma na ogól niewielką wartość, ponieważ poszczególne składniki £bt) jaku wartości przypadkowe mogą się wzajemnie kompensować. Oznacza to. że sieć ma zdolność uśredniania wejściowych sygnałów i może samodzielnie „odkryć" powtarzalny wzorzec X w serii przypadkowo zniekształconych wejściowych obserwacji X!jb
Oba omawiane wyżej efekty są niezależne od siebie nawzajem i mogą być „nałożone”, co w wyniku daje sieć zapamiętującą różne reakcje Z na różne sygnały wejściowe X wydobywane spośród serii przypadkowo zniekształconych obserwacji. Jedynym ograniczeniem jest przy tym „pojemność pamięci", związana z liczbą neuronów sieci. Przyjmuje się. że dla sieci liczącej k neuronów maksymalna liczba możliwych do zapamiętania wzorców wyraża się przybliżonym empirycznym wzorem
W bardziej złożonych i rozbudowanych sieciach istotną rolę odgrywa sprawność procesu uczenia. Trzeba z naciskiem stwierdzić, że większość omówionych wyżej metod uczenia daje pozytywny końcowy wynik dopiero po prezentacji bardzo dużej (często rzędu setek tysięcy!) liczby prezentowanych pokazów. Dlatego w literaturze poświęconej sieciom neuronowym opisuje się liczne metody zwiększania szybkości prochu uczenia. Jedną z metod jest odpowiedni dobór wartości i/,Jo czym była już wyżej mowa. Drugą, powszechnie stosowaną „sztuczką" jest. wprowadzanie do wzoru na korektę wektora wag dodatkowego składnika, uwzględniającego „bezwładność" procesu zmiany wag w postaci lak zwanego momcntum (termin ten jest. opowieduikiem polskiego pojęcia fizycznego „pęd”, ale operowanie „pędem” w wielu kontekstach związanych z uczeniem sieci jest nieco niewygodne i dlatego w tej książce termin mnmnilum będzie używany w oryginalnym brzmieniu angielskim). Używając zapisu wektorowego i odwołując się do najprostszej metody uczenia z nauczycielem za pomocą prostej reguły DELTA składnik moiueutum można wprowadzić w następujący sposób:
Mo-) = W^- w;j-n
Z doświadczeń autora książki oraz z obszernych danych literaturowych wynika, że wprowadzenie składnika moment lim wlywa na zwiększenie szybkości uczenia oraz zdecydowanie polepsza stabilność tego procesu, czego bezpośrednim wyrazem może być możliwość bezpiecznego zwiększenia wartości współczynnika r/. Z doświadczeń wynika, że bardzo dobre wyniki procesu uczenia można uzyskać przyjmując r/i = 0,9 i ?/•> = 0.1). Czasami stosuje się także i w tym algorytmie zmniejszanie wartości // w kolejnych krokach j. ale z reguły zachowuje się przy tym stała wartość stosunku tyi/r/2-
Inną techniką zwiększającą szybkość procesu uczenia jest ograniczanie go wyłącznie do dużych poprawek. Oznacza to, że reguła uczenia ma dodatkowy parametr r/3 i działa według następującej zasady (podanej niżej przy pominięciu dla skrócenia zapisu składnika