45
łiuzdziHl .'i. Liniowe .sjpc/ neuronowe
ma na ogól niewielką wartość, poniowaz poszczególne składniki £*■?) jako wartości przypadkowo mogą się wzajemnie kompensować. Oznacza lo, że sieć ma zdolność uśredniania wejściowych sygnałów i może samodzielnie „odkryć" powtarzalny wzorzec X w serii przypadkowo zniekształconych wejściowych obserwacji X,J).
Oha omawiane wyżej efekty są niezależne od siebie nawzajem i mogą być „nałożone", co w wyniku daje sieć zapamiętujący różne reakcje Z na różne sygnały wejściowe X wydobywane spośród serii przypadkowo zniekształconych obserwacji. Jedynym ograniczeniem jest. przy tym „pojemność pamięci", związana z liczbą neuronów sieci. Przyjmuje się. że dla sieci liczącej /• neuronów maksymalna liczba możliwych do zapamiętania wzorców wyraża się przybliżonym empirycznym wzorem
N
>n <}T
k
2 log *
W bardziej złożonych i rozbudowanych sieciach istotną rolę odgrywa sprawność procesu uczenia. Trzeba z naciskiem stwierdzić, że większość omówionych wyżej metod uczenia daje pozytywny końcowy wynik dopiero po prezentacji bardzo dużej (często rzędu setek tysięcy!) liczby prezentowanych pokazów. Dlatego w literaturze poświęconej sieciom neuronowym opisuje się liczne metody zwiększania szybkości procesu uczenia. Jedną z metod jest odpowiedni dobór wartości ?/!;\ o czym była już wyżej im iwa. Drugą, powszechnie stosowaną „sztuczką" jest wprowadzanie do wzoru na korektę wektora wag dodatkowego składnika, uwzględniającego bezwładność" procesu zmiany wag w postaci lak zwanego wonmitum (termin ten jest. opowiediiikiem polskiego pojęcia fizycznego „pęd”, ale operowanie „pędem* w wielu kontekstach związanych z uczeniem sieci jest nieco niewygodne i dlatego w tej książce termin rnomculnm będzie używany w oryginalnym brzmieniu angielskim). Używając zapisu wektorowego i odwołując się do najprostszej metody uczenia z nauczycielem za pomocą prostej reguły DELTA składnik momentuiii można wprowadzić w następujący sposób:
gdzie iiiomenumi M^1 wyliczane jest ze wzoru
Z doświadczeń autora książki oraz z obszernych danych literat itrowych wynika, że wprowadzenie składnika moment urn wływa na zwiększenie szybkości uczenia oraz zdecydowanie polepsza stabilność tego procesu, czego bezpośrednim wyrazem może być możliwość bezpiecznego zwiększenia wartości współczynnika r/. Z doświadczeń wynika, że bardzo dobre wyniki procesu uczenia można uzyskać przyjmując >/i = 0,9 i = 0,6. Czasami .stosuje się także i w tym algorytmie zmniejszanie wartości >/ w kolejnych krokach j ale z reguły zachowuje się przy tym stała wartość stosunku tyj/»/•_,.
Inną techniką zwiększającą szybkość procesu uczenia jest ograniczanie go wyłącznie do dużych poprawek. Oznacza to. że reguła liczenia ma dodatkowy parametr r/ą i działa według następującej zasady (podanej niżej przy pominięciu dla skrócenia zapisu składnika