69
Rozdział 5. Sieci CP
& zatem wraz z każdym wektorem wejściowym X podawany jest wektor wyjściowy, jaki użytkownik chce uzyskać z sieci. Jednak mimo tego założenia przy uczeniu nie wykorzystuje się pojęcia błędu (a więc nie jest to rodzaj algorytmu Delta), a ponadto mimo występowania dwóch warstw nie wykorzystuje się w żadnej formie informacji pochodzących od nauczyciela przy uczeniu pierwszej („ukrytej”) warstwy sieci. Pomysł jest bardzo prosty i skuteczny: przy uczeniu pierwszej warstwy stosuje się technikę Kohonena, która jest formą uczenia bez nauczyciela. Natomiast przy uczeniu drugiej warstwy wykorzystuje się algorytm Grossberga do bezpośredniego wymuszania pożądanych odpowiedzi 6ieci. Rozważmy to teraz dokładniej.
Zaczniemy od opisu sposobu uczenia pierwszej warstwy sieci. Zgodnie z regułą Kohonena uczenie przebiega następująco. Na Jt-tym kroku pokazuje się wektor wejściowy XW, a dysponując (z wcześniejszych kroków procesu uczenia) wartościami wszystkich wektorów wjł) można obliczyć wszystkie wartości
ejł) = wJt>T X(k) , j= 1.2,...,™
oraz wyznaczyć numer „zwycięskiego” neuronu (tzn. tego, dla którego zachodzi)
Korekcie podlegają wyłącznie wagi „zwycięskiego” neuronu według reguły W<k+l) = WW + t>, (X(k) - W$k))
Współczynnik uczenia tji przyjmowany jest zwykle jako równy 0,7 na począł ku procesu uczenia i stopniowo zmniejszany dla większych k.
Podobnie jak w wielu innych algorytmach samouczcnia, przy realizacji metody Kohonena najważniejsze są pierwsze kroki, bo od nich w znacznym stopniu zależy powodzenie całej pracy. Najpierw trzeba nadać współczynnikom wagowym Wij wartości początkowe. Nic jest to tak proste, jak przy niektórych innych metodach, ponieważ powinno się zapewnić unormowanie wszystkich początkowych wektorów wag
a ponadto wysoce pożądane jest takie dobranie ich kierunków, by w sposób równomierny rozkładały się na powierzchni sfery jednostkowej w przestrzeni n- wy miarowej. Takie zainicjowanie jest jednak trudne i nie gwarantuje dobrych warunków do realizacji procesu samo-uczcnia, gdyż jest możliwe pojawianie się w trakcie uczenia kilku „zwycięskich” neuronów podczas prezentacji uczących sygnałów Xłfc,1 co utrudnia realizację opisanego wyżej procesu uczenia. Jedna z technik zapobiegania tym niekorzystnym zjawiskom, nazywana w literaturze convcx combinatwn mtlhod, polega na tym, że początkowo wszystkim składowym wszystkich wektorów wag nadaje się tę samą wartość początkową
Powoduje to, że wszystkie wektory Wjl) są prawidłowo unormowane, ale wszystkie pokrywają się. Po takim zainicjowaniu wektorów wag zaczyna się opisany wyżej proces uczenia, ale jako wektory wejściowe podaje się wektory o współrzędnych obliczanych według wzoru