63
Rozdział A. Nieliniowe sieci neuronowe
klasycznej metody backpropagalion z wykorzyslniem elementu inomentiun i przyjmowano współczynniki uczenia wynosząca odpowiednio ?/i = 0,05 i 1)2 = 0,9.
Bardzo interesujące są przytoczone w cytowanej wyżej pracy wyniki dotyczące pojemności pamięci sieci i jej zdolności do uogólniania informacji otrzymywanych w trakcie procesu uczenia. Wcześniej przytaczane wyniki na temat zdolności sieci do generalizarji wiadomości uzyskiwanych w trakcie procesu liczenia [Baum89] wskazywały na konieczność zmniejszenia liczby warstw, liczby połączeń i liczby bitów przeznaczonych na zapamiętanie wagi jednego połączenia. Podobne wnioski prezentuje praca (LeCu89), w której wskazano, że przy zadaniu rozpoznawania ręcznie pisanych liter i cyfr sieć zostaje „zmuszona” do skutecznej genera-lizacji po przyjęciu ograniczenia rozmiarów warstwy ukrytej do 40 neuronów. Cytowana praca [Mart9i] nie potwierdza tych przypuszczeń. Opisana w niej sieć zachowywała się bardzo podobnie i uzyskiwała zbliżone poziomy błędów po nauczeniu przy różnych liczbach elementów' w warstwie ukrytej — od 50 do 383 elementów.
Próbowno też różnych zasad łączenia elementów sieci ze sobą: Stosowano za-adę globalnego łączenia na zasadzie „każdy z każdym” pomiędzy wejściową „siatkówką” (15x24), a pierwszą warstwą ukrytą (150 neuronów) oraz pomiędzy pierwszą warstwą ukrytą i drugą warstwą (50 neuronów) przeciwstawiając ją zasadzie połączeń lokalnych. Polączma lokalne wytworzono na dwa sposoby. W pierwszym z nich 540 neuronów pierwszej warstwy ukrytej ma połączenia jedynie z pod obszarami „siatkówki” o rozmiarach 5x8 pikseli, rozmieszczonymi w taki sposób, że się częściowo pokrywają (przesunięcie środka okienka dokonuje się na szerokości 2 pikseli z każdej strony). Powstaje w ten sposób struktura 6x9 okienek i do każdego z tych okienek dołączonych jest. 10 neuronów, wyznaczających —jak to w warstwie ukrytej — pewne cechy wejściowych (lokalnych) fragmentów obrazu. Te cechy są z kolei kodowane przez 100 neuronów drugiej warstwy ukrytej, które to neurony mają połączenia na zasadzie „każdy z każdym” z 540 neuronami pierwszej warstwy.
Druga struktura lokalna ma bardziej wyrafinowany charakter i zakłada grupowanie neuronów pierwszej warstwy ukrytej (zgodnie z sugestiami LeCuna [LeCu89] określanymi w literaturze jako koncepcja shared weighls). W tej drugiej rozważanej strukturze neurony pierwszej warstwy ukrytej są nadal związane z lokalnymi podobszarami obrazu o rozmiarach 5x8 pikseli, jednak tworzą one układ „sześcianu” o rozmiarach 6x9x10 neuronów, przy czyrn każdy z neuronów wchodzących w skład jednej „warstwy” sześcianu (6x9) jest uczouy w powiązaniu z pozostałymi elementami tej samej warstwy. W efekcie wszystkie elementy danej warstwy uzyskują te same wartości wag. co ma taką interpretację, że powinny one wykrywać pewne powtarzające się lokalne cechy obrazu niezależnie od ich lokalizacji na ra-slrzc. 2 kolei druga warstwa ukryta składa się z 102 neuronów tworzących 17 grup po 6 neuronów. Neurony każdej grupy komunikują się wyłącznie z neuronami wybranego fragmentu wspomnianego wyżej „sześcianu” neuronów pierwszej warstwy, przy czym rozmiary wszystkich fragmentów wynoszą 4x5x10, a ich przesunięcie wynosi 2. Wśród tych wszystkich szczegółów nie można zagubić najważniejszego elementu: interpretacji poczynionych założeń. Otóż wprowadzenie lokalnych połączeń i grupowania neuronów zmierza generalnie do'ograniczenia wielkości pamięci sieci (reprezentowanej przez liczbę niezależnie ustawianych wag).
Mimo bardzo wyrafinowanych kombinacji, wiążących rozmiar i strukturę sieci z rozwią-
wyjściowego sygnału elementu „zwyciężającego1' wszystkie pozostałe jest zbyt mata). 1 lak przy rozpoznawaniu cyfr odnotowano Wad 4% przy całkowitym wykluczeniu odpowiedzi odmownych, ale hląd zmalał do 3% przy dopuszeniii 5% odpowiedzi odmownych i spadł poniżej 1% przy dopuszczeniu 10% odpowiedzi odmownych.