63
Rozdział 4. Nieliniowe sieci neuronowe
klasycznej metody backpropagalion z wykorzyslniem elementu inoinentum i przyjmowano współczynniki uczenia wynoszące odpowiednio ł/i = 0,05 i i)2 = 0,9.
Bardzo interesujące są przytoczone w cytowanej wyżej pracy wyniki dotyczące pojemności pamięci sieci i jej zdolności do uogólniania informacji otrzymywanych w trakcie procesu uczenia. Wcześniej przytaczane wyniki na temat zdolności sieci do generalizarji wiadomości uzyskiwanych w trakcie procesu uczenia [Baum89] wskazywały na konieczność zmniejszenia liczby warstw, liczby połączeń i liczby bitów przeznaczonych na zapamiętanie wagi jednego połączenia. Podobne wnioski prezentuje praca [LeCu89], w której wskazano, że przy zadaniu rozpoznawania ręcznie pisanych liter i cyfr sieć zostaje „zmuszona” do skutecznej genera-lizacji po przyjęciu ograniczenia rozmiarów warstwy ukrytej do 40 neuronów. Cytowana praca [Mart01] nie potwierdza tych przypuszczeń. Opisana w niej sieć zachowywała się bardzo podobnie i uzyskiwała zbliżone poziomy błędów po nauczeniu przy różnych liczbach elementów' w warstwie ukrytej — od 50 do 383 elementów.
Próbowno też różnych zasad łączenia elementów sieci ze sobą: Stosowano za-.adę globalnego łączenia na zasadzie „każdy z każdym” pomiędzy wejściową „siatkówką” (15x24), a pierwszą warstwą ukrytą (150 neuronów) oraz pomiędzy pierwszą warstwą ukrytą i drugą warstwą (50 neuronów) przeciwstawiając ją zasadzie połączeń lokalnych. Połącznia lokalne wytworzono na dwa sposoby. W pierwszym z nich 540 neuronów pierwszej warstwy ukrytej ma połączenia jedynie z podobszarami „siatkówki” o rozmiarach 5x8 pikseli, rozmieszczonymi w taki sposób, że się częściowo pokrywają (przesunięcie środka okienka dokonuje się na szerokości 2 pikseli z każdej strony). Powstaje w leil sposób struktura 0x9 okienek i do każdego z tych okienek dołączonych jest. 10 neuronów, wyznaczających —jak t o w warstwie ukrytej — pewne cechy wejściowych (lokalnych) fragmentów obrazu. Te cechy są z kolei kodowane przez 100 neuronów drugiej warstwy ukrytej, które to neurony mają połączenia na zasadzie „każdy z każdym” z 540 neuronami pierwszej warstwy.
Druga struktura lokalna ma bardziej wyrafinowany charakter i zakłada grupowanie neuronów pierwszej warstwy ukrytej (zgodnie z sugestiami LeCuna [Le(.‘u80] określanymi w literaturze jako koncepcja shared weighls). W tej drugiej rozważanej strukturze neurony pierwszej warstwy ukrytej są nadal związane z lokalnymi podobszarami obrazu o rozmiarach 5x8 pikseli, jednak tworzą one układ „sześcianu” o rozmiarach 6x9x10 neuronów, przy czym każdy z neuronów wchodzących w skład jednej „warstwy” sześcianu (6x9) jest uczony w powiązaniu z pozostałymi elementami tej samej warstwy. W efekcie wszystkie elementy danej warstwy uzyskują te same wartości wag. co ma Laką interpretację, że powinny one wykrywać pewne powtarzające się lokalne cechy obrazu niezależnie od ich lokalizacji na rastrze. 2 kolei druga warstwa ukryta składa się z 102 neuronów tworzących 17 grup po 6 neuronów. Neurony każdej grupy komunikują się wyłącznie z neuronami wybranego fragmentu wspomnianego wyżej „sześcianu" neuronów pierwszej warstwy, przy czym rozmiary wszystkich fragmentów wynoszą 4x5x10, a ich przesunięcie wynosi 2. Wśród tych wszystkich szczegółów nie można zagubić najważniejszego elementu: interpretacji poczynionych założeń. Otóż wprowadzenie lokalnych połączeń i grupowania neuronów zmierza generalnie do'ograniczenia wielkości pamięci sieci (reprezentowanej przez liczbę niezależnie ustawianych wag).
Mimo bardzo wyrafinowanych kombinacji, wiążących rozmiar i strukturę sieci z rozwią-
wyjściowcgo sygnału elementu „zwyciężającego" wszystkie pozostałe jest zbyt mata). I tak przy rozpoznawaniu cyfr odnotowano l>ład 4% przy całkowitym wyklnrzeniii odpowiedzi odmownych, ale hl;yl zmalał do 3% przy dopuszeniu 5% odpowiedzi odmownych i spadł poniżej 1% przy dopuszczeniu 10% odpowiedzi odmownych.