53
Rozdział 4. Nieliniowe sieci neuronowe
podział ten formuje granica mająca postać hiperplaszczyzny. Istotnie, jeśli
{
gdy e > 0 gdy e < 0
to obszar, w którym neuron podejmuje decyzję y = 1 ogranicza powierzchnia e = 0, czyli twór o równaniu
n
i-o
Jak łatwo się przekonać dla n = 2 jest to równanie linii prostej, dla n = 3 — równanie płaszczyzny, a dla n > 3 twór nazywany prawidłowo rozmaitością liniową stopnia » — 1, a popularnie traktowany jako płaszczyzna w n-wymiarowej przestrzeni czyli w skrócie hi-ptrplaszczyzna.
Interpretacja działania neuronu budującego perceptron jako dyskryminatora liniowego pozwala zorientować się, jakie są możliwe formy odwzorowań wejściowego zbioru sygnałów X 6 X na dyskretny zbiór decyzji {0, I}. Jak widać może on realizować wszystkie te odwzorowania, w których wystarczy wydzielenie podobszaru przestrzeni X mającego formę otwartej pólprzestrzni odgraniczonej hieperplaszyzną. W mało interesującym teoretycznie, ale wygodnym do graficznej prezentacji przypadku n = 2 mamy do czynienia z pólplaszczyzną odgraniczoną za pomocą linii prostej.
Łatwo zauważyć, że proces uczenia, polegający zawsze na zmianie wartości współczynników w,-, pozwala wprawdzie ustawić graniczną hiperpłaszczyznę w dowolnym położeniu, nie pozwala jednak na zmianę charakteru realizowanego odwzorowania, co powoduje, żc pewnych typów odwzorowań nie da się uzyskać za pomocą neuronu typu percept.ronowego bez względu na to, jak długo i jak wyrafinowanie by się go uczyło. Klasycznym przykładem tego typu nierozwiązywalnego zadania jest „problem XOR” wprowadzony przez Mmsky’ego [Mins69]: Perceptron nie może nauczyć się realizacji odwzorowania
y = xx 0 x2
gdzie operator 0 oznacza alterantywę wyłączającą (cXchisivc OR). Łatwo się o tym przekonać, rozpatrując na płaszczyźnie xj, x2 położenie punktów, dla których sygnał wyjściowy y powinien przyjmować odpowiednio wartości 0 i I.
Jednak to, czego nie potrafi zrobić jeden neuron, może zrobić kilkuwarstwowa sieć, ponieważ dla nieliniowych neuronów dodanie nowych warstw istotnie poszerza zakres odwzorowań, które sieć potrafi zrealizować. Rozważmy przy kładowo sieć dwuwarstwową. Pierwsza warstwa, złożona z k neuronów otrzymujących sygnały wejściowe X. dzieli przestrzeń X tych sygnałów za pomocą k oddzielnych hiperplaszczyzn. Powstaje w ten sposób układ 2k liniowo rozdzielnych obszarów, które sygnalizowane są przez odpowednie zestawy 0 i 1 jako wartości sygnałów neuronów pierwszej warstwy. Sygnały te podawane są z kolei na wejścia neuronów drugiej warstwy, które dokonują klasyfikacji zestawów tych sygnałów według zasady: sygnał wyjściowy neuronu drugiej warstwy ma wartość 0 lub 1 w zależności od tego, jaki podzbiór neuronów pierwszej warstwy sygnalizuje 0, a jaki 1. W efekcie neurony drugiej warstwy mogą rozpoznawać (sygnalizować) pojawienie się wektorów wejściowych X zawartych w pewnych ograniczonych obszarach przestrzenie X. Obszary te nie muszą już być równoważne do całej pólprzestrzcni X, ponieważ możliwe jest sygnalizowanie bardziej złożonego podobszaru, ograniczonego z wiciu stron fragmentami wielu hiperplaszczyzn.