123
Rozdział 10. Przykłady konkretnych zastosowali sieci neuronowych
w 85% (18 wypowiedzi na 21). Wynik ten uznano za niezadawalający. Wobec tego, że sieć nie rokowała nadziei na „douczenie” (sprawdzano wyniki zbiorem testowym także na 100 i 140 kroku prezentacji zbioru uczącego) zdecydowano się na nągranie jeszcze jednego zbioru 70 wypowiedzi (10 razy każdy z rozkazów). W celach poznawczych nauczono sieć „od początku” rozpoznawania drugiego zbioru (100 prezentacji) i potraktowano oba zbiory uczące zamiennie jako testowe. Wyniki przedstawia tabela 1.
Tabela 1. Procentowy udział poprawnie rozpoznanych obiektów
Zbiór uczący |
dług |
ilość kroków |
rozpoznawanie | ||||||
zb. testowy |
zbiór UCZ2 |
zbiór UCZ1 | |||||||
ile |
roz. |
ile |
roz. |
% |
ile j roz. | % | ||||
UCZ1 |
10x7 |
200 |
21 |
18 |
85 |
70 |
53 |
75 |
uczący: 100 % |
UCZ2 |
10x7 |
100 |
21 |
19 |
90 |
uczący: 100 % |
70 | 55 | 78 |
Z przebiegu procesu uczenia wynika, że oba zbiory uczące zostały prawidłowo zbudowane: sieć jest w stanie nauczyć się rozpoznawania prezentowanych wypowiedzi podczas około 100 prezentacji każdego z przyjętych zbiorów uczących. Niestety, nie można tego powiedzieć
0 wynikach rozpoznawania: zbiory traktowane jak testowe są rozpoznawane przez sieć w 75 - 90%. W tej sytuacji koniecznym staje się scalenie obu zbiorów uczących i ponowienie uczenia.
W każdym z procesów uczenia niebagatelną rolę odgrywa sposób prezentacji zbioru uczącego. Zwracają na to uwagę eksperymentatorzy uczący sieci, przy czym tradycyjnie nie ma tu gotowych metod postępowania gwarantujących sukces. Z procesu uczenia sieci wynika, że ogromną rolę odgrywa zarówno początkowe wymieszanie poszczególnych wypowiedzi jak i częstość mieszania ich w trakcie uczenia. Jeśli chodzi o tę ostatnią wielkość to (aby nie wydłużać i tak sporego czasu obliczeń) przyjęto, że kolejność elementów1 w zbiorze uczącym jest zmieniana co 10 prezentacji całego zbioru (czyli co 700 pojedynczych cykli uczenia). Równocześnie zwracano uwagę na to, aby po kolejnym mieszaniu nie pojawiały się (przypadkowo) sekwencje jednakowych rozkazów. Z sytuacją taką ma się przeważnie do czynienia na początku procesu uczenia, kiedy to zbiór uczący jest uporządkowany, a dopiero potem poszczególne rozkazy — w miarę, gdy proces randomizacji postępuje — są szeregowane w kolejności przypadkowej.
Jak wspomniano w rozdziale 4, współczynnik ?/l (learning ratę) odpowiada za szybkość procesu uczenia (jest. on mnożony przez propagowany wstecz błąd), ?/2 natomiast (mnożony przez wielkość zmiany wag w poprzednim kroku) „wygładza” zbyt raptowne skoki wag połączeń. W literaturze podaje się ich „klasyczne” wartości jako odpowiednio: ?/l = 0.9
1 r/2 = 0 6, przy czym zaznacza się, że w przypadku dużych sieci należy przyjmować wartości
Elementami zbioru uczącego są pary złożone z wek tor/, w sygnałów wejściowych (informacji podawanych na wejściową warstwę sieci) i wymaganych sygnałów wyjściowych (wzorcowych odpowiedzi sieci). W rozważanych zadaniach zbiór uczący tworzyły próbki rozpoznawanych wypowiedzi i informacje o ich prawidłowymi znaczeniu.