124
10.1. Ratpotnawanie wybranego zbioru wyrazów
mniejsze, lecz o podobnych proporcjach względem siebie. Podaje się również, że w trakcie uczenia wartości te powinny być zmniejszane w celu zapewnienia lepszej zbieżności uczenia.
Z drugiej strony inni autorzy [Chee90a] proponują startowanie wręcz od zerowych wartości współczynników tji \ t)2\ stopniowe ich zwiększanie aż do osiągnięcia pewnej wartości ustalonej. W prezentowanych badaniach przyjęto rozwiązanie kompromisowe: startowanie od pewnych małych wartości współczynników i stopniowe ich zwiększanie. Tabela 2 prezentuje sposób zmian współczynników rjl i rfi w trakcie uczenia sieci różnymi zbiorami.
Tabela 2. Zmiany współczynników i w trakcie uczenia sieci
Ol |
0.15 |
0.3 |
0.6 |
0.9 | |
02 |
0.1 |
0.2 |
0.4 |
0.6 | |
Zbiory UCZ1, UCZ2 (70 elem.) |
1. kroków |
do 3000 |
do 6000 |
do 9000 |
pow. 9000 |
il. prez. zbioru |
do ~ 42 |
do ~ 85 |
do ~ 128 |
pow. ~ 128 | |
Suma a zbiorów UCZ1+ UCZ2 b (140 elem) |
1. kroków |
do 3000 |
do 6000 |
do 9000 |
pow. 9000 |
il. prez. zbioru |
do ~ 21 |
do ~42 |
do ~ 64 |
pow. do 64 | |
1. kroków |
do 6000 |
do 12000 |
do 18000 |
pow. 18000 | |
il. prez. zbioru |
do ~ 42 |
do ~ 85 |
do - 128 |
pow. ~ 128 |
Czas uczenia najwygodniej określić przy pomocy ilości cykli prezentacji zbioru uczącego. Równocześnie powstaje problem oceny jakości uczenia po wykonaniu określonej ilości cykli. Podejście klasyczne, polegające na określaniu procentowym poprawności nauczenia lub rozpoznawania mówi niewiele o zmianach zachodzących przecież przez cały czas uczenia w sieci. Często zdarza się, że procent poprawnych odpowiedzi nie zmienia się lub zmienia się bardzo mało. W tej sytuacji dla sieci typu rozpoznającego, w której jeden element wyjściowy sygnalizuje rozpoznany obiekt lub klasę obiektów (winner takes all) proponuje się użycie jako mierników uczenia (rozpoznawania) znormalizowanych do przedziału [0, I) wyjść ostatniej warstwy sieci.
W przypadku sieci z elementami sigmoidalnymi normalizacja dokonuje się automatycznie. Istotne są tu proste statystyczne funkcje wyjść, takie jak wartość maksymalna, minimalna i średnia, przy czym w zależności od potrzeb mogą one być liczone dla poszczególnych elementów poddawanych rozpoznawaniu lub dla całego ich zestawu.
Proces uczenia zakończono dla opisywanej sieci po 118 prezentacjach zbioru UCZ1+UCZ2 (140 elementów = 20x7 rozkazów). Wyniki uczenia (100% rozpoznania zbioru uczącego i 95% rozpoznania ciągu testowego) można uznać za zadowalający. Należy jednak stwierdzić, że proces uczenia sieci jest żmudny i czasochłonny. Przykładowo, obliczenia prowadzone na komputerze IBM AT 286/387 o częstotliwości zegara 33 MHz trwały — z przerwami — kilka dni dla każdego cyklu uczenia, a czas uczenia sieci jedną prezentacją zbioru 140-elemcntowego (UCZ1+UCZ2) wynosił około 10 minut!.