img052 (38)

img052 (38)



46

go zachowania. Czasem idzie to błyskawicznie, ale na ogół długo i mozolnie trzeba pokazywać elementy ciągu uczącego, zanim sieć zacznie chociaż trochę rozumieć, czego od niej wymagamy. Co więcej, na skutek losowego wyboru początkowych wartości współczynników wagowych wyniki uczenia tej samej sieci dla tych samych danych użytych jako ciąg uczący mogą się nieco od siebie różnić i z tym faktem trzeba się także po prostu pogodzić - chyba, że ktoś ma czas na to, by tę samą sieć uczyć kilkakrotnie i potem wybierać ten wariant, który gwarantuje najlepszy efekt. W praktyce jest to jednak bardzo czasochłonne, gdyż w badaniach moich i moich doktorantów stwierdziłem wielokrotnie, że jednorazowe nauczenie sieci o kilku tysiącach elementów trwa (na komputerze Pentium 133) kilkadziesiąt godzin!

nych zastosowaniach wynosi:

dla rozpoznawania znaków Kenji    -    1013

dla rozpoznawania mowy    -    1012

dla rozpoznawania rękopisów    -    1012

dla syntezy mowy    -    1010

dla prognozowania finansowego    -    109


Nie jest to wynik odosobniony. Na przykład z zestawienia publikowanego w miesięczniku Electronic Design wynika, że liczba prezentacji ciągu uczącego, koniecznych do uzyskania poprawnego działania sieci w wybra

Inni autorzy przytaczają podobne wyniki.

Ze względu na szybkość uczenia poszukuje się więc odmiennych (od klasycznego opisywanego tu algorytmu delta) nowych metod uczenia sieci. Uważa się, że czas uczenia sieci algorytmem delta rośnie wykładniczo ze wzrostem liczby elementów sieci, co może stanowić w przyszłości jeden z zasadniczych czynników limitujących rozmiary budowanych sieci. To bardzo pesymistyczne oszacowanie, dominuje jednak pogląd, że nie musi ono dotyczyć algorytmów “konkurencyjnych” dla reguły delta. Najczęściej wskazywane są tu algorytmy PNN (Probabilistic Neural NetWork), RBF (Radial Basis Functions), LVQ (Linear Vector Quantization) i RCE (Re-stricted Coulomb Energy). Algorytmy te są jednak chwilowo mało popularne (większość gotowych programów modelujących sieci neuronowe opiera się na algorytmie delta i jego odmianach), a równocześnie wzmiankowane metody są dość złożone, nie będą więc tu omawiane.

3.8. Jak uczyć warstwy ukryte?

Na koniec przedyskutujemy jeszcze problem uczenia sieci związany z obecnością w niej warstw ukrytych. Jak opisałem w poprzednim rozdziale -warstwą ukrytą zwykło się nazywać każdą warstwę z wyjątkiem wejściowej


Wyszukiwarka

Podobne podstrony:
1.    Podać zasadę zachowania ładunku. Co to jest elektryzacja? Na czym polega
1.    Podać zasadę zachowania ładunku. Co to jest elektryzacj a? Na czym polega induk
21313 skanowanie0009 29 2.    Drugi typ wyrażeń o funkcji grzecznościowej to wyrażeni
SNV36628 „nic tylko się na to zgodził, ale na piśmie dał na siebie cyrograf, że się wyrzeka wszelkie
DSC 46 104 (45.5%) ... przepisywana substancja może pomóc, ale na pewno nie zaszkodzi. PLACEBO w roz
Jeśli chodzi o problem duszy, to religie są na ogół zgodne w dwóch kwestiach: 1.    D
pójdą za jego przykładem, to pracownicy tylko na tym stracą. Dodać trzeba, że sytuacja ta najbardzie
53261 img026 (38) 38 Platon był haracz płacić barbarzyńcom. To więc mówiliśmy i tak go zachęcaliśmy,
img041 (38) 46 Oznacza to pominięcie we wzorze Taylora (3.36) składnika reszty r(pc, x0), jako zanie

więcej podobnych podstron