Jakiś wykład na temat wdimsi


Poprawa efektywno ci
metody wstecznej
propagacji b du
Jacek Bartman
Algorytm wstecznej propagacji b du
1. Wygeneruj losowo wektory wag.
2. Podaj wybrany wzorzec na wej cie sieci.
l
wyj wyj
3. Wyznacz odpowiedzi wszystkich neuronów
yk = f wkj ywyj 1
j
wyj ciowych sieci:
j=1
wyj wyj
4. Oblicz b dy wszystkich neuronów warstwy
= zk yk
k
wyj ciowej:
l
5. Oblicz b dy w warstwach ukrytych
d f(uh 1 )
j
h 1 h h
= wkj
(pami taj c, e, aby wyznaczy b d w war-
j
duh 1 k=1 k
j
stwie h - 1, konieczna jest znajomo b du
w warstwie po niej nast puj cej - h):
6. Zmodyfikuj wagi wg zale no ci:
h 1
wh 1 = wh 1 + yih 1
ji ji j
7. Wró do punktu 2.
Jacek Bartman
Wady backpropagationa
Nie mo na zagwarantowa , i proces uczenia doprowadzi do
odnalezienia minimum globalnego funkcji miary b du - cz sto zdarza, e
odnalezione zostaje minimum lokalne,
Wybranie niew a ciwego punktu startowego czyli niew a ciwy dobór warto ci
pocz tkowych wag oraz nieodpowiedniej drogi mo e spowodowa wej cie w minimum
lokalne, którego algorytm nie b dzie w stanie opu ci .
Funkcja miary b du jest funkcj wielokrotnie symetryczn w
wielowymiarowej przestrzeni wag, co powoduje wyst powanie wielu
minimów globalnych i lokalnych.
Klasyczna metoda wstecznej propagacji b dów wymaga du ej liczby
iteracji by osi gn zbie no oraz jest wra liwa na wyst powanie
minimów lokalnych.
Podstawowy algorytm BP mo e si okaza zbyt wolny, je eli przyjmie si
za ma y wspó czynnik uczenia, z kolei zbyt du a warto wspó czynnika
grozi wyst pieniem oscylacji.
Jacek Bartman
Poprawa efektywno ci metody BP
Na popraw efektywno ci procesu uczenia mo e mie wp yw wiele
czynników:
wagi pocz tkowe - nie mog by zbyt du e; zaleca si losowy wybór wag, by
sygna wyj ciowy nieliniowej cz ci neuronu by nieco mniejszy od jedno ci.
korzystnie wp ywa kilkukrotne powtarzanie uczenia, rozpoczynaj ce si od
ró nych warto ci wag.
kolejno podawania wektorów ucz cych - zaleca si podawanie wektorów
wzorcowych w losowej kolejno ci.
Przedstawione powy ej propozycje mog w pewnym stopniu zapobiec
problemom pojawiaj cym si w trakcie uczenia sieci. Najlepszym
rozwi zaniem jest dokonanie modyfikacji samego algorytmu wstecznej
propagacji b dów tak, aby przyspieszy zbie no procesu uczenia oraz
unikn minimów lokalnych.
Jacek Bartman
Wsteczna propagacja b dów z momentum
Jednym z rozwi za umo liwiaj cych bezpieczne zwi kszenie
efektywnego tempa uczenia bez pogarszania stabilno ci procesu jest
zastosowanie momentowej metody wstecznej propagacji b du - MBP
(ang. Momentum BackPropagation).
Jacek Bartman
Metoda BP z momentum
Istot metody jest wprowadzenie do procesu uaktualniania wagi pewnej
bezw adno ci tzw. "momentu", proporcjonalnego do zmiany tej wagi w
poprzedniej iteracji:
Momentum
wji(t) = wji(t 1) + (t 1)yi (t 1) + (wji(t 1) wji(t 2))
j
(-0,1] - wspó czynnik momentu.
Dwa pierwsze sk adniki po prawej stronie wyra enia s identyczne, jak w
zwyk ej metodzie BP, natomiast ostatni uwzgl dnia poprzedni zmian wagi i
jest niezale ny od aktualnej warto ci gradientu.
Jacek Bartman
Sk adnik momentu wp ywa pozytywnie w sytuacjach gdy:
wyst puj du e p askie odcinki funkcji b du,
kolejne gradienty s przeciwnie skierowane,
uczenie  przebiega przez minimum lokalne funkcji b du,
wyst puj na powierzchni funkcji b du tzw. w wozy (w skie obszary o
stromych cianach bocznych i g bokich dnach). Zmiany gradientu o  wysokiej
cz stotliwo ci (oscylacje w poprzek cian w wozu) s eliminowane, a
wzmacniany jest sk adnik gradientu wymuszaj cy ruch w stron dna.
Sk adnik momentu nie powinien zdominowa procesu uczenia, poniewa
grozi to jego niestabilno ci - aby zapobiec temu kontroluje si warto
funkcji b du w trakcie uczenia, doprowadzaj c do jej wzrostu jedynie w
ograniczonym zakresie np. o k procent.
Jacek Bartman
Modyfikacje BP ze zmiennymi wspó czynnikami
uczenia i momentu
W a ciwy dobór wspó czynnika uczenia oraz wspó czynnika
momentum ma du y wp yw na zbie no procesu uczenia.
Optymalne warto ci wspó czynników uczenia i momentu mog by ró ne
dla ró nych iteracji, a nawet dla ka dej z wag danej iteracji.
Warto ci wspó czynników uczenia i momentu przyj te na pocz tku
procesu uczenia sieci mog okaza si niew a ciwe. Znacznie zmniejsza
to efektywno uczenia, a w skrajnym przypadku prowadzi do
rozbie no ci procesu uczenia.
Rozwi zanie tego problemu mo e by zmiana wspó czynnika uczenia i
momentu w trakcie procesu uczenia sieci.
Jacek Bartman
Techniki zmian wspó czynników
uczenia i momentum:
zastosowanie wi kszych warto ci oraz na pocz tku uczenia i
zmniejszanie ich w miar zbli ania si funkcji b du do minimum,
przyj ci na pocz tku procesu uczenia ma ych warto ci
wspó czynnika uczenia (ewentualnie równie wspó czynnika
momentu ). Gdy proces uczenia nabierze tempa wspó czynniki
s zwi kszane, by w ko cowej fazie ponownie ich zmniejszy ,
uzale nienie wspó czynnika uczenia od warto ci funkcji b du
redniokwadratowego  gdy b d maleje mo na zwi kszy
wspó czynnik uczenia, gdy ro nie nale y go zmniejszy . Badania
wykazuj , e dobrze jest zwi ksza wspó czynnik uczenia o
warto sta , a zmniejsza go geometrycznie.
Jacek Bartman
Metoda przyspieszonej wstecznej propagacji
Quickprop
Quickprop
Algorytm zosta opracowany przez S.E. Fahlmana w 1988
W metodzie tej zak ada si , e funkcja b du jest lokalnie paraboloidalna
Algorytm modyfikacji wag przebiega nast puj co:
wji(t) = (k) E(w(k)) + wij(k) + ij(k)(wji(t 1) wji(t 2))
wij
wspó czynnik prowadzi do zmniejszania wag, nie pozwalaj c na ich zbyt du y wzrost.
Typowe warto ci s niewielkie.
Wspó czynnik uczenia mo e przyjmowa dwie warto ci: warto sta na starcie
uczenia albo warto zerow .
Wspó czynnik momentu dostosowuje si adaptacyjnie do aktualnych post pów w
uczeniu.
Algorytm Quickprop powoduje du e przyspieszenie procesu uczenia.
Zabezpiecza on przed utkni ciem w p ytkim minimum lokalnym
Jacek Bartman
Algorytm RPROP
Algorytm zosta opracowany przez M. Riedmillera i H. Brauna
(Riedmillera, Brauna 1992).
Jego nazwa pochodzi od nazwy angielskiej Resilent backPROPagation.
Istot metody jest uwzgl dnienie w procesie aktualizacji wagi tylko znaku
sk adowej gradientu (jej warto jest pomijana):
E(w(k))
wji(t) = sgn
wij
Wspó czynnik uczenia jest uzale niony od zmian warto ci gradientu. Je li w obu
kolejnych iteracjach znak gradientu jest taki sam nast puje wzrost , w przeciwnym
przypadku zachodzi jego redukcja.
Algorytm RPROP powoduje znaczne przyspieszenie procesu uczenia
zw aszcza w obszarach o niewielkim nachyleniu funkcji b du.
Jacek Bartman
Metoda Newtona
Alternatywne podej cie do zagadnienia minimalizacji funkcji b du polega na próbie
osi gni cia po o onego najni ej punktu powierzchni b du
w jednym kroku - co jest osi galne przy za o eniu, e znany jest kszta t jej powierzchni.
Przyjmuj c, e wektor w jest wektorem wszystkich wag (w ca ej sieci) mo na wyrazi
warto gradientu funkcji kryterium w otoczeniu pewnego punktu w0 w postaci szeregu
Taylora:
E(w ) = E(w0 )+H(w w0 )+...
gdzie H jest macierz drugich pochodnych (hesjanem) funkcji b du E.
dalszych wyrazów szeregu nie uwzgl dniamy, zak adaj c, e funkcja b du ma kszta t
funkcji kwadratowej (paraboloidy).
W punkcie w, w którym funkcja E(w) osi ga minimum warto gradientu wynosi 0, przeto
w a nie
w =w0 H 1 E(w)
H  hesjan funkcji celu
- gradient funkcji celu
Jacek Bartman
W praktyce funkcja b du prawie nigdy nie ma kszta tu paraboloidy, dlatego
zwykle nie udaje si trafi w punkt rzeczywistego minimum  jednym strza em ,
oznacza to konieczno iterowania rozwi zania zgodnie ze wzorem:
w(t)= w(t 1) H 1 E(w(t 1))
Metoda ta jest bardzo kosztowna numerycznie, poniewa w ka dym kroku
stosowania algorytmu nale y odwróci macierz drugich pochodnych.
metoda Newtona bywa niestabilna numerycznie, zw aszcza
w przypadku, gdy punkt startowy nie jest po o ony dostatecznie blisko
poszukiwanego rozwi zania
Jacek Bartman
Algorytm Levenberga - Marquardta (LM)
Jest on jednym z najbardziej efektywnych algorytmów do uczenia sieci
jednokierunkowych.
czy w sobie zbie no algorytmu Gaussa - Newtona blisko minimum,
z metod najszybszego spadku, która bardzo szybko zmniejsza b d,
gdy rozwi zanie jest dalekie.
Wzór opisuj cy ten algorytm wygl da nast puj co:
w(t)= (H + I ) 1 E(w(t 1))
paramet Marquardta zmniejsza si podczas uczenia do 0
du e (daleko od minimum)  metoda najwi kszego spadku
ma e (blisko od minimum)  metoda Newtona
H  hesjan funkcji celu
I  macierz jednostkowa
Jacek Bartman
Warstwy sieci nieliniowej
Sie dwuwarstwowa Sie trójwarstwowej 
Sie jednowarstwowa tworzy
wyznacza w przestrzeni wej wyznacza taki obszar
w przestrzeni wej lini
wypuk y i spójny obszar, w pozytywnej odpo-wiedzi, który
prost , która dzieli ow
którym znajduj si punkty nie musi by ani spójny, ani
przestrze na dwa obszary. W
odpowia-daj ce wypuk y
jednym z nich s punkty
akceptowanym przez sie
reprezentuj ce obiekty
obiektom wej ciowym
akceptowane przez neuron, w
drugim za - odrzucane.
Sie trójwarstwowa mo e rozwi za ka dy rodzaj zadania.
Ró nice mi dzy sieciami o ró nej liczbie warstw wyst puj tylko w sieciach
nieliniowych. Sie liniowa zawsze, niezale nie od ilo ci warstw, dzieli obszar
przestrze wej lini prost .
Jacek Bartman
Rozmiary warstw sieci
W warstwie wej ciowej liczba neuronów musi by równa d ugo ci wektora
ucz cego (ilo ci podawanych na sie jednocze nie sygna ów)
Liczba neuronów w warstwie wyj ciowej musi by równa ilo ci rozró nialnych
przez sie klas
Ilo ci neuronów w warstwie ukrytej nie mo na precyzyjnie okre li !
l = log2 s
l = nm
s  liczba rozró nianych klas
n  ilo wej sieci
m  ilo wyj sieci
Jacek Bartman


Wyszukiwarka

Podobne podstrony:
Shan Ch an Han Buddyzm Bezposredni wyklad na temat Sutry Serca
Mróz Tomasz, WYKŁAD PROF RYSZARDA PALACZA NA TEMAT MYŚLI ŚREDNIOWIECZNEJ
Refleksje na temat Kodeksu Etyki Zawodowej
Opinie uczniów gimnazjów na temat dostępności do nielegalnych substancji psychoaktywnych i przyczyn
Metodologia pracy umysłowej Esej na temat Metody uczenia się
Ocena wiedzy kobiet z Podkarpacia na temat profilaktyki
Rothbard Notatka na temat katolicyzmu
Analiza baz danych na temat materiałów betonopodobnych
Wiedza młodzieży licealnej na temat czynników
Socjologiczna refleksja na temat ruchów społecznych
Ciekawostki na temat mózu i oczu człowieka
1 Refleksje na temat stanu polskiego poradnictwa
WIEDZA LICENCJATÓW PIELĘGNIARSTWA NA TEMAT
informacja na temat kontroli finansowej i audytu wewnętrznego
Wyklady NA TRD (9 )2012 F

więcej podobnych podstron