21 Uczenie ze wzmocnieniem


POLITECHNIKA WARSZAWSKA
MEL
MEL
WYDZIAA MECHANICZNY ENERGETYKI I LOTNICTWA
WPROWADZENIE
DO SZTUCZNEJ INTELIGENCJI
NS 586
Dr in\. Franciszek Dul
F.A. Dul 2007
21. UCZENIE ZE WZMOCNIENIEM
F.A. Dul 2007
Uczenie ze wzmocnieniem
W tym rozdziale zobaczymy w jaki
sposób  przy braku nauczyciela 
agent mo\e uczyć się na podstawie
kar i nagród otrzymywanych za swoje
kar i nagród otrzymywanych za swoje
działania prowadzone w nieznanym
środowisku.
F.A. Dul 2007
Jak uczyć się przy braku wzorców?
Ka\dy rodzaj uczenia wymaga sprzę\enia zwrotnego
informującego agenta o skuteczności nauki.
Uczenie indukcyjne i probabilistyczne wykorzystuje zbiory
wzorców uczących do dostrajania parametrów modeli.
Uczenie ze wzmocnieniem (uczenie z krytykiem;
reinforcement learning) wykorzystuje kary i nagrody
informujące agenta o poprawności jego działań.
Celem uczenia ze wzmocnieniem jest wykorzystanie
Celem uczenia ze wzmocnieniem jest wykorzystanie
obserwowanych nagród i kar do znalezienia optymalnej
strategii działania w danym (nieznanym) środowisku.
Uczenie ze wzmocnieniem jest niezastąpione w grach
(np. w szachach), gdzie liczba mo\liwych wzorców jest
tak du\a, \e wyklucza to uczenie indukcyjne.
Uczenie ze wzmocnieniem stanowi jedyną mo\liwość
uczenia w przypadku gdy środowisko jest całkowicie
nieznane - w zadaniach eksploracji.
F.A. Dul 2007
20.1. Wprowadzenie
Plan rozdziału
" Uczenie pasywne ze wzmocnieniem
" Uczenie aktywne ze wzmocnieniem
" Poszukiwania strategii
" Zastosowanie  autonomiczne sterowanie śmigłowcem
F.A. Dul 2007
21.2. Uczenie pasywne ze wzmocnieniem
Uczenie pasywne ze wzmocnieniem polega na nauczeniu
się u\yteczności stanów UĄ(s) przy danej strategii działania Ą(s)
(w stanie s agent wykonuje działanie Ą(s)).
Zakłada się, \e środowisko jest obserwowalne.
W uczeniu pasywnym agent nie zna modelu przejścia T(s,a,s )
i funkcji nagrody R(s).
Agent wykonuje w środowisku zbiór prób u\ywając strategii Ą.
Celem tych prób jest nauczenie się funkcji u\yteczności UĄ(s)
dla ka\dego stanu s,
dla ka\dego stanu s,
"
ł łł
t
UĄ (s) = Eł
"ł R(st ) | Ą ,s0 = sśł
łt =0 ł
PRZYKAAD Strategia Ą i u\yteczności stanów w świecie 4x3.
0.812 0.868 0.918
+1
+1
0.762
0.660 -1
-1
0.388
0.655 0.611
0.705
F.A. Dul 2007
21.2. Uczenie pasywne ze wzmocnieniem
Adaptacyjne programowanie dynamiczne
W adaptacyjnym programowaniu dynamicznym (ADP) agent
uczy się funkcji przejścia T(s,a,s ).
Uczenie się funkcji przejścia T(s,a,s ) i obserwacje funkcji
nagrody R(s) pozwalają wykorzystać równanie Bellmana
UĄ (s) = R(s) + ł
"T (s,Ą (s),s')UĄ (s')
s'
Umo\liwia to uwzglednienie zale\ności między u\ytecznościa-
mi stanów i w efekcie lepsze przybli\enie funkcji u\yteczności.
Uczenie metodą adaptacyjnego programowania dynamicznego
Uczenie metodą adaptacyjnego programowania dynamicznego
jest łatwe, gdy\ odpowiadające mu równanie Bellmana jest
liniowe (przy stałej strategii nie ma maksymalizacji).
Wyniki uczenia ADP dla zadania 4x3.
(4,3)
1.0 1.0
(3,3)
(1,3)
0.8 0.8
(1,1)
(3,2)
0.6 0.6
0.4 0.4
0.2 0.2
0 0
20 40 60 80 100 20 40 60 80 100
F.A. Dul 2007
Liczba prób
Liczba prób
Ą

ą
d
U
\
yteczno
ś
ci
U
(
s
)
21.3. Uczenie aktywne ze wzmocnieniem
W uczeniu pasywnym strategia działań agenta jest ustalona.
W uczeniu aktywnym agent musi nauczyć się kompletnego
modelu środowiska łącznie z prawdopodobieństwami efektów
wszystkich działań.
Mo\na tego dokonać metodami adaptacyjnego programowania
dynamicznego.
Wybór działań optymalnych oraz wyznaczenie funkcji
u\yteczności U mogą być dokonane poprzez rozwiązanie
u\yteczności U mogą być dokonane poprzez rozwiązanie
nieliniowego równania Bellmana
U (s) = R(s) +ł max
"T (s, a, s')U (s')
a
s'
W przypadku iteracji strategii działania optymalne są otrzymy-
wane bezpośrednio z równania Bellmana.
F.A. Dul 2007
21.3. Aktywne uczenie ze wzmocnieniem
Eksploracja
Eksploracja polega na poznawaniu nieznanego środowiska.
Agent nie posiada modelu środowiska; musi się go nauczyć
na podstawie działań i obserwacji.
Strategia wyznaczona na podstawie modelu wyuczonego
mo\e jednak nie być optymalna.
+1
PRZYKAAD Zadanie 4x3. Sekwencja działań
optymalnych (dla modelu ścisłego)...
-1
...oraz wyznaczona na podstawie strategii
...oraz wyznaczona na podstawie strategii
optymalnej dla modelu wyuczonego.
+1
Agent nie nauczył się prawdziwej strategii
optymalnej; nie nauczył się te\ prawdziwych
-1
wartości u\yteczności stanów.
Wyznaczona strategia jest suboptymalna.
Agent wyznaczający strategie suboptymalne nazywany jest
agentem zachłannym (greedy agent).
Agent zachłanny bardzo rzadko uczy się strategii optymalnej.
F.A. Dul 2007
21.3. Aktywne uczenie ze wzmocnieniem
Przyczyną wyznaczenia strategii suboptymalnych jest
bezkrytyczne uwzględnianie nagród, bez zwracania uwagi
na poprawę jakości modelu środowiska.
Agent powinien zatem dą\yć do kompromisu pomiędzy
eksploatacją środowiska w celu maksymalizacji nagrody
a eksploracją środowiska w celu poprawienia jakości modelu.
Metoda GLIE (Greedy in the Limit of Infinite Exploration)
polega na próbowaniu wszystkich działań we wszystkich
stanach w celu uniknięcia przeoczenia strategii optymalnej.
stanach w celu uniknięcia przeoczenia strategii optymalnej.
Metoda GLIE pozwala agentowi nauczyć się modelu
prawdziwego, ale odbywa się to du\ym kosztem.
F.A. Dul 2007
21.3. Aktywne uczenie ze wzmocnieniem
Uczenie funkcji działania
Agent aktywny który nie korzysta z ustalonej strategii mo\e
u\yć metody czasowo-ró\nicowej (TD),
UĄ (s) ! UĄ (s) + ą( R(s) + ł UĄ (s') -UĄ (s) )
Alternatywną wersją metody czasowo-ró\nicowej jest
Q-uczenie, które zamiast u\yteczności u\ywa reprezentacji
w postaci wartości działania, tzw. Q-wartości.
Q(a,s) oznacza wartość wykonania działania a dla stanu s.
Q-wartości związane są z u\ytecznością następująco
Q-wartości związane są z u\ytecznością następująco
U (s) = max Q(a,s)
a
Równanie dla Q-wartości ma postać
Q(a,s) = R(s) + ł
"T (s,a,s')maxQ(a',s')
a'
s'
Q-uczenie wymaga znajomości modelu środowiska.
Agent czasowo-ró\nicowy uczący się Q-funkcji nie potrzebuje
modelu środowiska ani do uczenia, ani do wyboru działania.
F.A. Dul 2007
21.3. Aktywne uczenie ze wzmocnieniem
Równanie metody czasowo-ró\nicowej dla Q-uczenia ma
postać,
Q(a,s) = Q(a,s) +ą( R(s) + ł maxQ(a',s') - Q(a,s) )
a'
Efektywność metody TD dla Q-uczenia nie jest zadowalająca.
Metody adaptacyjnego programowania dynamicznego (ADP)
u\ywające (lub uczące się) modelu środowiska są zazwyczaj
znacznie wydajniejsze.
Co jest zatem lepsze dla agenta:
Co jest zatem lepsze dla agenta:
uczenie się modelu i funkcji u\yteczności czy te\ uczenie się
funkcji działania bez modelu?
Badania AI pokazały, \e podejście oparte na wiedzy jest
zazwyczaj lepsze.
Efektywny agent AI powinien zatem posiadać modele
przynajmniej niektórych własności środowiska.
Im bardziej zło\one jest środowisko, tym wyrazniej widoczne
są zalety podejścia opartego na wiedzy.
F.A. Dul 2007
21.4. Uogólnienia w uczeniu ze wzmocnieniem
Zastosowania uczenia ze wzmocnieniem - gry
Pierwszym zastosowaniem uczenia ze wzmocnieniem było
opracowanie programu do gry w warcaby (1959).
Program wykorzystywał aproksymację liniową z szesnastoma
parametrami; nie wykorzystywał w trakcie uczenia nagród!
Program grał na poziomie dobrych graczy w warcaby.
System TD-Gammon opracowany do gry w trik-traka (1992)
ukazuje mo\liwości uczenia ze wzmocnieniem.
Funkcja szacująca była reprezentowana siecią neuronową
Funkcja szacująca była reprezentowana siecią neuronową
z jedną warstwą ukrytą zło\oną z czterdziestu węzłów.
Uczenie wykorzystywało metodę TD w wersji parametrycznej.
Nagrodą był tylko końcowy wynik gry.
Uczenie przeprowadzono za pomocą 200,000 prób (obliczenia
trwały dwa tygodnie).
Pózniejsza wersja programu zawierała 80 węzłów w warstwie
ukrytej i była uczona za pomocą 300,000 prób.
Poziom gry programu TD-Gammon odpowiadał najlepszym
graczom w trik-traka na świecie.
F.A. Dul 2007
21.2. Sformułowanie statystyczne uczenia
Zastosowania uczenia ze wzmocnieniem - robotyka
Przykładem zastosowania uczenia ze wzmocnieniem
w robotyce jest zadanie sterowania wahadłem odwróconym.
Nale\y tak sterować poło\eniem x
wózka aby utrzymać wahadło
g
w poło\eniu pionowym,  ~ Ą/2.
Poło\enie wózka jest ograniczone,
x"[0,L].

x
Zmienne stanu są ciągłe.
Zmienne stanu są ciągłe.
Sterowanie jest typu bang-bang.
Zadaniu temu poświęcono tysiące prac z zakresu teorii
sterowania oraz AI.
Algorytm BOXES (1968) pozwalał wyznaczyć sterowanie
za pomocą uczenia ze wzmocnieniem ju\ po 30 próbach.
Umo\liwiało to sterowanie realnym urządzeniem całymi
godzinami.
Obecnie algorytmy oparte na uczeniu ze wzmocnieniem
pozwalają wyznaczać sterowanie wahadłem potrójnym.
F.A. Dul 2007
21.5 Poszukiwania strategii
Uczenie ze wzmocnieniem mo\e być zastosowane
do poszukiwania strategii działania agenta.
Strategia jako funkcja odwzorowująca stany na działania
mo\e być reprezentowana w postaci parametrycznej,
np. jako Q-funkcja liniowa względem parametrów,
Ć
Ą (s) = max Q (a, s)
a
Poszukiwanie strategii jest w ten sposób sprowadzone
do dostrojenia parametrów.
do dostrojenia parametrów.
Algorytm PEGASUS (2000) wykorzystuje ciąg N liczb losowych
do generowania strategii.
Algorytm PEGASUS był u\ywany do wyznaczania efektywnych
strategii w wielu zagadnieniach, np. do autonomicznego
sterowania śmigłowcem.
F.A. Dul 2007
21.6 Autonomiczne sterowanie śmigłowcem -
przykład zastosowania uczenia ze wzmocnieniem
Na podstawie artykułów:
 Autonomous helicopter flight via Reinforcement Learning ,
 PEGASUS: A policy search method for large MDPs and POMDPs ,
Andrew Y. Ng, Stanford University,
H. Jin Kim, Michael I. Jordan, and Shankar Sastry University of California, Berkeley
(2000). (www.cs.berkeley.edu)
Autonomiczne sterowanie śmigłowcem jest zadaniem trudnym,
gdy\ dynamika ruchu śmigłowca jest wyjątkowo zło\ona.
gdy\ dynamika ruchu śmigłowca jest wyjątkowo zło\ona.
Ze względu na niesymetrie zjawisk dynamicznych i aerodyna-
micznych oraz sprzę\enia pomiędzy poszczególnymi stopniami
swobody ruchu nawet proste manewry wymagają precyzyjnego
sterowania.
Metody sztucznej inteligencji pozwoliły opracować sterownik
autonomicznie pilotujący śmigłowiec w trakcie wykonywania
ró\nych, nawet dość trudnych, manewrów.
Sterownik został opracowany przy u\yciu algorytmu uczenia
ze wzmocnieniem PEGASUS oraz filtracji Kalmana.
F.A. Dul 2007
21.6. Autonomiczne sterowanie śmigłowcem
Uczenie ze wzmocnieniem: algorytm PEGASUS
Proces decyzyjny Markowa (MDP) jest opisany poprzez:
" zbiór stanów S,
" stan początkowy s0 "S,
" przestrzeń działań A,
" prawdopodobieństwa przejścia stanów (s,a) s : Psa(),
" funkcja nagrody R(s): S a R,
" współczynnik dyskonta ł < 1,
" rodzina  strategii Ą: S a A.
" rodzina  strategii Ą: S a A.






Uczenie ze wzmocnieniem oparte jest na stochastycznej
funkcji u\yteczności dla strategii Ą
2
U (Ą ) = E[R(s0) + ł R(s1) + ł R(s2) + K | Ą ]
gdzie s0, s1, s2,... jest trajektorią, czyli ciągiem stanów
odwiedzonych podczas realizacji strategii Ą.
Celem uczenia jest wyznaczenie strategii Ą* o największej
u\yteczności,
"Ą "  : U (Ą ) < U (Ą*).
F.A. Dul 2007
21.6. Autonomiczne sterowanie śmigłowcem
U\yteczności U(Ą) nie mogą być obliczone bezpośrednio, ale
mo\na wyznaczyć ich przybli\enia j(Ą) metodą Monte Carlo.
Potrzebny jest do tego stochastyczny model dynamiki obiektu.
Model taki wykorzystuje rozkład prawdopodobieństwa stanu
następnego s , Psa(s ), przy danych: stanie s i sterowaniu a.
Dla danej wartości losowej p model generuje stan następny s
dla którego Psa(s ) = p,
p s': Psa( s') = p.
Przykład Je\eli dla pary stan-działanie (s,a) model mo\e
generować dwa stany s1 i s2 z prawdopodobieństwami:
Psa( s1')= p*, Psa ( s2')=1- p *
to stan następny s zale\y od wartości zmiennej p następująco:
s = s1 je\eli p d" p* ,
s = s2 je\eli p > p* .
Dla danej losowej wartości p stan następny s wyznaczany jest
deterministycznie.
F.A. Dul 2007
21.6. Autonomiczne sterowanie śmigłowcem
Model stochastyczny mo\na przedstawić w postaci modelu
deterministycznego g sparametryzowanego zmienną losową p.
s' = g(s,a, p).
Model sparametryzowany losowo pozwala uwzględnić
zaburzenia stanu lub sterowania spowodowane czynnikami
losowymi (turbulencją, nierównomiernością pracy silnika, itp.)
Model dynamiki g mo\e być konstruowany w oparciu o prawa
podstawowe (model przyczynowy) lub te\ poprzez
podstawowe (model przyczynowy) lub te\ poprzez
identyfikację na podstawie pomiarów obiektu rzeczywistego.
W algorytmie PEGASUS sekwencje stanów obliczane są przy
u\yciu modelu g deterministycznie na podstawie sekwencji
liczb losowych p.
Ciągi liczb losowych na podstawie których oblicza się
sekwencje stanów mogą być generowane dla ka\dej strategii
Ą w sposób powtarzalny.
F.A. Dul 2007
21.6. Autonomiczne sterowanie śmigłowcem
Wyznaczenie przybli\onych u\yteczności j(Ą) metodą Monte
Carlo przebiega następująco:
" zakłada się liczbę kroków czasowych H;
" generuje się ciąg liczb losowych p1, p2 ,..., pH;
" dla ka\dej strategii Ą "  :



 generuje się losowo m stanów początkowych s0(i)"S,
czyli tzw. scenariuszy;
 przy u\yciu modelu g dla ka\dego stanu początkowego
s0(i) generuje się trajektorię s1(i), s2(i), ... , sH(i),
( ) ( (
ski+1 = g(ski),Ą (ski)), pk +1), k = 0,..., H -1.
 wyznacza się przybli\oną u\yteczność
m
1
(i) ( 2 ( H (i
U (Ą ) =
"R(s ) + ł R(s1i)) + ł R(s2i)) +K+ł R(sH))
0
m
i=1
U\ycie tego samego ciągu liczb losowych p1, p2 ,..., pH dla
wszystkich strategii Ą"  i wszystkich scenariuszy zapewnia



porównywalność i powtarzalność obliczonych u\yteczności
j(Ą).
F.A. Dul 2007
21.6. Autonomiczne sterowanie śmigłowcem
Przy zało\eniu, \e liczba scenariuszy m spełnia warunek
m ~ m(1/  ,log(1/ )),  ,  > 0
przybli\enie funkcji u\yteczności aproksymuje z prawdopodo-
bieństwem 1- wartość dokładną
"Ą "  : |U (Ą ) -U (Ą ) | < .
Obliczenie zbioru u\yteczności j(Ą) dla zbioru sekwencji
stanów pozwala wyznaczyć najlepszą strategię Ą* jako
stanów pozwala wyznaczyć najlepszą strategię Ą* jako
Ą * = arg max U (Ą )
Ą" 
Poniewa\ funkcja u\yteczności jest deterministyczna,
to wyznaczenie najlepszej strategii Ą* mo\e być
przeprowadzone dowolną metodą poszukiwań:
metodą największego spadku lub metodami gradientowymi.
F.A. Dul 2007
21.6. Autonomiczne sterowanie śmigłowcem
Śmigłowiec i jego model
Do badań u\yto zdalnie sterowanego modelu śmigłowca
Yamaha R-50
Dane śmigłowca:
" masa 20 kg,
" długość 3.6 m,
" średnica wirnika 2.8 m,
" wartość 70,000 $.
Wyposa\enie śmigłowca:
" komputer nawigacyjny,
" komputer nawigacyjny,
" inercyjny system nawigacji (INS) z trzema akcelerometrami
oraz trzema \yroskopami,
" ró\nicowy system GPS zapewniający z wyznaczenie poło\enia
z rozdzielczością 2 cm,
" kompas cyfrowy.
Komputer nawigacyjny wyznaczał estymację wektora stanu
na podstawie sygnałów z GPS, INS oraz kompasu cyfrowego
za pomocą filtru Kalmana.
Sygnały wejściowe z GPS, INS oraz sygnały sterujące
F.A. Dul 2007
były próbkowane z częstotliwością 50Hz.
21.6. Autonomiczne sterowanie śmigłowcem
Stan śmigłowca opisuje dwanaście zmiennych:
&
& & &
s = {x, y, z, Ć,  ,  , x, y, z, Ć&, &,  }
" x, y, z - poło\enie,
" Ć, ,  - orientacja (kąty Eulera),
& & &
" x, y, z - prędkości liniowe,
&
Ć&, &, 
" - prędkości kątowe.
Sterowanie śmigłowcem opisują cztery zmienne:
a = {a , a , a , a }
a = {a1, a2, a3, a4 }
" a1 - pochylenie wirnika,
" a2 - przechylenie wirnika,
" a3 - skok wirnika,
" a4 - skok śmigła ogonowego.
Model dynamiki ma postać niejawną ( czarna skrzynka )
sk (t +1) - sk (t) = fk (s(t),a(t)), k = 1,...,12, t = 0,1,...
F.A. Dul 2007
21.6. Autonomiczne sterowanie śmigłowcem
Identyfikacja modelu
Przy opracowaniu sterownika nie u\ywano klasycznego
modelu dynamiki w postaci równań pędu i krętu, lecz model
typu wejście-wyjście z szumem gaussowskim o wariancji 2
T 2
yk = k x + (0, ), k = 1,K,8.
Wejście x modelu tworzą: stan sb zdefiniowany w układzie
związanym ze śmigłowcem,
&
&
& & &
& & &
sb = { Ć,  , xb, yb , zb , Ć&, &,  },
sb = { Ć,  , xb, yb , zb , Ć&, &,  },
oraz sterowanie a w chwili t,
x = [ sb ,a ]T .
Wyjścia yk tworzą przyrosty zmiennych stanu dla k=1,...,8,
b b
yk = sk (t +1) - sk (t).
Wektor współczynników k jest wyznaczany osobno dla ka\dej
zmiennej stanu na podstawie m pomiarów wejść i wyjść modelu
w chwilach t = 1,...,m.
F.A. Dul 2007
21.6. Autonomiczne sterowanie śmigłowcem
Do identyfikacji modelu u\yto metody lokalnej regresji liniowej,
którą zastosowano do ka\dej zmiennej stanu sk , k=1,...,8.
Współczynniki regresji dla k-tej zmiennej stanu sk są równe
k = (XTWX)-1XTWyk .
Pomiary wejść i wyjść modelu dynamiki dla t = 1,...,m mo\na
zapisać w postaci macierzowej następująco
x1,1 x1,2 L x1,12 y1,k
x1 ł łł ł łł
ł łł
ł ł
ł śł
x2,1 x2,2 L x2,12 śł,
x2,1 x2,2 L x2,12 śł y2,k śł
x2
x2
ł ł śł.
ł śł, yk = y2,k śł.
ł
ł śł
ł śł
X = =
X = = y =
ł śł ł śł
ł śł
M M O M M
M
ł śł ł śł
ł śł
xm,2 L xm,12 śł
łxm śł
łxm,1 łym,k śł
ł ł
ł ł ł ł
Macierz W zdefiniowana jest poprzez zapytanie x jako
1
W = diag(exp(- (x - xi )T Ł-1(x - xi ))).
2
gdzie Ł jest wektorem wag dla poszczególnych pomiarów.
Do identyfikacji modelu wykorzystano sześciominutowe
rejestracje sterowania i stanu śmigłowca sterowanego zdalnie
przez doświadczonego pilota.
F.A. Dul 2007
21.6. Autonomiczne sterowanie śmigłowcem
Wyniki identyfikacji
Narastanie błędów estymacji w czasie
Przykład przebiegu zmiennej
stanu y (t) (  ) oraz jej predykcji
(a) x (t) bez uwzględnienia a1
(  ) wraz z odchyleniem
(b) x (t) bez uwzględnienia szumu,
standardowym błędu (- - - -).
(c) x (t) dla modelu liniowego,
(d) (t) dla modelu liniowego
F.A. Dul 2007
21.6. Autonomiczne sterowanie śmigłowcem
Uczenie lotu w zawisie
+1
Do reprezentacji strategii
Ł Ł
Ł Ł
Ł Ł
Ł Ł
a1
sterowania śmigłowcem errx
&
x
w zawisie wykorzystano sieć

neuronową acykliczną.
Ł Ł
Ł Ł
Ł Ł
Ł Ł
a2
erry
Struktura sieci została wybrana
&
y
tak, aby sterowania były
Ć
związane z odpowiadającym
Ł Ł
Ł Ł
Ł Ł
Ł Ł
a3
errz
im zmiennym stanu.
&
&
z
z
Sieć ma dziesięć wejść, jedną
&

warstwę ukrytą, cztery wyjścia
Ł Ł
Ł Ł
Ł Ł
Ł Ł
a4
err
i 32 współczynniki wagowe wi.
Błędy stanu s względem stanu po\ądanego s* odpowiadają-
cego zawisowi są równe
errs = s - s *
Przykładowo, sterowanie pochyleniem wirnika ma postać
a1 = w7 tanh(w8t1) + w9t1
&
t1 = w1 + w2 errx + w3 tanh(w4errx) + w5x + w6
F.A. Dul 2007
21.6. Autonomiczne sterowanie śmigłowcem
Funkcje nagrody dla stanu i sterowania mają postacie
R(s) = - (ąx(x - x*)2 + ąy (y - y*)2 +ąz (z - z*)2 +
& & &
+ąxx2 + ąy y2 + ązz2 + ą ( -*)2)
& & & &
R(a) = - (ąa a12 + ąa a22 + ąa a32 +ąa a42)
1 2 3 4
Współczynniki ąx ,..., ąa4 zapewniają porównywalne wkłady
poszczególnych wyrazów do funkcji nagród.
Do wyznaczania przybli\onych u\yteczności strategii j(Ą )
zastosowana została metoda PEGASUS.
zastosowana została metoda PEGASUS.
Poniewa\ strategie Ą są gładkimi funkcjami wag sieci, to
maksymalizacja j(Ą ) mo\e być przeprowadzona metodą
największego spadku lub metodą gradientową.
Najkosztowniejszą częścią algorytmu
PEGASUS jest wyznaczanie sekwencji
stanów s metodą Monte Carlo.
Wyznaczona strategia sterowania
umo\liwiła autonomiczne pilotowanie
śmigłowcem w zawisie.
Pierwszy zawis sterowany autonomicznie ! F.A. Dul 2007
!
!
!
21.6. Autonomiczne sterowanie śmigłowcem
Porównanie sterowania śmigłowcem w zawisie:
sterownik neuronowy
doświadczony pilot,
" błąd poło\enia (x-x*,y-y*,z-z*)
" błąd prędkości (vx,vy,vz)
Nauczony sterownik neuronowy jest w stanie utrzymywać
zawis śmigłowca bardziej precyzyjnie ni\ człowiek.
F.A. Dul 2007
21.6. Autonomiczne sterowanie śmigłowcem
Uczenie manewrów
+1
Do reprezentacji strategii Ł Ł a1
errx
sterowania śmigłowcem w
&
x
manewrach u\yto sieci

neuronowej stosowanej dla
Ł Ł a2
erry
zawisu, uzupełnionej trzema
&
y
połączeniami ( ł ).
ł
ł
ł
Ć
Ł Ł a3
errz
Strategie sterowania dla
manewrów otrzymuje się &
z
&
&


poprzez gładkie przejście ze
poprzez gładkie przejście ze
Ł Ł
a4
err
stanu dla zawisu s* do stanu
dla manewru sp(t),
x* xp(t), y* yp (t), z* zp (t), *  (t),
p
Funkcje nagrody dla stanu i sterowania są zmodyfikowane
pod kątem uwzględnienia zmiennej trajektorii.
Metoda PEGASUS pozwoliła wyznaczyć strategię sterowania
śmigłowcem dla manewrów wykonywanych na zawodach
śmigłowców sterowanych zdalnie w Klasie III,
odpowiadającej najwy\szemu poziomowi trudności.
F.A. Dul 2007
21.6. Autonomiczne sterowanie śmigłowcem
Manewry śmigłowca wykonywane przez pilotów na zawodach
Prostokąt pionowy
Trójkąt pionowy
z obrotem o 360
z obrotem o 180
stopni
stopni
Nos na okręgu
Manewry wykonywane przez śmigłowiec sterowany
autonomicznie sterownikiem uczonym algorytmem PEGASUS.
autonomicznie sterownikiem uczonym algorytmem PEGASUS.
Precyzja manewrów wykonywanych przez śmigłowiec
sterowany autonomicznie była zadowalająca.
F.A. Dul 2007
21.6. Autonomiczne sterowanie śmigłowcem
Manewr  nos na okręgu
Przedstawione rezultaty ilustrują potencjalne mo\liwości
algorytmów uczenia ze wzmocnieniem w dziedzinie
bezpilotowych pojazdów autonomicznych (UAV).
F.A. Dul 2007
Podsumowanie
" Uczenie ze wzmocnieniem polega na budowie modelu
na podstawie nagród i kar otrzymywanych przez agenta.
" Struktura agenta określa rodzaj informacji uczącej.
" Istnieją trzy typy struktur agenta uczonego ze wzmocnieniem:
 oparta na modelu środowiska T i funkcji u\yteczności U,
 oparta n funkcji działania Q, nie wykorzystująca modelu środowiska,
 refleksowa, u\ywająca zało\oną strategię Ą.
" Istnieją trzy sposoby uczenia się u\yteczności przez agenta:
 bezpośrednia estymacja u\yteczności,
 adaptacyjne programowanie dynamiczne (ADP),
 adaptacyjne programowanie dynamiczne (ADP),
 ró\nicowa (TD).
" Uczenie z funkcją działania Q nie wymaga modelu środowiska,
ale mo\e być utrudnione w środowisku zło\onym.
" Wybór działania w trakcie uczenia wymaga kompromisu
pomiędzy jego skutecznością i u\ytecznością w nauce.
" Poszukiwanie strategii polega na bezpośredniej reprezentacji
strategii i jej ulepszaniu na podstawie oceny skuteczności
działań.
F.A. Dul 2007


Wyszukiwarka

Podobne podstrony:
(odc 21) deser ze świeżych owoców
LM386 ze wzmocnieniem do 74 dB
wyklad 4 uczenie sie niestacjonarne WSEiP 21 2008
21 Dlaczego ani idealizm ani materializm nie moga byc uznane ze ostatecznie prawdziwe
Uwagi o rozpoznawaniu i wspomaganiu uczniów ze specyficznymi trudnościami w uczeniu się matematyki
Plan pracy z uczniem ze specyficznymi trudnościami w uczeniu się matematyki program autorski M Na
Szaty ze skór kara czy ratunek dla człowieka Patrystyczna interpretacja Rdz 3, 21
21 dowodów na to, że żyjesz w XXI wieku
(21 Potencjał zakłócający i anomalie)
980928 21
173 21 (10)

więcej podobnych podstron