15.3. Inne typy uczenia 101
jeżeli Si(yn) < 0. Parametr li € [0,1] nazywamy tempem uczenia się (learning ratę). Prawdopodobieństwo akcji nie zagranej jest uaktualniane tak by w sumie z prawdopodobieństwem akcji zagranej dawały 1. Im większy iloczyn liSi(yn) tym większa zmiana prawdopodobieństwa.
Otrzymaliśmy pewien model stochastyczny, ze stanem układu opisywanym przez wektor losowy (Pi>P2) ■ Realizacja zmiennej losowej Pi, i — 1,2 to prawdopodobieństwo zagrania przez gracza i w kolejnym kroku pierwszej z dwóch dostępnych mu strategii. Model ten jest dyskretnym w czasie procesem Markowa z ciągłą przestrzenią stanów.
Przedstawiony model obejmuje dowolne gry 2x2, niekoniecznie symetryczne.
Używając symulacji komputerowych Flachę i Macy [4] znaleźli dwa rodzaje równowag w modelu BM, które nazwali selfreinforcing equilibria oraz selfcorrecting equilibria. Te równowagi profile strategii do których dąży układ. Matematyczną formalizację tych pojęć można znaleźć w [12].
15.3. Inne typy uczenia
15.3.1. Uczenie się przez imitację
O imitacji mówimy gdy gracz w następnej rundzie gra pewną strategią innego gracza (adoptuje, imituje innego gracza). Wybór strategii jest na ogół uzależniony od wypłaty uzyskiwanej przez poszczególne strategie. Możliwość imitowania zależy od modelu. Może być opisana przez pewne stale prawdopodobieństwo, może zależeć od tego czy wypłata jest czy nie powyżej pewnego progu itd.
Po otrzymaniu możliwości imitacji gracz wybiera gracza którego strategię może imitować. Wybór gracza może być losowy, a może zależeć od wypłat uzyskiwanych przez innych graczy w poprzednich rundach. Kandydaci do ”bycia imitowanym” mogą być brani z całego zbioru graczy lub też-w przypadku gier ze strukturą przestrzenną-z odpowiednio zdefiniowanego otoczenia gracza imitującego. Można też np. wprowadzić możliwość eksperymentowania przez dopuszczenie wyboru losowego: gracz imituje strategię przeciwnika z pewnym prawdopodobieństwem.
15.3.2. Procedury lepszej/najlepszej odpowiedzi
W modelach lepszej (better response) i najlepszej odpowiedzi (best response) zakładamy że każdy gracz zna wypłatę jaką otrzymałby z każdego możliwego wybory strategii przez wszystkich graczy oraz zna akcje wszystkich graczy w poprzedniej rundzie. Przy wyborze swojej kolejnej akcji każdy gracz zakłada że akcje przeciwników nie ulegną zmianie. Można to nazywać statycznym postrzeganiem otoczenia. Modele te opisuje się też przymiotnikiem ”krótkowzroczne” (myopić) co odzwierciedla fakt że gracze nie biorą pod uwagę wpływu aktualnego wyboru strategii na przyszłe wybory i wypłaty uczestników gry.
W modelu lepszej odpowiedzi gracz identyfikuje wszystkie strategie które dadzą mu wyższą niż aktualna wypłatę i wybiera losowo jedną z nich. W modelu najlepszej odpowiedzi gracz wybiera strategie tak aby zmaksymalizować swoja wypłatę przy oczekiwanych przez niego strategii którą będą grali pozostali gracze.
15.3.3. Procedura gry fikcyjnej
Jest to najstarszy i jeden z najbardziej popularnych modeli uczenia. W porównaniu z poprzednim modelem (naj)lepszych odpowiedzi mamy dalej do czynienia ze statycznym postrzeganiem otoczenia, natomiast gracze wykazują wyższy stopień "wyrafinowania”. Po pierwsze każdy gracz zna całą dotychczasową historię gry, tzn. wszystkie akcje grane przez wszystkich graczy. Po drugie każdy gracz zakłada że każdy z pozostałych graczy będzie grał w następnej rundzie