3784495619

3784495619



15.3. Inne typy uczenia 101

jeżeli Si(yn) < 0. Parametr li € [0,1] nazywamy tempem uczenia się (learning ratę). Prawdopodobieństwo akcji nie zagranej jest uaktualniane tak by w sumie z prawdopodobieństwem akcji zagranej dawały 1. Im większy iloczyn liSi(yn) tym większa zmiana prawdopodobieństwa.

Otrzymaliśmy pewien model stochastyczny, ze stanem układu opisywanym przez wektor losowy (Pi>P2) ■ Realizacja zmiennej losowej Pi, i — 1,2 to prawdopodobieństwo zagrania przez gracza i w kolejnym kroku pierwszej z dwóch dostępnych mu strategii. Model ten jest dyskretnym w czasie procesem Markowa z ciągłą przestrzenią stanów.

Przedstawiony model obejmuje dowolne gry 2x2, niekoniecznie symetryczne.

Używając symulacji komputerowych Flachę i Macy [4] znaleźli dwa rodzaje równowag w modelu BM, które nazwali selfreinforcing equilibria oraz selfcorrecting equilibria. Te równowagi profile strategii do których dąży układ. Matematyczną formalizację tych pojęć można znaleźć w [12].

15.3. Inne typy uczenia

15.3.1.    Uczenie się przez imitację

O imitacji mówimy gdy gracz w następnej rundzie gra pewną strategią innego gracza (adoptuje, imituje innego gracza). Wybór strategii jest na ogół uzależniony od wypłaty uzyskiwanej przez poszczególne strategie. Możliwość imitowania zależy od modelu. Może być opisana przez pewne stale prawdopodobieństwo, może zależeć od tego czy wypłata jest czy nie powyżej pewnego progu itd.

Po otrzymaniu możliwości imitacji gracz wybiera gracza którego strategię może imitować. Wybór gracza może być losowy, a może zależeć od wypłat uzyskiwanych przez innych graczy w poprzednich rundach. Kandydaci do ”bycia imitowanym” mogą być brani z całego zbioru graczy lub też-w przypadku gier ze strukturą przestrzenną-z odpowiednio zdefiniowanego otoczenia gracza imitującego. Można też np. wprowadzić możliwość eksperymentowania przez dopuszczenie wyboru losowego: gracz imituje strategię przeciwnika z pewnym prawdopodobieństwem.

15.3.2.    Procedury lepszej/najlepszej odpowiedzi

W modelach lepszej (better response) i najlepszej odpowiedzi (best response) zakładamy że każdy gracz zna wypłatę jaką otrzymałby z każdego możliwego wybory strategii przez wszystkich graczy oraz zna akcje wszystkich graczy w poprzedniej rundzie. Przy wyborze swojej kolejnej akcji każdy gracz zakłada że akcje przeciwników nie ulegną zmianie. Można to nazywać statycznym postrzeganiem otoczenia. Modele te opisuje się też przymiotnikiem ”krótkowzroczne” (myopić) co odzwierciedla fakt że gracze nie biorą pod uwagę wpływu aktualnego wyboru strategii na przyszłe wybory i wypłaty uczestników gry.

W modelu lepszej odpowiedzi gracz identyfikuje wszystkie strategie które dadzą mu wyższą niż aktualna wypłatę i wybiera losowo jedną z nich. W modelu najlepszej odpowiedzi gracz wybiera strategie tak aby zmaksymalizować swoja wypłatę przy oczekiwanych przez niego strategii którą będą grali pozostali gracze.

15.3.3.    Procedura gry fikcyjnej

Jest to najstarszy i jeden z najbardziej popularnych modeli uczenia. W porównaniu z poprzednim modelem (naj)lepszych odpowiedzi mamy dalej do czynienia ze statycznym postrzeganiem otoczenia, natomiast gracze wykazują wyższy stopień "wyrafinowania”. Po pierwsze każdy gracz zna całą dotychczasową historię gry, tzn. wszystkie akcje grane przez wszystkich graczy. Po drugie każdy gracz zakłada że każdy z pozostałych graczy będzie grał w następnej rundzie



Wyszukiwarka

Podobne podstrony:
15.4- Przykład: wybór równowagi 103 15.3.6. Inne modele uczenia Uczenie się racjonalne (Rational
102 15. Elementy teorii uczenia się w grach pewną strategią mieszaną, którą definiuje następująco.
104 15. Elementy teorii uczenia się w
21unx10 101 Main Si/tet Mo*fo»wa. NJ 07960 15 Msfdb, 19S* DearSir. 1 Just wjcntcd to drop you a
II. 15. WŁODZISŁAW I HERMAN (ż. JUDYTA). 101 1039 o urodzinach Bolesława (77. 14.), oparła się na do
55 6.    Dr. Janiszewski, ul. Krupówki 15; przyj-muje od 10—11 przed południem i od 3
skanuj0069 (24) inne klasyczne formy uczenia się. Forma wspomaganego komputerowo uczenia się stwarza
img182 kozdział 15WYPŁYW GAZU Z DYSZY 15.1. CIŚHIEKIE I PHęUKOŚĆ ERYTTCZŁl WYPŁYWU Jeżeli gaz znajdu
«r ^ ł • u i i Si ** i mi Ii li % * h u { Id fil? liii o 15
Lodź Academy of International Studies PL LODŹ 15 3/9 Brzozowa Street, 93-101 Lodź telephone no. (+48
page0072 ZAGADNIENIA OGÓLNE opracowano także inne typy nazw. Metodę stratygraficzną propagował też a

więcej podobnych podstron