3784495607

3784495607



15.4- Przykład: wybór równowagi 103

15.3.6. Inne modele uczenia

Uczenie się racjonalne (Rational leaming). Jest to najbardziej "wyrafinowany” z prezentowanych modeli. Zakładamy że gracze znają sytuację strategiczna oraz że mają subiektywny (zależny od gracza) zbiór przekonań (beliefs) o strategiach behawioralnych pozostałych graczy. Gracze reagują optymalnie na przekonania-strategie behawioralne-pozostałych graczy (w sensie najlepszej odpowiedzi: tak aby zmaksymalizować zdyskontowana sumę wszystkich swoich przyszłych wypłat).

Uczenie się behawioralne: Odpowiednie modele te są tworzone na podstawie wyników eksperymentalnych, które w szczególności pokazują że ludzie często nie zachowują sie "racjonalnie”, powodują się emocjami, popełniają błędy, mają ograniczony horyzont czasowy planowania strategicznego i pamięć o historii (zapominanie), ograniczoną wiarę w racjonalność, umiejętności pozostałych graczy itp.

15.4. Przykład: wybór równowagi

Podamy przykład zastosowania prostego stochastycznego modelu uczenia się do wyboru równowagi w grze koordynacyjnej. Model ten będzie opisany przez łańcuch Markowa na skończonej przestrzeni stanów.

Przykład 15.1. Dwóch graczy gra w kolejnych chwilach czasu t = 1,2,... w dwuosobową grę o macierzy wypłat

1 r

1

5,5

0,0

r

0,0

5,5

pamiętając dwie ostatnie (czyli grane w ostatnich 2 rundach) akcje grane przez przeciwnika. Definiujemy stany gry jako wektory (a, b, c, d) : a,b,c,d £ {/, r} oznaczane dalej abcd, gdzie a-wybór gracza wierszowego w przedostatniej rundzie, b-w odstatniej, c-wybór gracza kolumnowego w przedostatniej rundzie, d-w ostatniej. Jest 16 stanów.

Najlepsza odpowiedź każdego gracza na akcje 11 to 1, na rr to r, a na lr i rl to: graj 1 z prawdopodobieństwem 1/2, r z prawdopodobieństwem 1/2.

Ze względu na nierozróżnialność graczy nieważna jest ich kolejność, więc utożsamiamy np. abcd z cdab. Zredukowaliśmy w ten sposób zbiór stanów do:

S := {llll, lllr, llrl, llrr, Irlr, Irrl, Irrr, rlrl, rlrr, rrrr}    (15.8)

Dla każdego stanu można policzyć prawdopodobieństwo przejścia do każdego z możliwych 10 stanów. Na przykład ze stanu lllr z prawdopodobieństwami równymi 1/2 przechodzimy do stanów Uri i Irrl, i z prawdopodobieństwem 0 do każdego innego stanu. Ze stanu llrl do llllIrll z p-stwami 1/2, Stany llll,rrrr są pochłaniające, nie można z nich "wyjść”.

Otrzymujemy w ten sposów łańcuch Markowa o 10 stanach. Uzyskane prawdopodobieństwa tworzą 10 x 10 macierz M — (m^) przejścia, rriij jest prawdopodobieństwem przejścia pomiędzy stanami i,j £ S.



Wyszukiwarka

Podobne podstrony:
15.4- Przykład: wybór równowagi 105 Jak łatwo sprawdzić, rozwiązaniem równania Mv = v jest pierwsza
15.3. Inne typy uczenia 101 jeżeli Si(yn) < 0. Parametr li € [0,1] nazywamy tempem uczenia się (l
102 15. Elementy teorii uczenia się w grach pewną strategią mieszaną, którą definiuje następująco.
104 15. Elementy teorii uczenia się w
Tematyka seminarium obejmie, m.in., następujące zagadnienia: modele uczenia się języka
Modele -uczenia, się i nauczania, metody i strategie; • ustalenie definicyjne: model - metoda - stra
Modele uczenia się matematyki. I.    Wg psychologii asocjacyjnej. Teoria ta nie dopus
IMAG0250 Inne modele barw Modele telewizyjne Y!Q, YUV Modele perccpcyjnie równomierne (równoważne) •
153 jpeg W polu A wpisuje się numer kroku (w przedstawionym przykładzie 2). Sposób numerowania krok
Slajd42 Przykład 15.1 Tarcza kołowa o promieniu R= 2 m obraca się -w płaszczyźnie pionowej względem
100)15 Inne narządy llmfopoetyczne związane ze zjawiskami immunologicznymi: Migdałki tworząca pierśc
towarowe, wzory przemysłowe, oznaczenia geograficzne, topografie układów scalonych. 15. Inne prawa
15)    wybierania przedstawicieli oraz ubiegania się o wybór do organów
27733 ScannedImage 15 Inne zachowane okruchy informacji zawarte są w greckich i łacińskich dokumenta
15.8. Klasyczne modele kształtowania zapasów W warunkach zapotrzebowania niezależnego wyróżnia się d

więcej podobnych podstron