15.4- Przykład: wybór równowagi 103
15.3.6. Inne modele uczenia
Uczenie się racjonalne (Rational leaming). Jest to najbardziej "wyrafinowany” z prezentowanych modeli. Zakładamy że gracze znają sytuację strategiczna oraz że mają subiektywny (zależny od gracza) zbiór przekonań (beliefs) o strategiach behawioralnych pozostałych graczy. Gracze reagują optymalnie na przekonania-strategie behawioralne-pozostałych graczy (w sensie najlepszej odpowiedzi: tak aby zmaksymalizować zdyskontowana sumę wszystkich swoich przyszłych wypłat).
Uczenie się behawioralne: Odpowiednie modele te są tworzone na podstawie wyników eksperymentalnych, które w szczególności pokazują że ludzie często nie zachowują sie "racjonalnie”, powodują się emocjami, popełniają błędy, mają ograniczony horyzont czasowy planowania strategicznego i pamięć o historii (zapominanie), ograniczoną wiarę w racjonalność, umiejętności pozostałych graczy itp.
15.4. Przykład: wybór równowagi
Podamy przykład zastosowania prostego stochastycznego modelu uczenia się do wyboru równowagi w grze koordynacyjnej. Model ten będzie opisany przez łańcuch Markowa na skończonej przestrzeni stanów.
Przykład 15.1. Dwóch graczy gra w kolejnych chwilach czasu t = 1,2,... w dwuosobową grę o macierzy wypłat
1 r | ||
1 |
5,5 |
0,0 |
r |
0,0 |
5,5 |
pamiętając dwie ostatnie (czyli grane w ostatnich 2 rundach) akcje grane przez przeciwnika. Definiujemy stany gry jako wektory (a, b, c, d) : a,b,c,d £ {/, r} oznaczane dalej abcd, gdzie a-wybór gracza wierszowego w przedostatniej rundzie, b-w odstatniej, c-wybór gracza kolumnowego w przedostatniej rundzie, d-w ostatniej. Jest 16 stanów.
Najlepsza odpowiedź każdego gracza na akcje 11 to 1, na rr to r, a na lr i rl to: graj 1 z prawdopodobieństwem 1/2, r z prawdopodobieństwem 1/2.
Ze względu na nierozróżnialność graczy nieważna jest ich kolejność, więc utożsamiamy np. abcd z cdab. Zredukowaliśmy w ten sposób zbiór stanów do:
S := {llll, lllr, llrl, llrr, Irlr, Irrl, Irrr, rlrl, rlrr, rrrr} (15.8)
Dla każdego stanu można policzyć prawdopodobieństwo przejścia do każdego z możliwych 10 stanów. Na przykład ze stanu lllr z prawdopodobieństwami równymi 1/2 przechodzimy do stanów Uri i Irrl, i z prawdopodobieństwem 0 do każdego innego stanu. Ze stanu llrl do llll i Irll z p-stwami 1/2, Stany llll,rrrr są pochłaniające, nie można z nich "wyjść”.
Otrzymujemy w ten sposów łańcuch Markowa o 10 stanach. Uzyskane prawdopodobieństwa tworzą 10 x 10 macierz M — (m^) przejścia, rriij jest prawdopodobieństwem przejścia pomiędzy stanami i,j £ S.