104 15. Elementy teorii uczenia się w grach
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 | |
1 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
2 |
0 |
0 |
1/2 |
0 |
1/2 |
0 |
0 |
0 |
0 |
0 |
3 |
1/2 |
1/2 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
4 |
0 |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
5 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1/4 |
1/2 |
1/4 |
6 |
0 |
0 |
1/4 |
1/4 |
0 |
1/4 |
1/4 |
0 |
0 |
0 |
7 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1/2 |
1/2 |
8 |
1/4 |
1/2 |
0 |
0 |
1/4 |
0 |
0 |
0 |
0 |
0 |
9 |
0 |
0 |
0 |
0 |
0 |
1/2 |
1/2 |
0 |
0 |
0 |
10 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
Oznaczmy vi = (0,..., 1, ...0),i = 1, ...10, z jedynką na i-tym m-cu-wektor bazy kanonicznej w R10. Numer wektora bazy odpowiada numerowi stanu w uporządkowaniu (15.8). Jeżeli po danej rundzie jesteśmy w stanie Vi, to wektor
ViM = (mii,rriś2,...,wiiio) (15.9)
jest rozkładem prawdopodobieństwa stanu układu po następnej rundzie: każda współrzędna opisuje prawdopodobieństwo odpowiedniego stanu, suma współrzędnych daje 1.
Analogicznie wektor
jest rozkładem prawdopodobieństwa stanu układu po dwóch rundach, przy czym Ttiijmji jest prawdopodobieństwem przejścia od stanu i do l po dwóch rundach.
Macierz Mk będziemy nazywali macierzą przejścia po k rundach. Szukamy M* := limk-,oaMk. Otrzymujemy M* w postaci
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 | |
1 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
2 |
2/3 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1/3 |
3 |
5/6 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1/6 |
4 |
1/2 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1/2 |
5 |
1/3 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
2/3 |
6 |
1/2 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1/2 |
7 |
1/6 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
5/6 |
8 |
2/3 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1/3 |
9 |
1/3 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
2/3 |
10 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
Obliczenie M*. Niech P[abcd\-prawdopodobieństwo znalezienia się (po k = oo krokach) w llll o ile stan początkowy był abcd. Mamy P[llll\ = 1, P[rrrr] = 0, p[lllr] = 1/2P[llrl\ + 1/2P[lrrl\, gdyż lllr przechodzi z prawdopodobieństwami 0.5 do llrl i do Irrl.
Zdefiniujmy wektor kolumnowy prawdopodobieństw absorpcji przez Uli:
v := (P[llll},P[Ulr],...,P[rrrr])T.
Zachodzi
Ćwiczenie 15.1. Sprawdź powyższą równość.