1944

ELEMENTY ANALIZY PROCESÓW DECYZYJNYCH

Gry z naturą

Własności problemów decyzyjnych, które można rozwiązać wykorzystując metody teorii gier

Istnieje skończona liczba uczestników gry (zarówno zainteresowanych jak i nie zainteresowanych jej wynikiem).
Każdy uczestnik dysponuje skończoną liczbą sposobów działania.
Uczestnicy, którzy chcą zastosować teorię gier, muszą znać wszystkie sposoby działania innych uczestników, nie wiedząc jednak, które z nich zostaną wybrane.
Każdej kombinacji sposobów działania wszystkich uczestników odpowiada określona korzyść płynąca z gry.
Korzyść uczestnika gry zależy zarówno od jego działania, jak i od działania pozostałych uczestników.
Wszystkie możliwe wyniki gry dadzą się wyliczyć.

Sytuacja odpowiadająca powyższym warunkom zwana jest grą.

"Gra z naturą" - decyzję podejmuje tylko jeden uczestnik gry, posiadając informację o możliwych stanach, w jakich znajdzie się otoczenie, wpływających na korzyści wynikające z podjęcia decyzji.

Przykład 1

Firma specjalizująca się w zakresie przetwarzania informacji, analizy danych, itp. zamierza wydzierżawić system komputerowy wspomagający jej usługi. Wchodzą w grę trzy możliwości:

d₁ - dzierżawa dużego systemu komputerowego,

d₂ - dzierżawa średniego systemu komputerowego,

d₃ - dzierżawa małego systemu komputerowego.

Wybór jednej z trzech decyzji powinien prowadzić do uzyskania maksymalnego zysku przez firmę. Zysk ten zależy jednak od tego jak zachowa się rynek klientów w zakresie tego typu usług.

W grę wchodzą dwie możliwości:

s₁ - wysoka akceptacja oferowanych usług lub

s₂- niska akceptacja oferowanych usług.

Każdej parze (d_i ,s_j ) i=1,2,3, j=1,2 odpowiada pewna kwota zysku jaki osiągnie firma.

I tak, np.: przy decyzji o wydzierżawieniu małego systemu i dużej akceptacji dla oferowanych przez firmę usług (para: (d₃ ,s₁ )) zysk wynosi 100.000 zł. Dla decyzji (d₁ ,s₂ ) - duży system i mała akceptacja - zysk wyniesie -20.000 zł, czyli poniesiemy stratę. Zakładamy, że klienci nie działają świadomie na niekorzyść firmy. Również firma nie jest zainteresowana oferowaniem kiepskich usług za wygórowaną opłatą. Jaką decyzję powinna podjąć firma ?

Każdej parze (d_i ,s_j) odpowiada pewna wielkość nazywana wypłatą (korzyścią). Wypłaty zestawia się w, tzw. tablicę wypłat, w której wiersze są przyporządkowane graczowi I a kolumny odpowiadają stanom natury (tu: sytuacji rynkowej).

Tablica wypłat dla Przykładu 1

decyzja firmy	zachowanie rynku
	s₁	s₂
d₁	200 000	-20 000
d₂	150 000	20 000
d₃	100 000	60 000

W omawianym przykładzie macierz wypłat jest następująca:

s₁s₂

A = [a_ij] = 0x01 graphic

Kryteria nieprobabilistyczne w grach z naturą

MaxiMin - postępowanie pesymisty (asekuranta)

Pesymista (asekurant) określa dla każdej swojej decyzji najgorszy możliwy wynik (minimalną wypłatę)
a następnie wybiera taką decyzję d_k, dla której tak określona minimalna (gwarantowana) wypłata jest największa.

0x01 graphic

Firma podejmuje decyzję d₃ o wydzierżawieniu małego systemu komputerowego.

MaxiMax - postępowanie optymisty (ryzykanta)

Optymista (ryzykant) określa dla każdej swojej decyzji najwyższy możliwy wynik (maksymalną wypłatę ) w_i^o a następnie wybiera taką decyzję d_k, dla której tak określona maksymalna (ale nie gwarantowana) wypłata jest największa.

d_k : w_k^o =
{ w_i^o } , gdzie: w_i^o =
{ a_ij}

Dla rozważanego przykładu postępowanie wg zasady MaxiMax'u jest następujące:

0x01 graphic

Firma podejmuje decyzję d₁ o wydzierżawieniu dużego systemu komputerowego - nie bierze pod uwagę możliwej straty w przypadku małej akceptacji swoich usług przez klientów.

Kryterium Hurwicza - postępowanie pośrednie (mieszane)

Jest to postępowanie pośrednie pomiędzy postępowaniem pesymisty (asekuranta) a postępowaniem optymisty (ryzykanta). Reguła Hurwicza przyporządkowuje każdej decyzji d_i indeks h(d_i), który jest ważoną średnią minimalnej i maksymalnej wypłaty związanej z decyzją. Wybierana jest decyzja, której odpowiada maksymalna wartość h(⋅).

Oznaczmy:

α_i - skłonność decydenta do ryzyka (optymizmu) przy wyborze decyzji d_i, α_i∈[0,1].

(Zatem 1-α_i jest skłonnością do bycia pesymistą (asekurantem).

Dla każdej decyzji d_i wyznaczamy hipotetyczną wygraną h(d_i)

h(d_i ) =α_i w_i^o + (1-α_i)w_i^p .

Należy wybrać taką decyzję, dla której hipotetyczna wygrana h(d_i) jest największa.

d_k: h(d_k ) = max { h(d_i) }.

Rozważymy dwa przypadki rozwiązania problemu prezentowanego w przykładzie zgodnie z kryterium Hurwicza przy przyjęciu różnych założeń odnośnie wag α_i :

Przypadek (a)

Przyjmijmy α₁= α₂= α₃ = 0,5, tzn. że przy każdej z trzech decyzji jesteśmy w jednakowym stopniu pesymistą i optymistą. Jest to postępowanie właściwe w przypadkach, gdy nie jesteśmy w stanie określić prawdopodobieństw zajścia "stanów natury" s_j .

0x01 graphic

Właściwą decyzją jest w tym przypadku decyzja d₁ (duży system).

Przypadek (b).

Przyjmijmy α₁=0.6, α₂=0.5 oraz α₃ = 0.4. Oznacza to, że przy decyzji d₁ mamy większą skłonność do bycia asekurantem, przy decyzji d₂ jesteśmy pół na pół asekurantem i ryzykantem oraz przy decyzji d₃ mamy skłonność być większym ryzykantem.

0x01 graphic

W tym przypadku właściwą decyzją jest decyzja d₁ (system komputerowy o dużych rozmiarach).

Wybór decyzji optymalnej zgodnie z kryterium Hurwicza może być bardzo wrażliwy na dobrane subiektywne wagi α_i. Załóżmy, że ∀i α_i =α.

Wówczas

h(d₁ ) = -20α + 200 - 200α = -220α + 200

h(d₂ ) = 20α + 150 - 150α = -130α + 150

h(d₃) = 60α + 100 - 100α = -40α + 100 .

0x01 graphic
0x08 graphic

Rys.1 Funkcja wagowa h(•) dla analizy optymalności według Hurwicza

Analiza zachowania się indeksów h(•) jako funkcji wagi α, wykazuje, że w powyższym przykładzie:

dla α = 5/9 nie jesteśmy w stanie podjąć decyzji o wyborze strategii - wartość indeksu Hurwicza jest jednakowa dla wszystkich strategii i równa 700/9 ≅ 77.8.
dla α < 5/9 optymalną decyzją jest wybór strategii d₁ ,
dla α >5/9 optymalną decyzją jest wybór d₃ .

Minimax "żalu" - Savage'a

Macierz wypłat A = [a_ij ] transformujemy do postaci macierzy "żalu" R = [r_ij] w następujący sposób:

Określamy maksymalną wypłatę a_i dla każdego "stanu natury" j=1,…n

a następnie obliczamy wartości elementów r_ij według wzoru:

r_ij = a_j - a_ij .

Elementy macierzy "żalu" r_ij wyrażają naszą stratę z powodu podjęcia decyzji nieoptymalnej z punktu widzenia zaistniałego stanu natury. Do macierzy "żalu" stosujemy postępowanie według reguły MinMax, tzn. wskazujemy decyzję d_k, dla której największa strata ("żal") z powodu źle podjętej decyzji będzie możliwie najmniejsza.

d_k:

0x01 graphic
[r_ij] =

macierz „żalu”

0x08 graphic

Zgodnie z kryterium Savage'a firma powinna wybrać decyzję d₂ - wydzierżawienie systemu komputerowego o średnich rozmiarach.

Kryteria probabilistyczne w grach z naturą

Zakładamy, że znamy rozkład prawdopodobieństwa dla stanów natury (w naszym przykładzie naturą jest rynek usług firmy). W najprostszym układzie wiedza ta sprowadza się do znajomości prawdopodobieństwa zaistnienia określonego stanu natury, tj. P(s_j) j=1,…n. Stosowane podejścia noszą nazwę kryterium Bayesa-Laplace'a. Prawdopodobieństwa można oszacować na podstawie dostępnych informacji historycznych, specjalnie przeprowadzonego badania statystycznego, metodą ekspercką bądź wykorzystać subiektywne oceny prawdopodobieństw.

Maksymalizacja oczekiwanej korzyści

Wybieramy decyzję, dla której wartość oczekiwanej wypłaty (zysku) będzie największa, tj.

d_k : E_k^a =

0x01 graphic

Oparcie decyzji na oczekiwanej wypłacie prowadzi do wyboru decyzji d₃.

Minimalny oczekiwany "żal" (strata)

Wybieramy taką decyzję, dla której wartość oczekiwanej straty ("żalu") będzie najmniejsza, tj.

d_k :

Dla rozważanego przykładu oparcie decyzji na minimalizacji oczekiwanego "żalu" związanego z nietrafną decyzją prowadzi do wyboru decyzji d₃ , tak samo jak w przypadku kryterium maksymalizacji oczekiwanej wypłaty:

0x01 graphic

Załóżmy, że w ogólnym modelu podejmowania decyzji w warunkach niepewności posiadamy doskonałą informację wtedy, gdy przed podjęciem decyzji znamy stan natury. Tablica 2 przedstawia funkcję korzyści wraz z odpowiednimi prawdopodobieństwami P(s_j) a priori stanów natury.

Tablica 2

Funkcja korzyści oraz oczekiwane korzyści

s_j	P(s₁)		P(s₂)	...	P(s_n)
d_i	s₁	s₂		...	s_n	E_i^a
d₁	a₁₁	a₁₂		...	a₁_n
d₂	a₂₁	a₂₂		...	a₂_n
...	...	...		...	...	...
d_m	a_m₁	a_m₂		...	a_mn
	a₁	a₂		…	a_n

Decydent wybiera decyzję maksymalizującą korzyść przy danym stanie natury.

a_.j - korzyść, jaką gwarantuje decyzja optymalna przy danym stanie natury.

Oczekiwana korzyść przy doskonałej informacji (OKDI) wynosi

OKDI =
.

Jeżeli nie posiadamy doskonałej informacji, to wybieramy decyzję zgodnie z zasadą maksymalizacji oczekiwanej korzyści

Oczekiwaną wartość doskonałej informacji (OWDI) możemy obliczyć następująco OWDI = OKDI - E_k^a.

Spodziewany "żal" (strata) związany z optymalną decyzją wybraną przy pomocy kryterium minimalizacji oczekiwanego żalu jest równy oczekiwanej wartości doskonałej informacji.

W tym celu należy odpowiednio przekształcić wzór określający OWDI

0x01 graphic

gdzie elementy r_ij wyrażają stratę z powodu podjęcia decyzji.

Oczekiwana wartość dodatkowej informacji (OWDI), inaczej nazywana ceną graniczną dodatkowej informacji, jest równa wartości minimalnego oczekiwanego żalu odpowiadającej decyzji optymalnej, zgodnie z kryterium Savage'a.

Analiza bayesowska

Przed podjęciem istotnych ostatecznych decyzji będziemy szukać dodatkowej informacji prowadzącej do uaktualnienia ocen prawdopodobieństw zajścia poszczególnych stanów natury. Można to przedstawić na następującym schemacie.

0x08 graphic

Rys.2 Schemat uaktualniania wartości prawdopodobieństw

Oznaczmy przez (S,W) dwuwymiarową zmienną losową posiadającą łączny rozkład prawdopodobieństwa P(s_j ,w_l ) j=1,...,n, l=1,...,k.

W - oznacza zmienną losową, której wartości to możliwe do uzyskania warianty dodatkowej informacji,
S - jest zmienną losową, której wartościami są poszczególne stany natury.

Rozważymy przypadek, w którym zmienna (S,W) ma charakter dyskretny. Obie zmienne losowe W i S posiadają rozkłady brzegowe. Dla zmiennej S jest to rozkład a priori prawdopodobieństw stanów natury P(s_j).

Łączny rozkład zmiennej (S,W) określimy jako

. lub

Rozkład brzegowy zmiennej W, prawdopodobieństwa wyników eksperymentu, można wyrazić przez

Analiza bayesowska ma na celu uaktualnienie szacunków prawdopodobieństw a priori stanów natury P(s_j) w wyniku czego otrzymujemy oszacowania prawdopodobieństw a posteriori P(s_j|w_l ). Powinny one dostarczać nam precyzyjniejszej informacji dla uzyskania dokładniejszych ocen oczekiwanych wypłat.

Prawdopodobieństwa a posteriori:

0x01 graphic
.

Układ prawdopodobieństw warunkowych P(s_j|w_l) daje nam rozkład a posteriori stanów natury, który uzależnia wartości szacunków prawdopodobieństw zajścia stanów natury od wyników eksperymentu - informacji dodatkowej.

Zmienna W, która reprezentuje eksperyment powinna być wobec tego odpowiednio dobrana. Musi to być oczywiście zmienna zależna od zmiennej S a ponadto powinna być łatwo obserwowalna bądź jej wartości powinny dać się bez kłopotu precyzyjnie prognozować. Jest to warunek konieczny dla praktycznego wykorzystania analizy bayesowskiej w procesie podejmowania decyzji.

W teorii podejmowania decyzji szczególnie ważną sprawą jest umiejętność oceny dodatkowych korzyści płynących ze zmniejszenia niepewności (nieokreśloności) w porównaniu do kosztów uzyskania dodatkowych informacji. Można dokładnie obliczyć wartość dodatkowej informacji, odejmując maksymalną spodziewaną korzyść, jaką jesteśmy w stanie osiągnąć posługując się dodatkową informacją od spodziewanej korzyści bez posługiwania się nią.

Przykład 2

Załóżmy, że firma rozważana w Przykładzie 1 ma możliwość przeprowadzenia badania rynku w celu określenia potrzeb klientów. Studium takie może polepszyć oceny prawdopodobieństw preferencji rynku - akceptacji usług firmy. Oczywiście koszt badania rynku obciąża firmę i jeżeli przewyższa on wartość dodatkowej informacji (uzyskanej w wyniku badania), to firma z niego zrezygnuje. Spróbujmy oszacować wartość doskonałej informacji.

P(s_j)	0.4	0.6
d_is_j	s₁	s₂	E_i^a
d₁	200	-20	68
d₂	150	20	72
d₃	100	60	76
a_j	200	60
P(s_j)a_j	80	36

OKDI = 80 + 36 = 116 tys. $ .

Zatem, gdybyśmy byli w stanie wybrać zawsze najkorzystniejszą decyzję, w przypadku każdego ze stanów natury (akceptacji usług naszej firmy na rynku), oczekiwana wypłata mogłaby wynosić (jesteśmy to w stanie policzyć zdając sobie sprawę z tego, że jest to sytuacja idealna, w praktyce prawie niemożliwa) 116 tys.$. Oznaczałoby to wybór d₁ w przypadku stanu rynku s₁ i d₃ w przypadku stanu rynku s₂.

W przypadku braku doskonałej informacji, decyzję można podjąć stosując zasadę maksymalizacji oczekiwanej korzyści.

= max {68, 72, 76} = 76 tys. $.

Zatem optymalną decyzją w przypadku braku doskonałej informacji jest d₃ - dzierżawa małego systemu komputerowego.

Oczekiwana wartość doskonałej informacji:

OWDI = OKDI -
= = 116 - 76 = 40 tys. $.

Wynika z tego, że jeżeli cena pozyskania dodatkowej pełnej informacji (doskonałej) przekracza 40 tys. $ firmie nie opłaca się z niej skorzystać. W przeciwnym przypadku można rozważyć skorzystanie z usługi badania rynku.

OWDI stanowi pułap maksymalny - wartość informacji próbkowej (OWPI) na pewno nie będzie wyższa.

Załóżmy, że firma decyduje się zaangażować firmę specjalizującą się w badaniach rynku w celu sprawdzenia potencjalnej akceptacji swoich usług na rynku. Badanie rynku dostarczy nowej informacji próbkowej, dzięki której prawdopodobieństwa a priori zostaną za pomocą procedury bayesowskiej zaktualizowane - staną się prawdopodobieństwami a posteriori.

Wyróżnimy dwa wskaźniki rynku:

w₁ - klienci w badanej próbie wykazują duże zainteresowanie usługami firmy,

w₂ - w badanej próbie klienci wykazują małe zainteresowanie usługami firmy.

Jako wyniku eksperymentu mającego na celu zdobycie dodatkowej informacji oczekujemy prawdopodobieństw a posteriori: P(s_j|w_l), które oznaczają warunkowe prawdopodobieństwa, że zaistnieje stan natury j, jeżeli wynikiem eksperymentu był wskaźnik w_l .

Na podstawie wcześniejszych doświadczeń firma prowadząca badanie rynku szacuje, że prawdopodobieństwa warunkowe P(w_l|s_j) są następujące:

Tablica 3

Prawdopodobieństwa warunkowe wskaźników badania

Stany natury	Wskaźniki badania
	w₁	w₂
s₁	P(w₁\|s₁)=0.85	P(w₂\|s₁)=0.15	1
s₂	P(w₁\|s₂)=0.05	P(w₂\|s₂)=0.95	1

Tablica 4

Obliczanie prawdopodobieństw a posteriori

s_j	P(s_j)	P(w_l\|s_j)		P(s_j)P(w_l\|s_j)= P(w_l∩ s_j)
		w₁	w₂	w₁	w₂
s₁	0.4	0.85	0.15	0.34	0.06
s₂	0.6	0.05	0.95	0.03	0.57
				0.37	0.63
P(s₁\|w_l)				0.34/0.37= 0.92	0.06/0.63= 0.095
P(s₂\|w_l)				0.03/0.37= 0.08	0.57/0.63= 0.905

Możemy teraz obliczyć maksymalne oczekiwane korzyści dla poszczególnych sytuacji, jakie mogą zaistnieć w przypadku korzystania z dodatkowej próbklowej informacji:

w wyniku badania otrzymaliśmy wskaźnik w₁

max E(d_i|w₁) =
0x01 graphic
= 182.4 tys. $ ,

co odpowiada decyzji d₁.

2. w wyniku badania otrzymaliśmy wskaźnik w₂

max E(d_i|w₂) = 0x01 graphic
= 63.8 tys $,

co odpowiada decyzji d₃.

Reasumując, jeżeli w wyniku badania rynku otrzymamy informację, że klienci w badanej próbie wykazują silne zainteresowanie usługami świadczonymi przez naszą firmę, to powinniśmy podjąć decyzję d₁ o dzierżawie dużego systemu komputerowego. Możemy wówczas oczekiwać zysku w wysokości 182.4 tys. $. Jeżeli natomiast badanie rynku pokaże, że klienci są słabo zainteresowani usługami naszej firmy, to powinniśmy wydzierżawić mały system komputerowy - oczekiwać możemy wówczas zysków w wysokości 63.8 tys. $.

Oczekiwana korzyść przy próbkowej informacji statystycznej (OKPI)

OKPI =
.

W naszym przykładzie oczekiwana wypłata szacowana w przypadku korzystania z próbkowej informacji statystycznej wynosi:

OKPI= 0.37⋅182.4 + 0.63⋅63.8 = 107.6 tys. $.

Oczekiwana wartość informacji próbkowej (OWPI), będąca różnicą szacunków oczekiwanej wypłaty w przypadku korzystania i nie korzystania z dodatkowej próbkowej informacji statystycznej wynosi

OWPI = OKPI -

W naszym przykładzie wartość dodatkowej informacji pochodzącej ze statystycznego badania rynku wynosi

OWPI = 107.6 - 76 = 31.6 tys. $

i tyle, ewentualnie, moglibyśmy maksymalnie zapłacić za przeprowadzenie tego badania.

Wartość OWPI jest oczywiście nie większa niż wartość doskonałej informacji OWDI.

Efektywność informacji dodatkowej :

E = OWPI/OWDI ⋅ 100%

Efektywność badania rynku w naszym przykładzie wynosi:

E = 31.6/40 ⋅ 100% = 0.79 ⋅ 100% = 79%.

Można powiedzieć, że informacja pochodząca z proponowanego w naszym przykładzie badania rynku odpowiada w 79% doskonałej informacji.

∝

0x01 graphic

Prawdopodobieństwa

a priori

Dodatkowa informacja

Analiza bayesowska

Prawdopodobieństwa

a posteriori

Wyszukiwarka