Dienstag, 26. Januar 2016

Roulette Bold-Play-Strategy


Roulette Bold-Play-Strategy
Author D.Selzer-McKenzie
Das Spiel „Rot und Schwarz“
In diesem Kapitel betrachten wir eines der einfachsten Glücksspiel-Modelle der Spieltheorie, das sogenannte „Rot und Schwarz“-Spiel. Sie wurde in Anlehnung an [1] abgefasst.
Den Namen „Rot und Schwarz“ hat das Spiel einer der beliebtesten und gleichnahmigen Einsatzmöglichkeit beim Roulett zu verdanken. Es gibt aber auch weitere Spiele, die nach dem gleichen Prinzip gespielt werden, zum Beispiel das Spiel „passen oder nicht passen“ beim „craps“.
Im Spiel „Rot und Schwarz“ befindet sich der Spieler in folgender Situati­on: Er startet das Spiel mit einem bestimmten Vermögen i und kann dabei einen Einsatz s, mit 0 s i machen. Dabei gewinnt er mit Wahrschein­lichkeit p E (0, 1) den Betrag s oder er verliert mit der dazugehörigen Wahrscheinlichkeit 1 p = q und muss den Einsatz s zahlen. Die Fälle p = 0 und p = 1 sind trivial und werden im Folgenden nicht betrachtet. Der Spieler spielt unabhängige, identisch verteilte Spiele.
Formal lässt sich ein solches Spiel am einfachsten mit Indikatorfunktio-nen modellieren. Sei Ik eine Indikatorfunktion mit P(Ik = 1) = p bzw. P(Ik = 0) = q, die das Ergebnis „das k-te Spiel wurde gewohnen bzw. verloren“ modelliert. Damit ist jedes Spiel ein Bernoulli-Experiment und die Folge I1, I2, ... ist ein Bernoulli-Prozess. Des Weiteren beschreibt Xk das Spielkapital des Spielers nach dem k-ten Spiel, wobei X0 das Startvermö­gen des Spielers ist, und Yk sei der k-te Wetteinsatz. Das Vermögen des Spielers nach dem k-ten Spiel kann dann folgendermaßen rekursiv defi­niert werden:
Xk=Xk1+(2Ik1)Yk, k E {1,2,3, ...}                              (2.1)
Der Spieler kann keine zukünftige Ergebnisse voraussagen. Damit können wir annehmen, dass Yk und Ik, I(k + 1), ... unabhängig sind und damit
E(Xk) = E(Xk1) + (2p 1)E(Yk).


Textfeld: 4Aus dieser Gleichung erkennt man sofort, dass falls man ein Spiel mit Nachteil für den Spieler spielt (p < 12), E(Xk) < E(Xk1) gilt, das Spielver­mögen also eine streng monoton fallende Funktion ist. Dieser Fall ist bei den meisten Glücksspielen gegeben und deshalb für uns am interessan­testen. Spielt man stattdessen ein faires Spiel (p =12), so ist das erwartete Vermögen konstant und hängt nicht vom Yk ab. Für p > 12erhalten wir eine streng monoton wachsende Funktion. Wie man sieht, ist es sinnlos, optimale Strategien zu suchen, die das erwartete Vermögen maximieren (sonst wäre im Spiel mit Nachteil optimal, nicht zu spielen).
Wir gehen im Folgenden davon aus, dass der Spieler nur solange spie­len möchte, bis sein Spielkapital eine bestimmte Schranke N erreicht und dafür bereit ist, sein gesamtes Startvermögen auszugeben. Als Beispiel betrachten wir einen Spieler, der 1.000 Euro hat, aber aus irgendeinem Grund dringend 100.000 Euro benötigt und dieses Geld im Casino gewin­nen möchte. Dabei stellt sich die Frage, wie dieser Spieler spielen soll, da­mit die Wahrscheinlichkeit, mit 100.000 Euro in der Tasche nach Hause zu gehen, maximal wird. Diese Frage wollen wir in den folgenden Kapiteln beantworten. Dabei spielen zwei Strategien, die in einem gewissen Sinne gegensätzlig sind, eine besondere Rolle: die „Timid-Play-Strategie“ und die „Bold-Play-Strategie“.
Um eine optimale Strategie zu finden, reicht es aus, sich auf die statio­nären Strategien zu beschränken. Eine Strategie heißt stationär, falls sie nicht randomisiert ist und die Entscheidungen des Spielers nur auf sei­nem aktuellen Vermögen basieren.
Beschränkt man sich auf solche Strategien, dann bildet die Folge des Ver­mögens X0, X1, ... eine Markov-Kette.
Sei S = {0, 1, ..., N} der Zustandsraum. Wir sagen, dass wir uns im Zu­stand i befinden, falls das aktuelle Spielvermögen gleich i ist. Der Akti­onsraum A = UiESAi ist endlich mit Ai = {0, 1, ..., min(i, N i)}, wobei die Aktionen a E Ai die möglichen Einsätze im Zustand i beschreiben. Dabei müssen wir beachten, dass der Spieler im Zusatnd i nie einen grö­ßeren Wetteinsatz machen wird, als es nötig ist, um N zu erreichen, also min(i, N i). Wir setzen für alle Aktionen a E A
1.   r(i,a)=0,fallsi =% N
2.   r(N,a) = 1
3.   p(0|0, a) = p(N|N, a) = 1
Aus den Annahmen (1) und (2) folgt, dass das Resultat r nur dann 1 ist, falls der Spieler sein Zielvermögen N erreicht hat. Der erwartete Gesamt­gewinn ist dann die Wahrscheinlichkeit, dass das Vermögen des Spielers


Textfeld: 5die gewünschte Höhe N erreicht. Mit der Optimalitätsgleichung des endlich-stufigen markovschen Entscheidungsprozesses kann dann diese Wahrschein­lichkeit maximiert werden.


Timid-Play-Strategie
Als erstes betrachten wir die Timid-Play-Strategie ( vorsichtiges Spiel) im Spiel „Rot und Schwarz“. Bei dieser Strategie setzt der Spieler immer 1 Euro bis sein Spielvermögen die Schranke N oder 0 erreicht hat. Unter die­ser Strategie ist der Spielkapital-Prozess X0, X1, X2, ... ein Random Walk mit absorbierenden Schranken 0 und N auf dem Raum S. Der zugehörige Übergangsgraph ist in der Abbildung 3.1 dargestellt. Die Abbildung wur­de in Anlehnung an [1] Abbildung 2.1 erstellt.
Die Schranke N können wir auch als Kapital des Casinos bzw. des Spiel­gegners betrachten. Dann erreicht unser Spielkapital den Betrag N genau dann, wenn der Spielgegner ruiniert ist und umgekehrt. Die Wahrschein­lichkeit, dass wir den Betrag N erzielen ist dann gegeben durch
pi = P (Xn = N|X0 = i) = 1 qi
wobei qi die Ruinwahrscheinlichkeit ist. Es wird angenommen, dass das Spiel nicht begrenzt ist und, falls das Spielkapital den Betrag N oder 0 erreicht, nicht weiter gespielt wird.Die Wahrscheinlichkeit pi lässt sich re­kursiv berechnen.Mit dem Satz von der totalen Wahrscheinlichkeit und
Abbildung 3.1: Übergangsgraph des Spielkapitalprozesses bei Timid-Play-Strategie


der Markov-Eigenschaft erhält man pi = P(Xn = N|X0 = i)


Textfeld: = n
∑
k∈S
= ∑
k∈S
= ∑
k∈S
P(Xn = N, X1 = k|X0 = i)
P(Xn = N|X1 = k, X0 = i)P(X1 = k|X0 = i) P(Xn = N|X1 = k)P(X1 = k|X0 = i).


Textfeld: 7In der Timid-Play-Strategie sind die Übergangswahrscheinlichkeiten: p = P(X1 = i + 1|X0 = i) , q = P(X1 = i − 1|X0 = i) und sonst Null.
pi = pP(Xn = N|X1 = i + 1) + qP(Xn = N|X1 = i − 1)
= ppi+1 + qpi−1,          i ∈ {1, 2, ..., N − 1}
und mit qi = 1 − pi folgt
qi = pqi+1 + qqi−1,       i ∈ {1,2, ..., N − 1} .              (3.1)
Auf der anderen Seite ist qi = (p + q)qi = pqi + qqi. Setzen wir dies in (3.1) ein, so ergibt sich für i ∈ {1, 2, ..., N − 1}
 
pqi + qqi = pqi+1 + qqi−1
⇔ p(qi+1 − qi) = q(qi − qi−1)
q
⇔ qi+1 − qi = (qi − qi−1)
p
(3.2)
 
Mit q0 = P(Xn = 0|X0 = 0) = 1 und qN = P(Xn = 0|X0 = N) = 0 erhält man
q2 − q1 = pq (q1 1)
Textfeld: (3.3)! q "2
q
q3 − q2 = (q2 − q1) =                (q1 1) . . .
p                        p
! q "i−1
qi − qi−1 =            (q1 1).
p
Jetzt addieren wir auf beiden Seiten qi−1 − qi−2 + ... + q2 − q1
#       ! q "2            ! q "i−1$
q
qi − q1 = p +           + ... +           (q1 1)         (3.4)
p                     p


1.    Textfeld: 8Fall
Nehmen wir an, dass q % =1/2 und damit qp % =1. Dann ist die Summe eine
endliche geometrische Reihe und wir erhalten
!q/p − (q/p)i"
qi − q1 =
(q1 1)                (3.5)
1 − q/p
Durch Ersetzen von i durch N in (3.5) ergibt sich
q/p (q/p)N
q1=1 (q/p)N .
Wir setzen dieses Resultat in die Gleichung (3.5) ein und lösen sie nach qi
auf. Damit erhalten wir die Lösung für den Fall p =% 1/2
(q/p)i(q/p)N
qi =           (3.6)
1
(q/p)N
2.   Fall
Für p = 1/2 und q/p = 1 lässt sich die Gleichung (3.4) zu
qi − q1 = (i − 1)(q1 1)                      (3.7)
vereinfachen. Mit
i = N folgt
qN −q1 = −q1 = (N − 1)(q1 1).
Wir lösen diese Gleichung nach q1 auf und setzen es in (3.7) ein. Damit erhalten wir das Resultat für den Fall p = 1/2
i
qi = 1 − N , i ∈ {1, 2, ..., N − 1}                    (3.8)
Die Gleichungen (3.6) und (3.8) geben die Ruinwahrscheinlichkeit des Spie­lers an. Die Wahrscheinlichkeit, dass der Spieler gewinnt (sein Spielkapital die Schranke
N erreicht) lässt sich mit der Gleichung pi = 1− qi leicht dar­aus berechnen:
Textfeld: ⎧
⎨
⎩
Textfeld: pi =
1( q p)i                                                _L
1(qp)N                                         p I- 2
i                                                    1
N                                     p 2.
(3.9)
 
Bemerkung 3.1. Die Herleitung der Ruinwahrscheinlichkeit wurde aus [2], Sei­ten 105-107 übernommen.


Textfeld: 9Mit der Formel (3.9) können wir nun die optimale Strategie angeben, mit der unsere Gewinnwahrscheinlichkeit maximiert wird. Dafür müssen wir zeigen, dass unter dieser Strategie der erwartete Gesamtgewinn u(i) die Gleichung
u(i) pu(i + k) + qu(i k)                    (3.10)
für
k min(i, N i) und 0 < i < N erfüllt.
Satz 3.1. Für p 1/2 maximiert die Timid-Play-Strategie die Wahrscheinlich­keit, den Betrag N zu erzielen.
Beweis
·   Für p = 1/2 ist die Wahrscheinlichkeit, das Spielkapital N zu errei-
chen, gegeben durch
i
u(i) = P(Xn = N|X0= i) =
N
und (3.10) ist offenbar erfüllt, da
!i + k "
i       1 ______  + 1 !i k "
N =      (3.11)
2
N 2 N
·   Für p > 1/2 müssen wir zeigen, dass
1(qp)i               #1(qp)i+k$                        $
#1 ( q p)ik
1 ( q p)N p _____________  + q
1 ( q p)N                                  1 ( q p)N
Es ist äquivalent zu
(                         (
1 (q/p)i+k)        1 (q/p)ik)
1 (q/p)i p                          + q
Auflösung nach (q/p)i liefert
(q/p)i p(q/p)i+k + q(q/p)ik
Nun dividieren wir beide Seiten durch (q/p)i und erhalten
1 p(q/p)k+ q(q/p)k.
Dies ist äquivalent zu
( (q/p)k + (p/q)k1)
1 p                                     ,                 (3.12)
Textfeld: 10da q(q/p)k =  pk
qk1 = p(pq)k1. Die Ungleichung (3.12) ist für k = 1
richtig, da 1 q + p. Nun müssen wir zeigen, dass die Funktion f(k) := (q/p)k + (p/q)k1 monoton wachsend in k für alle k 1ist, und erhalten dann die Behauptung.
Textfeld: (3.13)Dafür zeigen wir, dass f((k) 0 ist.
f((k) = (q/p)kln (q/p) + (p/q)k1ln(p/q) = (q/p)kln (p/q) + (p/q)k1ln(p/q)
Textfeld: ((p/q)k−1 − (q/p)k) ≥ 0= ln(p/q)
Das Letzte folgt aus der Annahme p > 1/2, denn dann ist p/q > 1 undq/p < 1.
Damit haben wir gezeig, dass es für den Spieler besser ist, immer den kleinsten Einsatz zu wählen, falls er ein Spiel mit Vorteil spielt. Diese Er­kenntnis ist nicht wirklich überraschend, denn es intuitiv klar ist, dass er bei einem solchen Spiel langfristig gewinnen wird. Damit ist es besser, „vorsichtig“ zu spielen, um das eigene Kapital nicht unnötig zu riskieren. Jetzt betrachten wir den Fall p < 12(klassisches Roulette) und wir interes­sieren uns diesmal nicht für die Wahrscheinlichkeit einen bestimmten Be­trag zu erwirtschaften, sondern wie lange wir mit dem Startkapital spielen können.
Dazu stellen wir uns folgendes Spiel vor: alle Spieler haben das gleiche Startkapital i und sie spielen das Spiel „Rot und Schwarz“. Das Spiel wird derjenige Spieler gewinnen, der mit seinem Geld am längsten auskommt. In einem solchen Spiel sollte man eine Strategie wählen, die die erwartete Spieldauer maximiert. In dem nächsten Satz werden wir sehen, dass falls wir dieses Spiel mit p < 1/2 spielen,die Timid-Play-Strategie optimal ist.
Satz 3.2. Für p < 1/2 maximiert die Timid-Play-Strategie die erwartete Anzahl von Spielen.
Beweis
Sei T die Anzahl der Spiele, die wir spielen können bevor wir endgültig verlieren und Xj der Gewinn des j-ten Spieles. Seien T und Xj unabhängig.


Da wir positive Wetteinsätze vorausgesetzt haben, können wir nicht mehr als das Startkapital verlieren. Also
T
j=1
Xj = i
 
und mit der Waldschen Identität erhalten wir
T
i = E (Xj) = E (T) E (Xj) j=1
oder für die Timid-Play-Strategie



E (T) =
i
 
i
 
i
 
E(X)
 
1(1 p) + 1p
 
.
1 2p
 
 



Textfeld: i 
u(i) = E(T) =
Textfeld: 11Sei nun u(i) die erwartete Anzahl der Spiele mit dem Startkapital i un­ter der Timid-Play-Strategie, die wir spielen können, bis wir ruiniert sind. Dann ist
(3.14)
1 2p .
Wir wollen nun die Theorie der markovschen Entscheidungsprozesse auf dieses Problem anwenden. Dazu sei r = 1 für alle Zeiten t, in denen unser Spielkapital nicht Null ist.
Damit müssen wir die Optimalitätsgleichung der Form
u(i) 1 + pu(i + k) + qu(i k) zeigen. Mit der Gleichung (3.14) ergibt sich
 
i                      i + k           i k
_________________ 1 + p_____ + q_____
1 2p                                                        1 2p 1 2p
i 1 2p + p(i + k) + i k p(i k).
(3.15)
 
Nach dem Ausmultiplizieren können wir die obere Ungleichung schrei­ben als
0 1 2p k(1 2p).
Da wir p < 1/2 vorausgesetzt haben, ist 1 2p immer positiv und die Ungleichung ist erfüllt für alle k 1. Damit folgt die Behauptung.
Somit haben wir bewiesen, dass die Timid-Play-Strategie unsere erwartete Spieldauer maximiert, falls p < 1/2. In dem nächsten Kapitel betrachten wir eine andere Strategie, die bei einem Spiel mit Nachteil die Gewinn­wahrscheinlichkeit maximiert.


Bold-Play-Strategie
Ein Spieler verfolgt die Bold-Play-Strategie (mutiges Spiel) in dem Spiel „Rot und Schwarz“, falls er in jedem Spiel den kleinsten der folgenden Einsätze wählt: sein aktuelles Kapital i oder den Betrag, den er braucht, um sein Zielkapital N zu erreichen. Anders formuliert:
·   i,fallsi N/2
·   N-i, falls i N/2
Diese Strategie wurde in Abbildung 4.1 illustriert. Wir nehmen zuerst an, dass das Spiel durch n Einsätze begrenzt ist. Sei un(i) die Wahrscheinlich­keit, mit dem Startkapital i in n Spielen den Betrag N zu erreichen und wir verfolgen die Bold-Play-Strategie. Mit un(0) = 0, un(N) = 1, n 0 und u0(i) = 0 für i < N folgt nach dem ersten Spiel
{
pun1(2i), für i N/2
un(i) =                   (4.1)
p + qun1(2i N), für i N/2.
Damit können wir die Optimalität der Bold-Play-Strategie bei einem Spiel mit Nachteil beweisen.
Satz 4.1. Für p 1/2 und alle n 0 maximiert die Bold-Play-Strategie die Wahrscheinlichkeit, in n Spielen den Betrag N zu erreichen.
Beweis
Nach der Optimalitätsgleichung müssen wir zeigen
un+1(r) pun(r + s) + qun(r s) , s min(r, N r)


Textfeld: 13Abbildung 4.1: Übergangsgraph des Spielkapitalprozesses bei Bold-Play-Strategie
oder
un+1(r) pun(r + s) qun(r s) 0 , s min(r,Nr)        (4.2)
Im Folgenden zeigen wir die Gleichung (4.2) mit der vollständigen Induk­tion.
(I.A.) Für n=0:
·       Für0 r < N/2istauchr+s < 2r < Nund damit u1(r) pu0(r + s) qu0(r s) = 0.
·       FürN> r N/2unds < Nrgilt2rN < Nundr+s < N. Mit der zweiten Gleichung von (4.1) erhalten wir
u1(r) pu0(r + s) qu0(r s) = p + qu0(2r N)
= p > 0
·       Analog gilt für N r N/2 und s = N r: u1(r) pu0(r + s) qu0(r s) = 0
Somit ist die Aussage für n = 0 gezeigt. (I.V.) Sei nun
un(i) pun1(i + k) qun1(i k) 0 , k min(i,Ni)


Textfeld: 14richtig.
(I.S.) Um die Ungleichung (4.2) zu zeigen, müssen wir wieder eine Fallun­terscheidung machen.
1.  Fall: für r + s N/2 folgt mit (4.1)
un+1(r) pun(r + s) qun(r s)
= pun(2r) p2un1(2(r + s)) qpun1(2(r s)) = p (un(2r) pun1(2r + 2s) qun1(2r 2s)) 0
Die letzte Ungleichung erhält man aus Induktion Voraussetzung mit i = 2r und k = 2s.
2.  Fall: für r s N/2 erhält man analog mit der zweiten Gleichung von (4.1)
un+1(r) pun(r + s) qun(r s)
= p+qun(2rN) p(p+qun1(2r+2s N))
q(p + qun1(2r 2s N))
= q (un(2r N) pun1(2r + 2s N) qun1(2r 2s N))
0
Die Ungleichung folgt aus der Indunktions-Voraussetzung mit i = 2r Nundk = 2s.
3.  Fall:r N/2 r + s, s r
un+1(r) pun(r + s) qun(r s)
(4.1)
= pun(2r) p(p + qun1(2r + 2s N)) qpun1(2r 2s)
= p (un(2r) p qun1(2r + 2s N) qun1(2r 2s)) Mit 2r r + s N/2 folgt
= p (p + qun1(4r N) p qun1(2r + 2s N) qun1(2r 2s))
= q (pun1(4r N) pun1(2r + 2s N) pun1(2r 2s)) = q (un(2r N/2) pun1(2r + 2s N) pun1(2r 2s)) .
Die letzte Gleichung erhalten wir wegen 2r N/2 N/2 mit (4.1).
Für s
N/4 ist 2r + 2s N 2r 2s und wir erhalten wegen p q


Textfeld: 15un(2r N/2) − pun−1(2r + 2s N) − pun−1(2r 2s) > un(2r N/2) − pun−1(2r + 2s N) − qun−1(2r 2s)
I.V.
> 0
Analog gilt für s < N/4
un(2r N/2) − pun−1(2r + 2s N) − pun−1(2r 2s) > un(2r N/2) − qun−1(2r + 2s N) − pun−1(2r 2s)
I.V.
> 0
4. Fall: r s < N/2 < r
un+1(r) − pun(r + s) − qun(r s)
= p + qun(2r N) − p(p + qun−1(2r + 2s N)) − qpun−1(2r 2s)
Wegen r s < N2 und s < N r ist 2r N < N2 und mit (4.1) ergibt sich
p(p + q) + qpun−1(4r 2N) − p2pqun−1(2r + 2s N) − qpun−1(2r 2s).
Mit 2r N2 > N2 ist es gleich
pun (2r N/2) + p(q p) − pqun−1(2r + 2s N)
(4.3)
qpun−1(2r 2s).
Für s < N/4 erweitern wir die Gleichung (4.3)
pq p2 + p2un−1(2r 2s) − p2un−1(2r 2s) − qpun−1(2r 2s)
+  p(un(2r N/2) − qun−1(2r + 2s N) =p(q p) (1 un−1(2r 2s))
+  p (un(2r N/2) − pun−1(2r 2s) − qun−1(2r + 2s N)) >0
Der erste Summand ist positiv, da q > p und un−1(2r 2s) eine Wahrscheinlichkeit ist. Der zweite Summand ist nach Induktions-Voraussetzung mit i = 2r N/2 und k = N/2 2s auch positiv.


Textfeld: 16Mit s > N/4 gilt für die Gleichung (4.3) p(q p) (1 un1(2r 2s N))
+ p (un(2r N/2) pun1(2r + 2s N) qun1(2r 2s)) I.V.
0
und wir erhalten die Behauptung.
Nun verzichten wir auf die Annahme, dass die Anzahl der Spiele be­schränkt ist und wir zeigen, dass auch dann die Bold-Play-Strategie op­timal ist.
Satz 4.2. Die Bold-Play-Strategie maximiert die Wahrscheinlichkeit, den Betrag N jemals zu erreichen,falls p 1/2.
Beweis
Sei u(r) die Wahrscheinlichkeit den Betrag N zu erreichen, angefangen mit r und wir spielen die Bold-Play-Strategie.
Wegen
u(r) = limnun(r)
folgt aus dem Satz 4.1
u(r) pu(r + s) + qu(r s), s min(r, N r) und damit die Behauptung.
Damit haben wir bewiesen, dass beim „Rot und Schwarz“- Spiel mit Nach-teilt die Bold-Play-Strategie eine optimale Strategie ist, falls wir die Ge­winnwahrscheinlichkeit maximieren wollen. Auch dieses Resultat wider­spricht nicht unserer intuitiven Einschätzung. Beim Spiel mit p 1/2 ist es besser, immer so viel wie möglich bzw. nötig zu setzen, denn je länger wir spielen, desto stärker entwickelt sich das Spiel zu unserem Nachteil. Falls wir die Bold-Play-Strategie verfolgen, kann es mit hoher Wahrschein­lichkeit passieren, dass wir schon nach wenigen Spielen, oder sogar nach einem, ruiniert sind. Dies macht diese Strategie für die Spieler weniger at­traktiv. Aber es existieren andere, davon abgeleitete Strategien, die beim Spiel mit Nachteil auch optimal sind und mit denen die Spieldauer ver­längert werden kann (vgl. [1], 4. Abschnitt).

Keine Kommentare:

Kommentar veröffentlichen

Hinweis: Nur ein Mitglied dieses Blogs kann Kommentare posten.