Spelteoretiska begrepp

Spelteoretiska begrepp del 1
(hämtat från [Blom1961])

Spelarna (här begränsat till två st, A och B) har vardera ett antal strategier, ai resp. bj , till förfogande. Vi antar att det finns tal, M(i,j) som mäter den nytta/konsekvens/utfall en spelare A får av att besluta om en viss strategi, ai, om spelaren B beslutar om strategin bj. Det kan bli många tal, m*n st, om antal strategier är m resp. n. Alltså kan det vara bekvämt att ställa upp dem som en betalningsmatris, M. Ett spel kan då beskrivas så här: A väljer strategi ai och B väljer bj. A och B känner normalt inte till varandras val (om ej spioneri försiggår). Beloppet m(i,j) utbetalas, när båda gjort sitt val, från B till A. Varje spelare  är i egoistisk i den meningen att hen vill maximera sin egen nytta. Spelet kan utföras 1 gång eller i långa serier av spel (upprepade spel).

Blom nämner tre typer av spel:

Spel med kända risker (= väntevärdesmodellen i beslutsteori):

Betalningsmatrisen M måste kompletteras med en riskmatris, W, också den med m*n komponenter.  Komponenterna representerar sannolikheter och summan av sannolikheter i en rad är 1. Spelet tillgår så att A väljer strategi ai. B tillåts spionera på A och vet alltså A:s strategi. Därefter väljer B med riskmatrisens hjälp slumpmässigt ut en strategi bi bland sina n möjliga strategier. Vi säger då att B använder en blandad strategi (viktigt begrepp). Att A valde en strategi (med 100% sannolikhet) av sina m möjliga strategier kallar vi då ren strategi. Obs: även A kan ha nytta av blandade strategier.

Två typiska handlingsprinciper nämns: medeltalsprincipen, maximerar vinsten i medeltal; riskbegränsningsprincipen, bra om M innehåller stora negativa tal för vissa strategier ai, som A vill undvika för att inte att bli ruinerad.

Ex 1: Lotterier, där ju medeltalsprincipen i princip alltid visar på medelförlust (som kanske kan uppvägas av spänning etc.)
Ex 2: Val mellan affärer med olika chans till vinst resp. förlust. Vid stora affärer kan riskbegränsningsprincipen vara aktuell.

Observera att spel med kända risker överensstämmer med väntevärdesmodellen (från 1600-talet) i beslutsteorin (se Logisk rationalitet under Beteendeekonomi till vardags). Exempel 1 där skulle kunna representeras som dessa två matriser, riskmatrisen, W, och betalningsmatris, M:

Strategiskt spel

innebär att man har en beräknande motståndare, som bara ser till sitt eget bästa. Spel utföres så här: A väljer strategi Ai; B väljer strategi Bj. Spioneri ej tillåtet. I generella fallet görs utbetalning till vardera parten enl. deras resp. betalningsmatris MX. Det behövs alltså då två betalningsmatriser.  [Blom1961] begränsar sig till 2-personers nollsummespel. Då räcker en betalningsmatris och B betalar till A enl. denna. Det kan finnas rena resp. blandade strategier:

Ren strategi: Lämplig handlingsprincip är maximin-principen, där A väljer den strategi som maximerar det minsta värdet hen får. På motsvarande sätt (vi antar som sagt nollsummespel) minimerar B det största värde hen behöver betala ut till A, minimax. Det kan bli så att minimax = maximin. Detta är då spelarnas optimala strategier och beloppet kallas spelets värde. Motsvarande punkt i matrisen M kallas sadelpunkt.

Blandad strategi: Det finns inte alltid en sadelpunkt vid rena strategier. Den rationella lösningen för två-personers nollsummespel är dock även här maximinprincipen: att räkna ut sämsta utfall i genomsnitt du kan få från var och en av dina blandade strategier och sen välja det scenarion som maximerar utfallet. Används alltså om man vill få bästa möjliga resultat i genomsnitt. A och B använder då var sin sannolikhetsvektor: för A: x = (x1, ... xm) och B: y = (y1, ..., yn). Handlingsprincip: Om A väljer viss vektor x  så får hen åtminstone det minsta av de tal M(x,y), som erhålls om y tillåts variera inom sitt område. A väljer den vektor som maximerar detta minsta värde. Alltså kan A försäkra sig om att i medeltal få minst U = max min M(x,y). På motsvarande sätt väljer B det minsta belopp, som hen i medeltal inte behöver betala mer än, som: V = min max (M(x,y).

Det märkliga är nu (spelteorins huvudsats): Varje betalningsmatris M har egenskapen U = V (bevisat av von Neumann 1928). Dessutom kan visas att - med lämplig sadelpunktsdefinition - varje funktion M(x,y) har minst en sadelpunkt - något som Gunnar Blom också betecknar som ett märkligt resultat. Att i generella  fall numeriskt bestämma dessa optimala blandade strategier är förstås inte trivialt. Fallet att spelarna har vardera bara två strategier att välja på kan lösas geometriskt.
Vitsen med blandade strategier, dvs att utnyttja slumpen för att besluta om strategi, kan vara att göra motparten osäker (eller om lotteri: ge spänning). 

Ex 3Gissa  krona eller klave, där A och B (diskret) väljer sida på varsitt mynt. A vinner båda mynten om samma sida sen visas upp. B vinner om olika sidor visas upp. Vid upprepat spelande närmar man sig en jämvikt, där varje spelare visar upp krona eller klave slumpmässigt, vardera med 50 % sannolikhet. Varje part vinner 50 % av gångerna, vilket är bästa möjliga resultat givet att motpart har samma strategi (se Nash-jämvikt nedan). 

Binmore  beskriver en modell, där han låter spelrobotar spela gissa krona eller klave. Robotarna har programmerats att ge bästa svar på motpartens blandade strategi (dvs mix av krona resp. klave) från start ([Binmore2012], s 38). Gradvis sker då en förflyttning  till jämviktsstrategi (50%, 50%). Verkliga spel, som upprepas ofta, brukar konvergerar rätt snabbt till jämvikt via tillgång till olika informationskällor (poängsättning av företag på nätet etc) eller social eller imiterande inlärning.

Ex 4: Militärt beslutsproblem (Rabaul-konvojen), där parten A ska välja den konvoj-väg som minimerar risken för förlust. Hänsyn tas till sannolikheter för fienden B:s spaningsflygs alternativa router, väderleksförutsägelser etc. Ingen förutsätts kunna spionera på den andre. Hur bör A och B handla? Lösning: Om betalningsmatrisen är sådan att s.k.sadelpunkt finns (se ovan) används maximinprincipen. Om sadelpunkt (för rena strategier) inte finns och varje part vill ha bästa möjliga resultat i medel bör de använda blandade strategier, dvs i princip kasta tärning om handlingsväg!

Ex 5: Sten. sax eller påse, där sten slår sax, sax slår påse, påse slår sten.  Lösning: 3 rena strategier spelas med vardera sannolikheten 1/3 ( [Binmore2012], s 44). Verkar intuitivt rimligt av symmetriskäl.

Spel mot naturen

Mycket kort: Ett enda spel förutsätts. Svårare än strategiskt spel eftersom motståndarparten, naturen, har okända vanor. Minimaxmetoden är ej så bra eftersom vi inte kan förutsätta att naturen vill optimera egen vinst eller vill nåt ont. Tillåter vi oss att spionera på "naturen",  kallar vi spelet statistiskt spel (spioneriet innebär här att man - till viss kostnad - kan välja att göra ett experiment på naturen för att få sannolikhetsuppskattningar på olika utfall).

Spelteoretiska begrepp del 2 
(hämtat från [Binmore2012])

Konflikts- och samarbetsspel

konfliktspel  framställs spelarna som fiender. Dvs det handlar om en konkurrenssituation där ena parten försöker suga ut så mycket som möjligt på den andres bekostnad och vice versa. Ex: gissa krona eller klave, som är beskrivet ovan. Ett rent konfliktspel, där ena parten vinner exakt vad den andre förlorar, kallas ett nollsummespel.

samarbetsspel framställs alla inblandade som (mer eller mindre) vinnare.  Detta är ett mer generellt spel, där båda parter kan betala till/få betalt från en "bank". Med Bloms terminologi ovan innebär det att spelarna A och B har var sin betalningsmatris MA och MB.)
 
Ex 6: bilkörningsspelet, där alla tjänar på att hålla sig till antingen vänster- eller högertrafik.

Preferenser och risktagande

PreferenserSpelteorin försöker inte förklara ett beteende utan betraktar det helt enkelt som rationellt när A fördrar x framför y etc så länge hen inte är motsägelsefull. Om vi graderar A:s bästa utfall, BÄST, som 100 nyttoenheter och 0 som sämsta utfall, SÄMST, så gäller: A värderar ett utfall X som t ex 68 nyttoenheter om hon väljer detta utfall lika gärna som 68%:ig chans att få BÄST. Observera att en individ alltid antas vilja maximera egna preferenser; om individen är altruistisk och välvillig eller tillitsfull så får detta inkluderas i preferensprofilen (dvs tilldelade nyttoenheter för olika utfall).

Anm: Med preferensbegreppet i åtanke känns det naturligt att ge parternas kombinerade betalningsmatris alternativa namnet preferensmatris.

RisktagandeOm A tilldelar samma antal  nyttoenheter till varje ny 100-lapp så är hen riskneutral. Om A tilldelar färre nyttoenheter till varje ny 100-lapp kallas hen riskobenägen

Ex 7: I försäkringsbranschen är försäkringsgivaren riskneutral och försäkringstagaren mer el mindre riskobenägen. Den senare, som tecknar husförsäkring, får säkert behålla huset minus en mindre försäkringspremie. Alternativet att inte teckna försäkring skulle innebära ett lotteri där hen behåller hus + försäkringspremie med stor sannolikhet eller - med liten sannolikhet - bara behåller försäkringspremien. I medel blir det i det senare fallet en vinst i kronor för försäkringstagaren men en förlust för bolaget. Beträffande nytta (i nyttoenheter) blir det dock förlust för försäkringstagaren eftersom potentiellt antal förlorade nyttoenheter om huset brinner är stort och inte kan - trots den lilla risken för brand - uppväga ett begränsat antal tillkommande nyttoenheter förknippade med att hen slipper försäkringspremien.

Jämför gärna prospektteorin Beteendeekonomi till vardags. Se figuren där med  fyrfältsmönstret. Stora förluster ges en större beslutsvikt än vad som motsvarar en låg verklig sannolikhet.

Paretoeffektivt utfall: Ett utfall som är sådant att det inte finns något annat utfall som är bättre för någon part utan att det är sämre för en annan part.

Nashjämvikt

Nashjämvikt gäller när  A väljer bästa möjliga strategi förutsatt att B väljer som han gör och att B väljer bästa möjliga strategi förutsatt att A väljer som han gör. Annorlunda uttryckt: Båda (alla) aktörer ger samtidigt det bästa möjliga utfallet på den/de andras strategiska val. Alltså: ingen spelare vinner något på att ensam byta strategi.

Ex 8: Trafikriktningen är Nashjämvikt, antingen väljer båda vänstertrafik eller högertrafik (detta kräver en konvention, se Ex. på spel och strategier). Om båda väljer vänster och höger med 50% sannolikhet blir det blandad Nashjämvikt, som dock oftast inte är så populär. 

Ex 9: En snäll variant av chicken race innebär att två förare närmar sig varandra på ett gatuavsnitt som är för smalt för att de ska kunna mötas  utan att en saktar in. Se figur nedan (observera att vi har kombinerat de två parternas betalningsmatriser till en med två värden per koordinat). Vardera kan välja mellan två strategier: fort eller sakta. Fort/sakta och sakta/fort är Nashjämvikter.
Figur 1: Betalningsmatris (preferensmatris) för chicken race.

Ex 10: Gissningslek där spelare väljer tal mellan 1 och 10. Vinnare är den som väljer tal som ligger närmast 2/3 av genomsnittet. Om det är allmän kunskap att ingen spelare nånsin kommer att vara irrationell (använda en s.k. dominerad strategi) så måste alla spelare välja talet 1. Rationella spelare håller fast vid sina jämviktsstrategier p gr av förutsägelser om vad som skulle ha hänt om de gjorde annnorlunda,
Resonemang: största möjliga genomsnitt är 10. Alltså förbättrar man sina chanser om man väljer 7 hellre än 8,9 el.10. Om alla gör så blir nya genomsnittet 7. Men då är det bättre att välja 2/3 av 7 ~=5 i st för 7 osv.

Nash bevisade att alla spel med ändligt antal spelare och ändligt antal strategier har minst ett jämviktsläge om man tillåter blandade strategier. En Nash-jämvikt är dock inte alltid Pareto-effektiv. Det kan alltså finnas andra möjliga utfall som alla skulle ha tyckt mer om. Samhällsreformer som vill åstadkomma ett bättre jämviktsläge måste koordinera våra beteenden så att dom verkligen reglerar in sig mot det önskade jämviktsläget.

Ex 11: Binmore ser Karl Marx, som en av de större bovarna. Han betraktade kapital och arbetskraft som två koalitioner som kunde betraktas som monolitiska spelare. Hänsyn togs ej till individuella medlemmars behov och beteenden.

Vad är vitsen med Nashjämvikt: 

1. Nashjämvikten är enda rimliga lösningen för individuellt rationella parter, dvs parter som vill maximera sina (genomsnittliga) utfall. Alternativet är att försöka grubbla sig fram (i evighet): A gör si för att B gör så och B gör så för att A gör si ...  vilket innebär oändlig rekursion. Vi landar i den cirkularitet som Nashjämvikt innebär. 

Ex 12: Om - beträffande chicken race enl. ovan - mödrar trummar in för sina ynglingar att sakta/sakta är rätt och rationellt så skulle mycket väl en rationell aktör kunna tänka att "jag kör fort för dom andra har ju fått lära sig att köra sakta". Sakta/sakta är alltså ingen pålitlig rekommendation och ingen Nash-jämvikt.

2. Evolutionär tolkning: Alla kör i början olika varianter slumpmässigt. Bara de som når Nashjämvikt blir framgångsrika.

Ex 13: Chicken race i verkliga livet. Vi vet då inte vilken typ motparten är, men vi söker signaler från den andre. Har man själv en gammal skåpbil och den andre kanske en Ferrari? Då lutar strategivalet starkt mot skåpbil/Ferrari: sakta/fort. För att en signal ska vara effektiv krävs ofta att signalen är kostsam att sända ([Binmore2012], s 131)
Figur 2: Chicken race där motpartens typ är okänd. Gamla skåpbilen bedöms ha lågt värde x. Ferrarin bedöms ha högt värde y.

Mekanismdesign

Mekanismdesign är ett delområde inom spelteori. Här är målet, dvs önskat utfall av ett spel, givet och spelet, dvs mekanismer eller regler som leder till målet, är det som söks. Det sägs därför ibland vara inversen till spelteori, där ju spelet brukar bara givet och man söker utfallen. Mekanismdesign används alltså för att hitta bra system med regler  och incitament i olika tillämpningar, t ex.marknadsregleringar. Forskning inom området har på senare tid fått nobelpris i ekonomi: Hurwicz, Maskin och Myerson 2007 och Tirole 2014. Bör också nämnas Vickrey, som fick nobelpriset 1996 tillsammans  med Mirrlees. Vickrey lade grunden till auktionsteori och uppfann själv andraprisauktioner.

Det är ofta bättre att inte ha regleringar av marknader än att ha dåliga sådana, men regleringar och anbudsprocesser kan utformas så att dom blir effektiva och tjänar sitt syfte.

Ex 13: I UK föreslog (enl. [Binmore2012]) år 2006 brittiska liberaldemokraterna en ny grön skatt som skulle tillåta att inkomstskatten sänktes med 12 miljarder dollar. Förslaget bortsåg från att inkomstskatteändringar ändrar människors beteende men att dessutom poängen med grön skatt är att just att ändra beteenden.

Ex 14Telekomfrekvenser - utdelning av licenser. Sådana har typiskt utformats som s.k. skönhetstävlingar. Dessa innebär alltså att våra gemensamma publika tillgångar (i form av frekvensområden) delas ut till de privata företag, som beskriver sig själva mest tilltalande. Resultatet verkar inte alltid ha blivit så bra; läs i svd 120201 och svd 120202 om hur det gick med svenska 3G-nätet, Men det finns många exempel där licensutdelningen utformats som telekomauktioner med hjälp av spelteoretiker och där samhället fått in stora belopp. En auktion i Storbritannien drog enl. [Binmore2012] in 35 miljarder dollar.

____________________________________________
Direktlänk till nästa sida Ex. på spel och strategier eller länk tillbaka till överordnad sida Spelteori som analysverktyg.
Comments