登陆后访问



H
I
S
T
O
R
Y

囚徒困境

摘要:本文为大家简单介绍囚徒困境。
一、囚徒困境——艰难的抉择
两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。于是警察告诉他们:
(1) 假设甲、乙同时坦白,他们各自坐牢8年。

图1
(2) 假设甲不坦白、乙坦白,那么甲要做10年牢,乙立功释放。

图2
(3) 假设甲坦白、乙不坦白,那么乙要做10年牢,甲立功释放。

图3
(4) 假设甲乙同时拒绝坦白,那么两个人各自坐1年牢。

图4
由以上表情包可看出:第四种情况对甲乙来说是最好的,因为集体收益最大,两个人坐牢加起来最小。但是由于甲、乙都有过人的智慧,在表情包中占据了绝对优势的地位。最后却都选择了坦白(两个人相加年数最大),哭死在牢中。这是为什么呢?
如果两人都不坦白,各判刑1年;如果两人都坦白,各判8年;如果两人中一个坦白而另一个不坦白,坦白的放出去,不坦白的判10年。如果两人都抵赖,各判1年,显然这个结果好。
于是,每个囚徒都面临两种选择:坦白或抵赖。然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,抵赖的话判1年,坦白比不坦白好;如果同伙坦白、自己坦白的话判8年,比起抵赖的判10年,坦白还是比抵赖的好。结果,两个嫌疑犯都选择坦白,各判刑8年。结果两个囚徒大哥莫名奇妙都多坐了7年牢。

表1
二、单次博弈的“囚徒困境”
单次的“囚徒困境”,反映了“个人理性”与“集体理性”之间的矛盾。假定每个囚徒都是利己的,即都寻求自身利益最大化,而不关心另一囚徒的利益。囚徒某一策略所得利益, 如果在任何情况下都比其他策略要高的话,此策略称为“严格优势”策略,理性的囚徒肯定会选择该策略。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。假设两个囚徒均为理性的个人,且只追求自己个人利益,那么他们到底应该选择哪一策略,才能将自己个人的刑期缩至最短?
由于隔绝监禁,信息不明,两个囚徒并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比不坦白要来得低。试设想困境中两名理性囚徒会如何作出选择:若对方不坦白、不背叛会让我获释,所以会选择背叛;若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。
背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡就是(坦白, 坦白)。这场博弈的纳什均衡,显然不是顾及“团体利益”的最优解决方案。 以“团体利益”而言,如果两个囚徒都合作保持不坦白,两人都只会被判刑1年, 总体利益更高, 结果也比两人背叛对方、判刑8年的情况较佳。
假设一方是非理性的,另一方是理性的,即博弈双方均不知道对方是不是理性的,非理性一方(理解为讲义气重信誉的人或担心坦白会受到出狱后的报复),假设他只有一种策略,他必然选择不坦白,而另一方是理性的,他不管对方是否理性的,他都将选择坦白。所以这次博弈的均衡是(不坦白, 坦白)。
假设双方均为非理性的,那么他们不管同伙如何选择,他们都将选择不坦白,则博弈的均衡是(不坦白,不坦白)。最后错有错着,两个非理性的囚徒却得到了“理性”的结果。
三、有限次数的囚徒困境博弈
试想将囚徒困境的情况重复10次,如果囚徒A第1次被对方指控,第2次囚徒A也会指控对方。相反,如果第1次对方保持沉默,建立了互信的关系,囚徒A也会保持沉默。当然,两个囚徒都会有相似的想法,在第1次保持沉默,以期望建立互信关系,所以双方都会保持沉默。第2次时,双方亦应有相似的想法,继续保持沉默,以期继续在互信的情况下进行第3次,以致余下的8次。
但是,在第10次时,互信的关系明显是没有意义的,因为10次已经完结,囚徒没有必要为维持互信的关系而沉默(没有第11次),所以第10次囚徒一定会背叛对方的,理由和只有1次囚徒困境一样。那么,既然大家都知道在第10次,无论如何对方都会背叛自己的,在第9次保持沉默也是没有意思的,要知道,保持沉默(友好关系)的原因是为了希望下一次别人保持沉默。所以第9次双方都一定会背叛对方。双方都有相同的想法,明知第9次对方会背叛自己,所以第8次保持沉默也是没有意思的,第7次亦然,如此类推,10次两个囚徒都会互相背叛,建立互信关系是没有可能的,10次下来结果还是杯具。
四、无限次数的囚徒困境
在有限次数的囚徒困境博弈中,由于双方都知道最后一次(第10次)的存在,不必担心出卖对方为以后带来的风险,所以都选择了互相出卖。由归纳法可以得到,所有10次的博弈双方都选择了互相背叛。但在实际情况中,双方都不知道以后合作的次数。也许长时间合作;也许说好了长时间合作,但中间某一次被对方卖了,然后对方人间蒸发,再也没有报复的机会;也许合作一次后就各回各家,各找各妈;也许前几次跟这个人合作,后面几次跟另外一个人合作。在这种情况下,每个人是合作还是出卖,对于每个人来说都应该有各自的博弈策略。为了简化问题,先假设有以下几种策略(以后可以加入其它策略),每种策略的人数如下:
① 第1次不坦白,以最近1次对方的选择为依据来决定自己的坦白还是不坦白的有3人;
② 第1次坦白,以最近1次对方的选择为依据来决定自己的坦白还是不坦白的有3人;
③ 第1次不坦白,以后会以60%的可能选择不坦白,以40%的可能选择坦白的有1人;
④ 第1次坦白,以后以60%的可能选择坦白,以40%的可能选择不坦白的有1人;
⑤ 无论什么情况都选择坦白的有1人;
⑥ 无论什么情况都选择不坦白的有1人。
1. 先研究下识别博弈对手的情况:
假设每个参与者之间固定博弈400次,博弈完成后换博弈对手,继续博弈200次,每个参与者之间都要互相博弈。最后以博弈的总收益(总坐牢年数最短为为最佳策略)评价各个策略。利用计算机模拟博弈过程5次,各次模拟结果如下:
(1) 第1次模拟结果

表2
(2) 第2次模拟结果

表3
(3) 第3次模拟结果

表4
(4) 第4次模拟结果

表5
(5) 第5次模拟结果

表6
从5次模拟结果可以看出,选择第6种策略:无论什么情况都选择不坦白,最后总的坐牢年数最小,无论什么情况都选择坦白最后总的坐牢年数最大。如果在当前这种策略种类及人数分布下,策略1可以当成“优势策略”来选择,那么最后的结果可能会偏向于都选择拒绝坦白,从而达到总体最优。但是,毕竟林子大了什么鸟都有,如果博弈的人数多了,那么,各种各样的策略层出不穷,选择各种策略的人数比例也不好确定,这使问题的结果产生了很多不确定的因素,如何选择策略,走出“困境”,会更加扑朔迷离。
2. 不识别博弈对手的情况:
讨论完固定博弈对手的情况,接下来讨论不固定博弈对手的博弈。假设还是上面的那10个人,他们选择的策略还是跟上面的一样。不同的是他们之间将进行1000次的博弈,而且每次博弈的对手是随机的。最后以博弈的总收益(总坐牢年数最短为为最佳策略)评价各个策略。利用计算机模拟博弈过程5次,各次模拟结果如下:
(1)  第1次模拟结果:

表7
(2) 第2次模拟结果:

表8
(3) 第3次模拟结果:

表9
(4) 第4次模拟结果:

表10
(5) 第5次模拟结果:

表11
从5次模拟结果可以看出,选择第5种策略:无论什么情况都选择坦白,最后总的坐牢年数最小,无论什么情况都选择不坦白最后总的坐牢年数最大。如果在当前这种策略种类及人数分布下,策略5可以当成“优势策略”来选择,那么最后的结果可能会偏向于都选择坦白,造成两败俱伤的局面。

 

图片来源:网络图片加工

相关文章

囚徒困境

Posted by - October 13, 2017 1617
本文为大家介绍单次博弈的“囚徒困境”,有限次数的囚徒困境博弈和无限次数的囚徒困境。

你看过童话版的斗鸡博弈吗?

Posted by - October 13, 2017 1391
美丽的外表吸引了人类的关注,但人类很快发现鸡好斗易怒的一面。于是无聊的人类抓住了鸡的弱点进行了一场又一场的斗鸡比赛。每一场都斗个你死我活...

枪手博弈简介

Posted by - October 13, 2017 1564
除了三个枪手,模型套在国家与国家之间的博弈也是十分贴切的。弱国如何通过引入次强国与强国之间的制衡,来求得自己的一片生存与发展的空间等,都...

酒吧博弈——少数者的胜利

Posted by - October 13, 2017 1808
本文介绍酒吧博弈,并建立模型对原始酒吧博弈的消费者按性格类型分组进行多次的决策模拟,并优化分组比例,与现实生活作对比分析。

智猪博弈简介

Posted by - October 13, 2017 1716
智猪博弈在社会领域的应用十分广泛,例如市场竞争中的大企业与中小企业、公共服务分配领域中社会全体和社会弱势群体,企业内部分配时的管理者与劳...