关于经典囚徒困境的一些想法
Disclaimer:我是博弈论民科,以下纯属娱乐脑洞。
警方逮捕甲、乙两名嫌疑犯,但沒有足够证据指控二人有罪。于是警方将两人分别囚禁,并向每个人单独提出如下选择:
- 若两人中其中一个人认罪并检举对方的罪证(“背叛”),而另一个人拒不认罪,则认罪者将被释放,另一个人则判刑10年。
- 若两人都拒不认罪(“合作”),则两人都获刑1年。
- 若两人都认罪并互相检举,则两人都判刑5年。
用收益矩阵概述如下:
乙沉默(合作) | 乙认罪(背叛) | |
甲沉默(合作) | 甲1年;乙1年 | 甲10年;乙0年 |
甲认罪(背叛) | 甲0年;乙10年 | 甲5年;乙5年 |
假设甲乙都是追求自身利益最大化的理性人——在这个例子中表现为“最短化自身的刑期”,则两人都会如此思考:
- 若对方沉默,我认罪则获刑0年,我沉默则获刑1年;因此,更优选择是认罪。
- 若对方认罪,我认罪则获刑5年,我沉默则获刑10年;因此,更优选择是认罪。
因此,两人都会同时选择认罪(“背叛“),各获刑5年。相比两人都沉默(“合作”)各获刑1年的情况,这显然是一个总体利益更低的选择。
所以对这个博弈论情境,一般的归纳是:个人理性往往导致集体的非理性。这种结果,又被称为“囚徒困境”。
博弈隐藏的第三方
对“囚徒博弈”这个经典的情境,在日常生活中的应用很多(如企业之间的价格竞争、行业的“内卷”化等)。
对于这个情境的引申,最常见的就是将一次博弈转为“多次博弈”,也就是一次博弈的行为(是“合作”还是“背叛”)会影响到长期的博弈行为。如果收益矩阵满足一定的条件,博弈双方会跳出“囚徒困境”的陷阱,选择合作。
这里我想到的是另一个引申的方向,也即囚徒博弈是否真是一种“集体”的非理性,或许依赖于我们怎么定义“集体”的范围和收益的参数。
如果将“集体”定义为博弈的所有参与方,那么囚徒博弈中,除了囚徒甲和乙,还有一个被省略的重要第三方,即公(警方)检(检察官)一方。
假设公检方是先手博弈的一方,作为向两个囚徒提出条件的人,能够选择的是各种情况下甲乙的“损失”(假设判刑年限被量化为损失),那么收益矩阵可以转化为:
乙沉默(合作) | 乙认罪(背叛) | |
甲沉默(合作) | 甲 = -a1;乙 = -a1;公检 = b1 | 甲 = -a2;乙 = -a3;公检 = b2 |
甲认罪(背叛) | 甲 = -a3;乙 = -a2;公检 = b2 | 甲 = -a4;乙 = -a4;公检 = b3 |
这其中a1...a4,b1...b3都大于或等于零,也就是说甲乙作为被执法的一方,除非被直接释放,否则必然是净损失;而公检作为执法的一方,除非甲乙都被直接释放,否则必然是净收益(成功抓人和指控=完成业绩)。
此外,b1<b2<b3,也即甲乙中认罪的人越多,证据越多,公检方业绩完成得越漂亮,收益越大。
因此,公检方的优势策略,是设置a1...a4的值,使得甲乙必然选择双双认罪,这样公检方的收益能够最大化,即b3。
而如果要甲乙双双认罪,则需要使得a1>a3,a2>a4。也即甲方无论怎样选择,乙方的优势策略都是认罪(背叛);反之亦然。
这时候,甲乙双双认罪的整体收益 = b3 - a4x2;以此类推。只要 b3 - a4x2 的值在矩阵的四个格子里是最高的,双双认罪就并非“集体非理性”,而是“集体理性”的选择。或者说,只要甲乙双双认罪给公检方带来的收益b3足够大,双双认罪就是三方构成的“集体”的理性选择。
例1:
乙沉默(合作) | 乙认罪(背叛) | |
甲沉默(合作) | 甲 = -1;乙 = -1;公检 = 1;总收益 = -1 | 甲 = -10;乙 = 0;公检 = 5;总收益 = -5 |
甲认罪(背叛) | 甲 = 0;乙 = -10;公检 = 5;总收益 = -5 | 甲 = -5;乙 = -5;公检 = 10;总收益 = 0 |
不过,如果甲乙双双认罪只能给公检方带来一点微末的好处,那么三方构成的“集体”依然会导向非最优的结果。然而作为先手玩家的公检方,总能使得自己这一方收益最大化。
例2:
乙沉默(合作) | 乙认罪(背叛) | |
甲沉默(合作) | 甲 = -1;乙 = -1;公检 = 1;总收益 = -1 | 甲 = -10;乙 = 0;公检 = 2;总收益 = -8 |
甲认罪(背叛) | 甲 = 0;乙 = -10;公检 = 2;总收益 = -8 | 甲 = -5;乙 = -5;公检 = 3;总收益 = -7 |
感想
- 弱者如果要战胜强者,必须精诚合作,不能互相背叛。
- 这个理论的前提是假设甲乙都是追求自身利益最大化的理性人。甲乙的“精诚合作”似乎需要超出理性的“忠诚”。
- 问题就在于很难确保其他弱者是否愿意真诚合作,因为从历史来看,被强者压迫的弱者一般会相互猜疑,同时强者也会有意识的利用这一点,去分化瓦解弱者之间的合作。
- Game of Chicken(懦夫博弈)是虚荣博弈,输了不丢里子,任何人都能看到理性的选择就是退让(类似于囚徒博弈的合作),不同的是,囚徒博弈的“合作”是要牺牲真金白银的。Game of Chicken让步只丢面子而已。
- 如果要给“内卷化”破局的话,可能“懦夫博弈”(Game of Chicken)更合适。当一方认识到互相对抗只会导致两败俱伤时,自然会选择“躺平”。
- 很多可以应用“囚徒博弈”的场景,都有隐藏的第三方,其收益在甲乙双方互相背叛时最大化。例如商家的压价竞争,有利于消费者;员工竞相加班,有利于雇主;某国人“内卷”,于是有“低劳保成本优势”。
- 在第三方与甲乙权力平衡的情况下,没有人有先手优势,如竞争市场中商家和消费者的关系——消费者可以选择定价最便宜的商品,商家也可以选择付钱最多的消费者。这时候市场的平衡状态,往往都是使得“集体”收益最大化的。
- 在权力不平衡的情况下,第三方具有先手优势。在这种情况下,第三方会设置甲乙双方的收益参数,使得他们的选择必然导向第三方收益最大化;所谓winner制定规则,loser遵守规则是也。但是是否导向“集体”利益最大化,要看第三方收益在整体收益中所占的比例。由于winners往往是少数,所以实际情况往往更接近例2而非例1的情况。
- 囚徒博弈里有一个不经常被注意到的条件,甲和乙没法合作,是因为两个人被断绝了信息交流的渠道,也就是所谓的原子化。在没法交流信息的前提下,两个人只能选择互相背叛,最后的结果对第三方最有利,对于单个囚徒而言不好也不坏,但对于两个囚徒的整体是最差的选择。
- 我认为囚徒博弈就是“集中治理”的实质。利维坦垄断通讯手段,管制信息,鼓励互相举报,就是为了尽可能的断绝囚犯之间的信息交流。每个人在信息不充分的条件下,为了最大化自己的利益,只能选择背叛别人,而从总的效果看对管理者是最有利的。因此“社会治理”本质上是一种剥削手段,把社会治理成一盘散沙就是成功的标志。
- 将社会单位原子化,就打断了彼此的价键连接,让人们成为躺平的惰性气体,于是亲情、友情、爱情等各种人际关系都发生了变化,理性利益的衡量成为了唯一的行为准则。这一理论似乎可以用于解释当今中国社会普遍的利己思想。
- 利己是根本的动力,所谓打破原子化,也不过是以宗族,家庭,教会等小团体代替了个体,仍然是利己主义。纯粹的利他主义是不成立的。即使天主教封圣的那些圣徒,他们的牺牲,也是要靠教会强大的文宣,才能成为天主教的雷锋们,为信徒指引方向。 所以反对原子化,就是要用小团体主义,抗拒大集体主义。但是在这个过程中,要高举的不是利他,圣母的旗号,恰恰是利己,保境安民的旗号。利己不仅是用来保护个体,也是保护小团体。“因此“社会治理”本质上是一种剥削手段,把社会治理成一盘散沙就是成功的标志。”
- 表面上看,马基雅维利取得了胜利;但是由于他们过于强硬的治理手段,过分收紧了普通人上升的通道(把它挤成华山一条路,所谓内卷化),也就摧毁了普通人为社会做贡献的动力。但是霍布斯的穷奢极欲,归根结底,还是要剥削下层人的,下层人过得好,他们担心下层人觉悟了造反;下层人过不好,难道不是他们可以剥削的财富也少了么。所以利维坦表面的胜利,终究不如比尔盖茨巴菲特等等西方的富豪们来得完美。自由的世界通过开放社会和自由市场,不仅制造了繁荣,也制造了富人们的安全港。富裕才能自由,自由才能安全,这是马基雅维利也能明白的道理,所以他们毫不犹豫地把自己的子女们送往欧美做寓公。
- “将社会单位原子化,就打断了彼此的价键连接”,这是躺平的惰性气体。
- 社会原子化,将人情关系打破,迫使人们越来越关注自身,这并不是出于理性考虑追求个人利益的利己主义。借用一个城市规划史的例子,美国50年代倡导“理性城市规划”,将居住区隔离,住户被孤立,缺乏交集。美国社会活动家Jane Jacobs就提出批评,认为这些规划造成了邻里关系的衰落。以往有交集的街道可以让人们从窗口看到外面的行人、交通和商店,从而起到阻止犯罪和邻里互助的作用。Jacobs认为打破交集的街道,使得人人入住彼此隔离的公寓,缺乏对陌生人的监视,使得空间变得不安全,居民也越来越缩在自己的空间不出去。最后,形成地盘制度,高档社区和贫民区隔离,收入和背景不同的人更是老死不相往来。这就是人际关系被打破后社会原子化的一个表现。
- 隐藏第三方是规则制定者,不一定是人,也可以是自然或环境。改变均衡也可以通过改变两种选择五五开的概率预期,比如韩国的北边就是通过装疯来改变均衡。
- 在一次性博弈中,“囚徒困境”使得弱者难以合作。不过如果是次数不确定的多次博弈(或者说有期限不确定的长期博弈的预期),那么“合作”而非“背叛”有可能成为更优策略,这也是囚徒困境问题研究的一个经典方向。概述在此:重复的囚徒困境(多人) https://en.wikipedia.org/wiki/Prisoner%27s_dilemma
- 美国政治学家罗伯特·阿克塞尔罗德(Robert Marshall Axelrod)在其著作《合作的进化》(The Evolution of Cooperation)中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD)。在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等。 阿克塞尔罗德发现,**当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用。**他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。 最佳确定性策略被认为是“以牙还牙”,这是俄裔美籍数学心理学家阿纳托尔·拉波波特(Anatol Rapoport)开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛。这个策略只不过是在重复博弈的开头合作,然后,采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛,在下一回合中你无论如何要以小概率(大约是1%-5%)时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了。 …… 如果重复囚徒困境将被精确地重复N次,已知N是一个常数,那么会产生另一个有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛,既然你的对手将没有机会惩罚你。因此,你们都将在最后的回合背叛。这时,你可以在倒数第二回合中背叛,既然最后一回无论你做什么,你的对手都将背叛。依此类推。为了合作以保持请求,这时未来必须对两个参与者来说是不确定的。一个解决方案是让博弈总次数N变成无限大或不可预期的。对未来的预期必须是无法确定的长度。 另一个单独的案例是“永不停止”的囚徒困境。这个博弈被重复很多次,而且你的分数是一个平均数(当然是用计算机计算的)。
- 寡头商家的处境与囚徒博弈中的囚徒不一样。寡头市场的消费者并不具有定价权;如果寡头之间没有合谋,价格是由数量有限的商家和大量消费者共同决定的,其最后达到的均衡价格一般会高于完全竞争市场下的价格;如果寡头进行合谋,则定价权掌握在他们手上。“oligopoly情况下的商家不是弱者”,的确,虽然囚徒困境有被用来分析寡头市场的情况,但寡头商家相比消费者而言是更有“权力”的一方,是强者。
- 相比而言,在囚徒博弈的情况下,囚徒是博弈中真正的“弱者”,只能被动接受博弈条件。有制定刑期offer权力的人是检控方。
- Game of chicken的收益矩阵与囚徒博弈不一样,最重要的一点,是在非合作的时候,双方的损失都非常非常大(如下图的-1000),所以双方的优势策略并不总是“背叛”。
所以博弈参与方采取的策略依赖于收益矩阵长什么样。我的意思是,在囚徒博弈中,有一个能够决定收益矩阵参数的“第三方”——如警方/检控方。第三方可以向囚徒甲乙提出条件,这些条件必然使甲乙都做出使得第三方收益最大化的“选择”。
这个显然最优解是两个都退让,这也是稳定解。
22. 利己主义和打破原子化不矛盾。假设囚犯A和囚犯B都是理性的利己主义者,他们在信息交流完全的情况下,基于利己的最优选择显然是互相信任对方,拒不招供;假设这两个囚犯信息隔绝,那么他们只能选择次优的选择,也就是互相背叛,两个人分别被判5年。
我认为这里的“利己主义”,实际上就是经济学中的“理性人假设”,每个个体(人或者利益团体)都按照自身利益最大化的原则行事。从囚徒博弈的角度说,在信息交流充分的时候各方都可以最大化自己的利益,社会原子化正是利己主义的敌人。富强、民主、公正、爱国、自由当然有用。
23. 假设对方swerve,则最优策略是straight;假设对方straight,则最优策略是swerve。所以一方的策略取决于对方做什么。
如果必须同时做出决定,且目标是最大化预期收益,则与对方采取不同策略的概率有关。在这种情况下,理论上可以用bluff的方式逼对方退让,不过我认为在实操中最终的结果取决于双方的风险函数。
*胆小鬼博弈:如何假装死磕到底 🔗https://www.guokr.com/article/94677
24. 如果持有彻底的“利己主义”假设,则即使双方有机会合谋,甚至订立和约,只要没有“可信的背约损失”,双方还是会选择背叛;因为在一次博弈中,最优策略始终是背叛。
从理性人角度来讲,信任建立在长期的利益合作关系上,而诸如宗族、家庭等小共同体有利于这种长期的关系建立。也就是说对理性人来说,小共同体/组织的意义不在于“了解”对方的意愿,而是小共同体/组织存在的本身就显示了对方的意愿,因为长期博弈中互相回馈的合作成为了理性人的最优解。
而从更复杂的人性角度来讲,在基本需求满足后,绝大多数人都希望能信任他人和被信任(信任不仅有感情效益也可以降低认知负担);少数人更是将理念看得高于一般得失意义上的利益。人的“理性”亦不仅在于衡量得失,也在于满足个性化的需求组合,最大化自己独特的偏好。所以纯粹理性人的假设并不能100%预测所有人的行为。实验显示,即使是在一次博弈中,有些人是“背叛者”,有些人是“合作者”,而大多数人是“行为变化者”。我认为这三者的比例,随着博弈的具体收益、代价和风险的不同而会有所变化(也即同一个人不一定是一成不变的)。因此,互相之间信息的畅通和交流会使得人们更方便判断对方的个性和偏好,判断其是哪种类型的人,从而影响自身的策略选择。
*实验在此:https://www.nature.com/articles/srep00325
25.是否入局、赚多少、押多少,players未必有自主权。若是有自主权,则这种博弈状况也不会发生。
考虑到损失与收益的不成比例,对一般风险规避的人来说,理性的选择是宁可支付一个点保护费,求得平安退局。极端风险偏好者则会刀头舐血。
26. 中苏珍宝岛冲突,中方自卫反击,就是一个典型的胆小鬼博弈(Game of chicken)。双方都无利可图,却冒着巨大风险,中方的风险比苏方还大得多。
矩阵如下:
中|苏
中退让| 中强硬
苏退让 0,0 | 3,-1
苏强硬 -1,1 | -1000,-100
这里因为苏强中弱,特意给“中强硬苏退让”的情况,给中方加了几个点收益(敢于逢敌亮剑,挑战强者,挑战小约翰幻想乡,有面子),但是如果真打大了,中方的损失则是苏方的十倍。但是苏方谨慎起见,没有扩大战果(如果扩大战争,苏方的策略很可能不是拿下张家口然后直捣黄龙,而是类似1929年的中东路冲突一样,侵占一些中方的边境据点,然后根据中方的反应采取行动)。如果苏联占据了一系列中方的边境哨所和据点以后,中方就陷入了两难当中,中如果增兵,苏也增兵,打不赢;中如果不增兵放弃,则开始挑衅苏的行为就是大错特错的了。
这个问题更好的解释是考虑房间内部的混乱,中方内部是猫猫和粥粥的矛盾,其次是泰格伍兹和他新晋的球队队员何去何从的问题;而苏苏方面,勋宗已经稳固了贵族共治格局,冒险取得额外收益的需求更少(反观玉米君,在雪茄捣蛋的危机上,先是押大,最后却认怂,极为难堪,有人说🌽君的冒险失败是他1964年变成流浪猫的原因,我看倒是因为他内政不稳才在古巴上开大。而阿中的猫猫也是选择在珍宝岛开大,也是说明猫猫把房间弄乱了)。