囚徒困境(Prisoner’s Dilemma)是博弈论里面最著名的模型,几乎每一本关于博弈论的书籍都会提到这个模型。一般人可能不了解博弈论,但很有可能听说过囚徒困境。
谈论囚徒困境之前,先了解一些博弈论的基本知识。
博弈论(Game Theory),又译为对策论、游戏理论或赛局理论,是经济学的一个分支,博弈论是对冲突与合作的研究,只要多个主体的行为相互依赖,博弈论概念就适用。这些行为主体可以是个人、团体、公司或这些的任意组合。博弈论的概念提供了一种语言来制定、构建、分析和理解战略场景。
一、博弈论的发展简史
正式博弈论分析的最早例子是1838年古诺(Antoine Cournot)对双头垄断的研究。数学家埃米尔·波莱尔(Emile Borel)在1921年提出了正式的博弈论,冯·诺依曼(John von Neumann)于1928 进一步发展了博弈论。1944年,冯·诺依曼和经济学家奥斯卡·摩根斯坦 (Oskar Morgenstern) 出版了巨著《博弈论与经济行为》(Theory of Games and Economic Behavior),博弈论作为一个独立的领域而确立。这本书提供了许多至今仍在使用的基本术语和分析框架。
Oskar Morgenstern and John von Neumann
1950年,约翰·纳什(John Nash)证明了有限博弈总是有一个均衡点,在这个点上,所有参与者都根据对手的选择选择最适合自己的行动。从那时起,非合作博弈论的核心概念一直是分析的焦点。在20世纪50年代和60年代,博弈论在理论上得到了扩展,并应用于战争和政治问题。自20世纪70年代以来,它推动了经济理论的一场革命。此外,它还在社会学和心理学中得到应用,并与进化论和生物学建立了联系。博弈论在1994年受到特别关注,诺贝尔经济学奖授予John Nash, John Harsanyi, and Reinhard Selten。
John Nash
在20世纪90年代末,博弈论的一个引人注目的应用是拍卖设计。著名的博弈论专家参与了将电磁频谱频段的使用权分配给移动电信行业的拍卖设计。大多数这些拍卖的目的是比传统的政府做法更有效地分配这些资源,并在美国和欧洲额外为政府筹集了数十亿美元。
二、博弈(游戏)的基本要素和假设
一个完整的博弈(游戏)至少需要三个要素:玩家(Player)、策略(Strategy)和收益(Payoff)。玩家就是在博弈中作出决策的人,或者说就是玩游戏的人。策略就是游戏各方采取的行动。收益就是一个数字,也被称为效用,它反映了玩家对结果的期望。
博弈论对人的基本假设(Assumption)是所有玩家都是理性的经济人,这是大家所熟悉的主流经济学对人性的假设。这个假设认为理性的玩家总是根据他对对手的预期,选择一个能带来他收益最大化的行动。
三、囚徒困境(Prisoner’s Dilemma)
与其他博弈论模型不一样,囚徒困境游戏最初确实始于一个游戏。它的第一次演示可能是在1950年1月由兰德公司的梅里尔·弗勒德和梅尔文·德雷希尔设计的实验中,这项实验项目受到美国军方的资助。在游戏中,每个参与者都需要同时在不知道对方如何选择的情况下从两个行动中选择一个,每个选择都会获得相应的收益(payoff),这种收益是参与者事先知道的。
而囚徒困境作为理论模型的探讨则被认为是由R·邓肯·卢斯和霍华德·雷法写于1957年的《博弈与决策》这篇文章开始的。
囚徒困境故事的背景(Background of the story)
两个嫌疑人分别被羁押起来,检察官确定他们违反了某项法律,但并没有足够的证据在审判中将他们治罪。检察官告诉两个囚犯他们每个人都有两个选择:承认犯罪行为或者拒绝承认。如果他们两个人都拒绝认罪,那么检察官声明他将以一些较轻的捏造的指控对他们进行立案,比如轻微盗窃或非法持有武器,这样两人都将受到较轻的处罚(各坐牢1年);如果他们都认罪则都会被起诉,但检察官将建议法庭从轻处罚(各坐牢5年);如果一个人承认而另一个人拒绝认罪,那么认罪的人由于作为污点证人而受到宽大处理(坐牢0年,无罪释放),另一个人则会受到严厉的处罚(坐牢20年)。
图片来源:Britannica
如上图所示,博弈论一般用经典的收益矩阵(payoff matrix)来叙述这个故事。在这个收益矩阵里面的A、B两个人就是故事中的囚犯,他们各有两种策略,承认(confess)或者拒绝承认(remain silent),里面的数据代表两个囚犯各自选择策略的收益(前面是囚犯A的收益,后面是囚犯B的收益),比如(5,5)代表两人都选择承认,各自坐牢5年。总共有四种可能的情况出现,分别是(承认,承认)、(承认,拒绝)、(拒绝,承认)以及(拒绝,拒绝),对应的各自收益是(5,5)、(0,20)、(20,0)以及(1,1)。
现在来分析,两个囚犯会怎么作出选择呢?博弈论是策略理论,决策者之间是相互影响的,所以每个参与人在作出决策的时候,必然要先考虑对方可能的决策。我们从囚犯A的视角出发来分析,A在做决策之前要思考B可能的决策是什么,假设B选择承认,那A的理性选择也应该是承认,因为承认只需坐牢5年,而拒绝承认则要坐牢20年;同样如果B选择拒绝承认,那A的理性选择还是承认,因为承认可以获得无罪释放,而拒绝承认,则坐牢1年。
所以不管B选择什么策略,A都会选择承认,博弈论中将A的这种策略称为占优策略(Dominant strategy,不管对方选择什么策略,相比其他策略,某个策略总能带来更好的收益,这个策略就是占优策略)。当然如果我们从囚犯B的视角出发分析,同样可以得出结论,不管A选择什么策略,B都会选择承认,承认也是B的占优策略。所以最终的结果(经济学所谓“均衡”)是双方都选择承认,各坐牢5年。
那囚徒困境的“困境”是什么呢?
囚徒困境模型的均衡解是双方都选择承认,非常符合主流经济学个人理性选择最终获得一个均衡解的模式。但是这个均衡解并不是可欲的解,对于两囚犯作为一个整体来说,最好的结果应该是双方都选择拒绝承认,这样双方各坐牢1年,相比其他结果都要好,但是个人理性的选择,导致了集体的非理性结果,这就是困境所在。
这种困境引起了经济学家的不安。现代主流经济学基于两个基本的信念建立起来的:一个是理性经济人,一个是看不见的手。
理性经济人最先由古典经济学家穆勒提出来的,经济学家认为人类各种动机里面经济动机是最重要的,将其抽象出来作为经济学研究的对象,其目的是为了使经济学这门学科变得更加的科学化,精准化,就如同物理学一般。所以理性经济人其实是一种不完善的人或者说是狭隘的人,但是经济学家认为这种抽象抓住了人行为的主要特征,主流经济学几乎所有的高端理论(比如阿罗-德布鲁的一般均衡理论)都是建立在这个假设基础之上的。
而“看不见的手”则是由斯密提出来的,在《国富论》中,斯密写到:
“我们每天所需要的食物和饮料,不是出自屠夫、酿酒师或面包师的恩惠,而是出自他们利己的打算。我们不说唤起他们利他心的话而说唤起他们利己心的话。每一个人……既不打算促进公共的利益,也不知道自己是在什么程度上促进那种利益……他所盘算的也只是他自己的利益。在这种场合下,像在其他许多场合一样,他受着一只看不见的手的引导,会去尽力达到一个并非他本意想要达到的目的。他追求自己的利益,往往使他能比在真正出于本意的情况下更有效地促进社会的利益。”
斯密认为“看不见的手”指引着理性的个人追求自身利益的同时促进了公共利益。但是囚徒困境故事反驳了这一观点,个人理性导致集体的非理性。所以经济学家们挖空心思将囚徒困境进行拓展,期望获得满足这两个基本假设的合宜均衡解。
上面的故事属于一轮博弈,经济学家认为多轮博弈的情况下,结果可能不一样。多轮博弈有几种情况,第一种情况是有限次数博弈,第二种情况是无限次数博弈,第三种是不确定次数博弈。如果是有限次数博弈,一般认为参与者都会选择背叛(在囚徒困境故事里面,将承认视为背叛,将拒绝承认作为合作),因为理性参与者在最后一次博弈中会选择背叛,当然倒数第二次也会选择背叛,推理到第一次双方都会选择背叛,所以有限次数的博弈结果和一次博弈是一样的。但是在无限次数博弈或者不确定次数博弈的情况下,博弈双方很有可能会选择合作,因为如果选择背叛,未来对方也肯定会进行报复,选择背叛,双方收益都会降低。
当然囚徒困境的故事如果将各种策略的收益改变,结果可能会不一样。读者可以尝试一下。
囚徒困境作为最著名的经济模型之一,不在于趣味性,而是在于其可拓展性。囚徒困境的应用场景非常多,以下是几个常见的场景,读者可以自己设计收益矩阵。
1 军备竞赛
二战后的美苏军备竞赛就是一种典型的囚徒困境。美苏两个国家可选择的策略是增加军备(背叛)、或是达成削减武器协议(合作)。作为理性的玩家,两国理性的策略当然是增加军备,因为如果己方合作,而对方增加军备,那己方就会处于危险的境况中。当然结果是集体的非理性,古巴导弹危机差点爆发了第三次世界大战,而且军备竞赛也让两国的经济付出了很大的代价(尤其是苏联)。
2 贸易战
历史上发生过很多次贸易战,最近一次比较著名的就是中美贸易战。贸易争端源起于美国总统唐纳德·特朗普于2018年3月22日签署备忘录时,宣称“中国偷窃美国知识产权和商业秘密”,并根据1974年贸易法第301条要求美国贸易代表对从中国进口的商品征收关税,涉及商品总计估达600亿美元,以及设置其他贸易壁垒,旨在迫使中国改变其“不公平贸易行为”。随后中国开始反击。双方都选择了增加关税(背叛),而不是遵守之前的关税协定(合作),当然结果是双方的经济都受到伤害。
3 广告战
广告在商业中是一种很常见的竞争手段,当然这也是一种典型的囚徒困境。假设两家公司各有两种策略:互相达成协议,减少广告的开支(合作);增加广告开支,设法提升广告的品质,压倒对方(背叛)。作为理性的厂商,占优策略当然是增加广告支出,同样造成的结果是双方大幅增加广告支出,但市场占有率几乎没什么变化,同样陷入困境。
4 价格战
同广告一样,降低价格同样是常见的商业竞争手段,但同样容易陷入囚徒困境。假设两家企业各有两种策略:维持原价(合作),降低价格(背叛)。同样降低价格是双方的占优策略,价格战的结果是双输,两家企业的市场份额没有大的变化,收入却变少了。所以价格战是优秀企业避免使用的一种竞争策略。
5 卡特尔
卡特尔一般是几家巨头进行合谋限制产量提升价格,从而提高各方的利润。最著名的卡特尔是中东的石油输出国组织,竞争让这些国家的石油收入下降了,所以他们组成了卡特尔。假设组成卡特尔之前石油价格是3美元一桶,卡特尔之后因为协议限产,石油价格变为10美元一桶。卡特尔成员国有两种策略:维持协议的产量(合作),偷偷增加产量(背叛),作为理性的生产者,占优策略当然是偷偷增加产量,结果是大家都增加产量,石油价格又下降到3美元一桶,各方收入又回到原来的状态,所以卡特尔很容易陷入囚徒困境,是一种不稳定的组织。
6 公地悲剧
现实的博弈参与者不只一方,会有多方参与的囚徒困境,比如著名的“公地悲剧”。[公地悲剧(Tragedy of the commons),是一种涉及个人利益与公共利益对资源分配有所冲突的社会陷阱。这个词起源于英国作家威廉·佛司特·洛伊在1833年讨论人口的著作中所使用的比喻。1968年时,美国生态学家加勒特·哈丁在期刊《科学》将这个概念加以发表、延伸,称为“公地悲剧”。而这个理论本身就如亚里士多德所言:“那由最大人数所共享的事物,却只得到最少的照顾。”(wikipedia)]一块公地比如草原,有很多的牧民,在没有任何限制的情况下,牧民们的理性选择是过度放牧(背叛),结果自然就是草原退化,大家的收益都降低,同样陷入囚徒困境。
四、结语
囚徒困境是一个经典的经济学模型,也是著名的思想实验,虽然“困境”的结论令人绝望,但不失为我们理解经济事实一个很好的参考系。囚徒困境的现象在经济社会中比比皆是,但是从历史的眼光来看,“困境”来源于理性参与者的背叛,但人类并没有一直陷入到这种困境中。原因在于人类在不断地交往中发展出了一套信任的制度和习俗,长期来看人们懂得互惠互利的合作才是更好的选择。
....................................................................................................