之前我写过博弈论的简史和囚徒困境(prisoners' dilemma)的科普文章,详情请参考:经济学101|什么是“囚徒困境”?囚徒困境的决策矩阵如下:
两个犯罪嫌疑人都选择自己最好的策略(承认,承认),最终的结果(均衡)是各坐5年牢。很显然这个结果对两个聪明的嫌疑犯而言并不是最好(最好的结果应该是两人都否认,这时候每人各坐1年牢),这就是所谓的囚徒困境。
那如果是两个人玩“石头、剪刀、布”(rock–paper–scissors)的游戏会不会存在类似的囚徒困境呢?
典型的囚徒困境模型是简单的静态的,“石头、剪刀、布”的游戏相对来说要复杂一些。在这里我们会引入概率,因为每个人出石头、剪刀、布的概率不一样,不过即便我们引入概率,这个讨论的模型也属于简单模型。
假设Smaug和Oakenshield两人玩“石头、剪刀、布”的游戏,和囚徒困境一样我们可以设计一个决策矩阵,如下所示:
矩阵说明:每次游戏每人都有三个选择(石头、剪刀、布),但是选择每种策略的概率不一样,每种选择后面的括号的数字代表选择该策略的概率,比如Oakenshield选择石头的概率为0.3,选择剪刀的概率为0.2,选择布的概率为0.5。白色和紫色表格代表各自选择的收益,赢了得2分,输了或者平局为0分,括号前面的数字代表Smaug的收益,后面的数字代表Oakenshield的收益,比如Smaug选择剪刀,Oakenshield选择石头,则收益为(0,2)。
根据基本的统计学,我们可以计算出两人在各种策略下的期望收益。先计算Smaug的期望收益:
布的期望收益:2×0.3+0×0.2+0×0.5=0.6
所以Smaug的整体期望收益为:
0.4×0.2+1×0.5+0.6×0.3=0.76
Oakenshield的期望收益:
布的期望收益:2×0.2+0×0.5+0×0.3=0.4
Oakenshield的整体期望收益为:
1×0.3+0.6×0.2+0.4×0.5=0.62
由上述结果可知Smaug的整体期望收益0.76要大于Oakenshield的整体期望收益0.62,也就是说这两人进行足够多场游戏的情况下Smaug的赢面更大。这个结论也可以从决策矩阵的数据可以看出来,Smaug最大概率(0.5)会出剪刀,而Oakenshield最大概率(0.5)会出布。
在这种游戏里面就没有所谓的“囚徒困境”,如果两个陌生人进行游戏,那策略几乎是随机的,很难通过这样的分析获得更大的收益,基于概率的分析只有在大概可以判断对方出手某种策略的概率才有效。
人有些习惯很难改变,这些习惯会影响决策的收益。比如在我们老家农村,很多人闲暇时间喜欢打牌,而且基本上都是老熟人,大家水平差不多的情况下,如果你出牌的模式相对稳定,那你的赢钱的概率会低一些(手气好除外),因为你的行为很容易被对方预测到。比如有些人炸金花的时候很老实,牌小直接扔了不要,牌大就跟,就很容易被对方识别,一旦你跟了对方基本就扔了。
没有模式就是最好的模式,因为这样对方最不容易摸清你的出牌规律。但是人总是不可能做到随机,总是有蛛丝马迹可循,所以聪明的人总可以利用这一点获得高于平均水平的收益。
...................................................................