合作在随机博弈中的演化

文化   教育   2023-11-22 14:55   广东  


当个体利益与群体利益发生冲突时,就会出现社会困境。根据公地悲剧,这些失调会导致过度开发和公共资源的崩溃。这就引出了如何管理和保护公共资源的问题。而这一问题的任何解决方案都需要了解哪些过程会推动人类合作,以及应该如何利用制度、规范和其他反馈机制来加强积极行为。Christian Hilbe等研究者在20187月发表在《Nature》上的研究则基于随机博弈理论,利用计算建模的方法探究了合作的演化过程。

1.      随机博弈及其演化

博弈依据游戏形式可分为三种。以囚徒困境为例,一次博弈指的是两位玩家只进行一轮合作或背叛的决策;重复博弈则是指两位玩家进行多轮决策,但是每轮决策的收益矩阵相同。而在随机博弈中,两位玩家进行多轮决策,但是玩家选择合作还是背叛不仅会影响他们当前的收益,还会影响下一轮博弈的收益框架(如下图所示)。

在上图中,左图表示,在重复博弈囚徒困境中,无论选择合作的人数是多少,玩家始终保持在同一个状态中;右图则表示在随机博弈中,只有两名玩家均选择合作,玩家才能保持在收益更高的蓝色状态中,如果有玩家选择背叛,则状态转移到收益较低的黄色状态中(b1b2)。

此外,随机博弈的状态转移可根据状态是否独立转移是否确定分为四种情况(如下图所示)。状态是否独立指的是转移到下一个状态是否会受到玩家所在状态的影响。如下图中的左上图,无论玩家是在哪一个状态中,只要两位玩家都合作,就能进入到游戏1的博弈状态中,因此这种随机博弈就是状态独立的;而左下图中,在游戏1中两位玩家都合作则保留在游戏1,在游戏2中及时两位玩家都合作,也只能保留在游戏2,因此这种随机博弈就是状态依赖的。转移是否确定指的是转移到下一个状态是确定性的还是概率性的。如下图中的左上图所示,只要玩家全部合作,则一定转移到游戏1中;而在右上图中,则代表玩家全部合作,转移到游戏1中的概率为1-p

在计算建模中,研究者设定玩家采用的是“Memory-one”策略,即玩家的行为仅受当前状态与上一轮结果的影响。常见的“Memory-one”策略有:AllD(全部背叛)、AllC(全部合作)、Grim(采用此策略的玩家第一轮会选择合作,上一轮中其他玩家都选择合作时则继续保持合作,一旦有玩家选择背叛,则一直保持背叛到游戏结束)、WSLSwin-stay lose-shift:采用此策略的玩家第一轮会选择合作,只要上一轮获得收益,则保持决策,一旦未获得收益,则转换决策)等。而玩家的策略转换则遵循两个原则:模仿或突变。玩家会从群体中随机选择一个榜样,通过比较自己的平均收益与榜样的平均收益来决定是否要学习榜样的策略,转换策略的概率遵循logistics函数: 

其中,β为选择强度,πR表示榜样的平均收益,πL表示玩家自己的平均收益。此外,模型中还设置了一个突变概率μ,代表了玩家有概率为μ的可能性不寻找榜样,而是从所有可能的策略集中随机选择一个新策略。

2.      随机博弈与重复博弈的演化

首先,研究者分别使用囚徒困境与公共物品博弈任务,模拟了随机博弈与重复博弈的演化过程。在随机博弈中,有游戏1(蓝色)与游戏2(橙色)两种状态,游戏1收益(b1/r1)大于游戏2b2/r2),被试所处的游戏状态随自己及他人决策的而变化。在重复博弈中,被试所处的游戏状态(游戏1/2)始终保持不变。演化结果表明,随演化时间的推进,随机博弈中的群体逐渐达成合作,而重复博弈中的被试合作率始终处于较低水平。

3.      随机博弈中促使合作产生的策略

随后,研究者考察了在随机博弈中合作的演化主要由哪种策略所推动。研究首先在囚徒困境中开展,如下图所示,对于确定的、状态独立的两态博弈,共包含8种可能状态转换框架。针对上述8中博弈框架,研究者分别模拟了b1[1,3]b2=1.2时,参与者基于Memory-one策略的博弈演化过程。结果发现,当WSLS策略变得稳定时,参与者就会演化出充分的合作。此外,合作的稳定性取决于在参与者做出决定的情况下状态如何变化。同时,当b1=2b2=1.2时,只有b,c框架演化除了较高的合作率。该结果表明,当相互合作改善公共利益而相互背叛恶化公共利益时,这种随机博弈框架在促进合作方面最有效。此外,对公共物品博弈的演化也有同样的发现。

 


4.      概率转移随机博弈中合作的演化

研究者设置了不同框架的随机博弈,模拟了转移概率q[0,1]时,合作水平的演化。

1)状态独立的、概率转移的随机博弈:当q=0.5时,个体的合作率与收益达到最大,参与者的决策策略开始从ALLDWSLSAWSLS策略转变。

2)只要有任何一个玩家背叛时,游戏就会结束:当一个玩家的背叛可能导致一个重复的游戏提前结束时,q>0.0005时即可演化出较高水平的合作行为。此外,当q<0.0005时,个体倾向于使用Grim策略,0.0005<q<0.05时,个体较多使用WSLS策略,q>0.05时,个体倾向于ALLC策略。

3)超时模型(当博弈进入状态2时,有概率q返回状态1):当q=0.5时,个体的收益最大,当参与者预期在状态2中停留的时间越长,AllC越有可能成为稳定的策略。

 

5.      有延迟的随机博弈中合作的演化

延迟模型指被试的状态转移具有一定程度的延迟,该模型包含了3中状态,根据状态转移模式可分为4种,a)状态不变、b)状态延迟、c)渐进变化、d)即时改变。

模型演化结果发现,即时改变模型可以较快达到高合作水平,当b1<1.5时,参与者倾向于选择互相背叛的策略,而当b11.5是,WSLS策略占据主流。此外,当玩家完全专注于现在(δ = 0)时,合作在四种博弈中都不会出现。随着玩家越来越多地考虑到未来的收益,合作率也会提高。

 


总的来说,本研究将将随机博弈的框架引入进化生物学中,发现公共资源对先前互动的依赖可以极大地增强合作倾向。同时,互惠和回报反馈之间的互动至关重要。

参考文献

Hilbe, C., Šimsa, Š., Chatterjee, K. et al. Evolution of cooperation in stochastic games. Nature 559, 246–249 (2018). https://doi.org/10.1038/s41586-018-0277-x

作者 | 俞晓莉 袁  航

图文编辑 | 不晓心读写 

审核 | 神经的罗贝尔博士


神经的罗贝尔博士
社会文化与神经科学实验室(Socio-Cultural and Affective Neuroscience Lab)
 最新文章