[通用人工智能] 论文分享:基于选择优化的多智能体行为模仿研究

文摘   2024-06-10 11:11   浙江  

引言:目前,人工智能代理通常是根据大数据中的人类行为进行训练,但并不是所有人类行为都是安全或理想的。人工智能代理需要的特征可以通过设定可取性分数来衡量,而可取性常常是取决于整个集体轨迹,而非单个智能体。例如,在驾驶车辆数据集中,这个分数可能与事故发生率相关,但整个集体轨迹的优劣并不总与单个车辆的优劣相符,即使事故较少的车辆数据中也可能存在风险驾驶的车辆。采用模仿将数据集中的策略作为学习的标签,使用有监督的方法学习观测到行为的映射方法,会使得数据集的优劣极大影响训练效果的好坏。

      为解决该问题,最近牛津大学课题组在ICLR2024上发表的一篇名为《SELECT TO PERFECT: IMITATING DESIRED BEHAVIORFROM LARGE MULTI-AGENT DATA》的论文。该研究首次提出了智能体“交换价值”的概念,并将其用于量化个体对集体分数的贡献。具体来说,针对驾驶车辆数据集存在集体可取性分数的情况,该工作先评估个体代理引起事故的可能性,然后仅模仿那些不太可能导致事故的智能体,从而选择性的挑选有积极效果的个体。让我们来读一读吧!


原文链接:https://arxiv.org/abs/2405.03735


      一、研究背景

 从大数据中模仿人类的行为是在复杂环境中实现人类-人工智能和人工智能-人工智能交互的一种很有前途的技术。由于数据集中可能包含非理想的人类行为,直接模仿会存在一定的难度。因此,部分学者认为:与其模仿所有的行为,不如确保人工智能代理模仿与预定义的理想特征一致的行为,而这需要假设理想特征被量化为数据集中每个轨迹的理想分数。事实上,当评估个人行为的可取性不切实际或过于昂贵时,通常会只能这样量化。对于涉及多个交互代理的复杂数据集,为集体轨迹分配可取性分数可能是唯一可行的选择。例如,我们要确定足球比赛中每个球员的贡献是很困难的,但可以通过最终得分来衡量球队表现。
评估个体行为的可取性通常需要衡量其对集体可取性得分的影响。例如,在驾驶车辆数据集中,它需要评估驾驶员的行为是否会增加事故发生的可能性,或者用户的行为是否会增加对话出错的可能性,这其实就是信用分配问题[1]。信用分配问题在实际场景中被证明是复杂的,其三个主要因素包括:1)许多场景只允许特定的组规模,这使得Shapley值[1](经济学中通常用于信用分配的概念)不适用,因为它依赖于不同规模的群体比较。例如,Shapley值不适用于足球运动员,因为足球是11人的比赛,从来没有观察到12人的群体。2)大型群体的真实世界数据集几乎总是不完整的,也就是说,它们不包含所有可能的代理群体的轨迹。3)通过分配一次性id,人类交互的数据集可以完全匿名化。在这种情况下,如果一个智能体出现在两个轨迹中,在数据集中,它就好像是两个不同的智能体,使信用分配问题退化。因此,这需要将个人行为信息与集体结果信息结合起来。

图1 融合交换值进行数据筛选的模仿学习方法流程图

为了解决这些挑战,我们提出了交换值(EV),类似于Shapley值,它将代理的贡献量化为随机替换代理时期望的变化。一个智能体的EV可以理解为用另一个随机选择的智能体替代该智能体的预期值变化。如图1所示,将包含该智能体的所有组的平均值与不包含该智能体的所有组的平均值进行比较。因而,EV也可以适用于群体规模固定的场景。此外,该方法还引入了EVClustering,通过最大化簇间方差从不完整的数据集估计EV。最后,通过未观察到的个人贡献展示了与聚类的理论联系,并通过结合低级行为信息将该方法应用于完全匿名的数据集。
在介绍本文方法之前,我们先定义Shapley值的相关概念[1]:
定义 1 (特征函数型博弈) 假定 是一个有限非空的智能体集合, 是一个特征函数,一个特征函数型博弈 可以使用 来表示,它将每个组(有时也称为联盟) 映射到一个实数 ;假设 。数值v(C)称为组C的价值。
给定一个特征函数博弈 ,令 表示所有 排列的集合。对于每个排列 ,我们用 表示 的前 个位置的切片;我们认为 是出现在 的前 个位置中的所有智能体的集合(注意 )。智能体 博弈中相对于排列 和切片 中的边际贡献定义为
这个量度量了代理 加入组后组价值的增加量。我们现在定义代理 的 Shapley 值:它是代理的平均边际贡献,其中平均值取所有其他代理 的所有排列和所有切片。
定义 2 (Shapley 值): 给定一个特征函数博弈 ,其中 ,智能体 的 Shapley 值记为 ,定义为:
作为将集体价值分配给个体代理的可能解决方案,定义 2 在信用分配的背景下很重要,通常Shapley 值它还具有多个一致性属性[1]。

二、研究方法

  若给定由多个智能体组生成的轨迹数据集D和期望值函数(DVF)情况下,我们需要学习一个与DVF对齐的单智能体策略。不妨假设:1)部分演示行为是不可取的,即它们在组内显著降低DVF。2)演示数据的数量远大于组的大小。为了在只允许特定组大小的博弈中评估代理的贡献,我们先定义了常规特征函数博弈(定义1)的EV概念(定义3)。然后,我们展示如何自然地扩展到限制组大小的特殊情况中,并推导从具有有限观察数据的实际数据集中估算EV的方法(见图2的概述)。

图2 概述现实世界数据集的不同特征,以及Shapley值和交换值(EV)是否适用于计算个体代理对期望值函数(DVF)的贡献。

2.1 通过交换值评估代理的个体贡献

定义Shapley 值的每一项记为 ,则需要计算包含和不包含智能体 的两组价值(见定义2)。如果我们只想比较相同大小的组,那么一个自然的替代方法是在计算价值异时将位置 替换为智能体
我们称这个量为给定智能体排列在位置 处的智能体 的交换贡献。它表示智能体 在组中的增加价值,不需要不同大小的组的价值。

定义 3 (交换值): 给定一个特征函数博弈 ,其中 ,智能体 的交换值记为 ,定义为:
式中  为所有排列和所有非空切片上的平均交换贡献。智能体的 可以理解为替换智能体时预期的价值变化(见图 1 的步骤 1)。同时,Shapley 值与交换值的关系也可以证明。所有代理的交换值可以通过一个简单的线性变换从它们的 Shapley 值中导出:我们们减去一个大联盟 (所有代理的集合)价值的一部分,并将结果按 缩放:
           

2.1.1 计算仅允许特定群体规模时的交换值

在许多实际场景中,并非所有可能的代理组大小都是允许的。例如,在某些多人游戏中,游戏只能由特定数量的玩家进行。为了解决这种情况,我们现在将交换值的定义扩展到仅允许某些群体规模的情况下。这涉及对特征函数进行调整,以排除那些因规模限制而不被允许的组。以下是详细的计算方法:
对于一个特征函数游戏 ,特征函数 可以为 中每个可能的群体 进行评估。我们现在考虑特征函数 仅为特定规模 的群体定义的情况,即 仅为一部分特定规模的群体定义。
定义 4 (约束特征函数博弈): 一个约束特征函数博弈 由一个三元组 表示,其中 是一组有限非空的代理集, 是一组可行的群体规模,并且 是一个特征函数,它将大小为 的每个群体 映射到一个实数
注意,对于约束特征函数博弈,Shapley 值和交换值通常是未定义的,因为对于规模 的群体,特征函数 是未定义的。Shapley 值的定义不能轻易适用于约束特征函数博弈,因为其计算需要评估不同规模群体的值。相反,交换值的定义可以通过将求和限制为规模 的切片来适应约束特征函数博弈,其中 。因此,我们将约束交换值定义为 的所有排列和规模 的所有切片上的平均交换贡献。
定义 5 (约束交换值): 给定一个约束特征函数游戏 ,其中 ,代理 的约束交换值表示为 ,定义如下:
我们可以根据不同的设置,选择约束交换值或交换值进行使用。如果无法观察到所有的群体,我们可以通过均匀随机抽样群体来获得交换值的无偏估计。期望的交换值为:
在无限样本的极限下,该期望值收敛于真实的交换值。

2.2 从有限数据中估算交换值

EV 评估个体智能体的贡献,并适用于组大小限制的实际场景(见图 2 中的 Group-Limited)。然而,精确计算 EV 几乎是不可能的,因为实际数据集可能不包含所有(组合数量)的可能组观察数据(图 2 中的 Low-Data)。我们首先进行关于 EV 基于抽样的估计,它可能对仅出现少量数据的代理的 EV 具有高方差。接下来,我们介绍了一种新的方法,EV 聚类(第 2.2.1 节),通过聚类来减少方差。当数据集使用一次性 ID 进行匿名时,演示将只有智能体在每个组的一部分被观察到(见图 2 中的 Degenerate),导致信用分配混乱,如第 2.2.1 节所解释的。我们通过结合轨迹中的低级行为数据来解决这个问题。

2.2.1 EV 聚类识别相似的代理

我们提出了 EV 聚类,通过最大化所有代理之间 EV 的方差来聚类代理。此外,本文证明了 EV 聚类等价于通过未观察到的个体贡献来聚类代理,假设组的总价值是参与代理的个体贡献之和,这一假设在理论分析中常被采用 [2,3],因为它代表了最简单的非平凡合作游戏。直观地,如果我们选择最大小化所有代理 EV 方差的聚类,那么所有聚类的 EV 将是最不同的。一个差的聚类例子是随机分配,其聚类间的 EV 将非常相似(方差低)。
具体来说,我们将 个代理分配到 个聚类 ,使用个体聚类分配 ,其中 。我们首先通过定义一个聚类值函数 来结合同一聚类中所有代理的观察值,该函数通过对组合观察值进行平均来为一个聚类中心代理 赋值,公式为:
其中 是一个归一化常数。然后,代理 的 EV 记为 ,其中 ,从而为一个聚类内的所有代理分配相同的 EV。
定义 6 (EV 聚类): 我们定义最优聚类分配 ,使得所有代理之间的 EV 方差最大化:
在加性价值函数的假设下,能证明目标等价于通过未观察到的个体贡献来聚类代理。

2.2.2 完全匿名化信用分配问题的退化

如果两个代理仅在数据集中观察到一次,并且作为同一组的一部分,由于无法分离它们的贡献,必须给它们分配相同的信用。同样,当所有代理仅被观察到一次时,信用只能分配给组,导致退化场景,即所有组中的代理被分配相同的信用(例如被分配相同的EV)。我们通过结合轨迹中的低级行为信息和EV聚类来解决这个问题。

2.3 基于交换值的行为克隆(EV2BC)

接下来,我们定义一种行为克隆(Behavior Cloning, BC)的变体,来考虑了每个代理对可取性价值函数(DVF)的贡献。
定义 7 (基于 EV 的行为克隆(EV2BC)) 对于一组演示代理 、一个数据集 和一个 DVF,我们定义 EV2BC 的模仿学习损失为:
其中 表示代理 的 EV,而 是一个可调阈值参数,用于调节DVF 贡献较高的代理的数据质量和减少用于训练数据的数量。在本文的方法中,可选定EV高于一个可调阈值参数的代理,EV2BC也仅模仿这些选定代理的动作。

三、实验结果

在所考虑的环境中,只允许特定的组大小,因此我们使用了受约束的交换值(EV)(见定义5)。我们对所有实验进行了五个随机种子的运行,并在适用的情况下报告了均值和标准差。有关实现的更多细节,请参见原论文。

3.1 评估交换值

在Overcooked环境中,因为人类参与者的个体贡献未知。我们不考虑人类数据集,而是考虑了两个模拟数据集(Dadv和Dλ)。图3显示的是λ和EV关系的图。我们发现,个体代理的EV与其特征参数λ有很强的相关性。λ越大,数据集中个体的合作意图越强。

图3 个体代理的EV与特征参数λ(λ越大,数据集中个体的合作意图越强)的关联图

3.2 从不完整数据中估算EV

对于ToC和Overcooked环境中,我们计算了数据集D中仅包含一部分可能组别的情况下EV的平均估计误差。如图4所示,随着观察到的组别的比例减少,平均估计误差增加,对于完全匿名的数据集,估计误差最大(见图4 - Deg.)。
图4 随观测组别比例的减少,EV估计误差升高。”Deg“指的是退化为完全匿名的情况。如果对代理进行聚类(绿色阴影区域),误差将显著减少。

3.3 从退化的数据集中借助聚类估计EV

为了从退化数据集中估计EV,我们首先从轨迹τ中的低级行为信息获取行为嵌入。在Overcooked和ToC中,我们对频繁观察到的状态中的动作频率进行连接。在Starcraft中,我们使用TF-IDF[4]获取行为嵌入。先使用不同的方法和超参数,计算大量可能的行为嵌入聚类分配。然后,根据EV聚类的目标选择具有最高EV方差的聚类分配。如图4所示,聚类可以显著减少估计误差(见Deg. clustered)。

3.4 使用EV模仿期望行为

为评估所有领域的EV2BC,我们根据可用数据的数量,设置阈值参数,使得在ToC、Starcraft和Overcooked中仅模仿EV在第90、第67和第50百分位以上的代理。在测试过程中,环境中的每个智能体先换成EV2BC得到的策略,然后通过计算集体dvf来评估效果。我们考虑的基准主要包括:我们考虑(1)行为克隆(BC),即使用完整数据集进行的行为克隆[5],不纠正EV;(2)离线多代理强化学习[6],其在最后一个时间步设置奖励为给定轨迹的DVF分数(DVF不提供每步奖励);(3)Group-BC,仅包括DVF分数高于相关百分位的集体轨迹。相比之下,EV2BC基于个体代理的贡献选择性模范数据,Group-BC基于组结果选择性地模仿数据。例如,如果一个集体轨迹包括两个对齐的代理和一个不对齐的代理,Group-BC可能模仿所有三个代理。相反,我们的方法仅模仿两个对齐的代理。

3.5 ToC结果

我们模仿了12个代理和120个代理的数据集,组大小分别为3和10,评估了ToC环境中定义的三种DVF的性能。我们没有考虑OMAR基准,因为策略不是通过学习而是基于规则。表1显示,EV2BC在很大程度上优于基准。考虑所有数据集Dadv、Dλ和Dhuman在Overcooked环境中的表现。在不同数据集上评价使用不同模仿学习方法训练的代理在DVF(最大化汤的数量)的表现。表1显示,EV2BC显著优于基准方法。我们进一步注意到,EV2BC在由人类生成行为的数据集上显著优于基准方法,这些实验结果表明,在包含未对齐行为的数据集上进行行为克隆有可能学习错误的行为,但可以通过使用估算的EV加权样本来缓解这一风险。

表1 overcooked和TOC实验的结果

3.6 星际争霸结果

在表2中的观察可以发现,EV2BC显著优于基准方法,强调了我们方法在更大和更复杂的设置中的适用性。
表2 星际争霸实验的结果

四、总结

本文提出了一种可以用于从多样化的人类交互数据集中训练AI代理的方法。该方法不仅可以确保所产生的策略与给定的期望值函数对齐,还可以通过训练对齐的(有益的)代理避免在数据集中模仿负面行为。未来,我们可以建立个体代理在多个轨迹中行为类似的假设,开发更细粒度的行为评估方法。此外,探索如何更有效利用不期望行为数据也是另一个有前景的研究方向。

参考文献:

[1].Lloyd Shapley. A value for n-person games. Contributions to the Theory ofGames, pp. 307–317, 1953.

[2]. Scott M Lundberg and Su-In Lee. A unified approach to interpreting model predictions. Advances in neural information processing systems, 30, 2017.

[3]. Ian Covert and Su-In Lee. Improving kernelshap: Practical shapley value estimation using linear regression. In International Conference on Artificial Intelligence and Statistics, pp. 3457–3465. PMLR, 2021.

[4]. Karen Sp¨arck Jones. A statistical interpretation of term specificity and its application in retrieval. Journal of Documentation, 28(1):11–21, 1972.

[5]. Dean A. Pomerleau. Efficient Training of Artificial Neural Networks for Autonomous Navigation. Neural Computation, 3(1), 1991. ISSN 0899-7667. doi: 10.1162/neco.1991.3.1.88.

[6]. Ling Pan, Longbo Huang, Tengyu Ma, and Huazhe Xu. Plan better amid conservatism: Offline multi-agent reinforcement learning with actor rectification. In International Conference on Machine Learning, pp. 17221–17237. PMLR, 2022.


  End


稿:洪艺天
初审:颜学明
终审:金耀初

可信及通用人工智能实验室
金耀初实验室(可信及通用人工智能实验室)由欧洲科学院院士、IEEE Fellow,西湖大学人工智能讲席教授金耀初领导成立。实验室致力于应用驱动的可信人工智能研究,以及采用演化发育方法探索实现通用人工智能的新途径。
 最新文章