引言:目前,人工智能代理通常是根据大数据中的人类行为进行训练,但并不是所有人类行为都是安全或理想的。人工智能代理需要的特征可以通过设定可取性分数来衡量,而可取性常常是取决于整个集体轨迹,而非单个智能体。例如,在驾驶车辆数据集中,这个分数可能与事故发生率相关,但整个集体轨迹的优劣并不总与单个车辆的优劣相符,即使事故较少的车辆数据中也可能存在风险驾驶的车辆。若采用模仿学习将数据集中的策略作为学习的标签,使用有监督的方法学习观测到行为的映射方法,会使得数据集的优劣极大影响训练效果的好坏。
为解决该问题,最近牛津大学课题组在ICLR2024上发表的一篇名为《SELECT TO PERFECT: IMITATING DESIRED BEHAVIORFROM LARGE MULTI-AGENT DATA》的论文。该研究首次提出了智能体“交换价值”的概念,并将其用于量化个体对集体分数的贡献。具体来说,针对驾驶车辆数据集存在集体可取性分数的情况,该工作先评估个体代理引起事故的可能性,然后仅模仿那些不太可能导致事故的智能体,从而选择性的挑选有积极效果的个体。让我们来读一读吧!
一、研究背景
图1 融合交换值进行数据筛选的模仿学习方法流程图
二、研究方法
2.1 通过交换值评估代理的个体贡献
2.1.1 计算仅允许特定群体规模时的交换值
2.2 从有限数据中估算交换值
2.2.1 EV 聚类识别相似的代理
2.2.2 完全匿名化信用分配问题的退化
2.3 基于交换值的行为克隆(EV2BC)
三、实验结果
3.1 评估交换值
3.2 从不完整数据中估算EV
3.3 从退化的数据集中借助聚类估计EV
3.4 使用EV模仿期望行为
3.5 ToC结果
3.6 星际争霸结果
四、总结
[1].Lloyd Shapley. A value for n-person games. Contributions to the Theory ofGames, pp. 307–317, 1953.
[2]. Scott M Lundberg and Su-In Lee. A unified approach to interpreting model predictions. Advances in neural information processing systems, 30, 2017.
[3]. Ian Covert and Su-In Lee. Improving kernelshap: Practical shapley value estimation using linear regression. In International Conference on Artificial Intelligence and Statistics, pp. 3457–3465. PMLR, 2021.
[4]. Karen Sp¨arck Jones. A statistical interpretation of term specificity and its application in retrieval. Journal of Documentation, 28(1):11–21, 1972.
[5]. Dean A. Pomerleau. Efficient Training of Artificial Neural Networks for Autonomous Navigation. Neural Computation, 3(1), 1991. ISSN 0899-7667. doi: 10.1162/neco.1991.3.1.88.
[6]. Ling Pan, Longbo Huang, Tengyu Ma, and Huazhe Xu. Plan better amid conservatism: Offline multi-agent reinforcement learning with actor rectification. In International Conference on Machine Learning, pp. 17221–17237. PMLR, 2022.
End