国家人机混合增强智能重点实验室项目：利用生成世界模型优化多智能体系统决策

文摘 2024-10-07 08:01 美国

生成模型在单智能体场景中的应用已经取得了显著进展。例如，UniSim通过预测图像中的动作来推断未来的情景，展示了从广泛数据中学习的模拟器可以推广到现实世界，并弥合仿真与现实的差距。而Genie则允许用户在生成的环境中逐帧行动，为训练未来的通用智能体铺平了道路。但是这些模型主要集中于单智能体场景，对于需要多个智能体协同工作的任务，它们的适用性相对有限。

在多智能体强化学习（MARL）任务中，世界模型的研究尚处于起步阶段。尽管一些研究在模拟单智能体行为方面取得了进展，但在涉及多个智能体的复杂场景中，现有方法仍然面临诸多挑战。例如，MARL任务通常涉及多个实体的属性，如位置和角色，仅用文本描述状态是困难的。此外，MARL环境的动态和奖励模型比单智能体设置更加复杂，现有的方法假设奖励是已知的或可以通过帧信息轻松推导，但这种假设在MARL中并不成立。

针对这些局限性，最新研究提出了通过生成世界模型来增强多智能体决策问题答案的策略。来自国家人机混合增强智能重点实验室和国家视觉信息与应用工程研究中心的研究团队探索了一种新的范式，将语言引导的模拟器整合到多智能体强化学习流程中，以提供更为切实的解决方案。模拟器作为一个世界模型，分别学习动态和奖励，利用这些模型生成的试错体验来训练联合策略，从而提升多智能体决策问题的解决质量。

这项研究由西安交通大学的研究团队完成，团队成员包括Zeyang Liu、Xinrui Yang、Shiguang Sun、Long Qian、Lipeng Wan、Xingyu Chen和通讯作者Xuguang Lan。研究团队隶属于国家人机混合增强智能重点实验室和国家视觉信息与应用工程研究中心，专注于多智能体系统和生成模型的研究，致力于通过创新的方法解决现实世界中的复杂问题。他们的研究工作在2024年神经信息处理系统会议（NeurIPS 2024）上展示，充分体现了他们在人工智能和机器人领域的领先地位和创新能力。

研究动机

多智能体任务中存在许多挑战和需求。多智能体系统需要协调多个智能体的行为，以实现共同的目标，这需要复杂的决策和规划过程。现有生成模型在处理多智能体任务时往往缺乏对动态环境的准确模拟，导致生成的解决方案不够精确和可靠。

通过语言引导的模拟器在增强决策问题答案中的潜力显而易见。将语言模型与世界模型相结合，能够更好地理解任务描述，并通过模拟不同的决策过程来生成更准确的答案。这不仅可以提高多智能体系统的效率和性能，还可以为实际应用提供更为切实可行的解决方案。本研究通过提出一种新的范式，将语言引导的模拟器整合到多智能体强化学习流程中，旨在解决多智能体任务中的复杂决策问题，提升生成模型的适用性和有效性。

图1：对于当前的视觉语言模型来说，需要很好地理解环境动态和目标的复杂决策问题仍然具有挑战性，例如，GPT-4得出的答案是粗略和误导性的。相反，互动前学习（LBI）通过模拟给定问题中的任务来实现有根据的推理。LBI利用模拟器训练MARL策略，并通过在模拟器上运行聚合策略来生成答案。

方法论

互动模拟器的构建

在多智能体决策问题中，互动模拟器的构建是至关重要的一步。研究团队提出的互动模拟器由三个核心组件构成：图像分词器、动态模型和奖励模型。通过这些组件的相互合作，模拟器能够生成试错经验，并且提升多智能体决策问题的答案质量。

图像分词器的作用是将原始视频帧转换为离散标记，从而降低数据维度并提高图像生成的质量。具体来说，作者采用了矢量量化变分自编码器（VQ-VAE），这是一种先进的图像编码方法。VQ-VAE通过对每一帧图像进行编码，生成离散表示。这种表示不仅保留了原始图像的重要信息，还显著减少了数据量，从而为后续的动态模型和奖励模型提供了高效的输入数据。

图2：数据集构建和VQ-VAE训练。

动态模型是互动模拟器的核心组件之一，它通过自回归建模，根据过去的帧和状态标记来预测下一帧和状态。研究团队采用了因果变换器作为动态模型的架构，并在任务描述的指导下进行建模。具体来说，动态模型接收一系列的图像和状态标记，并在每一个时间步进行预测。为了提高预测的准确性和稳定性，动态模型还采用了动态残差项，将状态预测目标从St+1‍为‍ΔSt+1=St+1−St，以进一步提高生成的准确性。通过这种方式，动态模型能够生成一致的长视距轨迹，确保多智能体决策过程中各个步骤的连贯性。

奖励模型通过轨迹推断状态-动作对的奖励，是互动模拟器中另一个关键组件。作者采用了类似于逆强化学习的训练管道，通过最大化专家演示轨迹的似然性来训练奖励模型。具体来说，奖励模型接收完整的轨迹作为输入，并在确定性动态下进行信用分配。为了避免奖励高估，研究团队引入了奖励约束和行为正则化，通过这些措施进行样本内学习，从而提高奖励预测的准确性。奖励模型的这一设计使得互动模拟器能够在复杂的多智能体决策环境中生成合理的奖励，并帮助智能体快速学习到最优策略。

为了构建有效的互动模拟器，首先需要一个全面的数据集。研究团队提出的新SMAC多智能体强化学习数据集，通过解析器自动生成给定状态和任务描述的真实图像。SMAC（StarCraft Multi-Agent Challenge）环境以其丰富的环境和高控制复杂性著称，是训练和测试多智能体系统的理想平台。为了生成训练数据，研究者们运行多智能体探索方法，如EMC（Efficient Multi-agent Communication）和IIE（Interactive Imitation Learning），在多个训练地图上收集了大量的交互轨迹。每条轨迹都包含状态、观察、联合动作和完成信号。这些数据通过解析器转换为相应的图像和任务描述，为模拟器的训练提供了基础。

任务描述的解析与生成是训练互动模拟器的重要步骤之一。研究团队设计了一种解析器，将每个轨迹转换为自然语言任务描述。这些任务描述包含环境动态、代理和敌人的数量和类型，以及终止状态下敌人的剩余生命值等信息。通过这种方式，任务描述不仅提供了当前状态的信息，还为模拟器的动态模型提供了额外的上下文，使其能够更准确地预测未来的状态。

图3：互动前学习概述。

动态模型是模拟器的核心组件之一，其作用是根据过去的帧和状态标记，预测下一帧和状态。为了实现这一目标，研究团队采用了因果变换器作为动态模型的架构。具体来说，动态模型通过自回归建模，根据任务描述和过去的帧和状态标记，生成未来的状态和图像。

奖励模型通过推断状态-动作对的奖励，帮助智能体在模拟环境中学习到最优策略。研究团队借鉴了逆强化学习的训练管道，通过最大化专家演示轨迹的似然性来训练奖励模型。具体来说，奖励模型接收完整的轨迹作为输入，并根据轨迹中的动态信息进行奖励分配。为了避免奖励高估，研究者们引入了奖励约束和行为正则化，通过这些措施进行样本内学习，从而提高奖励预测的准确性和鲁棒性。

实验与结果

性能比较

在性能比较中，研究团队评估了LBI（Learning before Interaction）在无奖励的离线学习、离线多智能体强化学习（MARL）和在线多智能体强化学习中的表现。

在无奖励的离线学习方面，LBI显著优于多种基准方法，包括行为克隆（BC）和对抗模仿学习（MA-AIRL）。行为克隆方法通过模仿整个数据集的行为来学习策略，而MA-AIRL使用对抗学习进行策略模仿。尽管这些方法在一些任务上有一定的表现，但它们往往无法在复杂的多智能体决策场景中实现高成功率。相较之下，LBI通过生成试错经验，改进了决策过程，从而在各种难度的地图上表现出色。

离线MARL方面LBI同样表现出色，超越了现有的多种方法，如BCQ-MA和CQL-MA。这些离线方法利用真实奖励进行训练，但在代理数量增加时，其性能往往会显著下降。研究团队提出的LBI通过动态模型和奖励模型的协同工作，生成了更为合理的试错轨迹，并优化了策略学习，从而在复杂的环境中取得了更高的成功率和表现。

在线MARL方面，LBI也展示了其优越性。研究团队将LBI与现有的在线方法如CW-QMIX、QPLEX等进行了比较。结果表明，LBI在样本效率方面显著提升，这得益于其预训练的世界模型在生成响应时减少了等待时间。这一结果表明，预训练的世界模型不仅能够提高离线学习的性能，还能在在线学习过程中提供显著的优势。

在未见任务中的泛化能力

为了评估LBI（Learning before Interaction）在未见任务中的泛化能力，研究团队测试了LBI在十个未见测试地图上的表现。结果显示，LBI在这些新的环境中依然表现出色，成功地将已学知识转移到新任务上，且无需额外的微调。这种零样本泛化能力是生成模型在实际应用中非常关键的特性，证明了LBI在多智能体决策问题中的广泛适用性。

图4：动态和奖励模型预测的可视化，其中“np-op”和“s”分别表示不操作和停止。

动态模型不仅能够生成长视距的图像轨迹，还能在关键状态下进行动作可控生成。具体来说，动态模型在生成的过程中没有出现明显的累积误差，这表明LBI具备生成一致性和长视距轨迹的能力。在5m_vs_6m的例子中，研究人员展示了在某个可能动作后的连续帧，证明了LBI可以进行动作可控的生成，帮助智能体更好地理解和执行策略。

消融研究

研究团队通过消融研究深入分析了互动模拟器中各组件的贡献，包括动态模型和奖励模型的具体作用及其在不同任务中的表现。

动态模型在生成长视距轨迹和预测未来状态方面起着关键作用。通过消融研究，研究团队发现，使用动态残差项对减少后续状态的预测误差至关重要。这在各种训练和未见任务中，动态残差项显著提升了模型的整体表现。尽管图像参考的效果不如预期，但作为另一种模式，图像在某些情况下比语言或状态信息更具表现力，未来的研究可能会进一步探索其潜力。

对于奖励模型，奖励约束和行为正则化在训练任务中发挥了重要作用，显著改善了整体性能。具体来说，奖励约束通过控制奖励值，避免了在样本外状态-动作对上出现奖励过高的情况，而行为正则化则通过在策略学习中加入保守性，进一步提高了奖励预测的准确性。在未见任务中，研究发现，奖励的保守性比策略更为重要。当存在样本外状态-动作对时，保守的奖励预测能够更好地帮助智能体进行决策学习。相比之下，LBI（Learning before Interaction）在缺乏奖励约束和行为正则化的情况下表现较差，这进一步证明了这些组件在优化模型性能中的关键作用。

相关工作

世界模型

世界模型的研究在多智能体强化学习中扮演着至关重要的角色。这些模型通过预测环境动态和奖励，帮助智能体更有效地学习和决策。

模型预测控制（MPC）是一种通过模型模拟来生成高奖励动作序列的方法。在MPC的应用中，像MBMF、PETS和PlaNet等模型通过集成MPC来采样高奖励的动作序列。这些方法依赖于世界模型对环境动态的精确模拟，从而在多步预测中生成最优的决策序列。AlphaGo和MuZero等知名算法通过学习转换模型并应用蒙特卡罗树搜索（MCTS），实现了在人类竞争游戏中的突破。这些方法展示了世界模型在生成高质量决策中的潜力。

微分规划与策略学习方法利用模型的内部结构来促进策略学习。GPS（Guided Policy Search）和GDP（Gradient-based Policy Search）等模型通过微分规划获得最优策略的解析形式。这些方法通过对世界模型和策略进行重新参数化，并通过反向传播计算策略梯度估计，从而提高了策略的学习效率。SVG（Stochastic Value Gradients）和MAAC（Multi-Agent Actor-Critic）等模型在紧凑的潜在空间中学习世界模型和策略，进一步提升了策略学习的效果。

Dyna-style 方法通过生成更多的经验来训练策略，从而扩展了数据集的覆盖范围。MVE（Model-based Value Expansion）和STEVE（Stochastic Ensemble Value Expansion）等方法通过多步时间差预测进行更好的价值估计。SLBO（Safe Model-Based Optimization）、MBPO（Model-Based Policy Optimization）和BMPO（Behavioral Model-Based Policy Optimization）等方法则通过理论分析证明，策略性能会在一定模型偏差和回滚长度下单调改进。为了进一步增加回滚长度并避免累积误差，M2AC（Model-based Actor-Critic）和COPlanner（Conservative Planner）计算每一步的回滚不确定性，并在总奖励中加入惩罚项。这些方法展示了世界模型在生成更多经验并训练策略中的有效性。

模仿学习

模仿学习通过模仿专家的行为来训练智能体，是一种广泛应用于多智能体系统的有效方法。在这些方法中，最大熵逆强化学习（MaxEnt IRL）、条件扩散模型和序列建模方法都具有重要意义。

最大熵逆强化学习（MaxEnt IRL）通过最小化代理和专家分布之间的差异来学习稳定的奖励函数。这种方法不仅能捕捉专家行为的多样性，还能提供更好的泛化能力。通过最大化轨迹的熵，MaxEnt IRL能够有效地处理复杂的决策问题，并在多个领域表现出色。例如，在自然语言目标和动态学习中，MaxEnt IRL展示了其强大的适应能力和广泛的应用前景。

条件扩散模型是模仿学习中的另一种重要方法。通过将状态和噪声向量作为输入，条件扩散模型可以生成预测动作，并模仿人类专家或游戏数据中的多模态行为。这种方法在建模随机行为和处理复杂环境方面表现优异。与传统的模仿学习方法相比，条件扩散模型能够更好地适应各种不同的情景，并提供更高的灵活性。

序列建模方法通过将轨迹生成问题看作序列建模问题，实现了对状态、动作和奖励的高效生成。决策变压器（MADT）是序列建模方法中的代表，它通过自回归方式生成状态、动作和奖励。与传统的模仿学习方法相比，决策变压器能够更好地捕捉决策过程中的依赖关系，并提供更为准确的决策结果。这种方法在多智能体决策任务中表现出色，展示了其在序列建模中的潜力。

结论与展望

研究团队提出的“交互前学习” (Learning before Interaction, LBI) 方法，结合了生成模型和多智能体强化学习，展示了在多智能体决策问题中的创新性和有效性。LBI通过引入语言引导的互动模拟器，解决了传统生成模型在处理复杂多智能体决策问题时的不足。具体来说，LBI包括图像分词器、动态模型和奖励模型三个核心组件，这些组件协同工作，生成高质量的试错经验，改进了决策质量。实验结果表明，LBI不仅在各种基准测试中表现出色，还展示了强大的零样本泛化能力，能够在未见任务中保持卓越表现。这些研究成果证明了LBI在处理复杂多智能体决策问题上的潜力和实际应用价值。

LBI的提出为多智能体系统的研究提供了新的思路和方向。未来的研究可以进一步优化和扩展LBI的应用场景。例如，在其他高复杂度和高动态性的环境中，LBI有望通过适应不同的任务描述和奖励函数，展现出更广泛的适用性。此外，LBI的框架可以与其他先进的人工智能技术相结合，如自然语言处理和计算机视觉，进一步提高多智能体系统的智能化水平。

另一个重要的研究方向是提高LBI的效率和可扩展性。尽管研究团队已经展示了LBI在样本效率上的显著提升，未来的研究可以探索更高效的模型训练和推理方法，以进一步减少计算成本和时间。同时通过引入更多的实际数据和场景，LBI可以在真实世界的应用中得到验证和改进，推动多智能体决策系统在工业、医疗和社会治理等领域的发展。

LBI的创新性和有效性为多智能体决策问题提供了切实可行的解决方案，其广泛的应用潜力和未来的研究方向也为人工智能领域带来了新的机遇和挑战。科技的进步总是如此令人兴奋和期待。（END）

参考资料：https://arxiv.org/abs/2410.02664

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

加入AI交流群请扫码加微信

http://mp.weixin.qq.com/s?__biz=MzA3NTY1MDY4MA==&mid=2247486631&idx=1&sn=298b766750bebe38e018ddb8227a9923

大噬元兽

噬元兽FlerkenS 是一个去中心化的AI数字价值容器，捕捉数字时代新型资产，用数据飞轮把你的数据和内容转化成为你的财富，带你走进下一个智能互联网。

心理测量与语言学数据集PhDGPT：大模型的情感与认知分析

解密心智理论：从人类社会到人工智能的集体智慧提升之路

多智能体系统的金融交易,详解FinVision框架如何革新股票市场预测

智能调度新探索，多智能体强化学习在无关平行机调度中的应用

《自然》科学报告：大模型在社会情境判断方面可以胜过人类

微软研究院成果：用于解决复杂任务的Magentic-One通用多智能体系统

多智能体的文明之路，数字人类与AI社会的崛起

揭秘大模型中的神经网络，从ANs到类脑功能组织

中国科学院、上海人工智能实验室等联合团队重新定义语言模型发展，利用语言不平衡实现多语言自我改进

智能体协作进化论，从心智理论到逆向注意力

加州大学伯克利分校团队提出类脑推理的规范理论，泊松分布下的尖峰神经网络创新

谷歌与学术界联手，研究突破多智能体合作瓶颈的新算法

阿里巴巴“通义实验室”突破大模型推理瓶颈，MCoT框架展开在数学推理中的应用

亚马逊、微软、谷歌DeepMind 联合团队的杰作，POLYMATH 引领MLLMs多模态推理新基准

简洁胜于复杂，亚马逊研究团队提出基于LLM的Web代理AGENTOCCAM的研究与应用

从NLP到多智能体系统，通过BERTeam实现多智能体对抗中的最优组合

阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联合团队提升AI多步推理能力的新方法

人工智能与人类情感的交汇点：一致性评估方法的探索

斯坦福大学和伦敦大学学院联合打造多智能体系统中的安全防线，应对大模型即时感染

中科院、阿里巴巴、澳门科技大学联合团队提出微调LLM的新思路，探索顺序协作多智能体强化学习在LLM微调中的应用

从物理学到人工智能：用哈密顿力学提升AI推理能力

国家人机混合增强智能重点实验室项目：利用生成世界模型优化多智能体系统决策

香港科技大学、阿里巴巴集团和东南大学联合团队优化智能体协作系统，多智能体系统中代理导向规划的设计原则

OpenAI o1模型的规划能力评估：可行性、最优性与普遍性

《自然》Scientific Data：从数据到发现，AI在材料科学中的颠覆性应用

《自然》期刊：上海交通大学与上海人工智能研究所联合推出医学多语言模型

从 ASI到 AHI，人类与AI共生的发展之路

Google Research Scholar和DeepMind奖学金支持项目：多智能体系统中的合作弹性

自然（Nature）科学数据子刊：用于对话情境中情绪识别的 EEG-音频-视频数据集的创新应用

从CoT到ToT，多智能体与思维树结合突破复杂推理瓶颈

智能体在连续环境中的路径优化与冲突解决

基础模型重塑情感计算

从第二届MER2024-SEMI挑战赛看多模态情感识别的最新进展

智能体能自发形成社会吗？昆明理工大团队引入一种用于引发社会出现的生成式多智能体新架构

麻省理工研究团队革新科学研究方式,通过多智能体智能图推理实现科学发现自动化

从大脑到代码，神经科学启发的多智能体CortexCompile利用脑启发架构提升代码生成

自然（Nature）机器智能子刊：多智能体系统中的高效决策与去中心化强化学习的应用

2024人工智能峰会成功召开，华智未来强势发布20余项应用场景

多智能体路径规划新突破：AA-CCBS算法详解

人工智能应用场景高峰论坛暨成果发布会即将启幕，华智未来邀您共创新世界

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义

从噪声中提取情感：中山大学与腾讯AI实验室基于元学习的多模态情感分析新方法

微软研究院发布无代码开发工具 AUTOGEN STUDIO，简化多智能体系统的构建与调试

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

多模态多智能体心智理论MuMA-ToM：推动AI理解复杂社会互动的前沿基准

情感与情绪在决策中的力量，多准则模糊群体决策系统的应用

多智能体系统中基于策略的资源交换逻辑

《自然》期刊发布最新科学报告：人工智能技术在个性化医疗中的创新与挑战

多智能体大模型协作中的角色不一致性：一致性、虚构性和模仿性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉