在 Minecraft 中构造一个能完成各种长序列任务的智能体,颇有挑战性。现有的工作利用大语言模型 / 多模态大模型生成行动规划,以提升智能体执行长序列任务的能力。
然而,由于这些智能体缺乏足够的知识和经验,面对 Minecraft 中复杂的环境仍显得力不从心。为此,本文提出了一个新颖的智能体框架 ——Optimus-1,该框架结合结构化知识与多模态经验,旨在赋能智能体更好地执行长序列任务。
本篇论文的工作已被 NeurlPS(Conference on Neural Information Processing Systems)2024 会议接收。本文主要作者来自哈尔滨工业大学 (深圳) 聂礼强,邵睿团队,合作单位为鹏城实验室。其中,第一作者李在京就读于哈尔滨工业大学 (深圳) 计算机学院,研究方向为开放世界智能体和多模态学习。
Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks论文链接:
https://arxiv.org/abs/2408.03615项目链接:
https://cybertronagent.github.io/Optimus-1.github.io/代码链接:
https://github.com/JiuTian-VL/Optimus-1现有的Minecraft Agents有哪些局限性?1. 对结构化知识缺乏探索。Minecraft 中充满了丰富的结构化知识,例如工具的合成规则(一根木棍和两块铁锭可以合成一把铁剑),以及不同层级的科技树(木材 → 石器 → 铁器 → 金器 → 钻石)等。这些知识有助于智能体做出合理的规划,一步一步获取完成任务所需的材料和工具。然而,现有的智能体缺乏必要的知识,导致他们做出长序列规划的能力受限。2. 缺乏充足的多模态经验。过往的经验对帮助人类完成未曾遇见的任务具有重要作用,同样,智能体也能借助历史经验在面对新任务时作出更加精准的判断与决策。然而,现有的智能体在多模态经验的积累与总结上存在缺陷,未能有效整合视觉、语言、动作等多方面的经验,限制了其在复杂任务中的决策能力和适应性。为了解决上述挑战,我们设计了一个混合多模态记忆模块,将结构化知识和多模态经验整合到智能体的记忆机制中。类似于知识与经验在指导人类完成复杂任务中的重要作用,智能体在规划阶段借助结构化知识生成可行的任务计划,而在反思阶段则利用多模态经验对当前状态进行判断,并做出更加合理的决策。在此基础上,我们提出了智能体框架 Optimus-1。在混合多模态记忆的赋能下,Optimus-1 在 67 个长序列任务上实现了当前最先进的性能,并缩小了与人类水平基线的差距。研究方法
Optimus-1 的框架如下图所示。它由混合多模态记忆模块,知识引导的规划器,经验驱动的反思器,以及行动控制器组成。
给定一个长序列任务,知识引导的规划器首先从混合多模态记忆中检索任务相关的知识,并基于这些知识生成一系列可执行的子目标。这些子目标依次输入到行动控制器中,生成行动信号以完成任务。在
执行任务过程中,经验驱动反思器会定期激活,检索与当前子目标相关的多模态经验作为参考,以此判断智能体当前状态,从而做出更为合理的决策。
1. 混合多模态记忆(Hybrid Multimodal Memory)
▲ 图2. 摘要化多模态经验池和层次化有向知识图的构建流程如上图所示,混合多模态记忆由摘要化多模态经验池(AMEP)和层次化有向知识图(HDKG)组成。对于 AMEP,视频流首先通过 Video Buffer 和 Image Buffer 过滤,得到固定窗口大小的帧序列,并与文本通过 MineCLIP 计算相似度,若超过阈值,则保存帧序列、文本及环境信息等内容作为多模态经验。这些经验为智能体反思阶段提供细粒度的多模态信息,同时通过摘要化降低了存储开销。对于 HDKG,任务执行过程中获取的知识被转化为图结构。例如,“两根木棍和三块木板可以合成一把木镐” 被表示为有向图 {2 sticks, 3 planks} → {1 wooden pickaxe},为智能体的规划阶段提供必要的知识支持,帮助其做出合理的任务规划。2. 知识引导的规划器(Knowledge-Guided Planner)给定任务 t,当前的视觉观察 o,知识引导的规划器从 HDKG 中检索相关知识,生成子目标序列:其中,表示多模态大模型,表示从 HDKG 中检索的有向图。3. 行动控制器(Action Controller)行动控制器以当前的视觉观察 o,以及子目标作为输入,生成行动:4. 经验驱动的反思器(Experience-Driven Reflector)经验驱动的反思器会定期被启动,以当前的视觉观察 o,子目标,以及从 AMEP 中检索的 case 作为输入,生成反思 r:反思 r 分为三类:COMPLETE 表示当前子目标已完成,可以执行下一子目标;CONTINUE 表示当前子目标未完成,需要继续执行;REPLAN 表示当前子目标无法继续执行,需要知识引导的规划器重新规划。本文在开放世界环境 Minecraft 中选取了 67 个长序列任务进行评估,涵盖木材,石器 ,铁器,金器,钻石,红石,装备七个任务组。每次执行任务,智能体都随机在任意环境中,初始装备为空,这显著增加了任务的挑战性。此外,本文还构建了一个人类水平的基线,以评估现有的智能体与人类水平之间的差距。▲ 表1. Optimus-1在7个任务组上的平均成功率实验结果如上表所示,Optimus-1 在所有任务组的成功率都显著高于先前的方法。广泛的消融实验也证明了知识和经验对智能体执行长序列任务的重要性。
▲ 表2. 消融实验结果。其中,P,R,K,E分别代表规划,反思,知识,以及经验。
值得注意的是,本文还探索了将任务失败的 case 应用于 in-context learning 所带来的影响。实验结果显示,将成功和失败的 case 都纳入智能体的反思阶段,能够显著提升任务的成功率。▲ 表3. 对多模态经验的消融实验结果。其中,zero,suc,Fai分别代表zero-shot,仅使用成功case,以及仅使用失 case。
虽然基于 GPT-4V 构建的 Optimus-1 性能卓越,但调用商用大模型的成本不容忽视。因此,本文进行了更广泛的实验,探索一个重要问题:使用现有的开源多模态大模型构建 Optimus-1,性能表现如何?▲ 图3. 不同多模态大模型作为backbone的性能对比如上图所示,在没有混合多模态记忆模块的情况下,各种多模态大模型在长序列任务上的表现较差,尤其是在具有挑战性的钻石任务组中,成功率接近 0。而在混合多模态记忆模块赋能下,开源多模态大模型也和 GPT-4V 有了可比的性能。这揭示了混合多模态记忆模块的通用性。在本文中,我们提出了混合多模态记忆模块,由 HDKG 和 AMEP 组成。HDKG 为智能体的规划阶段提供必要的世界知识,而 AMEP 则为反思阶段提供精炼的历史经验。在此基础上,我们在 Minecraft 中构建了智能体 Optimus-1。广泛的实验结果表明,Optimus-1 在长序列任务中的表现超越了现有的智能体。此外,我们还验证了混合多模态记忆模块的通用性,开源多模态大模型在其赋能下,与 GPT-4V 也有可比的性能。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧