NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

科技 2024-12-07 23:16 北京

©作者 | 李在京

单位 | 哈尔滨工业大学深圳

来源 | 机器之心

在 Minecraft 中构造一个能完成各种长序列任务的智能体，颇有挑战性。现有的工作利用大语言模型 / 多模态大模型生成行动规划，以提升智能体执行长序列任务的能力。

然而，由于这些智能体缺乏足够的知识和经验，面对 Minecraft 中复杂的环境仍显得力不从心。为此，本文提出了一个新颖的智能体框架 ——Optimus-1，该框架结合结构化知识与多模态经验，旨在赋能智能体更好地执行长序列任务。

本篇论文的工作已被 NeurlPS（Conference on Neural Information Processing Systems）2024 会议接收。本文主要作者来自哈尔滨工业大学 (深圳) 聂礼强，邵睿团队，合作单位为鹏城实验室。其中，第一作者李在京就读于哈尔滨工业大学 (深圳) 计算机学院，研究方向为开放世界智能体和多模态学习。

论文题目：

Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

论文链接：

https://arxiv.org/abs/2408.03615

项目链接：

https://cybertronagent.github.io/Optimus-1.github.io/

代码链接：

https://github.com/JiuTian-VL/Optimus-1

现有的Minecraft Agents有哪些局限性？

1. 对结构化知识缺乏探索。Minecraft 中充满了丰富的结构化知识，例如工具的合成规则（一根木棍和两块铁锭可以合成一把铁剑），以及不同层级的科技树（木材 → 石器 → 铁器 → 金器 → 钻石）等。

这些知识有助于智能体做出合理的规划，一步一步获取完成任务所需的材料和工具。然而，现有的智能体缺乏必要的知识，导致他们做出长序列规划的能力受限。

2. 缺乏充足的多模态经验。过往的经验对帮助人类完成未曾遇见的任务具有重要作用，同样，智能体也能借助历史经验在面对新任务时作出更加精准的判断与决策。然而，现有的智能体在多模态经验的积累与总结上存在缺陷，未能有效整合视觉、语言、动作等多方面的经验，限制了其在复杂任务中的决策能力和适应性。

为了解决上述挑战，我们设计了一个混合多模态记忆模块，将结构化知识和多模态经验整合到智能体的记忆机制中。类似于知识与经验在指导人类完成复杂任务中的重要作用，智能体在规划阶段借助结构化知识生成可行的任务计划，而在反思阶段则利用多模态经验对当前状态进行判断，并做出更加合理的决策。

在此基础上，我们提出了智能体框架 Optimus-1。在混合多模态记忆的赋能下，Optimus-1 在 67 个长序列任务上实现了当前最先进的性能，并缩小了与人类水平基线的差距。

研究方法

Optimus-1 的框架如下图所示。它由混合多模态记忆模块，知识引导的规划器，经验驱动的反思器，以及行动控制器组成。

给定一个长序列任务，知识引导的规划器首先从混合多模态记忆中检索任务相关的知识，并基于这些知识生成一系列可执行的子目标。这些子目标依次输入到行动控制器中，生成行动信号以完成任务。在

执行任务过程中，经验驱动反思器会定期激活，检索与当前子目标相关的多模态经验作为参考，以此判断智能体当前状态，从而做出更为合理的决策。

▲ 图1. Optimus-1的整体框架

1. 混合多模态记忆（Hybrid Multimodal Memory）

▲ 图2. 摘要化多模态经验池和层次化有向知识图的构建流程

如上图所示，混合多模态记忆由摘要化多模态经验池（AMEP）和层次化有向知识图（HDKG）组成。对于 AMEP，视频流首先通过 Video Buffer 和 Image Buffer 过滤，得到固定窗口大小的帧序列，并与文本通过 MineCLIP 计算相似度，若超过阈值，则保存帧序列、文本及环境信息等内容作为多模态经验。

这些经验为智能体反思阶段提供细粒度的多模态信息，同时通过摘要化降低了存储开销。

对于 HDKG，任务执行过程中获取的知识被转化为图结构。例如，“两根木棍和三块木板可以合成一把木镐” 被表示为有向图 {2 sticks, 3 planks} → {1 wooden pickaxe}，为智能体的规划阶段提供必要的知识支持，帮助其做出合理的任务规划。

2. 知识引导的规划器（Knowledge-Guided Planner）

给定任务 t，当前的视觉观察 o，知识引导的规划器从 HDKG 中检索相关知识，生成子目标序列：

其中，表示多模态大模型，表示从 HDKG 中检索的有向图。

3. 行动控制器（Action Controller）

行动控制器以当前的视觉观察 o，以及子目标作为输入，生成行动：

4. 经验驱动的反思器（Experience-Driven Reflector）

经验驱动的反思器会定期被启动，以当前的视觉观察 o，子目标，以及从 AMEP 中检索的 case 作为输入，生成反思 r:

反思 r 分为三类：COMPLETE 表示当前子目标已完成，可以执行下一子目标；CONTINUE 表示当前子目标未完成，需要继续执行；REPLAN 表示当前子目标无法继续执行，需要知识引导的规划器重新规划。

实验结果

本文在开放世界环境 Minecraft 中选取了 67 个长序列任务进行评估，涵盖木材，石器，铁器，金器，钻石，红石，装备七个任务组。每次执行任务，智能体都随机在任意环境中，初始装备为空，这显著增加了任务的挑战性。此外，本文还构建了一个人类水平的基线，以评估现有的智能体与人类水平之间的差距。

▲ 表1. Optimus-1在7个任务组上的平均成功率

实验结果如上表所示，Optimus-1 在所有任务组的成功率都显著高于先前的方法。广泛的消融实验也证明了知识和经验对智能体执行长序列任务的重要性。

▲ 表2. 消融实验结果。其中，P，R，K，E分别代表规划，反思，知识，以及经验。

值得注意的是，本文还探索了将任务失败的 case 应用于 in-context learning 所带来的影响。实验结果显示，将成功和失败的 case 都纳入智能体的反思阶段，能够显著提升任务的成功率。

▲ 表3. 对多模态经验的消融实验结果。其中，zero，suc，Fai分别代表zero-shot，仅使用成功case，以及仅使用失 case。

通用性

虽然基于 GPT-4V 构建的 Optimus-1 性能卓越，但调用商用大模型的成本不容忽视。因此，本文进行了更广泛的实验，探索一个重要问题：使用现有的开源多模态大模型构建 Optimus-1，性能表现如何？

▲ 图3. 不同多模态大模型作为backbone的性能对比

如上图所示，在没有混合多模态记忆模块的情况下，各种多模态大模型在长序列任务上的表现较差，尤其是在具有挑战性的钻石任务组中，成功率接近 0。而在混合多模态记忆模块赋能下，开源多模态大模型也和 GPT-4V 有了可比的性能。这揭示了混合多模态记忆模块的通用性。

结论

在本文中，我们提出了混合多模态记忆模块，由 HDKG 和 AMEP 组成。HDKG 为智能体的规划阶段提供必要的世界知识，而 AMEP 则为反思阶段提供精炼的历史经验。在此基础上，我们在 Minecraft 中构建了智能体 Optimus-1。

广泛的实验结果表明，Optimus-1 在长序列任务中的表现超越了现有的智能体。此外，我们还验证了混合多模态记忆模块的通用性，开源多模态大模型在其赋能下，与 GPT-4V 也有可比的性能。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

最新文章

大语言模型的知识蒸馏（KD）应该用Reverse KL？

AAAI 2025 | 基于自适应图结构和动态原型对比学习的空间多组学解析框架

超越ControlNet++！腾讯优图提出动态条件选择新架构DynamicControl

北京内推 | 高通中国招聘端到端AI模型量化研发实习生

低秩近似之路（四）：插值分解（Interpolative Decomposition）

NeurIPS 2024 | 基于信息论，决策模型有了全新预训练范式统一框架

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

北京内推 | 微软亚洲研究院通用人工智能组招聘大模型算法实习生

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

AAAI 2025 | 浙大、蚂蚁等提出全新跨域微调框架，构筑更好的大模型隐私保护

博后招募 | 复旦大学肖仰华教授课题组招聘大模型数据科学博士后研究员

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题？

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

直播预约 | 字节跳动豆包大模型团队NeurIPS 2024中选论文今晚精讲！

北大团队提出ConsisID：基于频域分解的身份保真文本到视频生成模型

GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

北京内推 | 阿里妈妈搜索广告算法团队招聘广告算法实习生

为什么说在中国做科研最忌讳踏实？

纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

模仿、探索与自我提升：慢思考推理系统的复现之路

博士申请 | 密歇根大学计算机视觉实验室高俊老师招收3D生成方向博士生

AAAI 2025接收结果出炉！Mamba魔改再次爆发

KDD 2025 | 新大、新国大等提出ProNoG：非同配图上的提示学习

谷歌“狙击”OpenAI，发布新一代大模型Gemini 2.0！主打Agent+多模态

北京内推 | 启元实验室大模型团队招聘多模态大模型算法实习生

NeurIPS 2024 | 阿里云提出个性化提示策略IAP，突破大语言模型零样本推理局限

苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

博士申请 | 伊利诺伊大学香槟分校张欢老师招收人工智能全奖博士/硕士/博后/实习生

Muon优化器赏析：向量与矩阵有何本质区别？

NeurIPS 2024 | 中科院自动化所提出MetaLA！线性模型架构的大一统

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

上海内推 | 中国电信人工智能研究院招聘智能编码方向算法实习生

NeurIPS 2024 | 让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

北理工重磅开启「流星雨计划」，深度探究大模型的自我进化能力

博士申请 | 香港城市大学苗宁老师招收LLM Reasoning方向全奖博士/RA

简单有效！Vector Quantization的又一技巧：给编码表加一个线性变换

CIKM 2024 | 通过学习相对偏好，利用预训练语言模型缓解流行度偏差

UCL、上交大等提出自然语言强化学习范式：可处理语言反馈的强化学习框架

北京师范大学智能技术与教育应用教育部招聘工程研究中心科研助理

ACL 2024 | 多快好省！上科大提出层间KV共享的大模型高效推理新方法

上海AI Lab提出Critic-V框架：提升视觉语言模型在多模态推理中的准确性与可靠性

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

博士申请 | 南京大学-NTU-CMU招收人工智能方向联培博士/实习生

【内含双12福利】今年读过最绝的一本LLM书！下载量10W+！看完少走一半弯路

阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

准确性超Moshi和GLM-4-Voice！端到端语音双工模型Freeze-Omni

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉