导航、采矿、建造，北大这个新智能体把《我的世界》玩透了

科技 2024-10-30 12:55 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

该研究成果由来自北京大学的蔡少斐、王子豪、连可为、牟湛存、来自北京通用人工智能研究院的马晓健研究员、来自加州大学洛杉矶分校的刘安吉共同完成。通讯作者为北京大学助理教授梁一韬。所有作者均隶属 CraftJarvis 研究团队。

在游戏和机器人研究领域，让智能体在开放世界环境中实现有效的交互，一直是令人兴奋却困难重重的挑战。想象一下，智能体在《我的世界（Minecraft）》这样的环境中，不仅要识别和理解复杂的视觉信息，还需要利用鼠标和键盘精细地控制游戏画面，快速做出反应，完成像导航、采矿、建造、与生物互动等任务。面对如此庞大且复杂的交互空间，如何能让智能体能理解并执行人类的意图呢？

针对这个问题，CraftJarvis 团队提出利用 VLMs （视觉语言模型）强大的视觉语言推理能力来指导任务的完成，并创新地提出了一种基于视觉 - 时间上下文提示（Visual-Temporal Context Prompting）的任务表示方法。该方法允许人类或 VLMs 在当前和历史游戏画面中将希望进行交互的物体分割出来，来传达具体的交互意图。为了将交互意图映射为具体的鼠标键盘操作，该团队进一步训练了一个以物体分割为条件的底层策略 ROCKET-1。这种融合了视觉 - 时间上下文提示的智能体架构为开放世界的交互奠定了基础，预示了未来游戏 AI 和机器人互动的新可能性。

论文链接: https://arxiv.org/pdf/2410.17856
项目主页: https://craftjarvis.github.io/ROCKET-1

研究创新点

视觉 - 时间上下文提示方法

架构对比图；(e) 为基于视觉 - 时间上下文提示的新型架构

视觉 - 时间上下文提示是一种全新的任务表达方式。通过整合智能体过去和当前的观察信息，该方法利用物体分割信息，为智能体提供空间和交互类型的线索，从而让低级策略能够准确识别和理解环境中的关键对象。这一创新使得智能体能够在执行任务时始终保持对目标对象的关注。

基于物体分割的条件策略 ROCKET-1

基于因果 Transformer 实现的 ROCKET-1 架构

ROCKET-1 是一种基于视觉 - 时间上下文的低级策略，能够在视觉观察和分割掩码的支持下预测行动。通过使用 Transformer 模块，ROCKET-1 可以在部分可观测（Partially Observable）环境中推理过去和当前观测的依赖关系，实现精准的动作预测。与传统方法不同，ROCKET-1 能够处理细微的空间和时序变化，并始终关注要进行交互的物体，显著提升了与环境交互的成功率。

反向轨迹重标注策略

反向轨迹重标记流程示意

训练 ROCKET-1 需要收集大量带有物体分割的轨迹数据。传统的数据标注方法成本高、效率低，CraftJarvis 团队提出了一种逆向轨迹重标注方法，利用 SAM-2 的物体分割能力在倒放的视频中连续地对发生交互的物体生成分割注释。这种方法能够根据现有的交互事件重建数据集，使得 ROCKET-1 在离线条件下即可完成高效训练，减少了对人工标注的依赖，并为大规模数据处理提供了切实可行的解决方案。

充分释放预训练基础模型的能力

CraftJarvis 团队将具身决策所依赖的能力分解为视觉语言推理、视觉空间定位、物体追踪和实时动作预测，并巧妙地组合 GPT-4o、Molmo、SAM-2、ROCKET-1 加以解决。

为了应对复杂任务规划的挑战，该团队引入了 GPT-4o，目前最先进的视觉语言模型之一。可以进行强大的视觉语言推理，将复杂的任务分解为一系列具体的物体交互指令。此外，该团队采用了 Molmo 模型来将 GPT-4o 的交互意图翻译为观察图像中的坐标点，用以精确定位交互物体。

为了应对对象跟踪的挑战，该团队引入了 SAM-2，一个先进的视频分割模型。SAM-2 不仅能够通过点提示对物体进行分割，还可以在时间上连续追踪目标，即便物体在视野中消失或重新出现时也能有效保持跟踪。这为 ROCKET-1 提供了稳定的对象信息流，确保了在高频变化的环境中智能体的交互精度。

实验成果

为了验证 ROCKET-1 的交互能力，CraftJarvis 团队在《我的世界》中设计了一系列任务，包括采矿、放置物品、导航和与生物互动等。

《我的世界》交互任务评测集

ROCKET-1 评测结果

实验结果显示，ROCKET-1 在这些任务上，尤其在一些具有高空间敏感性的任务中，获得的成功率远高于现有方法（在多数任务上实现了高达 90% 的成功率提升），ROCKET-1 表现出了出色的泛化能力。即便在训练集中从未出现的任务（如将木门放到钻石块上），ROCKET-1 依然能够借助 SAM-2 的物体追踪能力完成指定目标，体现了其在未知场景中的适应性。

此外，该团队也设计了一些需要较为复杂的推理能力的长期任务，同样展示了这套方法的杰出性能。

ROCKET-1 在解决任务时的截图

需要依赖规划能力的长期任务性能结果

视觉 - 时间上下文方法的提出和 ROCKET-1 策略的开发不仅为 Minecraft 中的复杂任务带来了全新解决方案，也在通用机器人控制、通用视觉导航等领域展示了广泛的应用前景。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

机器之心

专业的人工智能媒体和产业服务平台

最新文章

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

2025英伟达奖学金出炉，7位华人博士生入选，上交、中科大、浙大校友在列

图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈

智源发布FlagEval「百模」评测结果，丈量模型生态变局

推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯和Jeff Dean投资

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

CMU把具身智能的机器人给越狱了

跨模态通信总丢失语义、产生歧义？加入AI大模型，LAM-MSC实现四模态统一高效传输

在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

微调时无需泄露数据或权重，这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

英伟达下代RTX 50系列显卡规格被泄露，旗舰5090显存达32GB

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

AI大模型时代，人才的需求已经变了

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

OpenAI被偷家，谷歌Veo 2反超Sora

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

与1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中上演双杀

企业大模型落地关键是什么？这家领先的大模型技术和应用公司给出答案

AI病理助手来了！浙大OmniPT上岗，3秒锁定癌症病灶，准确率超95%

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

Ilya Sutskever在NeurIPS炸裂宣判：预训练将结束，数据压榨到头了（全文+视频）

无人机：不是我想长腿，《Nature》论文说这样更省力

KDD2025 | 多标签节点分类场景下，阿里安全&浙大对图神经网络增强发起挑战

世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

OpenAI很会营销，而号称超强AI营销的灵感岛实测成效如何？

李飞飞：World Labs这样实现「空间智能」

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉