NeurIPS 2024 | 机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

科技 2024-11-01 03:29 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

对于人类而言，一旦掌握了 “打开瓶盖” 的动作，面对 “拧紧螺丝” 这样的任务通常也能游刃有余，因为这两者依赖于相似的手部动作。然而，对于机器人来说，即使是这样看似简单的任务转换依然充满挑战。例如，换成另一种类型的瓶盖，机器人可能无法成功打开。这表明，目前的机器人方法尚未充分让模型学习到任务的内在执行逻辑，而只是单纯的依赖于数据拟合。

针对该问题，来自中山大学和华为诺亚等单位的研究团队提出了一种全新的原语驱动的路径点感知世界模型，借助 VLMs 作为机器人的大脑，理解任务之间的动作关联性，并通过 “世界模型” 获取对未来动作的表征，从而更好地帮助机器人学习和决策。该方法显著提升了机器人的学习能力，并保持良好的泛化性。

论文地址：https://arxiv.org/abs/2410.10394
项目主页：https://abliao.github.io/PIVOT-R/

研究动机

当前，现有机器人操作任务有两个关键问题：

机器人模型在开放世界中表现差且不稳定：许多机器人操作模型虽然能够处理复杂任务，但往往直接将用户指令和视觉感知映射到低层次的可执行动作上，而忽略了操作任务中关键状态（路径点）的建模。这种方式容易使模型记住表面数据模式，导致模型在开放环境中表现脆弱。模型缺乏对关键路径点的预测，使得每个动作的随机性可能逐步放大，降低了任务的执行成功率。
计算效率低：随着模型的增大（例如 RT-2, RT-H），运行速率随之降低，无法满足机器人任务实时性的需求。

为了解决上述问题，研究团队提出了 PIVOT-R，一种原语驱动的路径点感知世界模型。如上图所示，对比左图现有的方法，右图展示了 PIVOT-R 通过关注与任务相关的路径点预测，提升机器人操作的准确性，并设计了一个异步分层执行器，降低计算冗余，提升模型的执行效率。

这样做有几个好处：

它使得模型可以更好的学习任务与动作之间的内在关联性，减少其他干扰因素的影响，并更好地捕捉不同任务之间的相似性（例如，拧瓶盖和拧螺丝的动作是相似的，拿杯子和搭积木都有一个抓住物体的过程），从而使得模型可以在多任务数据下学习到可迁移的知识。
通过世界模型建模的方式获得对未来关键动作的表征，避免了文本语言带来的模糊性、不确定性。
通过异步执行的方式，确保各模块独立运行、互不阻塞，从而有效避免了大模型导致的低速率问题。

研究方法

原语动作解析

PIVOT-R 的第一个核心步骤是原语动作解析，这一步通过预训练的视觉 - 语言模型（VLM）来解析用户的语言指令。VLM 可以将复杂的自然语言指令转换为一组简单的原语动作，例如 “靠近”、“抓取”、“移动” 等。这些原语动作为机器人提供了操作任务的粗略路径。

具体流程如下：

用户输入的语言指令（例如 “请给我那个杯子”）首先被输入到 VLM 中，VLM 会将其解析为与任务相关的原语动作（如 “靠近杯子”、“抓取杯子”）。
原语动作作为提示，指导机器人在接下来的步骤中专注于特定的操作轨迹点。这种方式确保机器人不会被复杂的环境因素干扰，而是明确知道每个动作的目的。

路径点预测

在原语动作解析后，PIVOT-R 的下一步是路径点预测。路径点代表了机器人操控过程中一些关键的中间状态，例如靠近物体、抓取物体、移动物体等。通过预测路径点，PIVOT-R 能够在机器人执行任务时提供明确的操作指导。具体来说，通过一个 Transformer 架构的模型，预测路径点对应的视觉特征，为后续的动作预测模块提供指引。

动作预测模块

动作预测模块负责根据预测的路径点生成具体的低层次机器人动作。它以路径点为提示，结合机器人历史状态（如位置、姿态等），计算下一步应该执行的动作。该模块使用轻量级的 Transformer 架构进行动作预测，确保计算效率和性能的平衡。这一模块的设计重点在于低延迟和高精度执行操控任务。

异步分层执行器

此外，PIVOT-R 还引入了一个关键的执行机制，即异步分层执行器。与以往的机器人模型不同，PIVOT-R 并不对所有模块在每一步都进行同步更新，而是为不同模块设置了不同的执行频率，以多线程的方式进行异步更新，从而提升执行速度。

实验

作者在具有复杂指令的 SeaWave 仿真环境和真实环境下进行实验。

如 Table 1 和 Table 2 所示，PIVOT-R 在仿真环境和真实环境都取得了最优的效果，同时，模型的速度和 RT-1 等方法速度相近，没有因为使用大模型而导致速度变慢。

作者也在 SeaWave 上做了泛化性测试，在三种泛化性测试场景下，PIVOT-R 仍保持远高于其他模型的成功率。

研究总结

PIVOT-R 通过引入原语动作驱动的路径点感知，显著提升了机器人在复杂操控任务中的性能。该模型不仅在执行效率上具备优势，还能够更好地应对复杂、多变的环境。该方法在仿真环境和真实环境操纵下表现优异，为机器人学习提供了一个新范式。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650941234&idx=5&sn=9e43806e043b49a229202de65f4328b3

机器之心

专业的人工智能媒体和产业服务平台

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

大模型不会推理，为什么也能有思路？有人把原理搞明白了

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉