智元机器人推出EnerVerse架构，基于未来空间生成引导机器人动作规划，赋能具身智能新高度

文摘 2025-01-09 00:02 北京

如何让机器人在任务指引和实时观测的基础上规划未来动作，一直是具身智能领域的核心科学问题。然而，这一目标的实现受两大关键挑战制约：

模态对齐：需在语言、视觉和动作等多模态空间中建立精确的对齐机制。

数据稀缺：缺乏规模化、多模态且具备动作标签的数据集。

针对上述难题，智元机器人团队提出了EnerVerse架构，通过自回归扩散模型（autoregressive diffusion），在生成未来具身空间的同时引导机器人完成复杂任务。不同于现有方法简单应用视频生成模型，EnerVerse深度结合具身任务需求，创新性地引入稀疏记忆机制（Sparse Memory）与自由锚定视角（Free Anchor View, FAV），在提升4D生成能力的同时，实现了动作规划性能的显著突破。实验结果表明，EnerVerse不仅具备卓越的未来空间生成能力，更在机器人动作规划任务中实现了当前最优（SOTA）表现。

项目主页与论文已上线，模型与相关数据集即将开源：

主页地址：

https://sites.google.com/view/enerverse/home
论文地址：https://arxiv.org/abs/2501.01895

如何让未来空间生成赋能机器人动作规划？

机器人动作规划的核心在于基于实时观测和任务指令，预测并完成一系列复杂的未来操作。然而，现有方法在应对复杂具身任务时存在如下局限：

通用模型局限性：当前通用视频生成模型缺乏对具身场景的针对性优化，无法适应具身任务中的特殊需求。

视觉记忆泛化能力不足：现有方法依赖稠密连续的视觉记忆，容易导致生成长程任务序列时逻辑不连贯，动作预测性能下降。

为此，EnerVerse通过逐块生成的自回归扩散框架，结合创新的稀疏记忆机制与自由锚定视角（FAV）方法，解决了上述瓶颈问题。

技术方案解析

逐块扩散生成：Next Chunk Diffusion

EnerVerse采用逐块生成的自回归扩散模型，通过逐步生成未来具身空间来引导机器人动作规划。其关键设计包括：

扩散模型架构：基于结合时空注意力的UNet结构，每个空间块内部通过卷积与双向注意力建模；块与块之间通过单向因果逻辑（causal logic）保持时间一致性，从而确保生成序列的逻辑合理性。

稀疏记忆机制：借鉴大语言模型（LLM）的上下文记忆，EnerVerse在训练阶段对历史帧进行高比例随机掩码（mask），推理阶段以较大时间间隔更新记忆队列，有效降低计算开销，同时显著提升长程任务的生成能力。

任务结束逻辑：通过特殊的结束帧（EOS frame），实现对任务结束时机的精准监督，确保生成过程在合适节点终止。

灵活的4D生成：Free Anchor View (FAV)

针对具身操作中复杂遮挡环境和多视角需求，EnerVerse提出了自由锚定视角（FAV）方法，以灵活表达4D空间。其核心优势包括：

自由设定视角：FAV支持动态调整锚定视角，克服固定多视角（fixed multi-anchor view）在狭窄场景中的局限性。例如，在厨房等场景中，FAV可轻松适应动态遮挡关系。

跨视角空间一致性：基于光线投射原理（ray casting），EnerVerse通过视线方向图（ray direction map）作为视角控制条件，并将2D空间注意力扩展为跨视角的3D空间注意力（cross-view spatial attention），确保生成视频的几何一致性。

Sim2Real适配：通过在仿真数据上训练的4D生成模型（EnerVerse-D）与4D高斯泼溅(4D Gaussian Splatting)交替迭代，EnerVerse构建了一个数据飞轮，为真实场景下的FAV生成提供伪真值支持。

高效动作规划：Diffusion Policy Head

EnerVerse通过在生成网络下游集成Diffusion策略头（Diffusion Policy Head），打通未来空间生成与机器人动作规划的全链条。其关键设计包括：

高效动作预测：生成网络在逆扩散的第一步即可输出未来动作序列，无需等待完整的空间生成过程，确保动作预测的实时性。

稀疏记忆支持：在动作预测推理中，稀疏记忆队列存储真实或重建的FAV观测结果，有效提升长程任务规划能力。

实验结果

1.视频生成性能

在短程与长程任务视频生成中，EnerVerse均展现出卓越的性能：

在短程生成任务中，EnerVerse表现优于现有微调视频生成模型，如基于DynamiCrafter与FreeNoise的扩散模型。

在长程生成任务中，EnerVerse展现出更强的逻辑一致性与连续生成能力，这是现有模型无法实现的。

此外，EnerVerse在LIBERO仿真场景和AgiBot World真实场景中生成的多视角视频质量也得到了充分验证。

其对应的生成视频如下所示：

2.动作规划能力

在LIBERO基准测试中，EnerVerse在机器人动作规划任务中取得显著优势：

单视角（one FAV）设定：EnerVerse在LIBERO四类任务中的平均成功率已超过现有方法。

多视角（three FAV）设定：进一步提升任务成功率，在每一类任务上均超越当前最佳方法。

值得注意的是，LIBERO-Long上均为需要机器多步执行的任务，如下视频所示：

3.消融与训练策略分析

稀疏记忆机制：消融实验表明，稀疏记忆对长程序列生成的逻辑合理性及长程动作预测精度至关重要。

二阶段训练策略：先进行未来空间生成训练，再进行动作预测训练的二阶段策略，可显著提升动作规划性能。

4.注意力可视化

通过可视化Diffusion策略头中的交叉注意力模块，研究发现EnerVerse生成的未来空间与预测的动作空间具有较强的时序一致性。这直观体现了EnerVerse在未来空间生成与动作规划任务中的相关性与优势。

智元机器人通过EnerVerse架构开创了未来具身智能的新方向。通过未来空间生成引导动作规划，EnerVerse不仅突破了机器人任务规划的技术瓶颈，还为多模态、长程任务的研究提供了全新范式。

作者介绍：

EnerVerse主要科研成员来自智元机器人研究院具身算法团队。论文共同一作黄思渊是上海交通大学与上海人工智能实验室的联培博士生，师从CUHK-MMLab的李鸿升教授。博士期间的研究课题为基于多模态大模型的具身智能以及高效智能体的研究。在CoRL、MM、 IROS、ECCV等顶级会议上，以第一作者或共同第一作者身份发表多篇论文。另一位共同一作陈立梁是智元机器人的具身算法专家，主要负责具身空间智能与世界模型的研究。

主页地址：

https://sites.google.com/view/enerverse/home
论文地址：https://arxiv.org/abs/2501.01895

CAAI认知系统与信息处理专委会

CAAI认知系统与信息处理专委会成立于2014年，胡德文教授担任专委会主任，孙富春教授担任荣誉主任，方斌教授担任秘书长。专委会不断吸纳业界人才，会员1000余名。创建了“认知系统与信息处理国际会议”、“机器人智能论坛”等品牌活动。

最新文章

Nature Communications 中国科大成功研发19自由度仿生灵巧手

Science 正刊：3D打印新型构架材料

北京大学与智元机器人联合实验室发布OmniManip：显著提升机器人3D操作能力

Science of Learning 脑控编外机器人训练后的运动学习泛化

《Adv. Manuf.》综述：基于EAP柔性触觉反馈人机界面研究进展

π0：仅有3B数据模型打通Franka等7种机器人形态适配，实现0样本的完全由模型自主控制方法

Science Advances 用于独立检测压力和温度的3D主动矩阵多模态传感器阵列

浙大工控所智能无人系统团队提出基于接触图扩散模型与时序参数优化的灵巧手抓取轨迹生成方法（IJCAI23,ICRA 24）

浙大工控所智能无人系统团队发布大规模富语义灵巧手抓取动作轨迹数据集GraspM3

2025年国自然工程与材料科学部、信息科学部、医学科学部和交叉科学部资助领域和注意事项

【20250114】清华大学发布人体全身肌骨模型，使用分层低维表示对人体全身肌骨系统和运动控制过程进行建模

Science / Nature 假肢手研究集锦

Science Robotics论文分享：融合运动神经元和姿势协同作用的假肢手

Science Robotics 封面论文：高度集成的仿生手，具有神经控制和反馈功能，适用于日常生活

Science Robotics封面论文：假肢手的交互控制新思路，磁性植入让截肢者重获灵巧抓握功能

Science Robotics 文章分享：脑机接口唤起的触觉感知改善了假肢手控制

Nature machine intelligence论文分享：智能假肢手的人机共融抓取

Nature Human Behaviour 非仿生控制策略让你的仿生假肢实现任意控制

Science Robotics论文分享：融合运动神经元和姿势协同作用的假肢手

Science Robotics最新封面：外骨骼“外挂”让手指弹奏钢琴更灵巧

中国工程院发布中国工程科技2040发展战略研究

Nature Reviews Bioengineering|综述|可穿戴柔性微流控传感技术

Nature Communications 低温打印多材料软水凝胶机器人

综述：大语言模型在机器人导航中的最新进展！

机器人避障不再“智障”：HEIGHT——拥挤复杂环境下机器人导航的新架构

Nature Biomedical Engineering 加州理工学院让瘫痪患者能够更精准地用意念控制电脑设备

力肌图（FMG）传感器用于人机交互协作

Science Robotics 通过培养多元化和包容性领导力来加快机器人技术的创新步伐

智元机器人推出EnerVerse架构，基于未来空间生成引导机器人动作规划，赋能具身智能新高度

国际数据公司IDC发布2025年具身智能机器人发展趋势

IF=24.5! 综述：机器人纹理识别触觉感知和机器学习进展

Nature Communications 纸基功能材料做的触觉传感器

斯坦福大学李飞飞教授团队ARCap: 利用增强现实反馈收集高质量的人类示教以用于机器人学习

Science Advances 普渡大学开发了新型机器人变形软体表面

Nature Review Materials 提出了针对柔性可变性结构的评估指标

CMU卡内基梅隆大学「软体机器人动态手旋转笔」

普林斯顿大学和斯坦福大学联合开发家庭服务机器人TidyBot++

清华大学、字节跳动等单位联合发布最新视觉语言动作模型RoboVLMs

百万真机数据集开源项目AgiBot World，也是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集

Science Advances：一种多功能软变形和触觉显示器

浙大刘勇教授团队摘得2024年中关村仿生机器人大赛的多足仿生机器人赛道障碍赛桂冠

Science Advances 美国北卡罗来纳州立大学的科研团队开发出一种能随磁场变形的新型超材料

Science Advances 多磁性微型机器人控制系统，在复杂3D环境独立控制多个机器人

回顾2024，展望2025！中国人工智能学会认知系统与信息处理专委会恭祝您新年快乐！

2024年度最受关注的TOP 10文章

【回望·前瞻】《2024具身智能科技前沿热点》正式发布！

Science Robotics 2024年度封面论文集锦

2024年深圳智能机器人灵巧手大赛，清华大学孙富春教授团队获冠军

“具身触觉”社区2024年度学术活动总览

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉