如何让机器人在任务指引和实时观测的基础上规划未来动作,一直是具身智能领域的核心科学问题。然而,这一目标的实现受两大关键挑战制约:
模态对齐:需在语言、视觉和动作等多模态空间中建立精确的对齐机制。
数据稀缺:缺乏规模化、多模态且具备动作标签的数据集。
针对上述难题,智元机器人团队提出了EnerVerse架构,通过自回归扩散模型(autoregressive diffusion),在生成未来具身空间的同时引导机器人完成复杂任务。不同于现有方法简单应用视频生成模型,EnerVerse深度结合具身任务需求,创新性地引入稀疏记忆机制(Sparse Memory)与自由锚定视角(Free Anchor View, FAV),在提升4D生成能力的同时,实现了动作规划性能的显著突破。实验结果表明,EnerVerse不仅具备卓越的未来空间生成能力,更在机器人动作规划任务中实现了当前最优(SOTA)表现。
https://sites.google.com/view/enerverse/home
论文地址:https://arxiv.org/abs/2501.01895
如何让未来空间生成赋能机器人动作规划?
视觉记忆泛化能力不足:现有方法依赖稠密连续的视觉记忆,容易导致生成长程任务序列时逻辑不连贯,动作预测性能下降。
为此,EnerVerse通过逐块生成的自回归扩散框架,结合创新的稀疏记忆机制与自由锚定视角(FAV)方法,解决了上述瓶颈问题。
技术方案解析
逐块扩散生成:Next Chunk Diffusion
任务结束逻辑:通过特殊的结束帧(EOS frame),实现对任务结束时机的精准监督,确保生成过程在合适节点终止。
灵活的4D生成:Free Anchor View (FAV)
Sim2Real适配:通过在仿真数据上训练的4D生成模型(EnerVerse-D)与4D高斯泼溅(4D Gaussian Splatting)交替迭代,EnerVerse构建了一个数据飞轮,为真实场景下的FAV生成提供伪真值支持。
高效动作规划:Diffusion Policy Head
EnerVerse通过在生成网络下游集成Diffusion策略头(Diffusion Policy Head),打通未来空间生成与机器人动作规划的全链条。其关键设计包括:
高效动作预测:生成网络在逆扩散的第一步即可输出未来动作序列,无需等待完整的空间生成过程,确保动作预测的实时性。
稀疏记忆支持:在动作预测推理中,稀疏记忆队列存储真实或重建的FAV观测结果,有效提升长程任务规划能力。
实验结果
1.视频生成性能
在短程与长程任务视频生成中,EnerVerse均展现出卓越的性能:
在短程生成任务中,EnerVerse表现优于现有微调视频生成模型,如基于DynamiCrafter与FreeNoise的扩散模型。
在长程生成任务中,EnerVerse展现出更强的逻辑一致性与连续生成能力,这是现有模型无法实现的。
此外,EnerVerse在LIBERO仿真场景和AgiBot World真实场景中生成的多视角视频质量也得到了充分验证。
其对应的生成视频如下所示:
2.动作规划能力
在LIBERO基准测试中,EnerVerse在机器人动作规划任务中取得显著优势:
单视角(one FAV)设定:EnerVerse在LIBERO四类任务中的平均成功率已超过现有方法。
多视角(three FAV)设定:进一步提升任务成功率,在每一类任务上均超越当前最佳方法。
值得注意的是,LIBERO-Long上均为需要机器多步执行的任务,如下视频所示:
3.消融与训练策略分析
稀疏记忆机制:消融实验表明,稀疏记忆对长程序列生成的逻辑合理性及长程动作预测精度至关重要。
二阶段训练策略:先进行未来空间生成训练,再进行动作预测训练的二阶段策略,可显著提升动作规划性能。
4.注意力可视化
通过可视化Diffusion策略头中的交叉注意力模块,研究发现EnerVerse生成的未来空间与预测的动作空间具有较强的时序一致性。这直观体现了EnerVerse在未来空间生成与动作规划任务中的相关性与优势。
智元机器人通过EnerVerse架构开创了未来具身智能的新方向。通过未来空间生成引导动作规划,EnerVerse不仅突破了机器人任务规划的技术瓶颈,还为多模态、长程任务的研究提供了全新范式。
作者介绍:
EnerVerse主要科研成员来自智元机器人研究院具身算法团队。论文共同一作黄思渊是上海交通大学与上海人工智能实验室的联培博士生,师从CUHK-MMLab的李鸿升教授。博士期间的研究课题为基于多模态大模型的具身智能以及高效智能体的研究。在CoRL、MM、 IROS、ECCV等顶级会议上,以第一作者或共同第一作者身份发表多篇论文。另一位共同一作陈立梁是智元机器人的具身算法专家,主要负责具身空间智能与世界模型的研究。
https://sites.google.com/view/enerverse/home
论文地址:https://arxiv.org/abs/2501.01895