导读 本文是VCC王璐同学对论文 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations 的解读,该工作由上海期智研究院、上海交通大学、清华大学交叉信息研究院和上海人工智能实验室合作完成,并已被发表在机器人领域顶级会议RSS 2024上。 项目主页:https://3d-diffusion-policy.github.io/ 该工作提出了一种三维视觉表示-扩散策略相结合的高效视觉模仿学习算法,无论是高维度还是低维度的控制任务,该算法都能以实际可行的推理速度运行,使得机器人操作更加智能且高效。 注:本文图片与视频均来自原论文与其项目主页。
I 引言 模仿学习为机器人广泛的运动技能教学提供了一种高效的方法,例如抓取、脚部运动、灵巧操作等。其中,视觉模仿学习是一种利用高维视觉观察的算法,如图像或深度图,用于特定于任务的状态估计。然而,能够稳健地学习复杂技能往往需要大量的专家演示,比如最前沿的技术Diffusion Policy在每个真实任务中需要100-200个人类收集的演示。这是耗时的,且容易在收集过程中发生故障。虽然在线学习是一种解决前期收集问题的方法,但现实世界场景中存在安全考虑、自动重置的必要性、人工干预和额外的机器人硬件成本,也为在线学习带来挑战。因此,对于真实世界机器人学习来说,如何使(离线)模仿学习算法能够在尽可能少的演示中学习到稳健和可推广的技能是一个挑战。 本次导读论文介绍了一种新的视觉模仿学习方法,将3D视觉表示的力量纳入Diffusion Policy,这是一类条件动作生成模型。其核心设计是利用高效的点编码器从稀疏的点云中提取得到紧凑的三维视觉表示。随后,模型以该紧凑的三维视觉表示和机器人姿态作为条件,将随机噪声降噪为连贯的动作序列。通过这种方法,模型能够在复杂的环境中准确理解并模拟专家的行为,而不需要大量的训练样本。在涉及7个领域里72个模拟任务的实验中,该方法仅使用10个演示就成功处理了大多数任务,并且相对于基线方法取得了55.3%的相对改进;在4个真实机器人任务中,该方法仅使用每个任务40个示范就展示了精确控制,成功率高达85%,并且在空间、视点、外观和实例等多个方面展现了出色的泛化能力。 II 技术贡献
IV 部分结果展示 使用少量演示下的泛化能力图3展示了DP3的核心能力。使用MetaWorld作为示例任务,该任务目标是让手持器准确的到达指定目标点。为了评估DP3不仅适应训练数据的有效性,还要泛化到新场景的能力,在3D空间中可视化了"•"训练点和"•"成功评估点。如图3所示,仅用五个训练点,DP3就能到达分布在3D空间中的点,展示了该模型在有限数据情况下的优越泛化能力和效率。
[1] Cheng Chi, Siyuan Feng, Yilun Du, Zhenjia Xu, Eric Cousineau, Benjamin Burchfiel, Shuran Song. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. Proceedings of Robotics: Science and Systems (RSS). 2023.
[2] Guanxing Liu, Zifeng Gao, Tianxing Chen, Wenxun Dai, Ziwei Wang, Yansong Tang. ManiCM: Real-time 3D Diffusion Policy via Consistency Model for Robotic Manipulation. arXiv preprint arXiv: 2406.01586, 2024.
深圳大学可视计算研究中心Visual Computing Research Center----------------------------------https://vcc.tech