导读 本文是VCC林士捷同学对论文 DINOBot: Robot Manipulation via Retrieval and Alignment with Vision Foundation Models 的解读,该工作来自伦敦帝国理工学院的机器人学习实验室并已被发表在机器人与自动化国际会议ICRA 2024上。 项目主页: https://www.robot-learning.uk/dinobot/ 该工作提出了一种基于视觉基础模型检索和对齐的模仿学习框架,通过视觉基础模型提取的图像特征来检索在人工示教过程中最相似的物体,并使用图像特征对齐将末端执行器对准新物体以实现有效的交互。该方法能够从单次示教中学习操控技能,泛化到未见过的物体,并且能够处理多阶段长期任务。 注:本文图片与视频均来自原论文与其项目主页。
I 引言 大规模预训练在计算机视觉和自然语言处理领域取得了令人瞩目的成果。然而,在机器人领域却缺乏同等规模和质量的带有动作标签的数据集。这使得在机器人控制和操作方面直接应用这些预训练模型变得具有挑战性。为了解决这一问题,最近的工作通常是利用预训练的视觉表示进行策略学习[1]。尽管这种方法在某些方面显示出潜力,但通常需要大量的示范数据才能实现泛化。因此,如何在更少的示范下实现有效的策略学习,仍然是该领域面临的一大挑战。 DINOBot提出了一种用于机器人操控任务的新型模仿学习框架,利用DINO[2]能够提取图像通用视觉特征的能力,将操控任务建模为图像检索任务和几何对齐任务。图像检索任务用于将学习到的操控技能泛化到新物体,而几何对齐任务则是用于泛化到新的姿态。通过一系列真机实验包括抓取、倒水和物体装配等任务,不仅体现了DINOBot能够在单次示范下学习操控技能的能力,还展示了对物体形状和位姿的高效泛化能力。 II 技术贡献
III 方法介绍 DINOBot框架如图2所示,在训练期间,操作员提供示范,将收集到的数据填充到内存池中,也即示范数据集。每次示范的数据包括在示范开始时手部相机RGB-D图像以及末端执行器轨迹。在测试期间,DINOBot通过语义检索和空间对齐模块执行操控任务,随后进入示范回放阶段。图像检索模块使用当前相机观测结果查询示范数据集,根据要执行的任务的性质(例如“抓取”或“装配),检索最相似的图像作为目标图像以及相应的末端执行器轨迹。几何对齐模块通过观测图像和目标图像的特征匹配将末端执行器对准测试物体,最后机器人回放示范轨迹。