论文一起读 | DINOBot:基于视觉基础模型检索和对齐的机器人操控

文摘   科技   2024-06-27 14:32   广东  

导读

本文是VCC林士捷同学对论文 DINOBot: Robot Manipulation via Retrieval and Alignment with Vision Foundation Models 的解读,该工作来自伦敦帝国理工学院的机器人学习实验室并已被发表在机器人与自动化国际会议ICRA 2024上。 

项目主页: 
https://www.robot-learning.uk/dinobot/ 

该工作提出了一种基于视觉基础模型检索和对齐的模仿学习框架,通过视觉基础模型提取的图像特征来检索在人工示教过程中最相似的物体,并使用图像特征对齐将末端执行器对准新物体以实现有效的交互。该方法能够从单次示教中学习操控技能,泛化到未见过的物体,并且能够处理多阶段长期任务。 

注:本文图片与视频均来自原论文与其项目主页。



I


 引言 
大规模预训练在计算机视觉和自然语言处理领域取得了令人瞩目的成果。然而,在机器人领域却缺乏同等规模和质量的带有动作标签的数据集。这使得在机器人控制和操作方面直接应用这些预训练模型变得具有挑战性。为了解决这一问题,最近的工作通常是利用预训练的视觉表示进行策略学习[1]。尽管这种方法在某些方面显示出潜力,但通常需要大量的示范数据才能实现泛化。因此,如何在更少的示范下实现有效的策略学习,仍然是该领域面临的一大挑战。

DINOBot提出了一种用于机器人操控任务的新型模仿学习框架,利用DINO[2]能够提取图像通用视觉特征的能力,将操控任务建模为图像检索任务和几何对齐任务。图像检索任务用于将学习到的操控技能泛化到新物体,而几何对齐任务则是用于泛化到新的姿态。通过一系列真机实验包括抓取、倒水和物体装配等任务,不仅体现了DINOBot能够在单次示范下学习操控技能的能力,还展示了对物体形状和位姿的高效泛化能力。

II


 技术贡献 

本工作主要贡献如下:

  • 提出了一种基于视觉基础模型的新型模仿学习框架

  • 提出了语义图像检索和几何对齐模块,实现对物体形状和位姿的泛化性;

  • 实验结果展示了在现有方法需要大量示范的任务上实现单次示范即可完成操控任务,与现有的方法相比成功率更高。


如下图所示,DINOBot在需要适应性、灵巧性和精确性的任务上的成功率均超过基于视觉基础模型的模仿学习方法。

图1 各方法在需要适应性、灵巧性或精确性的任务上的表现


III


 方法介绍 
DINOBot框架如图2所示,在训练期间,操作员提供示范,将收集到的数据填充到内存池中,也即示范数据集。每次示范的数据包括在示范开始时手部相机RGB-D图像以及末端执行器轨迹。在测试期间,DINOBot通过语义检索和空间对齐模块执行操控任务,随后进入示范回放阶段。图像检索模块使用当前相机观测结果查询示范数据集,根据要执行的任务的性质(例如“抓取”或“装配),检索最相似的图像作为目标图像以及相应的末端执行器轨迹。几何对齐模块通过观测图像和目标图像的特征匹配将末端执行器对准测试物体,最后机器人回放示范轨迹。

图2 DINOBot框架,包括图像检索和几何对齐模块


示范数据收集
人类操作员通过末端执行器提供机械臂如何与物体交互的示范,例如使用动力学教学。操作员任意选择一个初始末端执行器位姿,从该位置手部摄像头必须能够看到物体。示范数据记录末端执行器坐标系E中的3D线速度和3D角速度序列,记该序列为速度轨迹   其中  在开始示范时,机器人还会记录该位姿下手部摄像头的RGB-D图像。对于每次示范,操作员还会指定一个任务名称,例如“抓取”、“插入”或“倒入”。因此每次操作员记录新示范时,框架会将以下数据添加到示范数据集中:开始示范时手部摄像头的RGB-D图像、速度轨迹以及任务名称。

语义检索模块
在面对一个新的交互对象时,机器人通过人类操作员或外部规划器接收到与物体相关的任务,例如“抓取”或“打开”。机器人从其手部摄像头获取物体的实时图像,并从示范数据集中检索出与实时图像最相似的RGB图像,该检索只在该任务的示范数据集子集中进行(例如,如果任务是“抓取”,那么只会考虑所有也是“抓取”任务的示范)。DINOBot使用DINO-ViT视觉基础模型提取缓冲区中每个RGB图像和实时观测的RGB图像的特征,并计算提取特征之间的余弦相似度进行最近邻搜索,以找到缓冲区中最接近的示范数据。最佳示范数据的RGB图像与相应的轨迹将作为对齐阶段的目标图像和轨迹回放时的动作。

几何对齐和轨迹回放
DINOBot通过DINO-ViT视觉基础模型提取实时观测的RGB图像和示范数据中的目标图像的像素级特征,通过最近邻匹配找到对应关系。此过程生成两个匹配关键点列表,定义为3D坐标     然后计算两个匹配关键点列表对齐的最小二乘刚性变换矩阵,并相应地移动末端执行器。重复此过程,直到对齐足够精确,即两组对应关系的距离范数小于阈值。一旦对齐完成,回放相应的轨迹可以使机器人再次成功与物体交互。


IV


 部分结果展示 
接下来我们首先展示DINOBot和基准方法在每个物体以及各个任务上的表现,实验分为训练集物体和测试集物体。结果表明,DINOBot不仅能够在单次示范中取得较高的成功率,而且还能对未见过的物体进行泛化,其性能与训练集性能非常接近。

图3 每种方法在每个物体上以及各个任务的成功率


接下来展示的是DINOBot在将杯子放在杯架上和碗杯堆叠任务上的真机实验,可以看见该方法能够在物体不同位姿以及新物体上成功完成任务。

图4 真机实验:将杯子放在杯架上

图5 真机实验:碗杯堆叠任务

V


 总结与展望 
机器人感知在操控中起着基础性作用,理解机器人所看到的内容对于操控策略至关重要。由于以机器人为中心的数据稀缺,研究人员常常借助在大规模数据集上预训练的视觉基础大模型。为了充分利用视觉基础模型的潜力,DINOBot将基于视觉的模仿学习问题重新表述为两个计算机视觉问题:通过从示范数据集中进行图像级检索来理解如何处理物体,以及通过实时图像与目标图像之间的像素级对齐来确定从哪里开始交互。实验表明DINOBot能够通过单次示范学习许多日常任务,包括需要精度或灵巧度的任务,能够泛化到许多不同的物体,并且对干扰物和视觉变化具有鲁棒性。在未来可以考虑使用多视角的观测图像以获得更加精确图像检索和几何对齐。

VI


 思考与讨论 
Q: DINOBot基于像素级视觉特征的几何对齐有多精确?
A: 论文对此做了实验,DINOBot的平移误差在10像素以内,旋转误差在10度左右。对比其他对齐方法,如RAFT[3]在匹配同一个物体时比较准确,但在匹配属于同一类的两个不同物体时,其性能显著下降。
图6 几何对齐旋转和平移误差实验

Q: 从单个示范中,DINOBot可以泛化出多少具有不同大小和外观的对象? 
A: 论文对此也做了实验,测试了四个类别的物体:瓶子、水壶、杯子和锅。每个类别内的物体大小和形状差异显著。首先为每个类别提供一个物体的示范,然后对所有物体进行测试,包括一个示范物体和四个未见过的物体,并在每个物体上进行十次测试,测量成功率。这样可以研究在大小和形状差异显著的新物体上的泛化能力,例如大小超过两倍的瓶子、把手形状和位置不同的杯子等。如下图所示,DINOBot实现了显著泛化,并超越基线方法。
图7 DINOBot物体泛化性实验

以下是开放性问题,欢迎读者朋友留言讨论: 
Q: DINOBot目前只考虑在手部摄像头下的图像,但是单张图像观测的信息有限,如何融合多个摄像头观测的图像特征用于更加精确图像检索和几何对齐?

-- End--



导 读 | 林士捷
审 核 | 胡瑞珍
编 辑 | 申


参考文献

[1] Simone Parisi, Aravind Rajeswaran, Senthil Purushwalkam, Abhinav Gupta. The unsurprising effectiveness of pre-trained vision models for control. International Conference on Machine Learning (ICML). 17359-17371, 2022. 

[2] Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, Armand Joulin. Emerging properties in self-supervised vision transformers. IEEE/CVF International Conference on Computer Vision (ICCV). 9650-9660, 2021. 

[3] Zachary Teed, Jia Deng. Raft: Recurrent all-pairs field transforms for optical flow. European Conference on Computer Vision (ECCV). 402-419, 2020.




深圳大学可视计算研究中心
Visual Computing Research Center
----------------------------------
https://vcc.tech


中心以计算机图形学、计算机视觉、可视化、机器人、人工智能、人机交互为学科基础,致力促进多个学科的深入交叉与集成创新,重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、可视内容生成与仿真渲染、复杂场景重建与识别理解、三维移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析等方面的科学研究。

📫
转载及合作:szuvcc@gmail.com


深圳大学可视计算研究中心
深圳大学可视计算研究中心致力于大力提升可视计算科学研究与高等教育水平,以计算机图形学、计算机视觉、人机交互、机器学习、机器人、可视化和可视分析为学科基础,促进多个学科的深入交叉和集成创新。详见官网: vcc.tech
 最新文章