CoRL 2024 机器人抓取学习 GraspSplats:使用 3D 特征展开进行高效操作

文摘   2024-09-18 00:00   北京  

机器人对物体部分进行高效且零样本抓取的能力对于实际应用至关重要,并且随着视觉语言模型(VLMs)的最新进展而变得越来越普遍。为了弥补支持这种能力的表示中的二维到三维差距,现有方法依赖于通过可微渲染或基于点的投影方法的神经场(NeRFs)。然而,我们证明NeRFs由于其隐式性而不适用于场景变化,而基于点的方法在没有基于渲染的优化的情况下,对于部件定位不准确。

为了解决这些问题,我们提出了GraspSplats。通过使用深度监督和一种新颖的参考特征计算方法,GraspSplats在不到60秒的时间内生成高质量的场景表示。我们进一步通过展示GraspSplats中明确且优化的几何形状足以自然支持(1)实时抓取采样和(2)使用点跟踪器的动态和关节物体操作,来验证基于高斯表示的优势。我们在Franka机器人上进行了大量实验,证明GraspSplats在各种任务设置下显著优于现有方法。特别是,GraspSplats优于基于NeRF的方法(如F3RM和LERF-TOGO)以及二维检测方法。

原文链接:https://arxiv.org/pdf/2409.02084

领域背景介绍

基于部件级理解的零样本高效操作对于下游机器人应用至关重要。设想一个被部署到新家庭的厨房机器人:在给定包含语言指令的食谱后,机器人通过把手拉开抽屉,通过手柄抓住工具,然后推回抽屉。为了执行这些任务,机器人必须动态理解部件级的抓取功能,以便与物体进行有效交互。最近的研究工作,通过将大规模预训练视觉模型(如CLIP)的参考特征嵌入到神经辐射场(Neural Radiance Fields, NeRFs)中来探索这种理解。然而,这些方法仅提供目标级别的场景静态理解,并且需要数分钟的时间来训练场景,这导致在场景发生任何变化后都需要进行昂贵的重新训练。这一局限性极大地阻碍了涉及物体位移或需要部件级理解的实际应用。另一方面,基于点的方法,通过对二维特征进行反投影,在特征构建方面效率很高,但在处理视觉遮挡时遇到困难,并且往往无法在没有进一步优化的情况下推断出细粒度的空间关系。

除了动态和部件级的场景理解外,实现精细操作还要求机器人对场景的几何和语义都有深入的理解。为了从粗略的二维视觉特征中获得这种能力,需要进一步的优化来弥合二维到三维的差距。基于NeRF的方法通过可微渲染促进了这种理解。然而,NeRFs从根本上来说是隐式表示,这使得它们难以编辑以适应场景变化,从而导致静态假设。为了解决动态问题,一些工作通常使用三维密集对应关系来预测抓取姿态,其中基于参考状态中的关键点识别出可靠的抓取点,然后将其应用于不同的视角或物体位置。然而,这些方法在跟踪物体状态随时间的变化和处理相同物体方面面临挑战。

为此,本文提出了GraspSplats。给定来自校准相机的带姿态的RGBD帧,GraspSplats通过3DGS(3D Gaussian Splatting,3DGS)构建了一个高保真表示,该表示作为显式高斯椭球体的集合。GraspSplats在不到30秒的时间内重建场景,并支持静态和刚性变换的高效部件级抓取,从而实现了如跟踪部件物体等现有方法无法实现的操作。GraspSplats从深度帧的粗略几何形状初始化高斯分布;同时,使用MobileSAM和MaskCLIP实时计算每个输入视图的参考特征。这些高斯分布通过可微光栅化进一步优化几何、纹理和语义。用户可以提供一个目标名称查询(例如,“杯子”)和部件查询(例如,“手柄”),以便GraspSplats能够高效地预测部件级可抓取性并生成抓取建议。GraspSplats直接使用显式高斯原语在毫秒级内生成抓取建议,为此扩展了现有的抓取生成器。此外,还进一步利用显式表示来在物体位移下保持高质量表示。使用点跟踪器,GraspSplats粗略地编辑场景以捕捉刚性变换,并通过部分场景重建进一步优化它。

本文在一台台式计算机上实现了GraspSplats,并搭配真实的Franka Research (FR3)机器人来评估其在桌面操作中的有效性。GraspSplats中的每个组件都非常高效,并且在经验上比现有工作快一个数量级(10倍)——包括计算二维参考特征、优化三维表示和生成二指抓取建议。这使得在手臂扫描的同时并行生成GraspSplats表示成为可能。在实验中,GraspSplats的性能优于基于NeRF的方法(如F3RM和LERF-TOGO)以及其他基于点的方法。

本文贡献主要有三个方面:

  • 提出了一个使用三维高斯溅射(3DGS)进行抓取表示的框架。GraspSplats高效地重建了具有几何、纹理和语义监督的场景,在准确性和效率方面都优于基线方法,实现了零样本部件级抓取。

  • 开发了一种可编辑的高保真表示技术,该技术超越了静态场景中的零样本操作,进入了动态和关节物体操作领域。

  • 进行了广泛的真实机器人实验,验证了GraspSplats在静态和动态场景中零样本抓取的有效性,展示了方法相对于基于NeRF或基于点的方法的优越性。

相关工作一览

语言引导的操作。为了支持零样本操作,机器人必须利用从互联网规模数据中学习到的先验知识。最近有一些工作使用二维基础视觉模型(如CLIP、SAM或GroundingDINO)来构建开放词汇量的三维表示。然而,这些方法大多依赖于简单的二维反投影。没有进一步的基于渲染的优化,它们通常无法提供精确的部件级信息。最近,基于DFF和LERF的研究工作,研究人员发现将特征蒸馏与神经渲染相结合,可以为机器人操作提供有前景的表示,因为它同时提供了高质量的语义和几何信息。值得注意的是,LERF-TOGO提出了条件CLIP查询和DINO正则化,以实现基于部件的零样本操作。F3RM从少量演示中学习抓取。Evo-NeRF专注于针对堆叠透明物体的NeRF,这在概念上与我们的方法正交。然而,这些方法都是基于NeRF的,而NeRF本质上是隐式的。尽管某些NeRF表示可以适应于动态运动的建模,如基于网格的方法,但显式方法更适合于动态场景的建模。

抓取姿态检测。在机器人操作中,抓取姿态检测一直是一个长期的研究课题。现有方法大致可分为两类:端到端方法和基于采样的方法。端到端方法为抓取姿态提供了简化的流程,并融入了学习的语义先验(例如,通过手柄抓取的杯子)。然而,这些方法通常要求测试数据模式(如视角、目标类别和变换)与训练分布完全匹配。例如,LERF-TOGO通过为输入生成数百个使用不同变换的点云来解决GraspNet的视角变化问题,这需要大量的计算时间。另一方面,基于采样的方法不学习语义先验,但当存在显式表示时,它们能提供可靠且快速的结果。在本研究中,发现显式的高斯基元自然地与基于采样的方法相结合,而GraspSplats中嵌入的特征则通过语言指导来补充语义先验。这种直观的组合使得在动态和杂乱环境中高效地、准确地采样抓取姿态成为可能。

并行工作。同时,多种方法开始将3DGS与二维特征相结合。这些工作中的大多数仅关注外观编辑。我们基于特征溅射构建了GraspSplats,因为其在工程上进行了优化,并进一步将整体重建时间缩短到十分之一。在准备本工作过程中,出现了一项并行工作。与我们的工作类似,Zheng等人[40]也将高斯溅射与特征蒸馏相结合用于抓取。然而没有处理面向任务的操作中的部件级查询,并且仍然主要关注静态场景。尽管他们简要展示了高斯基元在处理移动物体方面的潜力,但他们仍然做出了一个强烈的假设——只有当物体被机械臂移动时,物体表示才会发生位移。这样的假设在涉及外部力量(例如,被其他机器或人类移动)的更一般场景中是不充分的。此外,他们仍然需要昂贵的参考特征生成。最新的并行工作[41]使用高斯溅射进行机器人操作,但它仅融合了来自几个固定camera的数据,因此没有解决部件级操作问题。GraspSplats扩展了高斯溅射,作为解决这些问题的一个有前途的替代方案。

使用3D特征溅射进行高效操作

问题定义。我们假设有一个带有平行夹爪的机器人、一个经过校准的手腕内置RGBD相机以及一个经过校准的第三人称视角相机。给定一个包含一组物体的场景,目标是让机器人通过语言查询(例如,“厨房刀”)来抓取并提起物体。可选地,还可以进一步提供部分查询以指定要抓取的部分(例如,“手柄”),以实现面向任务的操控。值得注意的是,与以往的工作不同,我们不假设场景是静态的。相反,我们的目标是设计一种更通用的算法,即使物体在移动,也可以连续进行部分级别的抓取可负担性和采样。

背景。原始的Gaussian Splatting专注于新视角合成,并且仅限于仅使用纹理信息作为监督。最近的一些工作试图将GS扩展到重建密集的2D特征。更具体地说,GraspSplats使用溅射算法来渲染深度、颜色以及密集的视觉特征

其中,分别是每个高斯项相对于相机原点的距离、潜在特征向量和颜色,是每个高斯项的透明度,且索引iN的升序排列。遵循惯例,我们进一步假设每个高斯项的特征向量是各向同性的。然后,使用L2损失对渲染的深度、图像和特征进行监督。请注意,所有近期的工作都遵循与等式1类似的范式。

概述。为了支持开放式抓取,GraspSplats提出了三个关键组件。概述如图2和图3所示。首先,一种使用新颖参考特征和几何正则化来有效构建场景表示的方法。其次,一种使用3D条件语言查询和扩展的对极抓取proposal直接在3D高斯上生成抓取建议的方法。最后,一种在目标位移下编辑高斯的方法,该方法可实现动态和关节式目标操作。

1.构建特征增强的3D高斯体

使用可微分的栅格化将2D特征提升到3D表示。尽管现有的特征增强的GS(Gaussian Splatting)工作提供了部分级别的理解,但一个常被忽视的弱点是场景优化开始之前的高昂开销。这个开销可以进一步分解为(1)昂贵的参考特征计算或(2)源自SfM(Structure from Motion,运动恢复结构)预处理的稀疏高斯体的密集化。

高效的层次化参考特征计算。现有方法在将粗糙的CLIP特征正则化方面花费了大部分计算资源——无论是通过数千个多尺度查询,还是通过基于掩码的正则化和昂贵的网格采样。

这里提出了一种使用MobileSAMV2来高效地正则化CLIP的方法。我们生成了层次化的特征,包括目标级和部件级,这些特征专为抓取而设计。给定一张输入图像,MobileSAMV2会预测出与类别无关的边界框集合和一组目标掩码{M}。对于目标级特征,首先使用MaskCLIP来计算整个图像的粗略CLIP特征。然后遵循Qiu等人的方法,并使用带掩码的平均池化来根据{M}对目标级CLIP特征进行正则化。

对于部件级特征,从中提取图像块,以便在MaskCLIP上进行批量推理。由于融入了从SA-1B数据集中学到的目标先验知识,因此N远小于通过均匀查询进行高效推理所需的图像块数量。然后,我们对特征进行插值,以将它们重新映射回原始图像的形状,并对多个实例取平均值,以形成用于部件级监督的

在可微分栅格化过程中,我们引入了一个具有两个输出分支的浅层MLP(多层感知机),该MLP将等式1中的渲染特征作为中间特征输入。第一个分支渲染目标级特征,第二个分支渲染部件级特征,即, = ,其中分别使用通过余弦损失进行监督。在联合损失Lobj + λ · Lpart中将部件级项的权重λ设置为2.0,以强调部件级分割。

通过深度进行几何正则化。现有的特征增强的GS方法没有对几何进行监督。在GraspSplats中,将来自深度图像的点投影为初始高斯体的中心。此外,在训练过程中使用深度作为监督。经验上,这种额外的几何正则化显著减少了训练时间,并获得了更好的表面几何形状。

2.静态场景:部件级目标定位和抓取采样

为了支持高效的零样本部件级抓取,GraspSplats执行目标级查询、条件部件级查询和抓取采样。与基于NeRF的方法不同,后者需要从隐式MLP中提取与语言对齐的特征和几何形状,这需要昂贵的渲染过程,而GraspSplats则直接在高斯原语上操作,以实现高效的定位和抓取查询。开放词汇目标查询。我们首先执行目标级开放词汇查询(例如,“杯子”),其中我们使用语言查询来选择要抓取的目标,并可选择使用否定查询来过滤掉其他目标。我们通过直接识别那些各向同性CLIP特征与正查询比负查询更紧密对齐的3D高斯体来实现这一点。特征-文本比较过程遵循标准的CLIP实践。

开放词汇条件部件级查询。正如Rashid等人所讨论的,CLIP表现出类似词袋的行为(例如,“杯子手柄”的激活往往同时包含杯子和手柄)。因此,有必要执行条件查询。虽然LERF-TOGO需要两步(渲染-体素化)过程,但GraspSplats原生支持基于高斯原语的CLIP条件查询。特别是,在给定从上一操作分割出的目标后,我们只需用新的部件级查询重复该过程,并将高斯体集合限制在分割出的目标上。图3给出了这种部件级条件的定性示例。

使用高斯Primitives进行抓取采样。直接在高斯Primitives上进行抓取采样,以实现流畅的抓取。为此,将GraspSplats与GPG(一种基于采样的抓取proposal)相结合。首先定义一个工作空间,它是从分割出的目标部件扩展而来的三维空间。扩展半径是高斯Primitives尺度最长轴之和与夹持器碰撞半径之和。然后从中采样N个点。在这些采样点的邻域内(其中表示从选定点开始指定距离内的区域),我们聚合具有渲染法线的高斯Primitives,并使用平均法线方向计算抓取采样的参考坐标系。

其中,(g)表示高斯Primitives g的单位表面法线。在每个采样点p的参考坐标系中,执行局部网格搜索以找到候选抓取位置,其中夹持器的手指在终端候选抓取位置与分割部件的几何形状接触。

3.动态场景:实时跟踪与优化

使用针对语义和几何优化的表示,将GraspSplats扩展到跟踪目标位移并实时编辑高斯Primitives是很自然的。值得注意的是,这种操作对于现有的基于NeRF的方法来说是一个挑战。多视图目标跟踪与关键点。假设有一个或多个已校准的摄像头,且没有以ego为中心的运动。给定一个目标语言查询,我们分割其3D高斯Primitives并将2D掩码渲染到摄像头上。然后,我们将渲染的掩码离散化为一系列点,作为点跟踪器的输入,该跟踪器连续跟踪给定点的2D坐标。使用深度将这些2D对应关系转换为3D,为了过滤掉噪声对应关系,使用简单的DBSCAN聚类算法来过滤掉3D离群点。最后,对于剩余的对应点,使用Kabsch算法求解SE(3)变换,并将其应用于分割后的3D高斯Primitives。对于多个摄像头,将所有摄像头估计的3D对应关系附加到Kabsch算法的方程组中。请注意,位移可以由机械臂或其他外力产生。部分微调,编辑后的场景可能在初始重建过程中未观察到的区域(例如,位移物体下方的表面)出现不希望的伪影。可选地,GraspSplats支持使用位移前后渲染的目标掩码进行部分场景再训练,这比完全重建要高效得多。

实验对比

参考

[1] GraspSplats: Efficient Manipulation with 3D Feature Splatting.


CAAI认知系统与信息处理专委会
CAAI认知系统与信息处理专委会成立于2014年,胡德文教授担任专委会主任,孙富春教授担任荣誉主任,方斌教授担任秘书长。专委会不断吸纳业界人才,会员1000余名。创建了“认知系统与信息处理国际会议”、“机器人智能论坛”等品牌活动。
 最新文章