CoRL 2024 机器人抓取学习 GraspSplats：使用 3D 特征展开进行高效操作

文摘 2024-09-18 00:00 北京

机器人对物体部分进行高效且零样本抓取的能力对于实际应用至关重要，并且随着视觉语言模型（VLMs）的最新进展而变得越来越普遍。为了弥补支持这种能力的表示中的二维到三维差距，现有方法依赖于通过可微渲染或基于点的投影方法的神经场（NeRFs）。然而，我们证明NeRFs由于其隐式性而不适用于场景变化，而基于点的方法在没有基于渲染的优化的情况下，对于部件定位不准确。

为了解决这些问题，我们提出了GraspSplats。通过使用深度监督和一种新颖的参考特征计算方法，GraspSplats在不到60秒的时间内生成高质量的场景表示。我们进一步通过展示GraspSplats中明确且优化的几何形状足以自然支持（1）实时抓取采样和（2）使用点跟踪器的动态和关节物体操作，来验证基于高斯表示的优势。我们在Franka机器人上进行了大量实验，证明GraspSplats在各种任务设置下显著优于现有方法。特别是，GraspSplats优于基于NeRF的方法（如F3RM和LERF-TOGO）以及二维检测方法。

原文链接：https://arxiv.org/pdf/2409.02084

领域背景介绍

基于部件级理解的零样本高效操作对于下游机器人应用至关重要。设想一个被部署到新家庭的厨房机器人：在给定包含语言指令的食谱后，机器人通过把手拉开抽屉，通过手柄抓住工具，然后推回抽屉。为了执行这些任务，机器人必须动态理解部件级的抓取功能，以便与物体进行有效交互。最近的研究工作，通过将大规模预训练视觉模型（如CLIP）的参考特征嵌入到神经辐射场（Neural Radiance Fields, NeRFs）中来探索这种理解。然而，这些方法仅提供目标级别的场景静态理解，并且需要数分钟的时间来训练场景，这导致在场景发生任何变化后都需要进行昂贵的重新训练。这一局限性极大地阻碍了涉及物体位移或需要部件级理解的实际应用。另一方面，基于点的方法，通过对二维特征进行反投影，在特征构建方面效率很高，但在处理视觉遮挡时遇到困难，并且往往无法在没有进一步优化的情况下推断出细粒度的空间关系。

除了动态和部件级的场景理解外，实现精细操作还要求机器人对场景的几何和语义都有深入的理解。为了从粗略的二维视觉特征中获得这种能力，需要进一步的优化来弥合二维到三维的差距。基于NeRF的方法通过可微渲染促进了这种理解。然而，NeRFs从根本上来说是隐式表示，这使得它们难以编辑以适应场景变化，从而导致静态假设。为了解决动态问题，一些工作通常使用三维密集对应关系来预测抓取姿态，其中基于参考状态中的关键点识别出可靠的抓取点，然后将其应用于不同的视角或物体位置。然而，这些方法在跟踪物体状态随时间的变化和处理相同物体方面面临挑战。

为此，本文提出了GraspSplats。给定来自校准相机的带姿态的RGBD帧，GraspSplats通过3DGS（3D Gaussian Splatting，3DGS）构建了一个高保真表示，该表示作为显式高斯椭球体的集合。GraspSplats在不到30秒的时间内重建场景，并支持静态和刚性变换的高效部件级抓取，从而实现了如跟踪部件物体等现有方法无法实现的操作。GraspSplats从深度帧的粗略几何形状初始化高斯分布；同时，使用MobileSAM和MaskCLIP实时计算每个输入视图的参考特征。这些高斯分布通过可微光栅化进一步优化几何、纹理和语义。用户可以提供一个目标名称查询（例如，“杯子”）和部件查询（例如，“手柄”），以便GraspSplats能够高效地预测部件级可抓取性并生成抓取建议。GraspSplats直接使用显式高斯原语在毫秒级内生成抓取建议，为此扩展了现有的抓取生成器。此外，还进一步利用显式表示来在物体位移下保持高质量表示。使用点跟踪器，GraspSplats粗略地编辑场景以捕捉刚性变换，并通过部分场景重建进一步优化它。

本文在一台台式计算机上实现了GraspSplats，并搭配真实的Franka Research (FR3)机器人来评估其在桌面操作中的有效性。GraspSplats中的每个组件都非常高效，并且在经验上比现有工作快一个数量级（10倍）——包括计算二维参考特征、优化三维表示和生成二指抓取建议。这使得在手臂扫描的同时并行生成GraspSplats表示成为可能。在实验中，GraspSplats的性能优于基于NeRF的方法（如F3RM和LERF-TOGO）以及其他基于点的方法。

本文贡献主要有三个方面：

提出了一个使用三维高斯溅射（3DGS）进行抓取表示的框架。GraspSplats高效地重建了具有几何、纹理和语义监督的场景，在准确性和效率方面都优于基线方法，实现了零样本部件级抓取。
开发了一种可编辑的高保真表示技术，该技术超越了静态场景中的零样本操作，进入了动态和关节物体操作领域。
进行了广泛的真实机器人实验，验证了GraspSplats在静态和动态场景中零样本抓取的有效性，展示了方法相对于基于NeRF或基于点的方法的优越性。

使用3D特征溅射进行高效操作

问题定义。我们假设有一个带有平行夹爪的机器人、一个经过校准的手腕内置RGBD相机以及一个经过校准的第三人称视角相机。给定一个包含一组物体的场景，目标是让机器人通过语言查询（例如，“厨房刀”）来抓取并提起物体。可选地，还可以进一步提供部分查询以指定要抓取的部分（例如，“手柄”），以实现面向任务的操控。值得注意的是，与以往的工作不同，我们不假设场景是静态的。相反，我们的目标是设计一种更通用的算法，即使物体在移动，也可以连续进行部分级别的抓取可负担性和采样。

背景。原始的Gaussian Splatting专注于新视角合成，并且仅限于仅使用纹理信息作为监督。最近的一些工作试图将GS扩展到重建密集的2D特征。更具体地说，GraspSplats使用溅射算法来渲染深度、颜色以及密集的视觉特征。

其中，、和分别是每个高斯项相对于相机原点的距离、潜在特征向量和颜色，是每个高斯项的透明度，且索引i∈N按的升序排列。遵循惯例，我们进一步假设每个高斯项的特征向量是各向同性的。然后，使用L2损失对渲染的深度、图像和特征进行监督。请注意，所有近期的工作都遵循与等式1类似的范式。

概述。为了支持开放式抓取，GraspSplats提出了三个关键组件。概述如图2和图3所示。首先，一种使用新颖参考特征和几何正则化来有效构建场景表示的方法。其次，一种使用3D条件语言查询和扩展的对极抓取proposal直接在3D高斯上生成抓取建议的方法。最后，一种在目标位移下编辑高斯的方法，该方法可实现动态和关节式目标操作。

1.构建特征增强的3D高斯体

使用可微分的栅格化将2D特征提升到3D表示。尽管现有的特征增强的GS（Gaussian Splatting）工作提供了部分级别的理解，但一个常被忽视的弱点是场景优化开始之前的高昂开销。这个开销可以进一步分解为（1）昂贵的参考特征计算或（2）源自SfM（Structure from Motion，运动恢复结构）预处理的稀疏高斯体的密集化。

高效的层次化参考特征计算。现有方法在将粗糙的CLIP特征正则化方面花费了大部分计算资源——无论是通过数千个多尺度查询，还是通过基于掩码的正则化和昂贵的网格采样。

这里提出了一种使用MobileSAMV2来高效地正则化CLIP的方法。我们生成了层次化的特征，包括目标级和部件级，这些特征专为抓取而设计。给定一张输入图像，MobileSAMV2会预测出与类别无关的边界框集合和一组目标掩码{M}。对于目标级特征，首先使用MaskCLIP来计算整个图像的粗略CLIP特征。然后遵循Qiu等人的方法，并使用带掩码的平均池化来根据{M}对目标级CLIP特征进行正则化。

对于部件级特征，从中提取图像块，以便在MaskCLIP上进行批量推理。由于融入了从SA-1B数据集中学到的目标先验知识，因此N远小于通过均匀查询进行高效推理所需的图像块数量。然后，我们对特征进行插值，以将它们重新映射回原始图像的形状，并对多个实例取平均值，以形成用于部件级监督的。

在可微分栅格化过程中，我们引入了一个具有两个输出分支的浅层MLP（多层感知机），该MLP将等式1中的渲染特征作为中间特征输入。第一个分支渲染目标级特征，第二个分支渲染部件级特征和，即, = ，其中和分别使用和通过余弦损失进行监督。在联合损失Lobj + λ · Lpart中将部件级项的权重λ设置为2.0，以强调部件级分割。

通过深度进行几何正则化。现有的特征增强的GS方法没有对几何进行监督。在GraspSplats中，将来自深度图像的点投影为初始高斯体的中心。此外，在训练过程中使用深度作为监督。经验上，这种额外的几何正则化显著减少了训练时间，并获得了更好的表面几何形状。

2.静态场景：部件级目标定位和抓取采样

为了支持高效的零样本部件级抓取，GraspSplats执行目标级查询、条件部件级查询和抓取采样。与基于NeRF的方法不同，后者需要从隐式MLP中提取与语言对齐的特征和几何形状，这需要昂贵的渲染过程，而GraspSplats则直接在高斯原语上操作，以实现高效的定位和抓取查询。开放词汇目标查询。我们首先执行目标级开放词汇查询（例如，“杯子”），其中我们使用语言查询来选择要抓取的目标，并可选择使用否定查询来过滤掉其他目标。我们通过直接识别那些各向同性CLIP特征与正查询比负查询更紧密对齐的3D高斯体来实现这一点。特征-文本比较过程遵循标准的CLIP实践。

开放词汇条件部件级查询。正如Rashid等人所讨论的，CLIP表现出类似词袋的行为（例如，“杯子手柄”的激活往往同时包含杯子和手柄）。因此，有必要执行条件查询。虽然LERF-TOGO需要两步（渲染-体素化）过程，但GraspSplats原生支持基于高斯原语的CLIP条件查询。特别是，在给定从上一操作分割出的目标后，我们只需用新的部件级查询重复该过程，并将高斯体集合限制在分割出的目标上。图3给出了这种部件级条件的定性示例。

使用高斯Primitives进行抓取采样。直接在高斯Primitives上进行抓取采样，以实现流畅的抓取。为此，将GraspSplats与GPG（一种基于采样的抓取proposal）相结合。首先定义一个工作空间，它是从分割出的目标部件扩展而来的三维空间。扩展半径是高斯Primitives尺度最长轴之和与夹持器碰撞半径之和。然后从中采样N个点。在这些采样点的邻域内（其中表示从选定点开始指定距离内的区域），我们聚合具有渲染法线的高斯Primitives，并使用平均法线方向计算抓取采样的参考坐标系。

其中，(g)表示高斯Primitives g的单位表面法线。在每个采样点p的参考坐标系中，执行局部网格搜索以找到候选抓取位置，其中夹持器的手指在终端候选抓取位置与分割部件的几何形状接触。

3.动态场景：实时跟踪与优化

使用针对语义和几何优化的表示，将GraspSplats扩展到跟踪目标位移并实时编辑高斯Primitives是很自然的。值得注意的是，这种操作对于现有的基于NeRF的方法来说是一个挑战。多视图目标跟踪与关键点。假设有一个或多个已校准的摄像头，且没有以ego为中心的运动。给定一个目标语言查询，我们分割其3D高斯Primitives并将2D掩码渲染到摄像头上。然后，我们将渲染的掩码离散化为一系列点，作为点跟踪器的输入，该跟踪器连续跟踪给定点的2D坐标。使用深度将这些2D对应关系转换为3D，为了过滤掉噪声对应关系，使用简单的DBSCAN聚类算法来过滤掉3D离群点。最后，对于剩余的对应点，使用Kabsch算法求解SE(3)变换，并将其应用于分割后的3D高斯Primitives。对于多个摄像头，将所有摄像头估计的3D对应关系附加到Kabsch算法的方程组中。请注意，位移可以由机械臂或其他外力产生。部分微调，编辑后的场景可能在初始重建过程中未观察到的区域（例如，位移物体下方的表面）出现不希望的伪影。可选地，GraspSplats支持使用位移前后渲染的目标掩码进行部分场景再训练，这比完全重建要高效得多。

实验对比

参考

[1] GraspSplats: Efficient Manipulation with 3D Feature Splatting.

http://mp.weixin.qq.com/s?__biz=MzU2ODgzMTM5NA==&mid=2247498951&idx=1&sn=ea1122e21f44524c6adae5a12314eed2

CAAI认知系统与信息处理专委会

CAAI认知系统与信息处理专委会成立于2014年，胡德文教授担任专委会主任，孙富春教授担任荣誉主任，方斌教授担任秘书长。专委会不断吸纳业界人才，会员1000余名。创建了“认知系统与信息处理国际会议”、“机器人智能论坛”等品牌活动。

最新文章

电子皮肤作为人机接口在家庭护理机器人中的抓取识别

Science Robotics 把Arduino开发板做成柔性版，为软体机器人集成高性能计算能力

Science Robotics封面论文：假肢手的交互控制新思路，磁性植入让截肢者重获灵巧抓握功能

Science Robotics 通过新材料打造FiBa软机器人可实现四种形态进化

CoRL 2024 机器人抓取学习 GraspSplats：使用 3D 特征展开进行高效操作

触感灵巧手抓取操作视频集锦

第九届软体机器人大会｜第一轮会议通知和创新设计竞赛通知

Soft Robotics 多模式抓取能力的变刚度软体手

IEEE Trans. on Robotics：多模式软体手“抓取再吸取的连续操作学习”

IEEE JSTSP 嵌入软体手手掌的视触觉传感器PaLmTac

Science Robotics封面论文：假肢手的交互控制新思路，磁性植入让截肢者重获灵巧抓握功能

Science Advances 具有高灵敏度远程感知功能的多感受器皮肤

剑桥&ETH研究综述：NeRF在机器人技术中的应用

Nat. Commun.：飞秒激光书写受蚂蚁启发的可重构微型机器人集体

CoRL 2024 麻省理工学院提出T3触觉Transformer，打破触觉感知的壁垒，重塑未来机器人

斯坦福团队用模仿学习赋予机器人新技能：系鞋带

谷歌 DeepMind 联合斯坦福推出了主从式遥操作双臂机器人系统增强版ALOHA 2

IEEE TRO 人形机器人遥操作的综述

机器人遥操作视频集锦

Science Robotics 通过新材料打造FiBa软机器人可实现四种形态进化

Science Robotics 康奈尔大学用杏鲍菇控制机器人运动！

视触觉传感研究集锦

触感灵巧手抓取操作视频集锦

JBE 人体皮肤在机器人滑动按摩操作中的摩擦和变形行为

《中国科学：信息科学》综述文章：大模型驱动的具身智能：发展与挑战

RobotGPT：利用ChatGPT的机器人操作学习框架，三星电子研究院与张建伟院士、孙富春教授、方斌教授合作发表RAL论文

具身智能综述：鹏城实验室&中大调研近400篇文献，深度解析具身智能

具身智能的视觉-语言-动作模型综合综述论文

谷歌、CMU等研究综述：面向通用机器人的基础模型

AM：具有多模态触觉感知和人工智能的零偏差仿生指尖电子皮肤，可增强触觉感知

IROS 2024 “动态环境的重要性：具身导航至可移动目标物”论坛征稿

AFM 基于超材料的保形性和多感官整合的电子皮肤

第九届软体机器人大会｜第一轮会议通知和创新设计竞赛通知

Soft Robotics 多模式抓取能力的变刚度软体手

IEEE Trans. on Robotics：多模式软体手“抓取再吸取的连续操作学习”

IEEE JSTSP 嵌入软体手手掌的视触觉传感器PaLmTac

普渡大学和麻省理工学院合作开发集成视触觉指尖传感器的5自由度抓手

Science Robotics 麻省理工学院最新研究，从仿真中学习的精确选择、定位和抓放物体的视触觉方法

RAL论文：基于弹性体形变仿真的视触觉传感器仿真器Tacchi

OpenAI加持，1X消费级人形机器人亮相

IEEE TRO 人形机器人遥操作的综述

采访Figure Robotics CEO Brett Adcock：预测世界将有100亿个人形机器人，每个人都会拥有人形机器人

人形机器人Figure 02问世，进宝马工厂开整

OpenAI大模型赋能 Figure 01人形机器人的智能操作

Science 弹性模量提高3.5倍！新型3D打印技术

Science和Nature正刊2023年发表了9篇3D打印的相关文章

Nature封面论文：多无人机协同3D打印盖房子

强化学习和模型预测控制的区别与联系

强化学习经典教材的配套源代码上线了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

CoRL 2024 机器人抓取学习 GraspSplats：使用 3D 特征展开进行高效操作

领域背景介绍

相关工作一览

使用3D特征溅射进行高效操作

1.构建特征增强的3D高斯体

2.静态场景：部件级目标定位和抓取采样

3.动态场景：实时跟踪与优化

实验对比

参考