Science Robotics NeuralFeels「基于神经场的手内操作视觉触觉感知」论文

文摘   2024-11-14 19:50   北京  

(本文素材来源于论文scirobotics.adl0628)为了实现人类水平的灵巧操作,机器人必须从多模态传感中推断空间感知,以推理接触互动。在处理新物体的手内操作中,这种空间感知包括估计物体的姿态和形状。当前的手内感知主要依赖视觉,且仅限于跟踪事先已知的物体。然而,在操作过程中,手中物体的视觉遮挡不可避免,使得当前系统无法突破无遮挡任务的限制。我们在多指机械手上结合了视觉和触觉传感,用于在手内操作中估计物体的姿态和形状。我们的方法,NeuralFeels,通过在线学习神经场来编码物体几何形状,并通过优化姿态图问题来联合跟踪物体。翻译而来供参考,亦可加入知识星球阅读英文原版、中文译文(见文末)。

图1. NeuralFeels的视觉触觉感知。我们的方法在手中操作过程中估计新物体的姿态和形状 (B),通过来自视觉、触觉和本体感知的连续流 (A) 在线学习神经场模型。

我们在模拟环境和现实世界中研究了多模态手内感知,通过本体感受驱动的策略与不同物体交互。实验结果显示最终重建的 F 值达到了 81%,平均姿态漂移为 4.7 毫米,在已知物体模型的情况下进一步减少到 2.3 毫米。此外,我们观察到,在严重的视觉遮挡下,与仅使用视觉的方法相比,我们的跟踪效果提升了最高达 94%。结果表明,在手内操作中,触觉至少可以精确化视觉估计,甚至在某些情况下可以消除其歧义。我们发布了包括 70 个实验的数据集 FeelSight,作为该领域基准测试的一步。我们基于多模态传感驱动的神经表示可以作为推动机器人灵巧操作进展的感知基础。

1 引言

要实现深层次的感知,意味着要实现充分的感知。人类可以毫不费力地在日常互动中整合多种感官——我们可以在口袋中摸索寻找钥匙,并灵活地将其插入锁孔开门。然而,机器人缺乏复制我们日常任务的认知能力,正如摩拉维克悖论所描述的(1)。在非结构化环境中要实现灵活操作,机器人首先需要理解自己与被操控物体之间的空间关系。随着机器人逐渐走出实验室和工厂,与我们共享生活空间,通用化的空间感知变得愈加重要(2)。

机器人需要具备超越简单抓取的灵活性;虽然抓起锤子或螺丝刀可能很简单,但使用工具则需要在手中旋转并重新抓握的能力。对于手内操作的灵活性而言,物体的姿态和几何形状的知识对策略的通用性至关重要(3–6)。与端到端监督方法(7–10)不同的是,这些方法需要一个持久的三维(3D)物体表示。然而,目前手内感知的现状仍局限于跟踪已知物体,以视觉为主导模态的狭窄范畴(5)。此外,实际操作中,技术人员通常会绕过感知问题,将物体和环境进行专门的标记(3, 4)。若要进一步朝着普遍灵巧性的方向发展,关键在于实现通用、稳健的感知。

在视觉传感中,研究人员往往只是容忍互动,而非利用互动。这与那些接触频繁的任务相矛盾,例如旋转(11)、重新定位(5, 10)和滑动(12, 13),其中自遮挡不可避免。此外,现实世界中,由于光照不佳、视距有限、透明性和反光等问题,视觉往往会失效。而触觉则为这些动态互动提供了一扇直接的窗口,且人类的认知研究进一步证实了触觉与视觉的互补性(14)。

在多指机器人的触觉传感方面,研究者们取得了进展(15),其中最突出的是基于视觉的指尖传感器(16–23),如 GelSight 和 DIGIT。模拟的进展(24)使得技术人员可以学习触觉观察模型,并将其迁移到现实世界的互动中(22, 25, 26)。在指尖形态下,凝胶在接触时会变形,物理互动由内置摄像头捕捉。结合机器人运动学,我们可以获得密集的、特定位置的接触数据,这些数据可以像自然摄像头图像一样被处理。

那么,面对多模态传感,如何才能最好地表示空间信息?以坐标为基础的学习,形式化为神经场(27),在视觉计算中已取得巨大成功。通过神经场,研究人员可以在有噪声的视觉数据和姿态标注下,离线创建高质量的3D资产(28–30)。这些是连续表示,与点云、网格和体素图等离散形式相比,具有多项优势——可微分、精确重建、以及内存效率。尽管最初是为离线训练开发的,轻量化的有符号距离场(SDF)模型(31–34)已使在线感知成为可能。神经场可以轻松地注入生成先验(35)和预训练(36),比传统方法更具适应性。

研究人员使用神经场不仅用于连续的3D量(如有符号距离场(SDF)和辐射场)(28, 29, 36),还用于姿态估计(34, 37)、规划(38)和潜在物理学(39)。神经场在机器人操作中表现出潜力,例如学习策略(40)、物体变形(41)、场景动态(38, 42)、数据生成(43)和透明物体操控(44, 45)。然而,多模态数据的在线感知与优化仍然是挑战。

我们工作的领域——同时定位与建图(SLAM)与操作的交汇——已研究了超过20年。最早的例子来自Moll和Erdmann(46),他们重建了在机器人掌间滚动的物体的形状和运动。结合视觉与触觉的研究已用于固定物体形状重建(26, 47–52)、已知物体的跟踪(53–55)以及已知物体的全局定位(56, 57)。在完整SLAM中,仅基于触觉的方法已被用于通过平面推挤(58, 59)和特殊滚动指尖(60, 61)感知简单物体。与我们工作最接近的是Zhao等人的视觉触觉SLAM系统(62),该系统结合了来自单个手指的密集触觉和RGB图像,但未处理手内操作中的挑战性情况。

NeuralFeels是一种通过手内操作实现物体形状定位与重建的在线解决方案。它在前人的研究基础上,展示了多指机器人对事先未知物体的完整SLAM,以及对已知物体的稳健跟踪。我们使用了装有商用基于视觉的触觉传感器(20)的灵巧手(63)和固定的RGB-D摄像头(图1)。借助本体感知驱动的策略(11),我们通过手内旋转探索物体的外延——使用SLAM解决方案引导这一策略,而非作为我们的显式目标。这一方法与以往专注于感知、将评估与操作任务分离的SLAM操作研究一致(52, 55, 57, 62)。

在此,我们研究了视觉与触觉在互动感知中的作用、遮挡的影响以及视觉传感噪声的影响。我们为机器人展示了一个新物体,机器人通过视觉、触觉和本体感知推断并跟踪其几何形状。为评估我们的工作,我们收集了70次手内旋转实验的基准数据集,涵盖现实世界和模拟环境中的地面真实物体网格和跟踪数据。对新物体的结果显示平均重建F得分为81%,姿态漂移仅为4.7毫米,在已知的计算机辅助设计(CAD)模型下进一步减少到2.3毫米。在严重遮挡情况下,我们的姿态跟踪相较于仅视觉方法提高了最高达94%。我们这种丰富传感与空间感知的组合相比复杂的传感笼硬件需求更少,且比端到端感知方法更易解释。神经SLAM管道的输出——姿态与几何形状——可以推动通用灵活性的进一步研究,拓宽家用机器人的能力。

2 结果

我们将一个新物体随机放置在多指机器人手指间,通过本体感知驱动的策略(11)旋转该物体,从而产生了一系列视觉和触觉信号。我们将视觉、触觉和本体感知信号结合到在线神经场中,为未知物体提供一个持续演变的三维表示。NeuralFeels的完整流程如图2所示。

图2. 交互中的视觉触觉感知堆栈。在手中操作过程中,物体的形状和姿态在线表示通过视觉、触觉和本体感知构建。传感器的原始数据首先输入到前端,前端通过我们的预训练模型提取视觉触觉深度。随后,后端从深度数据中采样以训练神经SDF,姿态图跟踪神经场。

我们对NeuralFeels进行了模拟和现实世界的交互评估,共进行了70次实验,涵盖不同的物体类别。首先,我们展示了新物体的SLAM结果,并提供了一些定性示例。接着,我们演示了对已知形状的物体进行的姿态跟踪。最后,我们分析了触觉在遮挡和视觉传感噪声情况下对感知改善的作用。影片S1和S2分别可视化了对彩椒和橡胶鸭的神经SLAM代表性结果,影片S3则提供了我们结果和方法的详细解说总结。

度量和基线

姿态与形状度量

我们使用对称平均欧氏距离(ADD-S)(64),下文称为姿态度量,用于评估随时间变化的跟踪误差。ADD度量通常用于操作领域(64–67),是一种对姿态误差具有几何解释的距离度量。计算方法是对真实物体网格进行采样,计算估计物体姿态和真实物体姿态框架中点集之间的欧氏距离的平均值。与成对距离不同,ADD-S考虑的是最近点距离,从而能够区分对称物体(64)。

对于形状,我们比较了神经SDF相较于真实网格的准确性(精度)和完整性(召回率)。F分数是一种在多视图重建领域广泛使用的度量标准(68, 69),将这两个标准结合为一个可解释的[0−1]值。该度量将下文称为形状度量。为了计算该度量,我们首先在以物体为中心的框架中对真实和重建网格进行采样。给定一个距离阈值(在本研究中为τ = 5毫米),精度表示重建点集中在τ距离内的点的百分比,相反,召回率表示真实点集中在τ距离内的点的百分比。精度和召回率的调和平均值就是F分数,它同时捕捉了表面重建的准确性和形状的完整性。一般来说,在更严格的τ边界下获得更高的F分数意味着更好的物体重建效果。

真实形状与姿态

我们基于物体的真实形状和姿态估算值来评估这些度量。对于每个物体,真实形状通过离线扫描获得(图S1)。在模拟实验中,真实物体的姿态由Isaac Gym直接提供(70)。在现实世界中,我们通过多摄像机的姿态跟踪估算伪真实值。诸如3D运动捕捉等带有设备的解决方案不可行,因为这些方案在视觉和物理上均干扰实验。我们选择安装了两个额外摄像头,并在已知物体形状的情况下运行NeuralFeels的姿态跟踪模式。这种方式在已知形状和无遮挡条件下提供了最佳跟踪估计。有关详细信息,请参见补充材料中的“真实形状与姿态”部分。

物体初始化

在实践中,我们的SLAM实验中的以物体为中心的参考框架可以任意选择(例如初始点云的质心或机器人手指的位置)。然而,真实参考框架定义为完整CAD模型的质心,并沿其主轴定向。在因果系统中,这种参考框架的不匹配是预期的,但会导致物体为中心的形状度量计算不准确。此外,对于已知形状的物体跟踪而言,参考框架的初始方向非常敏感(71)。为解决这些问题,我们假设物体的初始姿态已知并与初始真实姿态对齐。我们更关注随后的跟踪和形状重建,尽管初始条件较好,这仍具有挑战性。未来可以通过基于特征的前端获得粗略初始化(72)。为了确保评估不受物体初始化的影响,我们仅在每次试验开始5秒后才开始计算姿态度量。

神经SLAM:物体跟踪和形状估计

动机与重要性

在第一个实验中,我们评估了NeuralFeels从多模态传感中跟踪和重建未知物体的能力。对于部署在非结构化环境(如家庭)中的机器人来说,这对应对事先未知的物体尤为重要。我们给机器人展示了一个新物体,机器人需要实时构建该物体的模型。我们的SLAM方法对物体几何形状不做任何假设,模型完全从零开始构建,操作动作也在部署时决定。我们顺序处理了视觉触觉数据,无需访问未来信息或类别级先验。这种方式与之前的灵巧操作研究一致(5, 6, 10, 11),并且比Zhao等人(62)的方法限制更少,在该方法中,物体始终接触单一触觉传感器,且摄像头无遮挡。

我们在模拟和现实环境中进行了超过70次的实验,涵盖14种不同的物体。物体被放置在手中后,策略采集了30秒的视觉、触觉和本体感知数据。由于每次实验都是非确定性的,我们在五个不同的随机种子下进行了平均,最终共计350次试验。每个序列的第一帧仅展示了有限的视觉信息:如魔方或大骰子的单侧,或橡胶鸭的底部。在30秒序列的过程中,手内旋转将先前未见的几何形状暴露给视觉,同时触觉补充了其余被遮挡的表面。在图3中,我们展示了主要结果集,并将多模态融合方案与真实值进行了对比。

图3. SLAM实验总结。(A 和 B) 对70次实验(模拟中40次,真实环境中30次)的SLAM统计数据进行汇总,每次试验运行五个不同的种子。在模拟和真实环境中进行对比,以显示较低的姿态漂移和高重建精度。每个箱形图表示所有实验的聚合误差,其中中央线为中位数,箱体的范围为上四分位数和下四分位数,须线代表1.0倍的IQR。(C)本方法未能跟踪(和重建)物体的试验次数。(D)实验中的最终物体姿态和神经场渲染的代表性示例。每个物体通过将表面法线方向映射到RGB颜色图进行了纹理处理。(E)通过神经场中的行进立方体算法生成的最终3D物体。在这里,我们强调触觉在形状补全和形状精化中发挥的作用。

物体重建

图3A显示了在每个序列结束时的固定阈值τ下的最终形状度量结果。在此评估中,我们选择了τ = 5毫米,约为物体最大对角长度的3%。形状度量值越大,表面重建越接近真实值。我们观察到在引入触觉后,表面重建平均在模拟环境中提高了15.3%(P < 0.001),在现实环境中提高了14.6%(P < 0.001)。如图3E所示,我们的最终重建在模拟中的中位误差为2.1毫米,现实中为3.9毫米。此外,第二个图比较了不同τ阈值下的最终形状度量。结果表明,多模态融合在模拟和现实中所有τ值下都能获得更好的形状度量。

物体姿态漂移

在SLAM中,低形状度量和高姿态度量之间存在较强的相关性,因为一个通常会导致另一个。图3B绘制了物体估计姿态相对于真实值的漂移情况,漂移越低越准确。相较于仅视觉基线,我们观察到跟踪效果有所提升,在模拟中提高了21.3%(P < 0.001),在现实中提高了26.6%(P < 0.001)。图3C报告了NeuralFeels与仅视觉跟踪的失败次数,其中,失败定义为平均姿态漂移超过10毫米的实验。这一阈值参考了Bauza等人(73)的粗略触觉定位初始化标准,他们将10毫米视为触觉定位的粗略初始化值。为突显神经场的重要性,图S19表明我们的方法优于仅依赖迭代最近点(ICP)逐帧约束的基线方法。

经验上,我们观察到由于形状未知,初始化的前几秒存在较大的姿态漂移。随着时间的推移,我们构建了更好的形状模型,从而使姿态跟踪更加准确(图S17和图S18)。然而,由于姿态正则化和缺乏长期回环闭合(72, 74),姿态中小的误差会随着时间累积。这种连锁效应在SLAM中很常见(75),当姿态误差导致重建地图与物理世界之间产生不一致。

因此,我们确定是否有任何实验的平均形状指标随时间恶化。为此,我们计算了序列前50%与后50%的平均形状指标差异。结果表明,150次真实世界实验中有25次(16%)的形状估计随时间恶化,其他125次(83%)有所改善。在仿真中,我们的方法表现更好:200次实验中有9次(4.5%)的形状估计随时间恶化,另外191次(95%)有所改善。

定性结果

图3D展示了每次实验结束时的神经场渲染法线图,并叠加了3D坐标轴。最终的3D重建通过Marching Cubes算法生成(76),如图3E所示,与真实网格对比展示。在其下方,我们突出显示了视觉触觉融合带来的重建效果提升。我们将这些效果分为形状完成(即覆盖视觉遮挡的物体表面)和形状优化(即触觉测量补充视觉以更好地重建可见表面)。

图4. SLAM结果示例。(A) 我们展示了RGB-D和触觉图像的输入流,与甜椒和橡皮鸭物体在时间步t的姿态重建配对。在每种情况下,我们在初始帧部分重建了物体,并在每个30秒的实验中逐步构建表面。3D可视化通过行进立方体算法生成,此外将神经场的渲染法线投影到视觉图像上。渲染的纹理通过将表面法线方向映射到RGB颜色图来实现。(B) 更多的示例结果展示了大型骰子(真实环境)和桃子(模拟环境)物体。

图4展示了几个代表性实验在不同时间切片下的物体姿态跟踪和重建过程。在每个时间步,我们突出显示了输入数据流、前端深度图和输出的物体模型。影片S1和S2提供了图4A实验的动画版本。在我们当前的问题设定中,仅触觉SLAM是不被允许的。因为缺乏初始形状信息,跟踪(从而重建)在序列初期即失败,并且传感器视野无法快速提供全局几何形状。

已知形状的物体跟踪

动机与重要性

这些实验研究了在提供已知物体CAD模型的情况下,NeuralFeels在姿态跟踪中的准确性。已知几何形状的跟踪是操作研究的活跃领域(5, 71),部分研究也将触觉整合进来(13, 53–55, 77)。这在机器人已知被操控物体的仓库和生产线环境中应用广泛(77),在机器人已通过交互生成物体模型的家庭场景中也很有用。

在实现中,物体的SDF从给定CAD模型预先计算。在运行时,我们固定神经场的权重,仅通过前端估计进行视觉触觉跟踪。与SLAM实验类似,我们对每个实验进行了五个随机种子的测试,并报告了相对于真实值的姿态度量。

姿态跟踪结果

图5. 已知物体的神经姿态跟踪。(A) 我们展示了Rubik’s魔方和罐装肉物体的RGB-D和触觉图像输入流与时间步t的姿态跟踪配对。在已知的真实形状下,我们可以通过视觉和触觉来稳健地跟踪物体。每个实验持续30秒,物体渲染通过将表面法线方向映射到RGB颜色图进行纹理化。(B) 我们观察到可靠的跟踪性能,序列中的平均姿态误差为2毫米。(C) 姿态跟踪的汇总统计数据基于总共70个实验(其中40个在模拟环境中,30个在真实环境中),每次试验在五个不同的种子上运行。每个箱线图表示以对数尺度展示的聚合姿态误差,其中中央线为中位数,箱体的上下边界为上四分位数和下四分位数,须线表示0.25倍的四分位距。在已知物体模型和良好可视性的条件下,触觉起到姿态优化的作用。此外,我们注意到,仅依靠触觉进行跟踪易出错且不可行。

图5A展示了对魔方和肉罐头的姿态跟踪一些定性示例。在给定示例中,各序列的姿态度量绘制在图5B中。即使视觉分割不精确(图S24)且触觉信号稀疏,我们也观察到低且受限的姿态误差。在图5C中,我们观察到触觉在所有实验中将平均姿态误差减少至2.3毫米的作用。在已知CAD模型的情况下,触觉的加入可以优化姿态估计,在模拟中平均姿态误差下降22.29%(P < 0.001),现实中为3.9%(P = 0.21)。我们推测,较高的现实P值可能是因为实际的DIGIT弹性体传感器灵敏度较低,导致触点较稀疏。稀疏触点在完整SLAM中通过粗略重建未见表面起到了重要作用,但在已知完整形状的情况下仅起到优化作用。此外,视角遮挡较少——在下一节中,我们将重点讨论视觉传感效果较差时的改进效果。

在遮挡和视觉深度噪声下的感知

动机与重要性

在本节中,我们探讨了在具有挑战性的场景——遮挡和视觉噪声下,触觉和视觉融合的更广泛好处。前述结果主要通过良好的相机位置和精确的立体深度调优实现。对细节的重视对之前的研究者也是必要的(5, 10),但我们能否利用触觉来改进次优的视觉数据?在模拟中,我们设计了两个这样的场景,可以自由控制这些参数,并评估前述的姿态跟踪问题。

摄像头-机器人遮挡的影响

在体感问题中,第三人称和自我中心相机均容易受到机器人运动和环境变化的遮挡。例如,如果我们在厨房从顶架上取下一个杯子,主要依赖触觉信号来完成任务。对于感知系统,这意味着感兴趣的物体从视野中消失,而局部触觉感知仍不受影响。为模拟这种情况,我们考虑了对已知魔方的姿态跟踪。我们在半径为0.5米的球体上模拟了200个不同的摄像头,每个摄像头都朝向机器人。图6A所示,每个摄像头以不同程度的机器人-物体遮挡捕捉相同的手内序列视角。这模拟了自我中心或固定摄像头在手或环境遮挡物体时的遮挡情况。

图6. 遮挡和传感噪声的消融实验。(A) 来自半径为0.5米球体中200个模拟相机的姿态跟踪结果,每个相机都朝向机器人。每个相机视图根据加入触觉后的姿态跟踪改进情况(与仅靠视觉相比)进行颜色映射。在遮挡严重的视角下,视觉与触觉融合提供了无阻碍的局部视角,从而提升了跟踪性能。(B) 我们为200个实验中的每个实验计算了一个[0-1]的遮挡得分,并将姿态误差与其绘制成图。我们观察到当视觉受到严重遮挡时,触觉发挥了更大的作用,而在遮挡较少时触觉主要起到优化作用。阴影区域代表平均值的1个标准差。(C) 我们模拟了视觉深度测量中的噪声,并将误差分布与深度噪声因子D绘制成小提琴图。插图显示了每个D值的定性深度噪声,内部标记表示中位姿态误差。我们观察到,随着噪声增加,加入触觉导致了更低的误差分布。

为简化实验,我们通过提供真实的物体分割掩码来假设视觉前端的上限性能。我们通过计算每个视角的分割掩码面积并归一化到[0−1]范围,来用遮挡评分来表征可见性。例如,分数接近0表示视角位于手的下方(遮挡最严重),而分数接近1表示摄像头位于上方(遮挡最少)。我们对200个摄像头分别以仅视觉模式和视觉触觉模式运行姿态跟踪实验并进行比较。

在图6A中,我们根据引入触觉后的姿态跟踪改进情况对每个摄像头视角进行了颜色映射。所有摄像头的平均改进为21.2%,在遮挡严重的视角达到94.1%的峰值。在遮挡评分的[0−1]范围内,我们的P值<0.001。我们插入了一些具有代表性视角的帧和视觉触觉融合下的相对改进。在图6B中,我们进一步绘制了每种模式的姿态误差与[0−1]遮挡评分的关系。这证实了触觉在低遮挡情况下优化了感知,并在高遮挡情况下增强了感知的鲁棒性。

噪声视觉深度的影响

商品级RGB-D传感器的深度会随摄像头与机器人的距离、环境光照和物体反光性而下降。即使在理想情况下,RealSense深度算法也有35个超参数(78),对NeuralFeels的前端输入有显著影响。为模拟这一情况,我们逐步引入真实的RGB-D噪声来破坏深度图,并观察已知几何体的跟踪性能。

根据Handa等人(79)的方法,我们将深度图误差的常见来源模拟为像素混乱、量化和高频噪声的序列。深度噪声因子D决定了这些操作的幅度,深度图如图6C所示。之前的所有模拟实验均在D = 5的条件下收集数据,但在此处,我们将噪声幅度从0到50以10为间隔进行变化。在每个噪声水平下,我们对魔方实验中的五个试验进行姿态跟踪,每个试验有五个独特的种子,共计150次实验。在图6C中,我们绘制了误差与噪声因子D的关系图,显示了噪声增加带来的误差上升趋势。然而,触觉融合在高噪声情况下表现出更好的跟踪效果。

3 讨论

实验表明,NeuralFeels在多模态、多指操控中实现了稳健的以物体为中心的SLAM。如图3A所示,我们在模拟和现实实验中对新物体的平均重建F得分达到了81%。同时,在交互过程中,我们能够稳定跟踪这些物体,漂移最小,平均为4.7毫米。尽管仅靠视觉的基线在某些场景中可能已足够,但结果验证了丰富的多模态感知对交互任务的效用。这也印证了多年关于触觉和视觉互动感知的研究成果(26, 77, 80),现已应用于灵巧操作平台。

互动感知远未达到理想状态;身体形态往往会妨碍感知。如图4所示,手内操作面临遮挡频繁、视野有限、分割噪声大以及物体运动快速等挑战。本体感知有助于聚焦感知问题:通过具身提示,我们可以准确地分离出感兴趣的物体(参见材料与方法的“前端”部分)。结合触觉后,我们通过提供局部交互的窗口来稳健化视觉估计。这在模拟和现实SLAM以及姿态跟踪实验中得到了体现,多模态融合分别带来了15.3%/14.6%的重建改进和21%/26.6%的姿态跟踪改进。

从定性角度来看,触觉具有两个关键功能:消除前端噪声估计的歧义,并在存在遮挡时提供背景信息。前者通过提供共位的本地信息来缓解视觉分割和深度噪声的影响,用于映射和定位;后者则提供了视觉感知无法获得的重要背景信息,比如大骰子的被遮挡面或橡胶鸭的背面。图3E中的最终重建结果支持了这些发现,显示了改进的形状完成和优化。

在已知形状的情况下(参见“已知形状的物体跟踪”部分),当视觉遮挡不多时,触觉起到优化作用(图5)。结合触觉的最大收益预计在严重遮挡的情境下(图6A和B),在某些摄像头视角下观察到高达94.1%的改进。据我们所知,之前的操作研究中还未进行过关于物体可见性对感知影响的详细研究。这不仅展示了多模态的互补性,还表明了适用于无遮挡操作的理想配置。最后,我们在仅触觉跟踪中的结果(图5C)支持了Smith等人(49)的发现,即仅从触觉中学习会导致性能较差,因为缺乏全局背景。

与端到端感知不同,我们的模块化架构结合了预训练与在线学习。这让我们能够将基于大规模图像和触觉数据预训练的基础模型(前端)与作为在线学习的SLAM(后端)结合。此外,我们的后端将最先进的神经模型(29)与经典的最小二乘优化(81)相结合,在SLAM中取得了成功(82)。这种模块化设计有助于未来系统的泛化:只要能够精确模拟,不同型号的触觉传感器(16, 19, 22)可以轻松集成;替代场景表示(83, 84)可以替换我们的神经场模型;附加的状态信息可以作为因子图成本集成,如触觉里程计(62)和力约束(59);任何触觉和视觉传感器的组合都可以通过适当的校准和运动学融合。

系统限制

我们的研究结果表明,与仿真相比,多模态融合在真实环境中的优势并不显著。这在从仿真到真实环境的操作中是一个常见问题——之前的研究也遇到了物体姿态估计的类似差异。此外,我们发现DIGIT传感器在真实环境中的灵敏度较低,导致接触点较稀疏(图4);我们的强化学习(RL)策略在真实环境中表现不够稳定,通常需要人工干预,导致物体运动出现较大跳动(图S21)。为了解决这些不足,我们可以专注于对仿真器进行真实环境的微调(参考文献87)并明确建模传感器的变形和压力(参考文献88)。通过多模态强化学习(参考文献6和10),我们可以实现比仅依靠本体感知更稳健的策略。

目前,我们受限于固定相机设置,依赖在线手眼校准或自我视角,这一限制未来可以放宽。深度不确定性(参考文献89)为我们的神经模型提供了处理视觉对抗性物体(如玻璃和金属)所需的重要信息。我们使用了基于视觉的触觉传感(参考文献20),而不是触觉阵列(参考文献90)或二元传感(参考文献7),但未来的研究可以探讨每种方法的优点。在补充材料的“触觉的作用”一节中,我们展示了更高分辨率的优势以及与二元传感的对比。在我们的SLAM实验中,每次姿态图迭代需要0.79 ± 0.36秒(20次Levenberg-Marquardt(LM)迭代,参考文献75),形状优化需要0.06 ± 0.09秒(一次梯度下降迭代)。为实现实时循环执行,我们可以加快Segment Anything Model(SAM)的推理时间(参考文献91),减少SDF样本并下采样特征网格分辨率,并用增量优化器替代姿态图(参考文献92)。最后,我们可以通过基于特征的方法(参考文献93)和闭环检测(参考文献72)来增强跟踪的鲁棒性。


未来方向

我们的方法从零开始学习新物体的3D几何,因此在初始几秒钟SDF未知时,姿态跟踪器的失败率更高。此外,在现实世界中,我们的旋转策略可能无法完全探索物体,导致形状度量低于模拟中的结果。面对初始遮挡视角,集成大型重建模型(36, 94, 95)可以为SDF提供良好的初始猜测。在操作中,Wang等人(48)已在固定物体的视觉触觉重建中使用形状先验取得了有希望的结果。

几何只是神经模型的起点:交互揭示出纹理(85)、摩擦(39)和物体动力学(96)等潜在属性。利用神经场,我们可以将这些潜在属性作为辅助优化变量嵌入,以支持超越空间量的任务。应用范围包括学习操作惯性挑战较大的物体(如锤子)到根据局部纹理识别抓取点(如平底锅把手)。

综上所述,NeuralFeels利用视觉、触觉和机器人本体感知来高精度地重建和跟踪新物体。该系统比复杂的标记跟踪更简单,使用了经济的触觉传感,且比端到端感知提供更可解释的输出。我们的方法结合了SLAM、神经渲染和触觉模拟的理念,是推动机器人灵巧性的关键一步。

4 材料和方法

与经典SLAM框架类似,NeuralFeels首先具有前端部分,将视觉(RGB-D)和触觉(RGB)输入流转换为适合估计的格式(分割深度)。然后,后端将这些数据融合到一个优化结构中,以推断出物体模型:一个不断演化的姿态物体SDF。整个流程图如图2所示,读者可在本节参考此图。此外,影片S3提供了我们方法的解说总结。

任务定义

机器人硬件和仿真

Allegro手(63)在每个末端安装了四个基于视觉的DIGIT触觉传感器(20)。DIGIT传感器以30Hz频率生成240×320像素的RGB图像,记录物理交互。Allegro手发布16维关节角,用于确定触觉传感器相对于基座的方位。手臂刚性安装在Franka Panda机械臂上,距离手掌约27厘米处放置一台Intel RealSense D435 RGB-D相机。通过ArUco(97)手眼校准计算出相机相对于Allegro基座的外参。用于视觉伪真实值的工作空间内布置了三台相机(图7),通过Kalibr(98)联合校准,投影误差约为1像素。我们的仿真环境复制了现实设置,结合了Isaac Gym物理仿真器(70)和TACTO触觉渲染器(24),直接从Isaac Gym中记录并存储真实物体的姿态。

图7. 真实环境和模拟实验的设置。(A) 来自FeelSight数据集的Allegro机器人通过我们的手内旋转策略操控物体的静态帧。这些视触觉交互在真实环境和物理模拟中捕捉。(B) 机器人工作单元由三个RealSense RGB-D摄像头、安装在Franka Panda上的Allegro机器人手以及四个DIGIT触觉传感器组成。所有的真实环境结果使用了主摄像头和DIGIT传感器,额外的摄像头用于我们的地面真实姿态跟踪。在模拟中,我们在Isaac Gym中模拟了一个相同的主摄像头,并使用TACTO模拟器进行模拟触觉。

FeelSight:一种视觉触觉感知数据集

视觉触觉感知领域缺少能够推动进展的数据集,而视觉跟踪(99)、SLAM(100)和强化学习(101)等邻近领域已有相关数据集。为此,我们收集了FeelSight数据集,用于视觉触觉操作。每次试验中使用手内旋转策略收集30秒的视觉、触觉和本体感知数据。

物体旋转的强化学习

当我们接触到新物体时,通常会在手中旋转以从不同角度观察并重新抓握。对于多指手而言,手内旋转是解决交互感知问题的理想选择。我们采用了Qi等人(11)的方法,在仿真中训练了基于本体感知的策略并直接转移到现实环境中。策略的训练与部署、奖励函数和性能在补充材料的“手内旋转策略”部分讨论。在所有实验中,我们的单一策略πt以20Hz(300Hz低级PD控制)通过ROS Allegro软件包进行更新。

此策略实现了新物体的多指旋转和有趣的视觉触觉刺激。数据集包括现实中六个物体的五次旋转试验,以及仿真中八个物体的试验,共计35分钟的交互。如图7所示,我们记录了现实中的伪真实姿态和仿真中的准确真实姿态。该策略在仿真中达到了每秒25毫米的平移和每秒32.6度的旋转,而在现实中则为每秒20毫米和每秒9.9度的旋转。

所选物体在几何形状和尺寸上变化较大,对角长度在6至18厘米之间。实验显示,长宽比不规则的物体在该手形态下较难操控;我们选择的物体基于RL策略的适应性,而非SLAM解决方案。由于我们依赖Isaac Gym(70)和TACTO(24),这些系统假设刚体仿真,变形物体的操控不在本研究范围内。真实世界中的物体网格通过Revopoint 3D扫描仪(102)创建,仿真中的物体则使用来自Yale-CMU-Berkeley(YCB)(103)和ContactDB(104)数据集的真实网格。

对于如魔方等物体,当发生滑动事件时,我们通过人工干预辅助策略(图S21)。在现实中,我们发现该机器人手的形态难以实现稳定旋转魔方的步态。这是因为与之前使用重力将物体置于指尖上的方法不同(11),我们依赖摩擦接触来在侧向DIGIT传感器上获得触觉信号。因此,我们选择了人工参与的策略以降低实验风险。这些干预使我们得以收集大量实验数据,但也因增加遮挡和物体姿态的突然变化而对感知造成干扰。

方法概述

关键见解

NeuralFeels是一个姿态神经场

触觉是局部的“视觉”

另一见解是,基于视觉的触觉可以在TACTO(24)等触觉模拟器中近似为透视相机模型。然而,这种近似在图像生成中仍有一些区别。首先,基于视觉的触觉传感器为场景赋予了自身的颜色和光照,使得获取可靠的视觉线索变得困难。其次,触觉图像流的视场和深度范围要小得多,通常以厘米为单位,而非米。第三,与自然图像相比,触觉图像的所有非接触区域均存在深度不连续性,而自然图像中仅在遮挡边界处存在不连续性。我们的方法解决了这些问题,始终使用深度而非颜色进行优化,基于感知来源在不同尺度(厘米或米)进行采样,并仅对触觉采样表面点,而对视觉采样自由空间和表面点。更多细节见材料和方法的“后端:形状和姿态优化器”部分。

物体模型

前端

分割视觉深度

基础图像模型如SAM(109)已成功实现了图像流Itc的稳健分割。SAM在数据丰富的自然图像领域中使用视觉Transformer(ViT)训练,能对新场景进行最新的零样本实例分割。对于任意输入的RGB图像,SAM输出一个嵌入,通过用户提示(如点、二值掩码、边界框或自然语言提示)进行查询。在时间步t,我们输入模型正负点提示以及时间步t−1的掩码预测。

图8. 前端与后端。(A) 通过考虑手指遮挡以及物体相对于手指的姿态,我们可以准确地为SAM(109)提供提示,从而获得稳健的输出掩码。(B) 触觉变换器的模拟到真实的性能代表示例。每个RGB图像被输入到网络中,以输出预测的深度以及接触掩码。(C) 我们的滑动窗口非线性最小二乘优化器根据前端输出估计物体姿态 。每个物体姿态  受SDF损失、帧间ICP和姿态正则化的约束,以确保跟踪的稳定性。

在图8A中,我们可视化了真实图像上的分割结果和SAM提示。在实验中,我们使用了308M参数的ViT Large模型,速度约为4Hz;但实际中,我们可以使用高效分割模型(91),以提升速度至40Hz。补充材料中的“附加实现细节”部分介绍了我们为实现稳健视觉分割所采取的步骤。

触觉Transformer

相对而言,基于视觉的触觉图像与SAM训练的图像分布不同,且未直接提供深度信息。嵌入的摄像头感知到的是一个被照亮的凝胶垫,而接触深度通过光度立体法(16)或监督学习(22, 25, 26, 66, 110)获得。现有的触觉到深度转换依赖卷积操作;然而,最新研究表明,在自然图像中使用ViT进行密集深度预测(111)效果更好。我们训练了一个触觉Transformer,用于从基于视觉的触觉图像预测接触深度,能够在多个真实的DIGIT传感器上实现泛化。

与先前的研究相似(13, 26),我们在光学触觉模拟器TACTO(24)中生成了大量触觉图像和对应的真实深度图。我们在40个不同的YCB物体(103)表面上收集了每个物体10,000次随机触觉交互。为实现从模拟到现实的转移,我们通过随机化传感器LED光源、压痕深度和像素噪声进行数据增强。在TACTO中,通过将图像与来自真实DIGIT传感器的非接触模板图像合成,达成图像的逼真效果。有关训练和数据的详细信息,请参见补充材料中的“触觉Transformer:数据和训练”部分。

这些数据增强使我们在多指平台上实现了广泛的适应性,因每个传感器的图像特性各不相同。触觉Transformer在与模拟中的真实深度图对比的均方深度重建损失上进行监督训练。基于预测的深度图,对输出进行阈值处理以屏蔽非接触区域。在模拟测试集上,我们展示了平均预测误差为0.042毫米,图8B展示了在真实图像上的模拟到真实的性能表现。

后端:形状和姿态优化器

后端从前端获取深度数据和传感器姿态,以在线构建物体模型。该过程在形状和姿态优化步骤之间交替进行,使用来自视觉触觉深度流的样本。类似于其他神经SLAM方法(31),该模块随着时间的推移维护关键帧库,策略与Ortiz等人(31)和Sucar等人(32)的方法相似,以生成这些样本。更多后端和关键帧的细节见补充材料中的“附加实现细节”部分。

形状优化器

对于在线估计,使用所有输入帧来优化Fxθ t是不可行的(如神经辐射场中所采用的方式)(28)。我们选择了一种在线学习方法(31, 32),即实时构建关键帧子集K进行优化。后端基于标准接收新关键帧,同时在优化中重放旧关键帧以防止灾难性遗忘(32)。形状优化器的每次迭代针对每个传感器重放一个大小为10的关键帧批次kt ∈ K以优化网络。该批次包括最近的两帧,并基于平均渲染损失对过去关键帧进行加权随机采样。初始的视觉触觉帧会自动添加为关键帧。

每个后续关键帧Kt根据信息增益指标(32)来决定是否接收。为此,从冻结的网络Fxθ t中计算平均渲染损失,使用给定的关键帧姿态进行评估,并与阈值dthresh = 0.01米进行比较。最后,如果在间隔tmax = 0.2秒内未添加关键帧,则强制添加一个关键帧。

采样和SDF损失

在每次迭代中,我们从关键帧Kt中采样坐标,以优化神经网络权重θ。首先从Kt中采样一个像素批次ukt,包含表面像素和自由空间像素的混合。表面像素直接监督SDF的零级集合,自由空间像素则用于限定神经体积。在我们的实现中,50%的相机像素从自由空间中采样,而触觉只从表面像素采样。对于每个像素u ∈ ukt,基于对应的传感器姿态,我们向神经体积投射了一条射线。与Ortiz等人(31)的方法相似,我们每条射线采样Pu个点,包含分层和表面点的组合。

通过这些样本,我们计算了每个̂Dt ∈ Kt的SDF预测̂du,作为批次距离界限(31)。对于每条射线,我们将样本分为Puf和Putr,依据̂du是否在距离表面5毫米的截断距离dtr内。我们的形状损失类似于Azinović等人(106)提出的截断SDF损失。

其中,自由空间和截断损失如下:

姿态优化器

在每次形状迭代之前,我们使用姿态图(75)来相对于冻结的神经场Fxθ t优化物体姿态xt。我们通过反转问题,改为优化滑动窗口大小为n的六自由度姿态来实现这一点。在时间步t,如果积累了N个关键帧,则表示这些姿态为,测量值为。类似于视觉SLAM中的姿态更新(32, 33, 37),网络权重θ保持不变,我们估算SE(3)姿态Xt。

我们将该问题表述为使用Theseus(81)中的自定义测量因子的非线性最小二乘优化。虽然之前的研究使用了梯度下降(37),但我们使用了二阶LM求解器,从而实现了更快的收敛(75)。图8C所示的姿态图解决了以下因子。

我们的SDF损失项ℒsdf因子使用了之前定义的形状损失ℒshape,并进行了修改,使得我们仅在每条射线的表面点附近进行采样。由于我们对物体表面附近的SDF比自由空间更有信心,这种方法对于视觉和触觉传感都表现良好。对于ℳt中的每个深度测量,我们在M条射线上采样表面点并沿每条射线平均SDF损失,从而得到M × n的SDF损失,用于更新Xt的se(3)李代数。我们为该代价函数实现了自定义雅可比矩阵,比PyTorch的自动微分效率高达四倍。

姿态正则项ℒreg因子在Xt中连续关键帧姿态之间施加了一个弱正则,以确保相对姿态更新保持稳定。这对于应对前端深度噪声和不正确分割的鲁棒性至关重要。此外,我们还添加了一个ICP损失项ℒicp因子,该因子在当前视觉触觉点云Π−1(ℳt)和前一帧点云Π−1(ℳt−1)之间应用了ICP,从而在帧对模型的ℒsdf之外提供了帧对帧的约束。

统计分析

本文中的所有P值均通过配对样本t检验计算(112),以(P ≤ ⋅ )形式报告。图3(A和B)和图5C中的汇总统计基于总计70次试验(40次模拟和30次现实试验)计算,每次试验运行五个不同的随机种子。图3(A和B)中的箱线图的须线范围为1.0倍的四分位距(IQR),而图5C中的对数尺度图的范围为0.25倍的IQR。最后,图6B中的折线图用阴影表示均值的1个标准差。

参考文献和注释

1. H. Moravec,《心智的孩子:机器人和人类智能的未来》(哈佛大学出版社,1988年)。

2. A. J. Davison,《FutureMapping:空间AI系统的计算结构》,arXiv:1803.11288 [cs.ai] (2018)。

3. OpenAI, M. Andrychowicz, B. Baker, M. Chociej, R. Józefowicz, B. M. Grew, J. Pachocki, A. Petron, M. Plappert, G. Powell, A. Ray, J. Schneider, S. Sidor, J. Tobin, P. Welinder, L. Weng, W. Zaremba,《学习灵巧的手内操控》,《国际机器人研究杂志》39, 3 (2020)。

4. OpenAI, I. Akkaya, M. Andrychowicz, M. Chociej, M. Litwin, B. M. Grew, A. Petron, A. Paino, M. Plappert, G. Powell, R. Ribas, J. Schneider, N. Tezak, J. Tworek, P. Welinder, L. Weng, Q. Yuan, W. Zaremba, L. Zhang,《使用机器人手解魔方》,arXiv:1910.07113 [cs.LG] (2019)。

5. A. Handa, A. Allshire, V. Makoviychuk, A. Petrenko, R. Singh, J. Liu, D. Makoviichuk, K. Van Wyk, A. Zhurkevich, B. Sundaralingam, Y. S. Narang, J.-F. Lafleche, D. Fox, G. State,《DeXtreme: 从仿真到现实的灵巧手内操控迁移》,在2023年IEEE国际机器人与自动化会议(ICRA)中(IEEE,2023年),第5977-5984页。

6. H. Qi, B. Yi, S. Suresh, M. Lambeta, Y. Ma, R. Calandra, J. Malik,《通用手内物体旋转与视觉和触觉》,在第7届机器人学习会议(CoRL)论文集中(ML Research Press,2023年),第1722-1732页。

7. Z.-H. Yin, B. Huang, Y. Qin, Q. Chen, X. Wang,《盲旋转:通过触觉实现手内灵巧操作》,在《机器人:科学与系统》会议论文集(RSS Foundation,2023年)。

8. I. Guzey, B. Evans, S. Chintala, L. Pinto,《触觉敏捷性:通过机器人游戏自监督预训练触觉表示》,在第7届机器人学习会议(CoRL)论文集中(ML Research Press,2023年),第3142-3166页。

9. I. Guzey, Y. Dai, B. Evans, S. Chintala, L. Pinto,《从视觉动机中学习触觉灵巧》,在2024年IEEE国际机器人与自动化会议(ICRA)中(IEEE,2024年),第13825-13832页。

10. T. Chen, M. Tippur, S. Wu, V. Kumar, E. Adelson, P. Agrawal,《视觉灵巧:新颖和复杂物体形状的手内重定位》,《科学机器人》8, eadc9244 (2023)。

11. H. Qi, A. Kumar, R. Calandra, Y. Ma, J. Malik,《通过快速运动适应实现手内物体旋转》,在第6届机器人学习会议(CoRL)论文集中(ML Research Press,2022年),第1722-1732页。

12. Y. She, S. Wang, S. Dong, N. Sunil, A. Rodriguez, E. Adelson,《触觉反应夹持器的电缆操控》,《国际机器人研究杂志》40, 1385–1401 (2021)。

13. S. Suresh, Z. Si, S. Anderson, M. Kaess, M. Mukadam,《Midastouch: 通过分布式滑动触觉进行蒙特卡洛推理》,在第6届机器人学习会议(CoRL)论文集中(ML Research Press,2022年),第319-331页。

14. H. B. Helbig, M. O. Ernst,《视觉与触觉形状信息的最佳整合》,《实验脑研究》179, 595–606 (2007)。

15. Z. Kappassov, J.-A. Corrales, V. Perdereau,《灵巧机器人手的触觉感知》,《机器人自主系统》74, 195–220 (2015)。

16. W. Yuan, S. Dong, E. H. Adelson,《GelSight:用于几何和力估计的高分辨率机器人触觉传感器》,《传感器》17, 2762 (2017)。

17. E. Donlon, S. Dong, M. Liu, J. Li, E. Adelson, A. Rodriguez,《GelSlim: 一种高分辨率、紧凑、稳健、校准的触觉传感手指》,在2018年IEEE/RSJ国际智能机器人与系统会议(IROS)中(IEEE,2018年),第1927-1934页。

18. B. Ward-Cherrier, N. Pestell, L. Cramphorn, B. Winstone, M. E. Giannaccini, J. Rossiter, N. F. Lepora,《Tactip系列:具有3D打印仿生形态的软光学触觉传感器》,《软机器人》5, 216–227 (2018)。

19. A. Alspach, K. Hashimoto, N. Kuppuswamy, R. Tedrake,《Soft-bubble:一种高度顺应性、高密度几何触觉传感器,用于机器人操作》,在2019年第二届IEEE国际软机器人会议(RoboSoft)中(IEEE,2019年),第597-604页。

20. M. Lambeta, P. W. Chou, S. Tian, B. Yang, B. Maloon, V. R. Most, D. Stroud, R. Santos, A. Byagowi, G. Kammerer, D. Jayaraman, R. Calandra,《DiGit: 一种用于手内操控的低成本、紧凑、高分辨率触觉传感器设计》,《IEEE机器人与自动化快报》5, 3838–3845 (2020)。

21. A. Padmanabha, F. Ebert, S. Tian, R. Calandra, C. Finn, S. Levine,《Omnitact:一种多方向高分辨率触觉传感器》,在2020年IEEE国际机器人与自动化会议(ICRA)中(IEEE,2020年),第618-624页。

22. S. Wang, Y. She, B. Romero, E. Adelson,《GelSight Wedge:通过紧凑的机器人手指测量高分辨率的3D接触几何》,在2021年IEEE国际机器人与自动化会议(ICRA)中(IEEE,2021年),第6468-6475页。

23. W. K. Do, M. Kennedy,《Densetact: 用于密集形状重建的光学触觉传感器》,在2022年国际机器人与自动化会议(ICRA)中(IEEE,2022年),第6188-6194页。

24. S. Wang, M. M. Lambeta, P.-W. Chou, R. Calandra,《Tacto: 一种快速、灵活、开源的高分辨率视觉触觉传感器模拟器》,《IEEE机器人与自动化快报》7, 3930-3937 (2022)。

25. P. Sodhi, M. Kaess, M. Mukadam, S. Anderson,《PatchGraph:具有学习表面法线的手内触觉跟踪》,在2022年国际机器人与自动化会议(ICRA)中(IEEE,2022年),第2164-2170页。

26. S. Suresh, Z. Si, J. G. Mangelson, W. Yuan, M. Kaess,《ShapeMap 3D:通过密集触摸和视觉实现高效的形状映射》,在2022年国际机器人与自动化会议(ICRA)中(IEEE,2022年),第7073-7080页。

27. Y. Xie, T. Takikawa, S. Saito, O. Litany, S. Yan, N. Khan, F. Tombari, J. Tompkin, V. Sitzmann, S. Sridhar,《视觉计算及其他领域的神经场》,《计算机图形论坛》41, 641-676 (2022)。

28. B. Mildenhall, P. P. Srinivasan, M. Tancik, J. T. Barron, R. Ramamoorthi, R. Ng,《NeRF:将场景表示为用于视图合成的神经辐射场》,《ACM通讯》65, 99-106 (2021)。

29. T. Müller, A. Evans, C. Schied, A. Keller,《带有多分辨率哈希编码的即时神经图形基元》,《ACM图形学汇刊》41, 1-15 (2022)。

30. Z. Li, T. Müller, A. Evans, R. H. Taylor, M. Unberath, M.-Y. Liu, C.-H. Lin,《Neuralangelo: 高保真神经表面重建》,在2023年IEEE/CVF计算机视觉与模式识别会议(CVPR)中(IEEE,2023年),第8456-8465页。

31. J. Ortiz, A. Clegg, J. Dong, E. Sucar, D. Novotny, M. Zollhoefer, M. Mukadam,《iSDF:用于机器人感知的实时神经符号距离场》,在《机器人:科学与系统》会议论文集中(RSS Foundation, 2022)。

32. E. Sucar, S. Liu, J. Ortiz, A. J. Davison,《iMaP:实时隐式映射和定位》,在2021年IEEE/CVF国际计算机视觉会议(ICCV)中(IEEE,2021年),第6229-6238页。

33. Z. Zhu, S. Peng, V. Larsson, W. Xu, H. Bao, Z. Cui, M. R. Oswald, M. Pollefeys,《Nice-SLAM:用于SLAM的神经隐式可扩展编码》,在2022年IEEE/CVF计算机视觉与模式识别会议(CVPR)中(IEEE,2022年),第12786-12796页。

34. B. Wen, J. Tremblay, V. Blukis, S. Tyree, T. Muller, A. Evans, D. Fox, J. Kautz, S. Birchfield,《bundleSDF:用于未知物体的神经6-DoF跟踪和3D重建》,在2023年IEEE/CVF计算机视觉与模式识别会议(CVPR)中(IEEE,2023年),第606-617页。

35. A. Yu, V. Ye, M. Tancik, A. Kanazawa,《PixelNeRF:从一张或几张图像生成神经辐射场》,在2021年IEEE/CVF计算机视觉与模式识别会议(CVPR)中(IEEE,2021年),第4578-4587页。

36. J. J. Park, P. Florence, J. Straub, R. Newcombe, S. Lovegrove,《DeepSDF:用于形状表示的连续符号距离函数学习》,在2019年IEEE/CVF计算机视觉与模式识别会议(CVPR)中(IEEE,2019年),第165-174页。

37. L. Yen-chen, P. Florence, J. T. Barron, A. Rodriguez, P. Isola, T.-Y. Lin,《iNeRF:反转神经辐射场以进行姿态估计》,在2021年IEEE/RSJ国际智能机器人与系统会议(IROS)中(IEEE,2021年),第1323-1330页。

38. P. Grote, J. Ortiz-Haro, M. Toussaint, O. S. Oguz,《用于机器人操控规划的关节物体神经场表示》,arXiv:2309.07620 [cs.Ro] (2023)。

39. S. Le Cleac’h, H.-X. Yu, M. Guo, T. A. Howell, R. Gao, J. Wu, Z. Manchester, M. Schwager,《神经对象的动力学增强可微物理仿真》,《IEEE机器人与自动化快报》8, 2780-2787 (2023)。

40. D. Driess, I. Schubert, P. Florence, Y. Li, M. Toussaint,《使用神经辐射场的强化学习》,《神经信息处理系统进展》35, 16931 (2022)。

41. Y. Wi, A. Zeng, P. Florence, N. Fazeli,《ViRDo++:真实世界中可视触觉的可变形物体动态和感知》,在第6届机器人学习会议(ML Research Press, 2023年),第1806-1816页。

42. Y. Li, S. Li, V. Sitzmann, P. Agrawal, A. Torralba,《用于视觉运动控制的3D神经场景表示》,在第5届机器人学习会议(ML Research Press, 2022年),第112-123页。

43. S. Zhong, A. Albini, O. P. Jones, P. Maiolino, I. Posner,《触摸NeRF:利用神经辐射场生成触觉传感数据》,在第6届机器人学习会议(ML Research Press, 2022年),第1-11页。

44. J. Ichnowski, Y. Avigal, J. Kerr, K. Goldberg,《Dex-NeRF:利用神经辐射场抓取透明物体》,在第5届机器人学习会议(ML Research Press, 2022年),第526-536页。

45. J. Kerr, L. Fu, H. Huang, Y. Avigal, M. Tancik, J. Ichnowski, A. Kanazawa, K. Goldberg,《evo-NeRF:用于顺序机器人抓取透明物体的演化NeRF》,在第6届机器人学习会议(ML Research Press, 2022年),第353-367页。

46. M. Moll, M. A. Erdmann, 《“利用主动触觉传感器重建未知物体的形状和运动”》,收录于《机器人学算法基础V》(Springer, 2004年),第293-309页。

47. J. Ilonen, J. Bohg, V. Kyrki,《融合视觉和触觉感知以在抓取时进行3D物体重建》,在2013年IEEE国际机器人与自动化会议(IEEE, 2013年),第3547-3554页。

48. S. Wang, J. Wu, X. Sun, W. Yuan, W. T. Freeman, J. B. Tenenbaum, E. H. Adelson,《通过单目视觉、触觉和形状先验进行3D形状感知》,在2018年IEEE/RSJ国际智能机器人与系统会议(IROS)(IEEE, 2018年),第1606-1613页。

49. E. J. Smith, R. Calandra, A. Romero, G. Gkioxari, D. Meger, J. Malik, M. Drozdzal,《从视觉和触觉进行3D形状重建》,在第34届神经信息处理系统国际会议论文集,H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, H. Lin, 编辑(Curran Associates Inc.,2020年),第14193-14206页。

50. W. Xu, Z. Yu, H. Xue, R. Ye, S. Yao, C. Lu,《基于视觉触觉感知的手内物体重建》,在2023年IEEE/CVF计算机视觉与模式识别会议(CVPR)(IEEE, 2023年),第8803-8812页。

51. Y. Chen, A. E. Tekden, M. P. Deisenroth, Y. Bekiroglu,《基于滑动触觉的多指手探索未知物体形状的建模》,在2023年IEEE/RSJ国际智能机器人与系统会议(IROS)中(IEEE,2023年),第8943-8950页。

52. M. Comi, Y. Lin, A. Church, A. Tonioni, L. Aitchison, N. F. Lepora,《TouchSDF: 使用基于视觉的触觉感知的3D形状重建的DeepSDF方法》,《IEEE机器人与自动化快报》9, 5719-5726 (2024)。

53. K.-T. Yu, A. Rodriguez,《基于触觉和视觉感知的实时状态估计:应用于平面操控》,在2018年IEEE国际机器人与自动化会议(ICRA)中(IEEE,2018年),第7778-7785页。

54. A. S. Lambert, M. Mukadam, B. Sundaralingam, N. Ratliff, B. Boots, D. Fox,《通过视觉-触觉感知联合推断运动学和力的轨迹》,在2019年国际机器人与自动化会议(ICRA)中(IEEE,2019年),第3165-3171页。

55. P. Sodhi, M. Kaess, M. Mukadam, S. Anderson,《为基于因子图的估计学习触觉模型》,在2021年IEEE国际机器人与自动化会议(ICRA)中(IEEE,2021年),第13686-13692页。

56. A. Petrovskaya, O. Khatib,《通过触觉进行物体的全球定位》,《IEEE机器人学报》27, 569-585 (2011)。

57. G. M. Caddeo, N. A. Piga, F. Bottarel, L. Natale,《使用多种基于视觉的触觉传感器的碰撞感知手内6D物体姿态估计》,在2023年IEEE国际机器人与自动化会议(ICRA)中(IEEE,2023年),第719-725页。

58. K.-T. Yu, J. Leonard, A. Rodriguez,《通过平面推动恢复形状和姿态》,在2015年IEEE/RSJ国际智能机器人与系统会议(IROS)中(IEEE,2015年),第1208-1215页。

59. S. Suresh, M. Bauza, K.-T. Yu, J. G. Mangelson, A. Rodriguez, M. Kaess,《触觉SLAM:基于平面推动的形状和姿态的实时推断》,在2021年IEEE国际机器人与自动化会议(ICRA)中(IEEE,2021年),第11322-11328页。

60. C. Strub, F. Wörgötter, H. Ritter, Y. Sandamirskaya,《在物体形状的触觉探索过程中校正姿态估计:一项神经机器人研究》,在第四届国际发展与学习及表观遗传机器人会议(IEEE,2014年),第26-33页。

61. C. Pan, M. Lepert, S. Yuan, R. Antonova, J. Bohg,《基于触觉感知的未知物体插入手内操控》,在2023年IEEE/RSJ国际智能机器人与系统会议(IROS)中(IEEE,2023年),第8765-8771页。

62. J. Zhao, M. Bauza, E. H. Adelson,《FingerSLAM:基于视觉-触觉反馈的闭环未知物体定位与重建》,在2023年IEEE国际机器人与自动化会议(ICRA)中(IEEE,2023年),第8033-8039页。

63. Wonik Robotics,《Allegro Hand》, https://allegrohand.com/。

64. J. Tremblay, B. Wen, V. Blukis, B. Sundaralingam, S. Tyree, S. Birchfield,《Diff-DoPE:可微分深度物体姿态估计》,arXiv:2310.00463 [cs.CV] (2023)。

65. Y. Xiang, T. Schmidt, V. Narayanan, D. Fox,《PoseCNN:用于复杂场景中的6D物体姿态估计的卷积神经网络》,在《机器人:科学与系统》会议论文集中(RSS Foundation,2018年)。

66. M. Bauza, O. Canal, A. Rodriguez,《从高分辨率触觉印记进行触觉映射与定位》,在2019年国际机器人与自动化会议(ICRA)中(IEEE,2019年),第3811-3817页。

67. J. Tremblay, T. To, B. Sundaralingam, Y. Xiang, D. Fox, S. Birchfield,《用于家庭物体语义机器人抓取的深度物体姿态估计》,在第二届机器人学习会议(ML Research Press, 2018年),第306-316页。

68. A. Knapitsch, J. Park, Q.-Y. Zhou, V. Koltun,《坦克与寺庙:大型场景重建基准测试》,《ACM图形学汇刊》36, 1-13 (2017)。

69. M. Tatarchenko, S. R. Richter, R. Ranftl, Z. Li, V. Koltun, T. Brox,《单视图3D重建网络学到了什么?》,在2019年IEEE/CVF计算机视觉与模式识别会议(CVPR)中(IEEE,2019年),第3400-3409页。

70. V. Makoviychuk, L. Wawrzyniak, Y. Guo, M. Lu, K. Storey, M. Macklin, D. Hoeller, N. Rudin, A. Allshire, A. Handa, G. State,《Isaac Gym: 基于GPU的高性能物理模拟用于机器人学习》,arXiv:2108.10470 [cs.Ro] (2021)。

71. Y. Labbé, L. Manuelli, A. Mousavian, S. Tyree, S. Birchfield, J. Tremblay, J. Carpentier, M. Aubry, D. Fox, J. Sivic,《Megapose: 通过渲染与比较进行新物体的6D姿态估计》,在第六届机器人学习会议(ML Research Press, 2023年),第715-725页。

72. J. Sun, Z. Shen, Y. Wang, H. Bao, X. Zhou,《LoFTR: 使用Transformer的无检测局部特征匹配》,在2021年IEEE/CVF计算机视觉与模式识别会议(CVPR)中(2021年),第8922-8931页。

73. M. Bauza, A. Bronars, A. Rodriguez,《Tac2Pose:从初次触碰进行触觉物体姿态估计》,《国际机器人研究杂志》42, 1185-1209 (2023)。

74. P.-E. Sarlin, D. DeTone, T. Malisiewicz, A. Rabinovich,《SuperGlue: 通过图神经网络学习特征匹配》,在2020年IEEE/CVF计算机视觉与模式识别会议(CVPR)中(IEEE,2020年),第4938-4947页。

75. F. Dellaert, M. Kaess,《用于机器人感知的因子图》,《机器人学基础与趋势》6, 1-139 (2017)。

76. W. E. Lorensen, H. E. Cline,《Marching Cubes:一种高分辨率3D表面构建算法》,收录于《计算机图形学:塑造领域的开创性努力》,R. Wolfe编辑(计算机协会,1998年),第347-353页。

77. M. Bauza, A. Bronars, Y. Hou, I. Taylor, N. Chavan-Dafle, A. Rodriguez,《SimPle,一种在仿真中学习的视觉触觉方法,用于精确抓取、定位、重抓和放置物体》,《科学机器人》9, eadi8808 (2024)。

78. L. Keselman, K. Shih, M. Hebert, A. Steinfeld,《优化基于成对用户偏好的算法》,在2023年IEEE/RSJ国际智能机器人与系统会议(IROS)中(IEEE,2023年),第4161-4167页。

79. A. Handa, T. Whelan, J. McDonald, A. J. Davison,《RGB-D视觉里程计、3D重建和SLAM的基准测试》,在2014年IEEE国际机器人与自动化会议(ICRA)中(IEEE,2014年),第1524-1531页。

80. E. J. Smith, D. Meger, L. Pineda, R. Calandra, J. Malik, A. Romero-Soriano, M. Drozdzal,《来自视觉和触觉的主动3D形状重建》,在第35届神经信息处理系统国际会议论文集(Curran Associates Inc.,2024年),第16064-16078页。

81. B. Amos, S. Anderson, R. T. Q. Chen, D. DeTone, J. Dong, T. Fan, M. Monge, M. Mukadam, J. Ortiz, L. Pineda, P. Sodhi, S. Venkataraman, A. Wang,《Theseus: 用于可微非线性优化的库》,在第36届神经信息处理系统会议(S. Koyejo, S. Mohamed, A. Agarwal, D. Belgrave, K. Cho, A. Oh, 编辑)(Curran Associates Inc., 2022年),第3801-3818页。

82. C. Cadena, L. Carlone, H. Carrillo, Y. Latif, D. Scaramuzza, J. Neira, I. Reid, J. J. Leonard,《同时定位与映射(SLAM)的过去、现在和未来:走向鲁棒感知时代》,《IEEE机器人学报》32, 1309-1332 (2016)。

83. J. T. Barron, B. Mildenhall, M. Tancik, P. Hedman, R. Martin-Brualla, P. P. Srinivasan,《Mip-NeRF: 用于抗锯齿神经辐射场的多尺度表示》,在2021年IEEE/CVF国际计算机视觉会议(ICCV)中(IEEE,2021年),第5855-5864页。

84. B. Kerbl, G. Kopanas, T. Leimkühler, G. Drettakis,《用于实时辐射场渲染的3D高斯点》,《ACM图形学汇刊》42, 1-14 (2023)。

85. J. Kerr, H. Huang, A. Wilcox, R. I. Hoque, J. Ichnowski, R. Calandra, K. Goldberg,《自监督的视觉触觉预训练以定位和跟踪衣物特征》,在《机器人:科学与系统》会议论文集中(RSS Foundation,2023年)。

86. D. Driess, J.-S. Ha, M. Toussaint, R. Tedrake,《通过签名距离场学习模型以进行操控规划》,在第五届机器人学习会议(ML Research Press,2022年),第245-255页。

87. C. Higuera, B. Boots, M. Mukadam,《学习阅读盲文:通过扩散模型弥合触觉现实差距》,arXiv:2304.01182 [cs.Ro] (2023)。

88. Z. Si, G. Zhang, Q. Ben, B. Romero, Z. Xian, C. Liu, C. Gan,《DiFFtactile: 用于接触密集型机器人操控的基于物理的可微触觉模拟器》,《第十二届国际学习表征会议》(ICLR,2024年)。

89. E. Dexheimer, A. J. Davison,《学习深度协方差函数》,在2023年IEEE/CVF计算机视觉与模式识别会议(CVPR)中(IEEE,2023年),第13122-13131页。

90. J. A. Fishel, G. E. Loeb,《使用Biotac感知触觉微振动——与人类敏感度的比较》,在2012年第四届IEEE RAS & EMBS生物医学机器人与生物力学国际会议(BioRob)中(IEEE,2012年),第1122-1127页。

91. C. Zhang, D. Han, Y. Qiao, J. U. Kim, S.-H. Bae, S. Lee, C. S. Hong,《更快的Segment Anything:面向移动应用的轻量化SAM》,arXiv:2306.14289 [cs.CV] (2023)。

92. M. Kaess, H. Johannsson, R. Roberts, V. Ila, J. J. Leonard, F. Dellaert,《iSAM2: 使用贝叶斯树的增量平滑和映射》,《国际机器人研究杂志》31, 216-235 (2012)。

93. D. DeTone, T. Malisiewicz, A. Rabinovich,《Superpoint:自监督的兴趣点检测和描述》,在2018年IEEE/CVF计算机视觉与模式识别工作坊(CVPRW)中(IEEE,2018年),第224-236页。

94. C.-Y. Wu, J. Johnson, J. Malik, C. Feichtenhofer, G. Gkioxari,《多视图压缩编码用于3D重建》,在2023年IEEE/CVF计算机视觉与模式识别会议(CVPR)中(IEEE,2023年),第9065-9075页。

95. Y. Hong, K. Zhang, J. Gu, S. Bi, Y. Zhou, D. Liu, F. Liu, K. Sunkavalli, T. Bui, H. Tan,《LRM:从单幅图像生成3D的大规模重建模型》,arXiv:2311.04400 [cs.CV] (2023)。

96. B. Sundaralingam, T. Hermans,《使用触觉指尖推断手内物体动态》,《IEEE机器人学报》37, 1115-1126 (2021)。

97. S. Garrido-Jurado, R. Muñoz-Salinas, F. J. Madrid-Cuevas, M. J. Marín-Jiménez,《在遮挡情况下自动生成和检测高可靠性标识》,《模式识别》47, 2280-2292 (2014)。

98. P. Furgale, J. Rehder, R. Siegwart,《用于多传感器系统的统一时间和空间校准》,在2013年IEEE/RSJ国际智能机器人与系统会议(IEEE,2013年),第1280-1286页。

99. T. Hodan, F. Michel, E. Brachmann, W. Kehl, A. G. Buch, D. Kraft, B. Drost, J. Vidal, S. Ihrke, X. Zabulis, C. Sahin, F. Manhardt, F. Tombari, T.-K. Kim, J. Matas, C. Rother,《BOP: 6D物体姿态估计基准》,在《欧洲计算机视觉会议》论文集(Springer Nature, 2018年),第19-34页。

100. A. Geiger, P. Lenz, C. Stiller, R. Urtasun,《视觉遇上机器人学:KITTI数据集》,《国际机器人研究杂志》32, 1231-1237 (2013)。

101. S. James, Z. Ma, D. R. Arrojo, A. J. Davison,《RLBench: 机器人学习基准和学习环境》,《IEEE机器人与自动化快报》5, 3019–3026 (2020)。

102. Revopoint, Revopoint PoP 3 3D扫描仪, https://revopoint3d.com/。

103. B. Calli, A. Singh, J. Bruce, A. Walsman, K. Konolige, S. Srinivasa, P. Abbeel, A. M. Dollar,《Yale-CMU-Berkeley 数据集用于机器人操作研究》,《国际机器人研究杂志》36, 261–268 (2017)。

104. S. Brahmbhatt, A. Handa, J. Hays, D. Fox,《ContactGrasp:基于接触的多指抓取合成》,在2019年IEEE/RSJ国际智能机器人与系统会议(IROS)中(IEEE,2019年),第2386–2393页。

105. A. Rosinol, J. J. Leonard, L. Carlone,《NeRF-SLAM:基于神经辐射场的实时稠密单目SLAM》,在2023年IEEE/RSJ国际智能机器人与系统会议(IROS)中(IEEE,2023年),第3437–3444页。

106. D. Azinović, R. Martin-Brualla, D. B. Goldman, M. Nießner, J. Thies,《神经RGB-D表面重建》,在2022年IEEE/CVF计算机视觉与模式识别会议(CVPR)中(IEEE,2022年),第6290–6301页。

107. M. Tancik, P. P. Srinivasan, B. Mildenhall, S. Fridovich-Keil, N. Raghavan, U. Singhal, R. Ramamoorthi, J. T. Barron, R. Ng,《Fourier特征让网络在低维领域中学习高频函数》,在《神经信息处理系统会议》33 (NeurIPS 2020)中,H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, H. Lin编辑(Curran Associates,2020年),第7537–7547页。

108. J. L. Schonberger, J.-M. Frahm,《运动结构重访》,在2016年IEEE计算机视觉与模式识别会议(CVPR)中(IEEE,2016年),第4104–4113页。

109. A. Kirillov, E. Mintun, N. Ravi, H. Mao, C. Rolland, L. Gustafson, T. Xiao, S. Whitehead, A. C. Berg, W.-Y. Lo, P. Dollár, R. Girshick,《Segment Anything》,在2023年IEEE/CVF国际计算机视觉会议(ICCV)中(IEEE,2023年),第4015–4026页。

110. R. Ambrus, V. Guizilini, N. Kuppuswamy, A. Beaulieu, A. Gaidon, A. Alspach,《用于软质视觉触觉传感器的单目深度估计》,在2021年IEEE第四届软体机器人国际会议(RoboSoft)中(IEEE,2021年),第643–649页。

111. R. Ranftl, A. Bochkovskiy, V. Koltun,《用于密集预测的视觉Transformers》,在2021年IEEE/CVF国际计算机视觉会议(ICCV)中(IEEE,2021年),第12179–12188页。

112. A. Ross, V. L. Willson,《配对样本t检验》, 收录于《基础和高级统计测试:撰写结果部分及创建表格和图形》(Sense Publishers,2017年),第17–19页。

113. A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, N. Houlsby,《一张图像值得16x16个字:大规模图像识别的Transformers》,在第九届国际学习表征会议(ICLR,2021年)。

114. D. P. Kingma, J. Ba,《Adam:一种随机优化方法》,在第三届国际学习表征会议(ICLR,2015年)。

115. J. Schulman, F. Wolski, P. Dhariwal, A. Radford, O. Klimov,《近端策略优化算法》,arXiv:1707.06347 [cs.LG] (2017)。

声明:本文素材来源于https://www.science.org/doi/epdf/10.1126/scirobotics.adl0628,致敬原作者。侵权可后台联系删除。

篇幅所限,以上仅摘录部分内容,

如需获取英文原版、中文译文请加入知识星球,

并搜索编号“A253”获取详细资料。


另在知识星球新增了一篇非公开资料

三维高斯泼溅技术最新进展综述S159

AI工业
树立大江大海大格局,练基础基层基本功。共同打造落地的、一流的工业智能产品。
 最新文章