剑桥&ETH研究综述:NeRF在机器人技术中的应用

文摘   2024-09-15 00:01   北京  

精准的三维环境表示一直是计算机视觉和机器人领域的一个长期目标。最近出现的神经隐式表示为该领域带来了革命性的创新,因为隐式表示能够实现多种功能。其中,神经辐射场(NeRF)由于其巨大的表征优势,如简化的数学模型、紧凑的环境存储和连续的场景表示,引发了一种趋势。除了计算机视觉,NeRF在机器人领域也显示出巨大的潜力。因此,本综述是为了全面了解机器人领域的NeRF。通过探索NeRF的优势和局限性,以及它目前的应用和未来的潜力,我们希望能阐明这一有前景的研究领域。从NeRF如何进入机器人领域的角度来看,我们的调查分为两个主要部分:NeRF在机器人学中的应用和NeRF在机械学中的进展。在第一节中,我们从感知和交互的角度介绍和分析了一些已经或可能用于机器人领域的工作。在第二节中,我们展示了一些与改进NeRF自身特性有关的工作,这些工作对于在机器人领域部署NeRF至关重要。在综述的讨论部分,我们总结了现有的挑战,并提供了一些有价值的未来研究方向供参考。


NERF在机器人技术中的应用

NeRF的优势,如能够实现简化的数学模型、紧凑的环境存储和连续的场景表示,使其成为机器人应用的一个有吸引力的工具。这些特性在机器人技术中实现场景理解以及通过与环境的交互完成特定任务方面发挥着至关重要的作用。


A.场景理解

1)重建:我们将相关工作分为静态重建和动态重建,并使用时间线进行呈现,如图3所示。

(a)静态重建:机器人中的场景重建是指通过分析感知的传感器数据来对周围环境的3D表示进行建模的过程。室内和室外场景属性的差异给重建任务带来了明显的挑战。因此,我们将讨论分为室内场景重建和室外场景重建,如图4所示。

室内场景范围有限,纹理丰富,结构清晰。iMAP[20]在同时定位和映射(SLAM)任务的背景下,尝试将MLP结构和体积密度表示相结合,如NeRF[1]。通过基于损失引导采样的精心设计的策略和重放缓冲区的构建,iMAP仅从2D图像中获得了令人满意的SLAM结果。然而,MLP结构的有限能力导致了灾难性的遗忘和耗时的推理问题,限制了重建的规模和效率。体积密度是一种概率表示,具有外观几何模糊性[18],导致低精度重建结果。

室内场景范围有限,纹理丰富,结构清晰。iMAP在SLAM任务的背景下,尝试将MLP结构和体积密度表示相结合,如NeRF。通过基于损失引导采样的精心设计的策略和重放缓冲区的构建,iMAP仅从2D图像中获得了令人满意的SLAM结果。然而,MLP结构的有限能力导致了灾难性的遗忘和耗时的推理问题,限制了重建的规模和效率。体积密度是一种概率表示,具有外观几何模糊性,导致低精度重建结果。

(b)动态重建:长期运行的机器人通常在复杂环境中面临动态变化。对于基于静态场景假设的朴素的NeRF模型来说,动力学无疑会破坏学习过程,导致伪影。此外,在动态场景中,每个时刻只包含一个观察,这使得呈现严重缺乏来自不同视图的空间一致性约束。因此,如何在动态环境中学习基于NeRF的模型至关重要。相关工作如图5所示。


在最初的探索阶段,预计将通过添加附加条件(如时间或跟踪姿态变换)来端到端地表示动力学。STaR对刚性动态NeRF进行建模,以表示场景中的单个运动目标,并优化与时间相关的刚性姿势来跟踪运动。为了构建动态场,Xian等人将原始三维空间坐标扩展为4D时空坐标。DyNeRF使用时间相关编码而不是时间作为动态场的条件,增强了拓扑变化和瞬态效应的表示能力。Ost等人基于图结构构建动态场景表示。每个叶节点对应于不同的局部辐射场。此外,同一类别的目标共享局部辐射场的权重。

2)分割和编辑:场景分割和编辑的时间轴统计如图6所示。



(a)场景分割:场景分割是指根据特定的规则将感知到的场景划分为不同的组件的过程。与2D分割相比,3D分割更好地满足了机器人在现实世界环境中的操作要求。NeRF提出了一种创新的方法来监督2D姿态图像的3D分割。根据分割目标,相关工作分为三组:实例分割、语义分割和全景分割,如图7所示。


(b)场景编辑:场景编辑是指根据用户提供的提示修改场景内容以达到预期效果的过程。编辑后的场景可以作为机器人训练数据的来源,而这些数据在现实世界中收集起来往往很困难或耗时。NeRF在增强编辑结果的真实性和3D一致性方面发挥着至关重要的作用。根据编辑目标,我们将相关作品分为目标外观和几何编辑、目标插入和删除编辑以及场景风格化编辑,如图8所示。

B.场景交互

导航和操纵是机器人与环境或人类互动的典型场景。相关工作的时间表如图9所示。



1)导航:导航的核心组件包括定位和路径规划。本地化解决了机器人在哪里的问题,而路径规划则解决了机器人如何到达目的地的问题。

(a)定位:定位包括通过传感器数据分析估计6自由度姿态(位置和方向)。根据先前环境地图的存在与否,这些定位方法可以分为两类:基于已知地图的定位和基于未知地图的定位,如图10所示。



(b)路径规划:NeRF模型学习的几何图形指示空间占用,使一些工作中的导航任务的经典路径规划算法能够直接集成。基于朴素NeRF的路径规划和变体的基本思想如图11所示。


 2)Manipulation:操纵通常包括使用机械臂或夹具来执行任务,取代人手。在操纵的背景下,准确估计物体的姿态对于确定机器人的最终状态至关重要,例如抓取姿态。在初始状态和最终状态之间,可以通过运算方法生成一系列中间状态。

(a)物体姿态估计:与机器人定位不同,机器人定位估计机器人在世界上的6D姿态,物体6D姿态估计是指机器人根据视觉数据推断环境中物体的6D姿势。此外,由于特定的物理结构,我们将铰接目标的姿态估计与一般目标的姿态估算分开,如图12所示。


(b)操作:与2D感知方法相比,NeRF的3D结构偏差包含更丰富的场景信息,当与一些操作规划方法结合时,可以直接用于特定的操作任务。随着不断的探索,一些神经变体的概念和方法扩展了朴素NeRF的表示,形成了更具针对性的操作任务表达,并取得了令人满意的性能。如图13所示。



NERF在机器人领域的研究进展

我们知道普通的NeRF是不完美的,一些新的变体模型开发了NeRF的某些特性,并允许在机器人中更有效地应用。与机器人应用相关的增强NeRF特性的收集工作的时间表如图14所示。



A.现实

真实性是基于NeRF的模型的一个重要属性。Vanilla NeRF将成像过程解释为空间粒子辐射的集成,避免了复杂光线传播和反射的计算。然而,牺牲了一些灵活性,尤其是在处理涉及不同环境照明和不同材料的场景时,如图15所示。


1)照明:在编辑部分,这些方法在处理照明和阴影方面面临挑战,严重影响了编辑场景的真实性。这提醒我们,准确表示照明效果对于逼真渲染至关重要。

2)材质:属于目标本身的材质特性通常包含场景中曲面的反射特性,包括漫反射和镜面反射。这些特性决定光到达曲面后的效果,包括反射和阴影的生成。

B.效率

本文将提高效率的努力分为两个方面,即快速和few-shot。前者强调提高运行时效率,而后者侧重于提高数据利用效率。

1)快速:基于MLP网络的耗时多点查询过程主要限制了Vanilla NeRF的速度。如图16所示采用了来自不同角度的各种加速策略来优化或替换耗时的查询过程。


2)Few-Shot:呈现少镜头新颖视图的挑战在于可用信息的稀缺性。在只有少量观测的情况下,vanilla NeRF要么无法收敛,要么过度拟合为平滑解。为了在几个镜头设置中实现理想的模型,需要建立额外的约束关系,对应于提取更有价值的先验知识,如图17所示。

C. Adaptability

Vanilla NeRF在大规模和看不见的场景中的不令人满意的性能显著限制了其在机器人上部署时的适应性。在这两种环境中提高性能将大大扩大其在不同环境中的适用性。

1)大规模:在大规模场景中,只有少数视点包含小范围的共同可见观测。此外,在无边界的场景中,物体的遥远细节观察得不太彻底。不同的零件根据不同的规则分别建模,如图18所示。这避免了单个模型在各个部分之间难以妥协,并保持了结果的平稳性。

2)泛化:Vanilla NeRF在设计中隐含地记忆了一个场景,导致网络过度拟合单个场景,使其无法在未知场景中表现良好。因此,为了实现泛化,网络需要学习处理场景特征的一般能力,而不是仅仅依靠记忆。如图19所示。

讨论

A.Map Fusion

正如我们所知,机器人通常会移动,周围的环境会随着机器人位置和时间的变化而变化。因此,机器人需要随着机器人的移动而更新历史地图。此外,对于大规模环境,使用多个机器人联合构建3D地图更高效。因此,地图融合是NeRF在机器人三维地图绘制中的一个重要问题。

在这里,我们定义了两种类型的融合:时间融合和空间融合。时间融合是指同一场景随时间的变化,包括自然环境变化和机器人交互引起的变化,如不同时间的照明变化和机器人互动引起的物体位置变化。空间融合涉及在大规模环境中合并NeRF场景图,允许一个机器人适应灵活的空间范围或来自多个机器人的多个NeRF图。

时间融合侧重于准确识别变化的位置,例如与动态工作相关的变化,仅更新变化的部分,并将历史地图与当前观测结果融合。通常,场景的内容不太可能在短时间内发生巨大变化,因此重复的全局重建是不明智的。

另一方面,空间融合侧重于两个或多个地图之间的精确配准。准确和平滑的配准涉及2D-2D、2D-3D和3D-3D,有时还包括时间维度。此外,也有机器人的探索因故障而中断的情况。当它返回到场景时,它无法保持与以前相同的状态。在这种情况下,我们认为历史信息的多尺度融合是必要的。关于地图融合,我们还考虑了在探索陌生环境时多个机器人之间的信息共享问题。使用多个机器人是有效探索新环境的最直接方法之一。然而,如何融合不同机器人获得的环境信息的问题仍然存在。

一种性能良好的时空NeRF地图融合方法提供了准确而丰富的地图先验,可以指导更稳健的机器人动作。

B.场景级环境中的机器人重定位

一旦有了完整的NeRF地图,机器人就需要使用地图和观测结果来确定其当前姿势,类似于iNeRF。然而,由于梯度为零的可能性,这种优化方法可能难以在场景级别上工作。为了解决这个问题,我们有两个粗略的想法。

首先,我们认为从粗到细的多尺度结构是有效的。与我们的常识类似,可以通过在更大的尺度上找到相对相似的区域,然后在更小的尺度上微调姿势来获得粗略的初始姿势。其次,我们认为,在地图上添加额外的特征作为标记,然后进行机器人观察,可以引导优化过程朝着正确的方向发展。

此外,这种重新定位不仅应考虑外观信息,还应通过语义和多个传感器等多信息融合,避免由于场景变化而导致的重新定位失败。

C.更强的泛化能力

我们已经介绍了一些泛化工作,通过学习基于从编码神经网络中提取的特征的渲染图像。然而,由于编码网络的生成限制,这种泛化仅适用于类似于训练数据的特殊场景。对于各种场景,离理想的泛化还有一段距离,因为真实环境具有不同的特征,如不同的机械特性(如刚体、软体、流体等)、几何结构(如方形和圆柱形的椅子)和复杂的照明(如昼夜)。

我们认为,基于特征处理提高泛化能力有两个方向。一方面,使用或微调多个场景的大型预训练特征模型,而不是学习小型特征神经网络,是一个很好的选择。基础网络设计的演变允许使用更大规模的数据集,训练具有更多神经元和更深层次的网络。训练一个大型模型使其能够从不同的场景中提取高级有效的场景特征,从而能够泛化到更真实和复杂的环境中。另一方面,与结合大型模型相比,对于节省资源的小规模特定网络,精确的世界物理机制值得研究。精确的物理机制可以作为神经网络提取场景不同部分所需特征的基础,并将不同特征集成到NeRF模型中,以提高真实场景中的泛化能力。

D.Rendering to Real

NeRF逼真地构建场景的能力在为训练机器人生成训练数据和模拟环境方面具有巨大潜力。NeRF2Real和RialTo已经在这个方向上进行了初步探索。机器人训练数据的获取至关重要,尤其是对于从难以在真实场景中收集的场景中生成数据而言,例如自动驾驶场景中的异常车辆驾驶数据或人类难以操作的极端环境数据(如沙漠、深海、太空等)。没有经过充分训练的机器人在角落和不熟悉的环境中容易出现故障,导致重大损失。此外,在真实环境中训练机器人的成本很高。传统的环境建模需要有经验的专业人员精心模拟,以获得更真实的数据,这是低效的。因此,利用基于NeRF的方法来渲染数据并成功地将其传输到训练真实机器人中具有很大的价值。然而,这种方法面临着挑战,如缺乏物理现实性,以及在角落案例和极端环境中缺乏可学习的数据。

物理真实感的缺乏表现为对真实照明和阴影中的详细变化的不正确渲染。在角落情况和极端环境中,可学习数据的稀缺性使得预测物理动力学相互作用的动态变化变得困难。为了应对这些挑战,一个方向是利用计算机图形学的丰富经验和利用虚拟引擎工具,这有可能带来质的飞跃。此外,基于NeRF的关于使用约束挖掘方法的few-shot工作在解决这些问题方面显示出了有希望的结果,这仍然是进一步勘探的一个有希望的方向。

我们还预计将在结合生成模型方面进行更多探索,如GANs和扩散模型,它们在条件指导下生成理想数据方面表现出非凡的能力。此外,大型模型的生成能力是巨大的——仅凭一些语言提示就可以生成图像或视频。将NeRF与大型模型的生成能力相结合,直接创建3D世界的想法真的很令人兴奋。

E.多模态机器人交互

在现实环境中,机器人被多模态信息包围,包括颜色、几何、语义、声音、味道等。感知多模态信息的形式多种多样,如视觉、嗅觉、听觉、触觉、味觉等。NeRF及其扩展主要关注视觉感知,以从辐射和几何信息的角度理解场景,并对语义进行了一些探索。一些工作已经对听觉和触觉模态进行了初步探索,如AD-NeRF对视频中的音频信号进行编码以生成头部讲话视频,以及Zhong等人的工作。Higuera等人渲染触觉图像。结果表明,基于NeRF的多模态研究是一个值得进一步研究的方向。原因可以定性地理解为,当与其他感官相结合时,视觉上具有挑战性的场景可能并不困难。例如,当将水倒入容器时,由于不透明材料和机械臂的潜在遮挡,视觉感知可能会导致重大错误或困难。相反,可以利用具有不同水位的容器产生的不同音调来确定容器是否被填充。因此,整合多模式场景感知和理解是一个重要的新兴方向,因为我们希望感知信息能够相互增强、互补和验证,最终使机器人适应复杂的现实世界场景。

结论

神经辐射场(NeRF)的表示为机器人领域提供了新的选择,作为一种理解场景和与场景交互的方式。具体而言,NeRF为机器人的许多子任务提供了可靠的选择,如场景理解、重建、动态感知、场景编辑、目标建模、导航和操纵指导。NeRF在增强真实性、效率、可推广性等方面的潜力尚未得到充分探索,这可能会加强NeRF与机器人之间的联系。然而,将NeRF与机器人技术相结合带来了各种需要解决的挑战,并且在该领域还有未知的领域有待探索。在这篇综述中,我们提出了一些有前景的研究方向和初步想法,以启发进一步的研究。通过总结该领域的杰出工作并突出其潜力,我们希望鼓励更多的研究人员探索新的可能性,并在真实的机器人平台上成功实施。

参考

[1] NeRF in Robotics: A Survey

CAAI认知系统与信息处理专委会
CAAI认知系统与信息处理专委会成立于2014年,胡德文教授担任专委会主任,孙富春教授担任荣誉主任,方斌教授担任秘书长。专委会不断吸纳业界人才,会员1000余名。创建了“认知系统与信息处理国际会议”、“机器人智能论坛”等品牌活动。
 最新文章