神经场已经成为计算机视觉和机器人技术中3D场景表示的一种变革性方法,能够从姿势的2D数据中准确推断几何、3D语义和动力学。利用可微分渲染,神经场包括连续隐式和显式神经表示,实现了高保真3D重建、多模态传感器数据的集成和新视点的生成。这项调查探讨了它们在机器人技术中的应用,强调了它们在增强感知、规划和控制方面的潜力。它们的紧凑性、内存效率和可微性,以及与基础模型和生成模型的无缝集成,使其成为实时应用的理想选择,提高了机器人的适应性和决策能力。本文基于200多篇论文,对机器人中的神经场进行了全面的回顾,对各个领域的应用进行了分类,并评估了它们的优势和局限性。首先,我们介绍了四个关键的神经场框架:占用网络、有符号距离场、神经辐射场和高斯散斑。其次,我们详细介绍了神经场在五个主要机器人领域的应用:姿态估计、操作、导航、物理和自动驾驶,重点介绍了关键工作,并讨论了要点和未来的挑战。
项目主页:https://robonerf.github.io/survey/index.html
在机器人领域,NF比传统方法具有几个明显的优势:
高质量3D重建:NF生成环境的详细3D表示,这对于导航、操作和场景理解等任务至关重要。 多传感器集成:NF可以无缝集成来自多个传感器(如LiDAR和RGB摄像头)的数据,提供更稳健和适应性更强的环境感知。 连续和紧凑表示:与固有离散的体素网格或点云不同,NF提供连续表示,使用更少的参数捕获精细的空间细节,提高计算效率。 泛化和适应:经过训练,NF可以生成场景的新视角,即使是从以前看不到的视角,这对于探索或操作任务尤其有价值。这种能力是由可推广的NeRF方法实现的。 与基础模型集成:NF可以与CLIP或DINO等基础模型相结合,使机器人能够解释和响应自然语言查询或其他语义输入。
机器人神经场
在本节中,我们将深入研究神经场在机器人技术五个主要领域的应用:姿态估计、操作、导航、物理和自动驾驶(机器人论文中选定的关键NF的时间线和分类见图3和图5)。以下各小节重点介绍了这些领域的关键工作,全面概述了最先进的方法。我们在每一小节的结尾都讨论了这些领域的关键要点和仍然存在的挑战,为机器人NF的未来研究方向提供了见解。
Neural Fields for Pose Estimation
神经场通过提供鲁棒且高效的方法来估计3D场景中相机和物体的位置和方向,从而改变了姿态估计。本节探讨了两个关键领域:相机姿态估计和物体姿态估计。相机姿态估计侧重于确定相机的视点,这对于建图和重建等任务至关重要。或者,目标姿态估计涉及在场景中定位和定向目标,这对于操作和交互等应用程序至关重要。NF通过基于梯度的技术优化这些任务,要么细化场景表示,要么直接为姿态估计提供可靠的特征。
Neural Fields for Robotic Manipulation
机器人操作的关键挑战之一是获得任务中涉及的目标和环境的精确几何表示。有效的表示还必须捕捉环境动态,提供对目标的强大3D理解。在本节中,我们将探讨NF在操作控制任务中的应用,重点关注3和6自由度(DoF)内的拾取和放置场景。表I总结了利用NF进行操作的方法。
Neural Fields for Navigation
自主导航要求机器人有效地感知和模拟周围环境,以规划无碰撞路径。传统的基于学习的方法通过端到端或模块化系统来应对这一挑战。最近,NF的特性已被证明对运动规划和导航有益。例如,NeRF的密度网格提供了场景的几何近似,有助于避开障碍物或学习动力学模型。已经提出了各种NeRF扩展用于导航;一些人构建表示场景视觉结构的地图,而另一些人则使用自主代理来主动建图环境。下面,我们重点介绍这些最先进的进展,分为四个关键领域:规划、探索、Visual Localization和特征字段。
1)规划:NF的密度网格提供了一个近似的几何形状,然后在迭代滚动地平线循环中与轨迹规划器和状态估计器一起使用,使自主代理能够使用RGB相机动态操作环境以获得反馈。
2)探索:另一项工作使用模块化自主导航代理来训练隐式场景表示。
3)视觉定位:在相机定位方法的基础上,其他工作利用隐式神经表示进行自上而下的记忆、实时导航和视觉定位。这些方法展示了NF在视觉定位中的应用,这对动态环境中的有效导航至关重要。
4)特征领域:有几项工作研究了提升2D基础特征,即CLIP、DINO、SAM,以理解3D场景。这种2D基础模型的3D蒸馏是按场景训练的,它们对新场景或环境的泛化能力还有待观察。由于2D基础模型中存在的世界知识,3D蒸馏可以实现许多现实世界的应用,包括移动操作或导航。
5)导航神经领域的收获和开放挑战:虽然神经领域在导航方面取得了重大进展,但关键挑战仍然存在。目前的方法主要集中在静态环境和任务上,如图像目标和视觉语言导航。未来的工作可以将NF扩展到动态设置,结合快速重建技术,在不断变化的环境中进行实时更新。另一个关键方向是动态场景姿态估计,以帮助在动态环境中进行重建和导航。
Neural Fields for Physics
精确模拟物理是一项长期存在且具有挑战性的任务,传统上结合了计算机图形学和粒子优化的方法。将这些技术与NF联系起来开辟了新的可能性,例如消除了显式建模场景的需要,同时也给研究人员带来了新的挑战,例如平衡学习和非学习部分。
鉴于该领域的新颖性,NF在基于物理的机器人应用中的使用有限。一个值得注意的例子是ManiGaussian,尽管更广泛的采用仍然很少。在下一节中,我们将讨论在机器人物理模拟中使用NF带来的可能性和挑战。我们回顾了不依赖于显式物理模型的无模型方法。相比之下,第III-D2节涵盖了物理上合理的、基于模型的方法。
1)无模型:D-NeRF是首批引入NeRF公式的作品之一,该公式包含时间分量,允许表示动态场景。为了将动力学与结构解耦,作者学习了额外的时间依赖MLP,将特定时间步长的空间坐标建图到规范空间坐标,然后将其作为经典NeRF的输入。这种技术通常被称为变形场,不仅扩展到时间,还扩展到任意维度。具体来说,在NeRF的情况下,变形场也被称为射线弯曲。
2)基于模型:与无模型方法相反,基于模型的方法结合了上述恒定密度等基本物理原理,因此可以被认为是物理正确的。在我们的分析中,我们根据模拟范围对基于模型的方法进行了分类:刚性、articulated和非刚性。
3) 物理学神经领域的启示和开放挑战:在理解和推断物理学方面取得了重大进展;然而,挑战仍然是将这些模型与机器人无缝集成,以创建一个真正可模拟、通用和交互式的环境。此外,尚不清楚在这些模拟中学习到的政策如何有效地转移到现实世界中。
Neural Fields in Autonomous Driving
大规模环境的高质量建图对于自动驾驶系统至关重要。整个操作域的高保真度图可作为各种任务的强大先验,包括机器人定位、导航和防撞。此外,大规模场景重建有助于闭环机器人模拟。自动驾驶系统通常通过重新模拟以前遇到的场景来进行评估;然而,与原始相遇的任何偏差都可能改变车辆的轨迹,因此需要沿着调整后的路径进行高保真的新颖视图渲染。除了基本的视图合成外,场景调节的NeRF还可以修改环境照明条件,如相机曝光、天气或一天中的时间,从而进一步增强模拟场景。
神经场已经成为自动驾驶中的一个突出框架,因为它们能够从RGB图像中生成逼真的3D环境。如前所述,这些环境对于构建具有几个关键特征的沉浸式仿真系统非常有价值:首先,NF提供了广泛的可操作性和组合性,允许无缝集成和操作场景中的目标。这有助于模拟复杂的场景,如碰撞,这些场景在物理环境中很难复制。其次,他们制作的场景具有令人印象深刻的真实感,能够从视觉数据中进行逼真的模拟。最后,它们从稀疏输入中具有很强的泛化能力(第III-E3节),可以创建准确、可扩展的环境,增强对具身AI的研究。如以下小节所述,这些特征可以创建忠实地代表现实世界场景的模拟环境,从而促进对具身人工智能的研究。
1)可操作性和合成性:利用照片级真实感模拟的基本原理在于,它们作为现实世界环境的代理,在推进具身人工智能研究方面具有有效性。在这些模拟中运行的代理可以制定策略并执行行动,从而增强其处理边缘情况的能力,并促进更平滑地过渡到现实世界,减少领域差距。
2)真实仿真器:NeRF在可控光照条件下的静态场景中表现出色,但在处理来自不可预测的现实世界环境(包括变化的天气、光照或临时障碍物)的图像采集时面临困难。
3)泛化能力:一个独立的系列,专注于户外场景的泛化系统。NeO 360介绍了一种新的室外场景少视图合成方法,通过从单个或少数姿态RGB图像重建360°场景,克服了现有方法的局限性。通过捕捉复杂的现实世界户外3D场景的分布,并使用混合图像条件三平面表示,NeO 360在推理过程中从少至一张图像中提供了对新视图和新场景的泛化能力。
4)自动驾驶神经领域的启示和开放式挑战:尽管自动驾驶神经网络取得了可喜的进展,但仍存在一些开放式挑战。目前的方法侧重于照片级真实感模拟器,这些模拟器是动态的、合成的和逼真的。未来工作的一个途径是在这种基于NF的模拟器中训练策略,并将其转移到现实世界中。将NFs在自动驾驶方面的成功与现实世界的部署联系起来,是未来工作的一条令人兴奋的途径。可推广的重建在最近的工作中已经看到了一些早期的生命迹象,但在很大程度上仍有待探索。未来的工作可以着眼于可推广的室外场景重建方法的效率,以及专注于sim2real传输和无姿态重建的进展。这一研究途径令人兴奋,因为它为从现实世界中的一些图像创建真实的模拟器打开了大门。
未来挑战
尽管该领域取得了令人兴奋的进展,但各种机器人应用在采用神经场方面仍存在一些悬而未决的挑战。
效率:NF是计算密集型的,可能不会自然地实时运行,这通常是机器人应用的关键要求。需要进行重大优化或简化,以使这些模型在机器人硬件上高效运行,与数据中心使用的专用GPU相比,机器人硬件的计算资源可能有限。 动态环境:机器人通常涉及在目标和场景配置随时间变化的动态环境中操作。捕获和更新NF以实时反映这些变化仍然是一项具有挑战性的任务。 传感器集成:有效集成来自各种传感器(如激光雷达、RGB相机、深度传感器)的数据,以提高网络功能的鲁棒性和性能,目前尚未得到充分探索。先进的传感器融合技术有可能弥合这一差距。 泛化:现有技术通常需要密集的输入数据,并与传感器噪声或遮挡作斗争。开发能够利用从网络规模数据集中学习到的先验知识在不同场景中进行泛化的方法提供了一个有前景的方向。 物理信息:虽然NF擅长表示视觉方面,但它们并不天生理解重量或摩擦等物理特性。扩展NF以包含物理模拟,可以为机器人实现更逼真的交互。 数据效率和增强:当前的方法需要大量数据,这对于现实世界的应用程序来说是不切实际的。数据高效学习技术和现实数据增强的创新可以帮助克服这些局限性。 多模态、多任务和高效的场景理解:开发能够同时处理多个任务和模式的神经场方法,同时保持场景理解的效率,对于整体机器人感知至关重要。 性能评估:建立标准化的指标和基准来评估机器人应用中NF的性能,对于跟踪进展和比较不同方法至关重要。 协作框架:需要框架来支持使用NF的机器人之间的协作,使它们能够在复杂环境中分享学习成果,提高集体理解和决策能力。
参考
[1] Neural Fields in Robotics: A Survey