点击下方卡片,关注“3D视觉之心”公众号
>>点击进入→3D视觉之心技术交流群
(本文素材来源于论文arXiv:2410.20220v1)神经场(Neural Fields)已成为计算机视觉和机器人领域中用于三维场景表示的一种变革性方法,可以基于给定位置的二维数据精确推测几何形状、三维语义和动态信息。通过可微分渲染,神经场结合了连续隐式和显式的神经表示方式,实现了高保真度的三维重建、多模态传感器数据的集成以及新视角的生成。这篇综述探讨了神经场在机器人领域的应用,强调了它们在感知、规划和控制方面的潜力。神经场的紧凑性、内存效率和可微性,以及与基础和生成模型的无缝集成,使其成为实时应用的理想选择,从而提升了机器人的适应性和决策能力。本文通过对200多篇论文的分析,对神经场在机器人中的应用进行了全面回顾,按不同领域分类应用并评估其优缺点。首先,我们介绍了四种关键的神经场框架:占用网络、签名距离场、神经辐射场和高斯点云。其次,我们详细说明了神经场在五大机器人领域中的应用:姿态估计、操控、导航、物理仿真和自动驾驶,重点介绍了关键研究成果并探讨了经验教训和未解决的挑战。最后,我们总结了神经场在机器人领域中的现有局限,并提出了未来研究的潜在方向。项目页面:robonerf.github.io 翻译而来供参考
图1:概览:本文综述讨论了多种最新的神经场方法,这些方法支持在机器人领域中的姿态估计、操控、导航、物理仿真和自动驾驶等应用。图像改编自[1–12]
关键词:神经辐射场、NeRF、神经场、签名距离场、三维高斯点云、占用网络、计算机视觉、新视角合成、神经渲染、体积渲染、姿态估计、机器人、操控、导航、自动驾驶。
I. 引言
机器人依赖于其环境的精确而紧凑的表示来执行各种任务,从在繁忙的仓库中导航到整理杂乱的家居空间,甚至在高风险的搜索和救援任务中提供协助。典型的机器人流程核心在于感知与行动的协同。感知系统从RGB相机、LiDAR和深度传感器等设备获取传感数据,并将其转化为环境的连贯模型——如三维地图,使机器人能够穿越动态且障碍密集的空间。这种环境表示的质量直接影响到机器人的决策或策略,将感知到的环境转化为相应的行动,从而使其能够避开移动的叉车、拾取散落的物体,或在紧急情况下规划安全路径。
传统上,机器人使用点云 [13–15]、体素网格 [16]、网格 [17–19] 和截断符号距离函数(TSDF)[20] 等数据结构来对环境进行建模。尽管这些表示方式提升了机器人的功能,但它们在捕捉复杂或动态环境中的细微几何细节方面存在挑战,导致机器人在适应性场景中的表现不够理想。
为了克服这些局限,神经场(Neural Fields, NFs)[21] 作为一种前景广阔的替代方法应运而生,提供了从空间坐标到颜色或符号距离等物理量的连续、可微映射。与传统数据结构不同,神经场能够通过神经网络或高斯分布参数化来将三维环境表示为连续函数,从而更有效地表达复杂的几何结构和细微细节 [22, 23]。神经场可利用基于梯度的优化方法并结合各类真实世界传感数据(如图像和深度图),生成高质量的三维重建。在机器人领域中,神经场相较于传统方法具有几个显著优势:
• 高质量的3D重建:神经场可以生成细致的三维环境表示,这对于导航、操控和场景理解等任务至关重要 [24–28]。
• 多传感器集成:神经场能够无缝整合多种传感器的数据,如LiDAR和RGB相机,从而提供更稳健且适应性强的环境感知 [29, 30]。
• 连续且紧凑的表示:与体素网格或点云这些本质上离散的表示方式不同,神经场提供了连续表示,能够通过较少的参数捕捉空间中的细微细节,从而提升计算效率 [22, 31]。
• 泛化和适应性:神经场经过训练后,可以生成场景的新视角,甚至可以从未观察过的角度进行重建,这在探索和操控任务中尤为有价值。这种能力得益于具有泛化性的NeRF方法 [32–34]。
• 与基础模型的集成:神经场可以与基础模型(如CLIP [35] 或 DINO [36])结合,使机器人能够理解并响应自然语言查询或其他语义输入 [37, 38]。
近年来生成式AI的进展 [39] 进一步扩展了神经场(NFs)的能力,通过利用合成数据作为监督信号,减少了对真实世界观察数据的依赖。这一范式转变使得在现实数据采集不切实际或成本高昂的场景中,神经场可以得到优化。重要的是,这使得神经场成为生成式AI和机器人之间的关键连接。尽管基于二维数据的生成先验非常强大,但它们通常缺乏进行有效机器人决策所需的空间一致性。神经场将这些先验与稀疏的真实世界数据结合 [33],使其能够在物理环境受限(如有限的传感器配置和遮挡)下对感知和运动空间进行建模。
鉴于这些优势,神经场在机器人领域的应用已成为一个快速增长的研究领域。图1和图2展示了神经场在机器人中的应用概览,并突出展示了神经场相关的机器人领域研究的增长趋势。在本文中,我们旨在结构化并分析其对该领域的影响。
图 2:神经场在机器人领域的增长:以每年的大致发表数量与神经场总发表数量的百分比进行绘制
本文结构如下:第二部分介绍神经场的基本构成,第三部分重点讲述其在各个领域的优势,分为以下主题:
• 姿态估计:探讨神经场在相机姿态估计、物体姿态估计以及同时定位与建图(SLAM)中的场景或物体表示(详见第III-A节)。
• 操控:讨论神经场如何通过精确的三维重建帮助机器人操控物体(详见第III-B节)。
• 导航:强调神经场在提升机器人导航中的作用,支持对真实环境的精确高效感知(详见第III-C节)。
• 物理学:探讨神经场如何使机器人能够推理物理交互,以增强其对真实世界动态的理解(详见第III-D节)。
• 自动驾驶:聚焦神经场在构建逼真的真实世界模拟器中的作用(详见第III-E节)。
我们在第四部分总结了若干研究方向和挑战。据我们所知,这篇综述是对神经场在机器人领域的首批全面考察之一,补充了现有关注NeRF的综述 [40],涵盖了包括三维高斯点云(3DGS)、占用网络和符号距离场等在内的多种领域。通过整合多维度的洞见,本综述旨在提供对神经场在机器人应用中现状的全面理解,突出近期成就、未来挑战及机器人领域尚未探索的方面。
II. 神经场的构成
我们首先定义几种构成神经场的关键类型的场。在数学和物理学中,场是一种量的描述,它为每个空间和时间点分配一个值。形式上可以表示为:
A. 占用场
图 3:机器人领域中神经场论文的时间线,展示了多年来在五个主要应用领域中的关键论文。
B. 符号距离场(SDFs)
C. 辐射场
尽管基础的 NeRF 实现了逼真的渲染效果,但其训练和从预训练模型中进行渲染耗时较长。为降低这些成本,提出了一些改进措施:a) 使用具有更好速度/质量平衡的编码 [46],b) 采用更小的神经网络以减少内存带宽需求 [41, 47],以及 c) 在空白空间跳过射线步进以减少神经体积渲染的计算成本 [48]。这些优化措施将 NeRF 的训练和推理速度提高了数个数量级,使其能够在对时间敏感的应用中实现实时使用。
2) 三维高斯散射(3D Gaussian Splatting):
图 4:神经场表示:第II部分讨论了四种核心的神经场表示——占据网络 [42]、符号距离场 [23]、神经辐射场 [22] 和三维高斯散射 [49]。
总体而言,标量场、向量场和辐射场构成了占用网络、符号距离场、神经辐射场以及三维高斯散射(如图4所示),它们共同构成了神经表示的基础,使其能够比传统方法更精细地捕捉复杂的几何结构和空间关系。在下一节中,我们将探讨这些数学工具如何推动多种机器人应用,包括姿态估计、操控、导航、物理属性推断以及在复杂环境中的自动驾驶。
III. 神经场在机器人领域的应用
图 5:五个主要机器人应用领域中精选关键神经场论文的分类。
本节深入探讨神经场在机器人五大核心领域的应用:姿态估计、操控、导航、物理学和自动驾驶(参见图3和图5中的时间线和机器人研究中的神经场分类)。每个小节都会重点介绍这些领域中的关键研究成果,提供对最前沿方法的全面概述。每个小节的结尾将讨论关键收获以及在这些领域中尚待解决的挑战,提供对神经场在机器人未来研究方向的见解。
A. 神经场在姿态估计中的应用
神经场通过提供稳健、高效的方法,彻底改变了姿态估计,能够在三维场景中估计相机和物体的位置和方向。本节探讨两个关键领域:相机姿态估计(第III-A1节)和物体姿态估计(第III-A2节)。相机姿态估计专注于确定相机的视角,对于映射和重建任务至关重要。物体姿态估计则涉及场景中物体的定位和定向,这对于操控和交互应用至关重要。神经场通过基于梯度的方法优化这些任务,或通过优化场景表示,或直接提供可靠的姿态估计特征。
1) 相机姿态估计
如第I节所述,神经场是可微的,允许对 NeRF 的体积渲染等场景表示进行梯度更新,并传递到相机参数。尽管可微渲染已在网格上应用 [51, 52],本节将重点介绍适用于 NeRF 类模型的方法。首先,我们探讨依赖于预优化的 NeRF 进行姿态估计的技术,接着分析同时进行姿态估计和几何重建的方法,最后讨论它们对同时定位与建图(SLAM)的影响。
通过优化神经场进行姿态估计:对于定位任务,iNeRF [2] 通过反转已优化的 NeRF 来实现姿态估计。从图像出发,iNeRF 通过梯度下降寻找相机相对于预训练 NeRF 的平移和旋转,以最小化渲染像素与优化后的 NeRF 之间的残差。Parallel iNeRF [53] 则并行化了基于快速预训练 NeRF 的 6 自由度姿态优化过程。Lens [54] 通过基于 NeRF 的内部三维场景几何选择虚拟相机位置,防止在不相关区域生成新视角,并使用渲染图像作为合成数据高效训练相机姿态回归模型。
同时进行姿态估计和重建:NeRF–[55] 和 BARF [96] 表明,给定场景的 RGB 观测,可以联合优化相机姿态和 NeRF,省去了经典的结构从运动(SfM)流程。前者将相机初始化在朝前的场景的原点,后者则采用逐步引入高频位置编码的粗到精重建方案 [97, 98]。这种粗到精的方法也可以应用于多分辨率网格(如 NGP [25]),通过跨分辨率级别的加权调度实现 [99, 100]。
LocalRF [56] 通过逐步增加图像,采用类似于 BlockNeRF [101] 的分块方法来递增地重建长轨迹,而无需依赖 SfM。值得注意的是,LocalRF 对平移和旋转参数使用不同的学习率,突出了优化相机姿态的 NeRF 的挑战。GNeRF [102] 提出了一种基于姿态条件的 GAN 来恢复 NeRF。其他研究则探索了更适合姿态优化的技术,如高斯 [103] 或正弦激活 [104]。NoPeNeRF [105] 使用单目深度先验约束场景和相对姿态估计。关键点匹配或密集对应也可用于通过射线到射线的对应损失约束相对姿态估计 [106, 107]。DBARF [108] 提出了使用低频特征图来引导 NeRF 的束调整,以提高其泛化性 [32, 93, 109]。Nerfels [110] 则将可逆神经渲染与传统的基于关键点的相机姿态优化相结合。
神经场应用于定位和姿态估计的诸多研究利用了NeRF的内部特征来建立二维-三维对应关系 [111, 112],从而消除了对初始姿态估计的需求 [113],通过少样本NeRF来扩充姿态回归器的训练集 [114],或采用解耦的姿态表示和基于边缘的采样策略来增强学习信号 [115]。此外,这些方法通过集成几何运动和分割处理动态场景以进行初始姿态估计,并结合静态射线采样加速视角合成 [116]。
图 6:来自 SplaTam [121] 的映射和跟踪结果。
图 7:Nice-SLAM [118] 的网络架构。
同时定位与建图(SLAM):联合优化相机姿态和神经场景表示是SLAM(同时定位与建图)问题的核心。神经场的最新进展利用其连续表面建模、低内存需求以及对噪声和异常值的更强鲁棒性,重新定义了SLAM。例如,iMap [117] 使用单个MLP预测辐射场作为映射表示,通过并行的跟踪和建图线程优化输入RGB-D帧的姿态,并为选定的关键帧进一步优化MLP和相机姿态。NICE-SLAM [118](见图7)通过将单个MLP替换为分层特征网格,显著提高了推理速度和重建精度。基于高斯散射的SLAM系统利用3D高斯散射的优势,包括更快的运行时间和更逼真的渲染效果,以进一步提高性能 [119–121](见图6)。除了更好的重建质量,基于神经场的方法还提供了一种更便捷的方式来存储多种语义信息。各种语义SLAM系统 [3, 122–124] 将神经场用作统一的表示形式,以表达环境中的多样信息。关于神经场在SLAM中的应用更详细的综述可参考Tosi等人的研究 [125]。
图 8:用于物体跟踪和重建的 BundleSDF [58]。
2) 物体姿态估计
神经场还被用于场景中的物体定位和定向。对于机器人来说,精确的姿态估计至关重要,因为它增强了机器人与环境交互的能力,支持操控、导航和物体识别等任务。本领域的研究利用神经场的特征来建立对应关系或直接回归姿态并重建形状,从而确定三维环境中各种物体的边界框和方向。
图 9:NeRF-Det [57] 使用 NeRF 的三维检测流程。
神经场特征还被证明对场景中物体的多视角三维边界框估计有效。NeRF-RPN [1] 直接在NeRF的特征网格上估计三维物体框,使用新颖的体素表示,并且不需要重新渲染预训练的NeRF。它可以通过端到端训练来估计高质量的三维边界框,而不需要类别标签。同样,NeRF-Det [57](见图9)通过显式估计三维几何来提高检测性能。它引入几何先验,并通过共享的MLP连接检测与NeRF分支,提升了通用性和效率而不需要对每个场景进行优化。NeRF-RPN的性能还可通过直接在NeRF网格上进行自监督表示学习进一步增强,如NeRF-MAE所示 [126]。此外,三维高斯散射也被有效应用于三维物体检测,例如GaussianDet [127]和3D-GSDet [128]。此外,NeRF-loc [59] 使用基于Transformer的框架从NeRF场景中提取标注的、定向的三维边界框。它利用并行的Transformer编码器分支编码目标物体的上下文和细节,并通过注意力层融合这些特征实现精确的物体定位,优于传统的RGB(-D)方法。NeRF-pose [129] 采用弱监督的六自由度姿态估计流程,仅需要训练期间的二维分割和已知的相机相对姿态,无需精确的六自由度姿态标注。该方法从多视角重建物体,并训练姿态回归网络,通过结合NeRF的PnP(透视n点)+RANSAC算法在单张输入图像中估计稳定且准确的姿态。
其他直接姿态回归方法也在物体姿态估计的同时重建物体形状。例如,ShAPO [130]、FSD [131] 和 CARTO [132] 使用单次处理流程,利用隐式表示和解耦的形状与外观先验来联合重建物体形状并回归其六自由度姿态。UPNeRF [133] 提出了一个统一的单目三维重建框架,将姿态估计与基于NeRF的重建相结合,解决了依赖外部三维物体检测器进行初始姿态估计的现有方法的不足。它通过解耦尺寸估计和姿态优化来解决尺度-深度歧义,并采用投影框表示实现跨领域泛化。NeRF-from-image [134] 将NeRF与GAN集成,无需准确的真实姿态或多视角数据即可建模任意拓扑结构。它使用无条件的三维感知生成器和混合反演方案来恢复参数化的符号距离场(SDF)、姿态和外观,通过优化精细调整初始解。NCF [135] 通过在相机视锥内采样的三维查询点(而非图像像素)来预测三维物体坐标,从单张RGB图像估计刚体物体的六自由度姿态。Bundle-SDF [58](见图8)则在单目RGBD视频序列中跟踪未知物体的六自由度姿态,同时进行神经三维重建。它处理任意刚体物体,且仅需在第一帧中进行物体的分割。该方法使用神经物体场并结合姿态图优化来构建一致的三维几何和外观表示。
3) 姿态估计中神经场的关键收获和未解难题
尽管神经场在姿态估计中取得了显著进展,但仍存在若干开放的挑战。目前的方法在相机和物体的实时姿态估计中表现出色。尽管在静态场景的姿态估计中取得了重要进展,动态环境仍有进一步探索的空间。未来的研究可以专注于优化从动态视频捕捉中恢复相机姿态的方法,其中相机和物体均有显著运动,例如机器人数据集的事后校准和标注 [136]。这将为从大规模单目视频中学习三维先验提供可能性。未来的另一个研究方向可以探讨使用神经场进行开放词汇的六自由度物体姿态估计,并解决大规模数据集的规范化问题 [137]。
B. 神经场在机器人操控中的应用
在机器人操控中,一个关键挑战是获得任务中涉及的物体和环境的精确几何表示。有效的表示还必须能够捕捉环境的动态特性,从而为物体提供稳健的三维理解。本节探讨了神经场在操控任务中的应用,尤其是在3自由度(DoF)和6自由度的抓取与放置场景中的应用。表I概述了利用神经场进行操控的方法。
利用神经场生成3自由度抓取的研究多采用视觉输入,如RGB或深度图像,在图像平面上生成抓取姿势 [71]。在这种情况下,末端执行器可以水平移动并绕垂直轴旋转,深度传感器则用于确定垂直位置。然而,3自由度抓取缺乏精确的方向控制。相比之下,6自由度方法利用三维表示来同时预测位置和方向,从而实现对滚转、俯仰和偏航的完全控制,增强了机器人从任意方向操控物体的能力。
图 11:Dex-NeRF [63] 利用 NeRF 的深度图渲染来抓取透明物体。
在3自由度的应用中,Dex-NeRF [63](见图11)利用神经场检测并推测透明物体的几何形状,采用透明度感知渲染技术以及附加照明处理高光反射。结合Dex-Net [138],它能够在模拟和真实环境中生成透明物体的3自由度抓取姿势。近期,Evo-NeRF [65] 通过利用Instant-NGP [25] 加速推理,并自适应调整NeRF权重来支持透明物体的顺序抓取任务,在每次抓取后更新表示。
近年来,使用神经场进行6自由度抓取姿态估计成为一种趋势,为传统的基于点云的方法提供了替代方案。以下是这些表示的详细讨论:
1) 占用场
Neural Descriptor Fields(NDF)[60] 提出了一种用于操控新物体的SE(3)-等变对象表示,能够在少量示例下处理任意姿态的物体。利用Vector Neurons(VN)[146]网络,NDF对物体和抓手之间的6自由度相对姿态进行编码。NDF将物体表示为连续的三维描述符场,将点映射到描述符向量,以捕捉与物体几何的空间关系。然而,NDF在推广到新物体类别上有一定限制,Local Neural Descriptor Fields(L-NDF)[61] 通过使用本地嵌入体素网格改进了这一点,更好地捕捉新形状的局部几何和描述符。NDF和L-NDF均基于配备了占用网络(ONet)的VN。GIGA [62] 利用卷积占用网络(ConvONet)从单一深度图像检测6自由度抓取。通过编码截断符号距离函数(TSDF),GIGA联合预测体积占用和6自由度抓取,能够在部分观测下检测遮挡物体的抓取姿态。
2) 辐射场
辐射场主要采用两种方法建模:NeRF和三维高斯散射。
NeRF:NeRF-Supervision [140] 利用NeRF生成密集对应估计的合成数据,将对应关系视为深度分布而非逐像素深度。这使得仅使用RGB图像即可进行薄物体和反射表面的6自由度抓取任务,尽管需要多视角图像来构建NeRF表示。MIRA [141] 通过在每次动作前构建NeRF实现基于视图合成的抓取,并使用透视相机训练NeRF模型以便直接正交渲染,与卷积网络等平移等变架构更好匹配。SPARTN [66] 利用手持相机设置生成的合成多视角RGB图像,显著提高了抓取任务的成功率,相较于标准模仿学习方法更为有效。这些进展表明NeRF在填补基于RGB和深度的机器人策略之间差距方面的潜力。
Blukis等人 [144, 145] 提出了将三维重建和抓取姿态估计联合优化的方法,通过统一潜在表示对物体编码。编码后的潜在表示用于视图合成、三维重建和抓取建议。NeRF还被用于6自由度抓取姿态的迁移学习和优化,如MVNeRF [142],该方法处理来自多个场景的输入,实现了更通用的表示和更快速的感知到行动映射。RGBGrasp [143] 将手持相机的多视角RGB数据和预训练模型的深度图集成,加速了三维重建,并通过哈希编码 [25] 和新颖的采样策略进一步优化。
三维高斯散射:三维高斯散射的引入(见II-C2节)为实时机器人操控中的三维表示带来了新的进展。GaussianGrasper [64] 提出了一种新颖的6自由度抓取方法,利用高斯散射实现开放词汇物体的抓取,从而使机器人能够根据自然语言指令理解和执行任务。同样,ManiGaussian [67] 利用动态三维高斯散射来捕捉场景级时空动态,增强机器人在自然语言指令条件下执行任务的能力。SplatSim [147] 展示了三维高斯散射在Sim2Real传输中的应用,通过逼真的三维高斯散射渲染减少了合成与真实视觉信息之间的域差异。
3) 符号距离场
GraspNeRF [68](见图12)将NeRF扩展用于透明和高光物体的6自由度抓取检测。它结合了截断符号距离函数(TSDF)与通用NeRF,在稀疏RGB图像上进行零样本场景重建。同样,Volumetric Grasping Network(VGN)[71] 使用三维体素网格表示实现实时6自由度抓取检测,其中每个体素包含到最近表面的TSDF,用于在杂乱环境中生成无碰撞抓取。Song等人 [139] 使用TSDF将动作映射到渲染视图中,模拟6自由度抓取的未来状态-动作对。
图 12:使用 GraspNeRF [68] 基于稀疏多视图图像实现可泛化的抓取。
NeuralGrasps [69] 进一步通过学习隐式表示探索了多种机械手抓取的神经距离场。该方法将抓取编码到共享的潜在空间中,每个向量对应特定机械手的抓取。神经抓取距离场(NGDF)[70] 将抓取姿态表示为无符号距离场的水平集,通过最小化无符号距离来预测给定6D查询姿态的最接近有效抓取。CenterGrasp [148] 扩展了该概念,直接预测位移向量,消除了优化水平集的需求。
4) 特征场
特征场是一类新兴的神经场(NFs),将来自视觉数据的高维特征整合到统一的三维表示中。这些场可以将三维点映射到包含语义信息的特征向量,使其在结合预训练视觉语言模型时非常适用于情境感知的抓取任务。
图 10:蒸馏特征场 [4] 将基础模型特征蒸馏到特征场中,同时进行 NeRF 建模。
该领域的进展主要集中在创建特征场,以实现少样本学习和零样本任务导向的抓取。Distilled Feature Fields(DFF)[4] 提出了从预训练的视觉语言模型(如CLIP [35])中提取密集特征并将其蒸馏到三维特征场中(见图10)。这使DFF能够跨不同物体类别进行有效的泛化,特别适用于需要上下文理解的任务。同样,LERF-TOGO [5] 利用语言嵌入和DINO [36]特征来准确选择目标物体及其特定部位进行抓取。这种方法克服了传统学习型抓取规划器的局限性,它们往往忽略了物体的语义特性。GeFF [149] 和 GNFactor [72] 也提出了通过视觉语言模型进行特征蒸馏的方法,其中通过语义信息丰富的通用化NeRF用于操控和导航。总之,通过将语义信息直接融入三维表示,特征场使得在真实场景中实现精确的、语境感知的、语言引导的操控成为可能。
5) 视觉与触觉感知
神经场在多模态视觉和触觉感知中的应用是一个新兴的研究领域。触觉传感器收集的触觉数据提供了接触力和接触几何的信息。结合视觉和触觉感知在视觉不够明确的情况下具有诸多优势,例如在存在遮挡、光照挑战或反射和透明材料的情况下 [73, 74]。在多模态感知的背景下,神经场主要用于触觉数据生成和物体重建。Zhong等人 [150] 提出了使用NeRF生成逼真的触觉感知数据。类似地,TaRF [151] 利用NeRF合成新的视图,然后通过条件扩散模型生成相应的触觉信号。
使用触觉数据的一大挑战在于真实和模拟触觉图像之间的差异。TouchSDF [152] 通过结合卷积神经网络(CNN)和DeepSDF来解决这一仿真到现实的差距,从触觉输入重建三维形状。结果表明,可以仅使用触觉感知在模拟和现实中重建物体。Suresh等人 [153] 采用神经符号距离场来估计手中操控时的物体姿态和形状。神经场在这一情境下允许机器人在线学习并逐步优化物体形状。此外,神经场和视觉触觉感知还可以用于预测外部力。神经接触场(NCF)[154] 使用触觉信息跟踪物体与环境的接触点,并利用神经场在不同物体形状之间进行泛化,估计物体表面任意点的接触概率。
尽管大多数研究集中于隐式表示,最近的一些技术开始探索显式方法。Tactile-3DGS [73] 和 Touch-GS [74] 将三维高斯散射扩展至视觉和触觉数据的融合,用于三维物体重建。不同于TouchSDF,Touch-GS和Tactile-3DGS能够处理透明和反射物体的重建,且在模拟和现实环境中验证了其有效性。
6) 扩散模型
在机器人操控领域的生成式AI最新研究中,扩散模型被用于抓取生成、轨迹规划,以及学习视角和跨机器人一致性策略。Yoneda等人 [155] 利用扩散模型预测稳定的物体放置位置,通过从正例中学习上下文相关的分布,消除了拒绝采样的需要。SE(3)-Diffusion Fields [75] 使用扩散模型优化抓取选择和轨迹生成,通过学习数据驱动的SE(3)代价函数实现。而VISTA [77]和RoVi-Aug [76] 则利用三维生成模型来学习视角不变的策略,使得这些模型能够在新环境和未知机器人上泛化。VISTA [77] 利用Zero-NVS [34] 的零样本新视图合成能力,学习视角不变的策略,提升了在多样环境和任务中的鲁棒性表现。类似地,RoVi-Aug [76] 通过图像生成模型合成机器人数据,使得在未知机器人和不同相机角度下零样本部署成为可能。这些方法展示了三维生成技术如何显著提升机器人操控系统在现实场景中的适应性和有效性。
7) 神经场在操控中的关键收获和未解难题
神经场已成为机器人操控任务(如抓取和取放)中稳健的三维理解技术。这些表示捕捉了详细的几何信息,支持在不同物体形状和类别之间的泛化。神经场还被用于识别最佳抓取点,提升机器人在杂乱环境中抓取的成功率。此外,一些方法将这些表示与语言模型相结合,使得机器人能够通过自然语言指令进行开放词汇的操控。
尽管取得了这些进展,仍有许多挑战需要克服。当前方法依赖于多视角输入或高成本的场景优化,限制了其在复杂、动态或非结构化环境中的适用性。此外,将关于物体可操作性和机器人动力学的物理直觉融入到学习表示中,可能会促使更加基于物理的操控策略(详见第III-D节)。最后,将这些方法扩展到包含多代理或关节物体的动态场景中也是一个亟待解决的挑战,这对于现实部署尤为重要。
C. 神经场在导航中的应用
自主导航要求机器人能够有效地感知和建模周围环境,以规划无碰撞路径。传统的基于学习的方法通过端到端 [156–158] 或模块化系统 [159–161] 来解决这一挑战。最近,神经场(NFs)的特性被证明在运动规划和导航方面具有优势。例如,NeRF的密度网格提供了场景的几何近似,有助于避免障碍物或学习动力学模型。多种NeRF扩展已被用于导航,其中一些构建了表示场景视觉结构的地图,而另一些则利用自主代理主动映射环境。以下是这些最新进展的四个关键领域:规划、探索、视觉定位和特征场。
1) 规划
神经场的密度网格提供了几何近似,结合轨迹规划器和状态估计器形成迭代的回缩地平线循环,使自主代理能够在环境中动态操控,并使用RGB相机作为反馈 [162]。CATNIPS [78] 通过计算机器人在NeRF中的碰撞概率实现碰撞规避,采用基于图的搜索和样条优化快速规划轨迹。SAFER-Splat [8] 利用高斯散射提供了实时重建方法,实现安全的机器人导航,以最小的内存消耗确保在线映射时的高速性能。NeRF的三维场景表示还允许从给定的二维图像直接学习三维动力学模型。具体而言,NeRF-dy [79] 提出了一种时间对比学习目标,结合自动编码框架下的神经辐射场,为视角感知的神经三维场景表示提供支持。该场景表示允许在训练分布之外的视角指定目标点,结合学习的前向预测模型实现动态模型。CompNeRFdyn [163] 扩展了Li等人 [79] 的概念,引入结合图神经网络(GNN)[164] 的自动编码框架,在NeRF的潜在空间中预测动态模型,从而推动网络学习具有普适性的先验知识,助力长程预测。
2) 探索
图 13:AutoNeRF [80] 通过自主代理收集的数据训练 NeRFs,生成场景的三维模型。
另一研究方向是利用模块化的自主导航代理 [165] 来训练隐式场景表示。AutoNeRF [80](见图13)通过自主创建的数据集而无需手动数据集,探索未知环境并利用其经验创建新的视角和语义合成的隐式场景表示。DroNeRF [166] 提出了主动重建方法,通过自动化相机位置优化实现物体少视图重建。
图 14:移动机器人主动探索以最小化预测不确定性 [81]。
Active Neural Mapping [81](见图14)研究了通过不断学习的三维场景表示(如NeRF)主动探索环境的问题。该方法通过选择目标区域以最小化实时地图的不确定性,并引导代理找到可通过的路径以进行在线场景重建。DISORF [167] 提出了一个框架,用于促进资源受限的移动机器人和边缘设备捕获场景的实时三维重建和可视化。该框架通过高效地在边缘设备和远程服务器之间分配计算资源来应对计算限制和网络约束,使用设备上的SLAM系统生成关键帧姿态,并将其传输到远程服务器,以利用NeRF模型进行高质量的三维重建和可视化。Finding Waldo [168] 提出了基准方法,如引导-随机搜索(GRS)和基于姿态插值的搜索(PIBS),并将场景探索表述为一个优化问题,通过进化引导姿态搜索(EGPS)提供高效的解决方案。
3) 视觉定位
基于第III-A节中讨论的相机定位方法,其他工作利用隐式神经表示实现自顶向下的记忆、实时导航和视觉定位。这些方法展示了神经场在视觉定位方面的应用,这对于动态环境中的高效导航至关重要。
RNR-Map [82] 构建了环境的视觉描述地图,类似于增量场景合成 [169],在网格单元的每个像素上嵌入了图像观测的潜在编码,这些编码可以转化为神经辐射场并以任意相机姿态渲染。这种利用视觉信息的模块化框架支持视觉定位和导航。Le-RNRMap模型 [170] 在RNR-Map基础上进一步整合了基于CLIP的嵌入潜在编码,使得自然语言搜索功能成为可能,无需额外标注数据。Splat-Nav [84] 提出了一种针对高斯散射生成的三维场景表示优化的实时导航系统,包含两个核心模块:SplatPlan,用于构建碰撞安全的通道和贝塞尔曲线轨迹;SplatLoc,使用点云数据和RGB图像进行鲁棒的姿态估计。CPU主要处理计算密集的任务,如贝塞尔轨迹计算和姿态优化,而GPU则专注于在线高斯散射训练等任务。NeRF-IBVS [83] 引入了一种新颖的视觉定位方法,旨在使用最少的姿态图像和三维标签实现精确定位,以应对现实世界中获取这些数据的挑战。该方法利用基于NeRF的伪三维标签,通过PnP算法和基于图像的视觉伺服(IBVS)进行姿态估计和优化。NVINS [171] 提出了一种结合NeRF和视觉惯性里程计(VIO)的新框架,用于增强实时机器人导航。通过使用NeRF增强的图像数据训练绝对姿态回归网络,并量化不确定性,解决了定位漂移问题并提升系统可靠性。Liu等人 [172] 提出了一种将NeRF集成到视动导航中的管道,突出了记忆表示对智能代理的重要性。该方法通过单一查询图像利用导数辐射场进行一次性姿态和深度估计,利用NeRF的空间表示进行任务分解和动作生成。其他神经场在导航中的应用还包括支持移动机器人进行库存监控 [173]、视觉定位 [174] 和探索 [175]。
4) 特征场
一些研究致力于将二维基础特征(如CLIP [35]、DINO [36]、SAM [176])提升为三维场景理解。这些二维基础模型的三维蒸馏针对每个场景训练,其在新场景或环境中的泛化能力尚待验证。由于二维基础模型中包含了丰富的世界知识,三维蒸馏使许多现实应用成为可能,如移动操控或导航。
图 15:Clip-Fields [85] 的语义表示为移动机器人提供三维空间记忆。
在移动操控中,将显式的二维特征蒸馏为三维特征,并通过传统的SLAM和多视图融合方法融合到三维地图中 [124, 177]。CLIP-Fields [85](见图15)隐式地利用紧凑的神经网络编码三维地图和与像素或区域对齐的基础特征(如LSeg [178]和Detic [179])。该专门设计的神经网络为每个场景量身定制,作为一个可搜索的数据库,将图像和语言的嵌入与三维场景坐标对齐,可处理自然语言指定的开放式查询。
Language-embedded Radiance Fields (LEGS) [7] 扩展了LeRF [38],使机器人在遍历环境时可以在线训练一个可查询的三维表示。LEGS能够定位开放词汇的物体查询,训练速度比LeRF更快。GaussNav [86] 通过三维高斯散射创建地图表示,使得代理能够记忆场景的几何和语义细节,以及通过MaskRCNN蒸馏到三维域中的物体纹理特征。
Uni-Fusion [180] 提出了一个通用的连续映射框架,用于编码表面及其属性(如颜色、红外)而无需训练。该方法使用隐式潜在映射(LIM),将点云划分为体素,支持增量重建、二维到三维属性转移和开放词汇的场景理解等应用。Open-Fusion [181] 则提出了基于RGB-D数据的实时开放词汇三维映射和场景表示,利用预训练的视觉语言基础模型(VLFM)进行语义理解,并采用截断符号距离函数(TSDF)实现快速三维重建。该方法在无需额外训练的情况下实现了无标注的三维分割效果,并优于领先的零样本方法。
此外,神经场的紧凑三维表示和特征蒸馏,使其在生成模型中的整合应用尤为理想 [182, 183]。获取的三维特征可以直接用于二维视觉语言模型的投影空间 [184, 185],支持三维关联任务,如三维定位、三维视觉问答和导航。
5) 神经场在导航中的关键收获和未解难题
尽管神经场在导航方面取得了显著进展,但仍存在一些关键挑战。当前方法主要关注静态环境和图像目标、视觉语言导航等任务。未来研究可将神经场扩展至动态环境中,结合快速重建技术,实现随环境变化的实时更新 [186]。另一个关键方向是动态场景姿态估计(见第III-A3节),以辅助动态环境中的重建和导航。生成式神经场的整合也具有巨大潜力。最近的扩散模型进展 [39, 187] 可以促进高效的场景编辑和环境创建,缩小仿真到现实的差距。此外,利用基础模型进行大规模移动操控和场景泛化有望带来进一步突破。结合视觉语言模型(VLM)与隐式表示,增强神经场中的常识推理也是一个未来的有前途的探索方向。
D. 神经场在物理模拟中的应用
精确的物理模拟一直是一项挑战性任务,传统上结合了计算机图形学和粒子优化方法。将这些技术与神经场相结合,打开了新的可能性,例如无需显式建模场景,但也带来了新的挑战,例如平衡学习和非学习部分。由于该领域的新颖性,神经场在基于物理的机器人应用中使用有限,其中一个典型例子是ManiGaussian [67](见第III-B2节),尽管更广泛的应用仍然较少。接下来,我们讨论神经场在机器人物理模拟中引入的可能性和挑战。第III-D1节回顾不依赖显式物理模型的无模型方法,而第III-D2节则涵盖基于物理的、符合物理规律的模型方法。
1) 无模型方法
D-NeRF [87] 是首批引入时间组件的NeRF之一,允许动态场景的表示。为将动态与结构解耦,作者引入了一个额外的时间相关MLP,将特定时间步的空间坐标映射到一个规范空间坐标,然后作为经典NeRF的输入 [97]。这种技术通常被称为变形场 [188],并扩展至不仅包括时间,还可适用于任意维度 [189]。在NeRF的情况下,变形场也称为射线弯曲 [190, 191]。类似地,Li等人 [192] 和Gao等人 [193] 仍使用变形场来包含时间组件,但均提出通过推断的场景流来显式正则化重建的NeRF。
类似的发展轨迹也可以在三维高斯散射中观察到。Luiten等人 [88] 首次为每个高斯添加时间组件,影响三维姿态,同时保持大小、颜色和不透明度不变。Wu等人 [194] 首次将变形场应用于动态高斯散射,而MD-Splatting [195] 将该方法扩展到度量空间,加入了从Luiten等人 [88] 适应的刚性和等距正则项以及额外的动量项。将方法扩展至度量空间使得重建具备物理可解释性,从而适用于机器人应用。Yang等人 [196] 从全概率视角出发,将完整的四维高斯(空间和时间的联合概率)分解为条件高斯分布。Liu等人 [197] 为重建网格提出了DG-Mesh,利用预测变形上的循环一致性损失来实现。
图 16:可微分机器人渲染流程 [10]。
与基于时间组件的NeRF不同,Abou-Chakra等人 [198] 通过随时间演变的粒子在线动态适应场景。他们的方法也扩展到高斯散射 [199],引入了视觉力的概念,但缺少与场景交互的机器人输入。最近,Li等人 [79] 提出首先学习一个潜在状态变量作为NeRF的附加输入。在机器人演示的基础上,他们还学习了一个潜在(隐式)动力学模型,根据当前状态和机器人动作推测下一个状态。类似地,ManiGaussian [67] 将高斯条件设置为机器人动作,而非时间组件,从而学习一个高斯世界模型。Liu等人 [10] 通过已知的机器人的前向运动学条件设置高斯散射,解决了可微分机器人渲染问题(见图16),支持从机器人图像传递梯度到机器人关节状态,实现了多项任务,如文本到机器人姿态、机器人与相机姿态估计、基于点跟踪的动作重新定向和生成视频模型的机器人控制 [200]。
总结来说,这些模型可以被视为无模型方法,因为它们没有显式使用或通过正则化引入底层物理模型。尽管这些方法中的大多数假设了恒定密度 [87, 97],但无法保证学习过程会通过射线弯曲等操作消除不合理部分,可能导致物理上不合理的结果。因此,这些模型在可靠性和安全性方面的实际应用还有待探索。
2) 基于模型的方法
与无模型方法相反,基于模型的方法包含了底层物理原理,如恒定密度 [89],因此可以被视为物理上正确。在我们的分析中,基于模型的方法根据其模拟范围进行分类:刚性物体、关节物体和非刚性物体。
• 刚性物体:类似于一些无模型方法,Hofherr等人 [201] 仅使用光度损失进行优化,同时通过底层物理动力学模型约束刚性物体运动。Cleac’h等人 [202] 将物体重建与参数估计分离,通过静态图像训练神经表示,并利用移动物体的视频推测物理属性(如摩擦和质量)。NeRF2Physics [203] 不使用视频,而是从语言中提取这些属性,并将其与空间语言嵌入关联。MovingParts [204] 去除了物体分离的假设,自动检测一致运动的刚性部件及其变换。
• 关节物体:关节物体介于刚性物体和非刚性物体之间,它们对刚性部件及其相对运动施加约束,但不分解到粒子级别。关节物体的研究主要集中于纯视觉重建 [132, 205],物理交互属性(如操控和动力学)关注较少。近期一些工作开始弥合这一差距,将物理推理和交互能力融入模型,实现对现实中关节物体更全面的理解和操控。例如,Robot See Robot Do (RSRD) [206] 允许机器人从单目视频模仿关节物体的操控,通过分析-合成优化几何正则化,重建三维部件运动,使机器人能够双臂规划执行,物理执行成功率高且无需任务特定的训练或标注。
图 17:基于模型的神经场能够模拟的不同材料概述 [89]。
• 非刚性物体:非刚性物体与刚性和关节物体不同,由大量独立移动的粒子组成,其模拟复杂但更具通用性。非刚性物体进一步分为可变形物体和流体。Material Point Method (MPM) 是一种能够模拟广泛材料的框架 [9, 89]。PAC-NeRF [89](见图17)引入了粒子和基于网格的NeRF表示,使两者之间的转换成为可能。PhysGaussian [9] 直接利用高斯散射的粒子特性,避免了PAC-NeRF的显式转换步骤。PIE-NeRF [207] 同样避免了PAC-NeRF的粒子到静态姿态转换,减少了过度平滑。Spring-Gaus [208] 将高斯聚类为质点,通过推测静态高斯集后采样锚点(即粒子)。
流体模拟:Yu等人 [209] 将速度场分为基础流和涡流,通过密度和投影损失确保物理准确性。与PhysGaussian类似,Gaussian Splashing [210] 使用高斯核中心作为物理模拟中的粒子,不同之处在于区分固体和流体,使得可以先重建固体场景,再在其中合成流体。ClimateNeRF [211] 采用类似流程,首先使用经典的NeRF管道重建场景,然后模拟不同的天气效果。此外,Zhong等人 [212] 在相同潜在空间中结合了神经变形场和Kirchhoff应力场,使得模拟更快速且节省内存。
3) 神经场在物理模拟中的关键收获和未解难题
在物理理解和推理方面取得了显著进展,但如何将这些模型无缝集成到机器人系统中,创建真正可模拟、通用和交互的环境仍然是一个挑战。此外,目前尚不清楚在这些模拟中学到的策略能否有效地转移到现实世界中。
E. 神经场在自动驾驶中的应用
高质量的大规模环境映射对于自动驾驶系统至关重要。整个操作区域的高保真地图可以作为强大的先验信息,用于多种任务,包括机器人定位(见第III-A节)、导航和避障(见第III-C节)。此外,大规模场景重建有助于闭环机器人仿真。自动驾驶系统通常通过重新仿真先前遇到的场景进行评估;然而,任何偏离原始场景的情况都可能改变车辆的轨迹,因此需要沿调整路径生成高保真的新视角渲染。除了基础的视角合成,基于场景的NeRF还可以调整环境光照条件,如相机曝光、天气或一天中的时间,从而进一步增强仿真场景的多样性。
神经场因其能够从RGB图像生成逼真的三维环境,已成为自动驾驶中的重要框架。这些环境在构建具有以下关键特性的沉浸式仿真系统中具有高度价值:
首先,神经场具有广泛的可操控性和组合性(见第III-E1节),支持场景中物体的无缝整合和操控。这有助于模拟复杂场景,如碰撞,这在物理设置中难以再现。其次,它们生成的场景具有惊人的逼真度(见第III-E2节),能够基于视觉数据实现真实的仿真。最后,神经场凭借从稀疏输入数据中的强泛化能力(见第III-E3节),能够创建准确且可扩展的环境,促进具身人工智能的研究。这些特性使得神经场能够构建真实世界场景的仿真环境,从而推动具身人工智能的研究。
1) 操控性和组合性
利用逼真仿真环境的核心原则在于其作为真实环境替代品的有效性,有助于推进具身人工智能的研究。代理在这些仿真环境中可以制定策略并执行操作,从而提高其处理极端情况的能力,并减少域迁移中的差距,使过渡到现实世界更加顺畅。
Neural Scene Graphs [12] 是探索这一理念的首批研究之一,它引入了分层的场景建模方法,结合了静态和动态元素,如物体的外观和形状。通过使用有向无环图,场景被唯一地定义,其中节点代表相机内在参数、潜在物体编码和用于静态和动态元素的神经辐射场,边则表示变换或属性分配。StreetNeRF [90] 同样关注组合场景表示,通过同时考虑大规模背景场景和前景移动车辆,解决了传统NeRF在街景合成中的局限性。它利用噪声的LiDAR点和基于几何的置信度处理深度异常,从而改进了场景参数化和相机姿态学习,实验结果表明,其在街景合成和移动车辆渲染方面优于现有方法。
类似地,Panoptic Neural Fields (PNF) [91] 提供了对象感知的神经场景表示,将场景划分为物体和背景。PNF 通过对每个物体使用紧凑的多层感知机(MLP),在保留类别特定先验的同时加快了处理速度,从而支持新视角合成、二维全景分割和三维场景编辑等任务。SUDS [214] 则扩展了动态城市场景的NeRF,通过使用单独的哈希表数据结构高效编码静态、动态和远距离辐射场。通过利用无标签的目标信号和多种重建损失,SUDS 将场景分解为静态背景、独立物体及其运动,在新视角合成、无监督三维实例分割和三维长方体检测等任务上达到了最先进的性能,同时显著缩短了训练时间。
EmerNeRF [215] 通过将场景分层为静态和动态场并参数化诱导流场,学习了动态驾驶场景的时空表示。此外,通过将二维视觉基础模型特征提升到四维时空空间,EmerNeRF 改进了语义泛化能力并增强了三维感知性能。
图 18:Street Gaussians [213] 的组合流程。
其他一些研究利用显式表示加速渲染。Street Gaussians [213](见图18)提出了使用带有语义逻辑和三维高斯表示的点云动态城市场景模型,使得场景编辑更高效、渲染更快速。在使用现成的追踪器姿态的基准测试中,它的表现优于现有方法。Driving Gaussians [216] 通过静态三维高斯和动态高斯图重建动态驾驶场景,利用LiDAR先验进行高斯散射,实现了逼真的合成效果和多摄像机一致性,超越了现有技术。
2) 逼真模拟器
NeRFs 在具有控制光照条件的静态场景中表现出色,但在处理现实环境中不可预测的图像集合时(如天气、光照或临时遮挡的变化)面临困难。NeRF-W [217] 通过使用外观嵌入和瞬态网络克服了这些挑战。随后,神经渲染在自动驾驶应用中进一步专注于构建逼真模拟器。
MARS [11] 介绍了一个基于 NeRF 的自动驾驶模拟器,专门处理自动驾驶中的边缘案例。该模拟器具有实例感知建模功能,可分别对前景实例和背景环境建模,并提出模块化设计,支持在不同的 NeRF 组件之间灵活切换,从而实现了业界领先的逼真度表现。值得注意的是,MARS 是开源的,与该领域的大多数模拟器有所不同。
图 19:UniSim [92] 的逼真编辑效果结果。
UniSim [92](见图19)是一个神经传感器模拟器,通过将记录的驾驶日志转换为逼真的多传感器仿真,实现自动驾驶车辆的闭环评估。利用神经特征网格,UniSim 重建场景元素并动态仿真 LiDAR 和摄像头数据,从而有助于在关键安全情境中对自动驾驶系统的准确评估。
DriveEnv-NeRF [218] 提出使用 NeRF 创建高保真模拟,以验证和预测自动驾驶代理在真实场景中的性能。通过从新视角渲染逼真的图像并构建三维网格模拟碰撞,该方法缩小了模拟到现实的差距,提高了自动驾驶代理的稳健性和现实表现,相较于使用传统模拟器训练的模型有显著改进。
Lindström等人 [219] 提出了一些方法,旨在增强感知模型对 NeRF 伪影的鲁棒性,从而提高在仿真和真实数据上的表现。其大规模研究评估了对象检测器和在线映射模型在真实和仿真数据上的性能,展示了模型鲁棒性的改进,并在某些情况下提升了现实世界的表现。
3) 泛化能力
另一系列研究关注户外场景的泛化系统。NeO 360 [93] 提出了用于少视图户外场景合成的新方法,通过从单个或少量姿态RGB图像重建360°场景,克服了现有方法的局限性。通过捕捉复杂真实户外三维场景的分布,并使用基于图像的三平面条件表示,NeO 360 能够从仅一张图像推断新视角和新场景,表现出良好的泛化能力。
图 20:Neural Groundplans 方法概述 [94]。
Neural Groundplans [94](见图20)提出了一种将二维图像观测映射到持久三维场景表示的方法,支持新视角合成,并将可移动和不可移动的场景组件分离。该方法通过无标签多视图观测进行自监督训练,利用了以鸟瞰图为灵感的地面对齐二维特征网格,从而高效地支持实例级分割和三维边界框预测等场景理解任务。
6Imgto3D [95] 使用基于transformer的编码-渲染器方法,设计用于在大规模、无边界的户外驾驶场景中通过六张外向图像高效、可扩展地进行单次三维重建。
4) 神经场在自动驾驶中的关键收获和未解难题
尽管神经场在自动驾驶领域取得了显著进展,仍存在一些未解难题。目前的方法主要集中在具有动态、组合性和逼真性的模拟器上,未来的一条研究路径是在基于神经场的模拟器中训练策略并将其迁移至现实。将神经场在自动驾驶中的成功与实际部署相结合,是未来研究的一个激动人心的方向。
在泛化重建方面,尽管已有一些初步进展,但仍有很大的探索空间。未来的研究可以着重提高户外场景重建方法的效率,特别是聚焦于从模拟到现实的迁移(sim2real)和无需姿态的重建方法。这一研究方向令人期待,因为它为从少量现实图像中创建逼真模拟器打开了大门。
另一个有前景的方向是将扩散模型等生成方法与神经场范式结合。未来研究可以通过神经场编辑创建在现实中难以实现的新场景,如用于训练策略的碰撞回避模拟。在神经场的自动驾驶研究中,通过少量现实图像进行生成资产创建也是一个潜在的研究方向。
此外,将神经场与生成模型(如Lift3D [220] 和 Adv3D [221])整合有助于数据增强,解决驾驶场景多样性带来的挑战。鉴于捕捉所有可能场景的高昂成本,数据增强成为扩展训练数据集和提升模型性能的宝贵策略,并具有广阔的未来前景。
IV. 神经场在机器人领域的未解难题
尽管该领域取得了令人振奋的进展,神经场在各种机器人应用中的普及仍面临诸多挑战:
• 效率:神经场计算密集,通常难以实时运行,而实时性往往是机器人应用的关键需求。为了在计算资源受限的机器人硬件(相较于数据中心的GPU)上高效运行这些模型,急需进行显著的优化或简化。
• 动态环境:机器人通常需要在动态环境中运行,物体和场景配置随时间变化。如何在实时中捕捉并更新神经场以反映这些变化仍然是一个挑战。
• 传感器集成:如何有效整合多种传感器(如LiDAR、RGB相机、深度传感器)数据以提高神经场的鲁棒性和性能,尚未得到充分探索。先进的传感器融合技术可能会填补这一空白。
• 泛化能力:现有技术通常需要密集的输入数据,并在处理传感器噪声或遮挡时表现不佳。发展能够利用从大规模数据集中学习的先验知识,以应对多样场景的模型,是一个有前景的研究方向。
• 物理信息:虽然神经场在视觉表示方面表现出色,但它们并未内在理解物理属性(如重量或摩擦)。扩展神经场以包含物理模拟,可以为机器人提供更真实的交互体验。
• 数据效率和数据增强:当前方法对数据需求较高,这在实际应用中不切实际。提高数据效率的学习方法和现实主义的数据增强创新,有助于克服这些局限。
• 多模态、多任务和高效的场景理解:开发能够同时处理多种任务和模态、并在场景理解中保持高效的神经场方法,对于机器人整体感知至关重要。
• 性能评估:为评估神经场在机器人应用中的性能建立标准化的指标和基准,对于追踪进展和比较不同方法至关重要。
• 协作框架:亟需支持机器人间协作的框架,以利用神经场实现学习共享,从而提升复杂环境中的集体理解和决策能力。
参考文献
[1] B. Hu, J. Huang, Y. Liu, Y.-W. Tai 和 C.-K. Tang,“NeRF-RPN: 用于NeRF中的物体检测通用框架”,计算机视觉与模式识别会议,2023年,页码23 528–23 538。[2] L. Yen-Chen, P. Florence, J. T. Barron, A. Rodriguez, P. Isola 和 T.-Y. Lin,“iNeRF:用于姿态估计的神经辐射场反转方法”,智能机器人与系统国际会议,2021年。[3] M. Li, S. Liu 和 H. Zhou,“SGS-SLAM:神经密集SLAM的语义高斯分散法”,arXiv预印本 arXiv:2402.03246,2024年。[4] W. Shen, G. Yang, A. Yu, J. Wong, L. P. Kaelbling 和 P. Isola,“蒸馏特征场支持少样本语言指导的操控”,第七届机器人学习年度会议,2023年。[5] A. Rashid, S. Sharma, C. M. Kim, J. Kerr, L. Y. Chen, A. Kanazawa 和 K. Goldberg,“任务导向的零样本抓取的语言嵌入辐射场”,机器人学习会议,2023年。[6] M. N. Qureshi, S. Garg, F. Yandun, D. Held, G. Kantor 和 A. Silwal,“SplatSim:使用高斯分散的RGB操作策略的零样本Sim2Real转移”,2024年。[7] J. Yu, K. Hari, K. Srinivas, K. El-Refai, A. Rashid, C. M. Kim, J. Kerr1, R. Cheng, M. Z. Irshad, A. Balakrishna, T. Kollar 和 K. Goldberg,“语言嵌入的高斯分散(LEGS):通过移动机器人逐步构建房间规模的表示”,IEEE国际智能机器人与系统会议(IROS),2024年。[8] T. Chen, A. Swann, J. Yu, O. Shorinwa, R. Murai, M. Kennedy III 和 M. Schwager,“Safer-splat:用于在线高斯分散地图的安全导航控制障碍函数”,arXiv预印本 arXiv:2409.09868,2024年。[9] T. Xie, Z. Zong, Y. Qiu, X. Li, Y. Feng, Y. Yang 和 C. Jiang,“Physgaussian:集成物理的3D高斯生成动态”,arXiv预印本 arXiv:2311.12198,2023年。[10] R. Liu, A. Canberk, S. Song 和 C. Vondrick,“可微分的机器人渲染”,第八届机器人学习年度会议,2024年。[11] Z. Wu, T. Liu, L. Luo, Z. Zhong, J. Chen, H. Xiao, C. Hou, H. Lou, Y. Chen, R. Yang, Y. Huang, X. Ye, Z. Yan, Y. Shi, Y. Liao 和 H. Zhao,“MARS:一种实例感知、模块化且真实感的自动驾驶模拟器”,CICAI, 2023年。[12] J. Ost, F. Mannan, N. Thuerey, J. Knodt 和 F. Heide,“用于动态场景的神经场景图”,2021年。[13] H. Fan, H. Su 和 L. J. Guibas,“一种用于从单一图像生成3D物体重建的点集生成网络”,计算机视觉与模式识别会议,2017年,页码605–613。[14] M. Z. Irshad, T. Kollar, M. Laskey, K. Stone 和 Z. Kira,“CenterSnap:单次多物体3D形状重建和分类6D姿态及尺寸估计”,IEEE国际机器人与自动化会议(ICRA),2022年。[15] P. Achlioptas, O. Diamanti, I. Mitliagkas 和 L. Guibas,“用于3D点云的表示学习和生成模型”,国际机器学习会议。PMLR, 2018年,页码40–49。[16] Y. Zhou 和 O. Tuzel,“Voxelnet:用于基于点云的3D物体检测的端到端学习”,IEEE计算机视觉与模式识别会议论文集,2018年,页码4490–4499。[17] N. Wang, Y. Zhang, Z. Li, Y. Fu, W. Liu 和 Y.-G. Jiang,“Pixel2Mesh:从单个RGB图像生成3D网格模型”,欧洲计算机视觉会议(ECCV)论文集,2018年,页码52–67。[18] Z. Chen, A. Tagliasacchi 和 H. Zhang,“BSP-Net:通过二分空间分割生成紧凑网格”,计算机视觉与模式识别会议,2020年,页码45–54。[19] Y. Liao, S. Donne 和 A. Geiger,“深度行进立方体:学习显式表面表示”,IEEE计算机视觉与模式识别会议论文集,2018年,页码2916–2925。[20] M. Breyer, J. J. Chung, L. Ott, S. Roland 和 N. Juan,“体积抓取网络:在杂乱中实时6自由度抓取检测”,机器人学习会议,2020年。[21] Y. Xie, T. Takikawa, S. Saito, S. Yan, N. Khan, F. Tombari, J. Tompkin, V. Sitzmann 和 S. Sridhar,“神经场在视觉计算及其他领域的应用”,2021年。[22] B. Mildenhall, P. P. Srinivasan, M. Tancik, J. T. Barron, R. Ramamoorthi 和 R. Ng,“NeRF:用于视图合成的神经辐射场表示场景”,ECCV,2020年。[23] J. J. Park, P. Florence, J. Straub, R. Newcombe 和 S. Lovegrove,“DeepSDF:学习连续签名距离函数以进行形状表示”,IEEE/CVF计算机视觉与模式识别会议论文集,2019年,页码165–174。[24] P. Wang, L. Liu, Y. Liu, C. Theobalt, T. Komura 和 W. Wang,“NeuS:通过体积渲染学习神经隐式表面进行多视图重建”,arXiv预印本 arXiv:2106.10689,2021年。[25] T. Muller, A. Evans, C. Schied 和 A. Keller,“使用多分辨率哈希编码的即时神经图形原语”,ACM图形学汇刊(ToG),第41卷,第4期,页码1–15,2022年。[26] A. Guedon 和 V. Lepetit,“Sugar:表面对齐的高斯分散用于高效3D网格重建和高质量网格渲染”,计算机视觉与模式识别会议,2024年。[27] S. Zakharov, K. Liu, A. Gaidon 和 R. Ambrus,“Refine:用于跨模态多场景表示的递归场网络”,2024年。[28] T. Takikawa, J. Litalien, K. Yin, K. Kreis, C. Loop, D. Nowrouzezahrai, A. Jacobson, M. McGuire 和 S. Fidler,“神经几何层次细节:具有隐式3D形状的实时渲染”,2021年。[29] S. Huang, Z. Gojcic, Z. Wang, F. Williams, Y. Kasten, S. Fidler, K. Schindler 和 O. Litany,“用于新视图合成的神经LiDAR场”,国际计算机视觉会议(ICCV),2023年。[30] I. Hwang, J. Kim 和 Y. M. Kim,“Ev-NeRF:基于事件的神经辐射场”,冬季计算机视觉应用会议(WACV),2023年。[31] M. Tancik, P. Srinivasan, B. Mildenhall, S. Fridovich-Keil, N. Raghavan, U. Singhal, R. Ramamoorthi, J. Barron 和 R. Ng,“Fourier特征使网络能够在低维域中学习高频函数”,NeurIPS, 2020年, 页码7537–7547。[32] A. Yu, V. Ye, M. Tancik 和 A. Kanazawa,“PixelNeRF:从一张或几张图像生成神经辐射场”,CVPR, 2021年。[33] R. Wu, B. Mildenhall, P. Henzler, K. Park, R. Gao, D. Watson, P. P. Srinivasan, D. Verbin, J. T. Barron, B. Poole 和 A. Holynski,“Reconfusion:利用扩散先验的3D重建”,arXiv, 2023年。[34] K. Sargent, Z. Li, T. Shah, C. Herrmann, H.-X. Yu, Y. Zhang, E. R. Chan, D. Lagun, L. Fei-Fei, D. Sun 和 J. Wu,“ZeroNVS:从单张真实图像进行零样本360度视图合成”,CVPR, 2024年。[35] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark 等人,“通过自然语言监督学习可转移的视觉模型”,国际机器学习会议。PMLR, 2021年, 页码8748–8763。[36] M. Oquab, T. Darcet, T. Moutakanni, H. Vo, M. Szafraniec, V. Khalidov, P. Fernandez, D. Haziza, F. Massa, A. El-Nouby 等人,“DINOv2:无监督学习鲁棒视觉特征”,arXiv预印本 arXiv:2304.07193, 2023年。[37] S. Kobayashi, E. Matsumoto 和 V. Sitzmann,“通过特征场蒸馏分解NeRF以进行编辑”,神经信息处理系统进展,第35卷,页码23311–23330, 2022年。[38] J. Kerr, C. M. Kim, K. Goldberg, A. Kanazawa 和 M. Tancik,“LERF:语言嵌入的辐射场”,国际计算机视觉会议(ICCV),2023年。[39] J. Ho, A. Jain 和 P. Abbeel,“去噪扩散概率模型”,神经信息处理系统进展,第33卷,页码6840–6851, 2020年。[40] G. Wang, L. Pan, S. Peng, S. Liu, C. Xu, Y. Miao, W. Zhan, M. Tomizuka, M. Pollefeys 和 H. Wang,“NeRF在机器人中的应用:一项调查”,arXiv预印本 arXiv:2405.01333, 2024年。[41] C. Sun, M. Sun 和 H.-T. Chen,“直接体素网格优化:用于辐射场重建的超快收敛”,IEEE/CVF计算机视觉与模式识别会议论文集,2022年,页码5459–5469。[42] L. Mescheder, M. Oechsle, M. Niemeyer, S. Nowozin 和 A. Geiger,“占用网络:在函数空间中学习3D重建”,计算机视觉与模式识别会议,2019年。[43] M. Tancik, P. P. Srinivasan, B. Mildenhall, S. Fridovich-Keil, N. Raghavan, U. Singhal, R. Ramamoorthi, J. Barron 和 R. Ng,“Fourier特征使网络能够在低维域中学习高频函数”,NeurIPS, 2020年。[44] J. T. Kajiya 和 B. P. Von Herzen,“射线追踪体密度”,ACM SIGGRAPH计算机图形学,第18卷,第3期,页码165–174, 1984年。[45] N. Max,“直接体绘制的光学模型”,IEEE可视化与计算机图形学汇刊, 1995年。[46] T. Muller, A. Evans, C. Schied 和 A. Keller,“使用多分辨率哈希编码的即时神经图形原语”,ACM图形学汇刊,第41卷,第4期,页码102:1–102:15, 2022年7月。[47] S. Fridovich-Keil, A. Yu, M. Tancik, Q. Chen, B. Recht 和 A. Kanazawa,“Plenoxels:没有神经网络的辐射场”,IEEE/CVF计算机视觉与模式识别会议论文集(CVPR),2022年6月,页码5501–5510。[48] R. Li, M. Tancik 和 A. Kanazawa,“Nerfacc:通用的NeRF加速工具箱”,arXiv预印本 arXiv:2210.04847, 2022年。[49] B. Kerbl, G. Kopanas, T. Leimkuhler 和 G. Drettakis,“用于实时辐射场渲染的3D高斯分散”,ACM图形学汇刊,第42卷,第4期,2023年。[50] M. Zwicker, H. Pfister, J. Van Baar 和 M. Gross,“表面分散”,第28届年度计算机图形与交互技术会议论文集,2001年,页码371–378。[51] M. M. Loper 和 M. J. Black,“OpenDR:一种近似的可微渲染器”,ECCV, 2014年。[52] S. Liu, T. Li, W. Chen 和 H. Li,“Soft Rasterizer:基于图像的3D推理的可微渲染器”,ICCV, 2019年。[53] Y. Lin, T. Muller, J. Tremblay, B. Wen, S. Tyree, A. Evans, P. A. Vela 和 S. Birchfield,“用于鲁棒姿态估计的神经辐射场并行反转”,ICRA, 2023年。[54] A. Moreau, N. Piasco, D. Tsishkou, B. Stanciulescu 和 A. de La Fortelle,“LENS:通过NeRF合成增强定位”,机器人学习会议。PMLR, 2022年, 页码1347–1356。[55] Z. Wang, S. Wu, W. Xie, M. Chen 和 V. A. Prisacariu,“NeRF–:没有已知相机参数的神经辐射场”,arXiv预印本 arXiv:2102.07064, 2021年。[56] A. Meuleman, Y.-L. Liu, C. Gao, J.-B. Huang, C. Kim, M. H. Kim 和 J. Kopf,“渐进优化的局部辐射场,用于鲁棒的视图合成”,CVPR, 2023年。[57] C. Xu, B. Wu, J. Hou, S. Tsai, R. Li, J. Wang, W. Zhan, Z. He, P. Vajda, K. Keutzer 和 M. Tomizuka,“NeRF-Det:学习几何感知的体积表示用于多视角3D物体检测”,ICCV, 2023年。[58] B. Wen, J. Tremblay, V. Blukis, S. Tyree, T. Muller, A. Evans, D. Fox, J. Kautz 和 S. Birchfield,“BundleSDF:未知物体的神经6自由度跟踪和3D重建”,CVPR, 2023年。[59] J. Sun, Y. Xu, M. Ding, H. Yi, C. Wang, J. Wang, L. Zhang 和 M. Schwager,“NeRF-Loc:基于Transformer的神经辐射场中的物体定位”,IEEE机器人与自动化快报, 2023年。[60] A. Simeonov, Y. Du, A. Tagliasacchi, J. B. Tenenbaum, A. Rodriguez, P. Agrawal 和 V. Sitzmann,“神经描述符场:用于操作的SE(3)-等变物体表示”,国际机器人与自动化会议(ICRA)。IEEE, 2022年。[61] E. Chun, Y. Du, A. Simeonov, T. Lozano-Perez 和 L. Kaelbling,“局部神经描述符场:局部条件的物体表示用于操作”,arXiv预印本 arXiv:2302.03573, 2023年。[62] Z. Jiang, Y. Zhu, M. Svetlik, K. Fang 和 Y. Zhu,“可达性与几何之间的协同作用:通过隐式表示进行6自由度抓取检测”,机器人:科学与系统, 2021年。[63] J. Ichnowski, Y. Avigal, J. Kerr 和 K. Goldberg,“Dex-NeRF:使用神经辐射场抓取透明物体”,arXiv预印本 arXiv:2110.14217, 2021年。[64] Y. Zheng, X. Chen, Y. Zheng, S. Gu, R. Yang, B. Jin, P. Li, C. Zhong, Z. Wang, L. Liu 等人,“GaussianGrasper:基于3D语言高斯散射的开放词汇机器人抓取”,arXiv预印本 arXiv:2403.09637, 2024年。[65] J. Kerr, L. Fu, H. Huang, Y. Avigal, M. Tancik, J. Ichnowski, A. Kanazawa 和 K. Goldberg,“Evo-NeRF:用于透明物体连续抓取的进化NeRF”,机器人学习会议,2022年。[66] A. Zhou, M. J. Kim, L. Wang, P. Florence 和 C. Finn,“手掌中的NeRF:通过新视角合成进行机器人的校正增强”,IEEE/CVF计算机视觉与模式识别会议论文集, 2023年, 页码17907–17917。[67] G. Lu, S. Zhang, Z. Wang, C. Liu, J. Lu 和 Y. Tang,“ManiGaussian:用于多任务机器人操作的动态高斯散射”,arXiv预印本 arXiv:2403.08321, 2024年。[68] Q. Dai, Y. Zhu, Y. Geng, C. Ruan, J. Zhang 和 H. Wang,“GraspNeRF:用于透明和镜面物体的多视角6自由度抓取检测”,在2023年IEEE国际机器人与自动化会议(ICRA)。IEEE, 2023年, 页码1757–1763。[69] N. Khargonkar, N. Song, Z. Xu, B. Prabhakaran 和 Y. Xiang,“NeuralGrasps:学习多种机器人手的隐式抓取表示”,机器人学习会议。PMLR, 2023年。[70] T. Weng, D. Held, F. Meier 和 M. Mukadam,“神经抓取距离场用于机器人操作”,2023年IEEE国际机器人与自动化会议(ICRA)。IEEE, 2023年, 页码1814–1821。[71] M. Breyer, J. J. Chung, L. Ott, R. Siegwart 和 J. Nieto,“体积抓取网络:杂乱中的实时6自由度抓取检测”,机器人学习会议。PMLR, 2021年, 页码1602–1611。[72] Y. Ze, G. Yan, Y.-H. Wu, A. Macaluso, Y. Ge, J. Ye, N. Hansen, L. E. Li 和 X. Wang,“GNFactor:具有广泛神经特征场的多任务真实机器人学习”,机器人学习会议。PMLR, 2023年。[73] M. Comi, A. Tonioni, M. Yang, J. Tremblay, V. Blukis, Y. Lin, N. F. Lepora 和 L. Aitchison,“Snap-it, Tap-it, Splat-it:基于触觉的3D高斯散射用于重建具有挑战性的表面”,arXiv预印本 arXiv:2403.20275, 2024年。[74] A. Swann, M. Strong, W. K. Do, G. S. Camps, M. Schwager 和 M. Kennedy III,“Touch-GS:视觉-触觉监督的3D高斯散射”,arXiv预印本 arXiv:2403.09875, 2024年。[75] J. Urain, N. Funk, J. Peters 和 G. Chalvatzaki,“SE(3)-扩散场:通过扩散学习平滑成本函数以进行联合抓取和运动优化”,2023年。[76] L. Y. Chen, C. Xu, K. Dharmarajan, M. Z. Irshad, R. Cheng, K. Keutzer, M. Tomizuka, Q. Vuong 和 K. Goldberg,“Rovi-Aug:跨主体机器人学习的机器人和视点增强”,机器人学习会议(CoRL), 2024年。[77] S. Tian, B. Wulfe, K. Sargent, K. Liu, S. Zakharov, V. Guizilini 和 J. Wu,“通过零样本新视角合成进行视图不变的策略学习”,arXiv, 2024年。[78] T. Chen, P. Culbertson 和 M. Schwager,“CatNIPS:通过神经隐式概率场进行碰撞规避”,arXiv预印本 arXiv:2302.12931, 2023年。[79] Y. Li, S. Li, V. Sitzmann, P. Agrawal 和 A. Torralba,“用于视-运动控制的3D神经场表示”,机器人学习会议。PMLR, 2022年, 页码112–123。[80] P. Marza, L. Matignon, O. Simonin, D. Batra, C. Wolf 和 D. S. Chaplot,“AutoNeRF:使用自主代理训练隐式场景表示”,arXiv预印本 arXiv:2304.11241, 2023年。[81] Z. Yan, H. Yang 和 H. Zha,“主动神经映射”,国际计算机视觉会议(ICCV), 2023年。[82] O. Kwon, J. Park 和 S. Oh,“可渲染的神经辐射图用于视觉导航”,IEEE/CVF计算机视觉与模式识别会议(CVPR)论文集,2023年。[83] Y. Wang, Y. Yan, D. Shi, W. Zhu, J. Xia, T. Jeff, S. Jin, K. Gao, X. Li 和 X. Yang,“NeRF-IBVS:基于NeRF的视觉伺服用于视觉定位和导航”,神经信息处理系统进展,第36卷,2024年。[84] T. Chen, O. Shorinwa, W. Zeng, J. Bruno, P. Dames 和 M. Schwager,“Splat-Nav:在高斯散射地图中的安全实时机器人导航”,arXiv预印本 arXiv:2403.02751, 2024年。[85] N. M. Mahi Shafiullah, C. Paxton, L. Pinto, S. Chintala 和 A. Szlam,“Clip-Fields:用于机器人记忆的弱监督语义场”,arXiv电子版, 页码 arXiv–2210, 2022年。[86] X. Lei, M. Wang, W. Zhou 和 H. Li,“GaussNav:用于视觉导航的高斯散射”,arXiv预印本 arXiv:2403.11625, 2024年。[87] A. Pumarola, E. Corona, G. Pons-Moll 和 F. Moreno-Noguer,“DNeRF:用于动态场景的神经辐射场”,CVPR, 2021年。[88] J. Luiten, G. Kopanas, B. Leibe 和 D. Ramanan,“动态3D高斯:通过持久动态视图合成进行跟踪”,3DV, 2024年。[89] X. Li, Y.-L. Qiao, P. Y. Chen, K. M. Jatavallabhula, M. Lin, C. Jiang 和 C. Gan,“PAC-NeRF:用于几何无关系统识别的物理增强连续神经辐射场”,2023年。[90] Z. Xie, J. Zhang, W. Li, F. Zhang 和 L. Zhang,“S-NeRF:街景的神经辐射场”,2023年。[91] A. Kundu, K. Genova, X. Yin, A. Fathi, C. Pantofaru, L. J. Guibas, A. Tagliasacchi, F. Dellaert 和 T. Funkhouser,“全景神经场:一种语义对象感知的神经场景表示”,计算机视觉与模式识别会议, 2022年。[92] Z. Yang, Y. Chen, J. Wang, S. Manivasagam, W.-C. Ma, A. J. Yang 和 R. Urtasun,“UniSim:神经闭环传感器模拟器”,2023年。[93] M. Z. Irshad, S. Zakharov, K. Liu, V. Guizilini, T. Kollar, A. Gaidon, Z. Kira 和 R. Ambrus,“Neo 360:用于稀疏视图合成的神经场”,国际计算机视觉会议(ICCV), 2023年。[94] P. Sharma, A. Tewari, Y. Du, S. Zakharov, R. Ambrus, A. Gaidon, W. T. Freeman, F. Durand, J. B. Tenenbaum 和 V. Sitzmann,“Neural Groundplans:从单张图像生成持久的神经场景表示”,arXiv预印本 arXiv:2207.11232, 2022年。[95] T. Gieruc, M. Kastingschäfer, S. Bernhard 和 M. Salzmann,“6img-to-3D:少量图像进行大规模室外驾驶场景重建”,2024年。[96] C.-H. Lin, W.-C. Ma, A. Torralba 和 S. Lucey,“BARF:捆绑调整神经辐射场”,IEEE/CVF国际计算机视觉会议论文集, 2021年, 页码5741–5751。[97] K. Park, U. Sinha, J. T. Barron, S. Bouaziz, D. B. Goldman, S. M. Seitz 和 R. Martin-Brualla,“NeRFies:可变形的神经辐射场”,国际计算机视觉会议, 2021年。[98] A. Hertz, O. Perel, R. Giryes, O. Sorkine-Hornung 和 D. Cohen-Or,“SAPE:用于神经优化的空间自适应渐进编码”,神经信息处理系统进展, 2021年。[99] L. Melas-Kyriazi, I. Laina, C. Rupprecht 和 A. Vedaldi,“RealFusion:从单张图像实现360度物体重建”,计算机视觉与模式识别会议, 2023年。[100] H. Heo, T. Kim, J. Lee, J. Lee, S. Kim, H. J. Kim 和 J.-H. Kim,“基于多分辨率哈希编码的鲁棒相机姿态优化”,国际机器学习会议, 系列机器学习研究论文集。[101] M. Tancik, V. Casser, X. Yan, S. Pradhan, B. Mildenhall, P. P. Srinivasan, J. T. Barron 和 H. Kretzschmar,“Block-NeRF:用于大场景神经视图合成的可扩展方法”,CVPR, 2022年。[102] Q. Meng, A. Chen, H. Luo, M. Wu, H. Su, L. Xu, X. He 和 J. Yu,“GNeRF:基于生成对抗网络的无相机位姿的神经辐射场”,国际计算机视觉会议, 2021年。[103] S.-F. Chng, S. Ramasinghe, J. Sherrah 和 S. Lucey,“高斯激活神经辐射场用于高保真重建与位姿估计”,欧洲计算机视觉会议, 2022年。[104] Y. Xia, H. Tang, R. Timofte 和 L. Van Gool,“SiNeRF:用于联合位姿估计与场景重建的正弦神经辐射场”,arXiv预印本 arXiv:2210.04553, 2022年。[105] W. Bian, Z. Wang, K. Li, J.-W. Bian 和 V. A. Prisacariu,“Nope-NeRF:无位姿先验的神经辐射场优化”,计算机视觉与模式识别会议, 2023年。[106] P. Truong, M.-J. Rakotosaona, F. Manhardt 和 F. Tombari,“SPARF:从稀疏和噪声位姿中生成的神经辐射场”,计算机视觉与模式识别会议, 2023年。[107] Y. Jeong, S. Ahn, C. Choy, A. Anandkumar, M. Cho 和 J. Park,“自校准神经辐射场”,IEEE/CVF国际计算机视觉会议论文集, 2021年, 页码5846–5854。[108] Y. Chen 和 G. H. Lee,“DBARF:深度捆绑调整通用神经辐射场”,IEEE/CVF计算机视觉与模式识别会议(CVPR), 2023年。[109] Q. Wang, Z. Wang, K. Genova, P. P. Srinivasan, H. Zhou, J. T. Barron, R. Martin-Brualla, N. Snavely 和 T. Funkhouser,“IBRNet:学习基于多视图图像的渲染”,IEEE/CVF计算机视觉与模式识别会议论文集, 2021年。[110] G. Avraham, J. Straub, T. Shen, T.-Y. Yang, H. Germain, C. Sweeney, V. Balntas, D. Novotny, D. DeTone 和 R. Newcombe,“NeRFels:用于改进相机位姿估计的可渲染神经编码”,计算机视觉与模式识别会议, 2022年。[111] Q. Zhou, M. Maximov, O. Litany 和 L. Leal-Taixe,“The NeRFect Match:探索NeRF特征进行视觉定位”,arXiv预印本 arXiv:2403.09577, 2024年。[112] R. Chen, Y. Cong 和 Y. Ren,“结合NeRF与特征匹配进行一步位姿估计”,arXiv预印本 arXiv:2404.00891, 2024年。[113] M. Bortolon, T. Tsesmelis, S. James, F. Poiesi 和 A. Del Bue,“IFF-NeRF:无需初始化和快速6自由度位姿估计”,arXiv预印本 arXiv:2403.12682, 2024年。[114] S. Ito, H. Aizawa 和 K. Kato,“基于少样本NeRF视图合成的视点偏向相机位姿估计”,国际人工神经网络会议。Springer, 2023年, 页码308–319。[115] L. Claessens, F. Manhardt, R. Martin-Brualla, R. Siegwart, C. Cadena 和 F. Tombari,“具有分辨率条件的NeRF引导的边缘引导位姿估计”,BMVC, 2023年。[116] M. A. Karaoglu, H. Schieber, N. Schischka, M. Gorg¨ulu, F. Grötzner, A. Ladikos, D. Roth, N. Navab 和 B. Busam,“DynaMON:面向动态NeRF的运动感知快速鲁棒相机定位”,arXiv预印本 arXiv:2309.08927, 2023年。[117] E. Sucar, S. Liu, J. Ortiz 和 A. J. Davison,“iMAP:实时的隐式映射和定位”,IEEE/CVF国际计算机视觉会议论文集, 2021年, 页码6229–6238。[118] Z. Zhu, S. Peng, V. Larsson, W. Xu, H. Bao, Z. Cui, M. R. Oswald 和 M. Pollefeys,“Nice-SLAM:用于SLAM的神经隐式可扩展编码”,IEEE/CVF计算机视觉与模式识别会议论文集, 2022年, 页码12786–12796。[119] H. Matsuki, R. Murai, P. H. J. Kelly 和 A. J. Davison,“高斯散射SLAM”,IEEE/CVF计算机视觉与模式识别会议论文集, 2024年。[120] V. Yugay, Y. Li, T. Gevers 和 M. R. Oswald,“Gaussian-SLAM:使用高斯散射的逼真密集SLAM”,2023年。[121] N. Keetha, J. Karhade, K. M. Jatavallabhula, G. Yang, S. Scherer 和 J. Luiten,“SPLATAM:散射、跟踪与映射3D高斯用于密集RGB-D SLAM”,IEEE/CVF计算机视觉与模式识别会议论文集, 2024年。[122] S. Zhi, E. Sucar, A. Mouton, I. Haughton, T. Laidlow 和 A. J. Davison,“iLabel:交互式神经场景标注”,arXiv, 2021年。[123] K. Mazur, E. Sucar 和 A. J. Davison,“用于实时开放集场景理解的特征真实神经融合”,国际机器人与自动化会议(ICRA)。IEEE, 2023年。[124] K. Jatavallabhula, A. Kuwajerwala, Q. Gu, M. Omama, T. Chen, S. Li, G. Iyer, S. Saryazdi, N. Keetha, A. Tewari 等人,“ConceptFusion:开放集多模态3D映射”,RSS, 2023年。[125] F. Tosi, Y. Zhang, Z. Gong, E. Sandstrom, S. Mattoccia, M. R. Oswald 和 M. Poggi,“NeRFs与3D高斯散射如何重塑SLAM:一项综述”,arXiv预印本 arXiv:2402.13255, 2024年。[126] M. Z. Irshad, S. Zakharov, V. Guizilini, A. Gaidon, Z. Kira 和 R. Ambrus,“NeRF-MAE:用于神经辐射场的自监督3D表示学习的掩码自动编码器”,欧洲计算机视觉会议(ECCV), 2024年。[127] H. Yan, Y. Zheng 和 Y. Duan,“Gaussian-DET:学习封闭表面高斯用于3D物体检测”,2024年。[128] Y. Cao, Y. Jv 和 D. Xu,“3DGS-DET:增强3D高斯散射的边界引导与框聚焦采样用于3D物体检测”,2024年。[129] F. Li, S. R. Vutukur, H. Yu, I. Shugurov, B. Busam, S. Yang 和 S. Ilic,“NeRF-Pose:一种先重建再回归的方法用于弱监督6D物体位姿估计”,国际计算机视觉会议, 2023年。[130] M. Z. Irshad, S. Zakharov, R. Ambrus, T. Kollar, Z. Kira 和 A. Gaidon,“SHaPo:用于多物体形状外观与位姿优化的隐式表示”,欧洲计算机视觉会议(ECCV), 2022年。[131] M. Lunayach, S. Zakharov, D. Chen, R. Ambrus, Z. Kira 和 M. Z. Irshad,“FSD:用于单RGB-D到类别化3D物体的快速自监督”,国际机器人与自动化会议。IEEE, 2024年。[132] N. Heppert, M. Z. Irshad, S. Zakharov, K. Liu, R. A. Ambrus, J. Bohg, A. Valada 和 T. Kollar,“CARTO:类别和关节无关的多关节物体重建”,IEEE计算机视觉与模式识别会议论文集, 2023年, 页码21201–21210。[133] Y. Guo, A. Kumar, C. Zhao, R. Wang, X. Huang 和 L. Ren,“UPNeRF:单目3D物体重建与位姿估计的统一框架”,arXiv预印本 arXiv:2403.15705, 2024年。[134] D. Pavllo, D. J. Tan, M.-J. Rakotosaona 和 F. Tombari,“通过自举辐射场反转实现单张图像的形状、位姿和外观”,计算机视觉与模式识别会议(CVPR), 2023年。[135] L. Huang, T. Hodan, L. Ma, L. Zhang, L. Tran, C. Twigg, P.-C. Wu, J. Yuan, C. Keskin 和 R. Wang,“用于物体位姿估计的神经对应场”,欧洲计算机视觉会议, 2022年。[136] A. Khazatsky, K. Pertsch, S. Nair, A. Balakrishna, S. Dasari 等人,“DROID:大规模野外机器人操作数据集”,2024年。[137] M. Deitke, R. Liu, M. Wallingford, H. Ngo, O. Michel 等人,“Objaverse-XL:一个包含超过1000万个3D物体的宇宙”,神经信息处理系统进展,第36卷, 2024年。[138] J. Mahler, J. Liang, S. Niyaz, M. Laskey, R. Doan, X. Liu, J. A. Ojea 和 K. Goldberg,“Dex-Net 2.0:使用合成点云和分析抓取度量规划稳健的抓取”,arXiv预印本 arXiv:1703.09312, 2017年。[139] S. Song, A. Zeng, J. Lee 和 T. Funkhouser,“野外抓取:从低成本演示中学习6自由度闭环抓取”,IEEE机器人与自动化快报, 2020年。[140] L. Yen-Chen, P. Florence, J. T. Barron, T.-Y. Lin, A. Rodriguez 和 P. Isola,“NeRF-Supervision:从神经辐射场学习密集物体描述符”,2022年国际机器人与自动化会议(ICRA)。IEEE, 2022年, 页码6496–6503。[141] L. Yen-Chen, P. Florence, A. Zeng, J. T. Barron, Y. Du, W.-C. Ma, A. Simeonov, A. R. Garcia 和 P. Isola,“MIRA:用于机器人可行性判断的心理图像”,arXiv预印本 arXiv:2212.06088, 2022年。[142] G. Soti, X. Huang, C. Wurll 和 B. Hein,“通过传输学习从NeRFs进行6自由度抓取姿态评估与优化”,arXiv预印本 arXiv:2401.07935, 2024年。[143] C. Liu, K. Shi, K. Zhou, H. Wang, J. Zhang 和 H. Dong,“RGBGrasp:通过在机械臂运动中捕捉多视图神经辐射场实现基于图像的物体抓取”,arXiv预印本 arXiv:2311.16592, 2023年。[144] V. Blukis, T. Lee, J. Tremblay, B. Wen, I. S. Kweon, K.-J. Yoon, D. Fox 和 S. Birchfield,“用于单张图像的神经场机器人物体操作”,arXiv预印本 arXiv:2210.12126, 2022年。[145] V. Blukis, K.-J. Yoon, T. Lee, J. Tremblay, B. Wen, I.-S. Kweon, D. Fox 和 S. Birchfield,“用于3D物体理解的一次神经场”,CVPR Workshop (CVPRW), 2023年。[146] C. Deng, O. Litany, Y. Duan, A. Poulenard, A. Tagliasacchi 和 L. J. Guibas,“向量神经元:一种通用的SO(3)等变网络框架”,国际计算机视觉会议, 2021年。[147] M. N. Qureshi, S. Garg, F. Yandun, D. Held, G. Kantor 和 A. Silwal,“Splatsim:使用高斯散射的零样本仿真到现实RGB操作策略传输”,arXiv预印本 arXiv:2409.10161, 2024年。[148] E. Chisari, N. Heppert, T. Welschehold, W. Burgard 和 A. Valada,“CenterGrasp:对象感知的隐式表示学习用于同时形状重建和6自由度抓取估计”,IEEE机器人与自动化快报 (RA-L), 2024年。[149] R.-Z. Qiu, Y. Hu, G. Yang, Y. Song, Y. Fu, J. Ye, J. Mu, R. Yang, N. Atanasov, S. Scherer 等人,“学习通用的特征场用于移动操作”,arXiv预印本 arXiv:2403.07563, 2024年。[150] S. Zhong, A. Albini, O. P. Jones, P. Maiolino 和 I. Posner,“触摸NeRF:利用神经辐射场生成触觉传感数据”,机器人学习会议。PMLR, 2023年。[151] Y. Dou, F. Yang, Y. Liu, A. Loquercio 和 A. Owens,“触觉增强辐射场”,IEEE/CVF计算机视觉与模式识别会议论文集, 2024年。[152] M. Comi, Y. Lin, A. Church, A. Tonioni, L. Aitchison 和 N. F. Lepora,“TouchSDF:基于DeepSDF的视觉触觉传感3D形状重建方法”,IEEE机器人与自动化快报, 2024年。[153] S. Suresh, H. Qi, T. Wu, T. Fan, L. Pineda, M. Lambeta, J. Malik, M. Kalakrishnan, R. Calandra, M. Kaess 等人,“具有神经场的神经触感:用于手持操作的视触觉感知”,arXiv预印本 arXiv:2312.13469, 2023年。[154] C. Higuera, S. Dong, B. Boots 和 M. Mukadam,“神经接触场:通过触觉感知跟踪外部接触”,国际机器人与自动化会议(ICRA)。IEEE, 2023年。[155] T. Yoneda, T. Jiang, G. Shakhnarovich 和 M. R. Walter,“通过扩散模型进行的6自由度稳定场”,arXiv预印本 arXiv:2310.17649, 2023年。[156] C.-Y. Ma, Z. Wu, G. AlRegib, C. Xiong 和 Z. Kira,“遗憾的代理:通过进度估计的启发式导航”,计算机视觉与模式识别会议(CVPR), 2019年。[157] X. Wang, Q. Huang, A. Celikyilmaz, J. Gao, D. Shen, Y.-F. Wang, W. Yang Wang 和 L. Zhang,“强化跨模态匹配和自监督模仿学习用于视觉语言导航”,计算机视觉与模式识别会议, 2019年。[158] E. Wijmans, A. Kadian, A. Morcos, S. Lee, I. Essa, D. Parikh, M. Savva 和 D. Batra,“DD-PPO:通过25亿帧学习接近完美的目标导航”,国际学习表示会议(ICLR), 2020年。[159] M. Z. Irshad, C.-Y. Ma 和 Z. Kira,“用于机器人视觉和语言导航的分层跨模态代理”,IEEE国际机器人与自动化会议(ICRA), 2021年。[160] M. Z. Irshad, N. C. Mithun, Z. Seymour, H.-P. Chiu, S. Samarasekera 和 R. Kumar,“SASRA:面向视觉与语言导航的语义感知时空推理代理”,国际模式识别会议(ICPR), 2022年。[161] D. S. Chaplot, H. Jiang, S. Gupta 和 A. Gupta,“语义好奇心用于主动视觉学习”,2020年。[162] M. Adamkiewicz, T. Chen, A. Caccavale, R. Gardner, P. Culbertson, J. Bohg 和 M. Schwager,“在神经辐射世界中的视觉导航机器人”,IEEE机器人与自动化快报, 2022年。[163] D. Driess, Z. Huang, Y. Li, R. Tedrake 和 M. Toussaint,“通过组合神经辐射场学习多物体动态”,机器人学习会议。PMLR, 2023年, 页码1755–1768。[164] Z. Wu, S. Pan, F. Chen, G. Long, C. Zhang 和 S. Y. Philip,“图神经网络综述”,IEEE神经网络与学习系统交易, 2020年。[165] D. S. Chaplot, D. P. Gandhi, A. Gupta 和 R. R. Salakhutdinov,“对象目标导航使用面向目标的语义探索”,神经信息处理系统进展, 2020年。[166] D. Patel, P. Pham 和 A. Bera,“DroneRF:实时多代理无人机位姿优化用于计算神经辐射场”,arXiv预印本 arXiv:2303.04322, 2023年。[167] C. Li, R. Liang, H. Fan, Z. Zhang, S. Durvasula 和 N. Vijaykumar,“DisORF:一种用于移动机器人分布式在线NeRF训练与渲染的框架”,arXiv预印本 arXiv:2403.00228, 2024年。[168] E. Skartados, M. K. Yucel, B. Manganelli, A. Drosou 和 A. Saa-Garriga,“寻找沃尔多:高效探索NeRF场景空间”,ACM多媒体系统会议, 2024年。[169] B. Planche, X. Rong, Z. Wu, S. Karanam, H. Kosch, Y. Tian, J. Ernst 和 A. Hutter,“增量场景合成”,神经信息处理系统进展,第32卷, 2019年。[170] F. Taioli, F. Cunico, F. Girella, R. Bologna, A. Farinelli 和 M. Cristani,“语言增强的RNR-Map:使用自然语言查询可渲染的神经辐射场地图”,国际计算机视觉会议(ICCV)工作坊, 2023年。[171] J. Han, L. L. Beyer, G. V. Cavalheiro 和 S. Karaman,“NVINS:与NeRF增强的相机位姿回归器和不确定性量化相融合的鲁棒视觉惯性导航”,arXiv预印本 arXiv:2404.01400, 2024年。[172] Q. Liu, N. Chen, Z. Liu 和 H. Wang,“基于学习的神经辐射场视觉运动导航”,IEEE工业信息学交易, 2024年。[173] A. Rashid, C. M. Kim, J. Kerr, L. Fu, K. Hari 等人,“Lifelong LERF:使用FogROS2的本地3D语义库存监测”,arXiv预印本 arXiv:2403.10494, 2024年。[174] B. Zhao, L. Yang, M. Mao, H. Bao 和 Z. Cui,“PNeRFLoc:基于点的神经辐射场的视觉定位”,美国人工智能协会会议论文集第38卷, 2024年, 页码7450–7459。[175] G. S. Camps, R. Dyro, M. Pavone 和 M. Schwager,“在线学习深度SDF地图用于机器人导航和探索”,arXiv预印本 arXiv:2207.10782, 2022年。[176] A. Kirillov, E. Mintun, N. Ravi, H. Mao, C. Rolland 等人,“分割一切”,IEEE/CVF国际计算机视觉会议论文集, 2023年, 页码4015–4026。[177] C. Huang, O. Mees, A. Zeng 和 W. Burgard,“用于机器人导航的视觉语言地图”,IEEE国际机器人与自动化会议(ICRA), 伦敦, 英国, 2023年。[178] B. Li, K. Q. Weinberger, S. Belongie, V. Koltun 和 R. Ranftl,“基于语言驱动的语义分割”,arXiv预印本 arXiv:2201.03546, 2022年。[179] X. Zhou, R. Girdhar, A. Joulin, P. Krähenbühl 和 I. Misra,“使用图像级别监督检测20000个类别”,欧洲计算机视觉会议。Springer, 2022年, 页码350–368。[180] Y. Yuan 和 A. Nuchter,“Uni-Fusion:通用连续映射”,IEEE机器人学报, 2024年。[181] K. Yamazaki, T. Hanyu, K. Vo, T. Pham, M. Tran 等人,“Open-Fusion:实时开放词汇的3D映射和可查询场景表示”,arXiv预印本 arXiv:2310.03923, 2023年。[182] Y. Hong, H. Zhen, P. Chen, S. Zheng, Y. Du, Z. Chen 和 C. Gan,“3D-LLM:将3D世界注入大型语言模型”,2023年。[183] Y. Hong, C. Lin, Y. Du, Z. Chen, J. B. Tenenbaum 和 C. Gan,“从多视图图像中学习和推理3D概念”,计算机视觉与模式识别会议, 2023年。[184] J.-B. Alayrac, J. Donahue, P. Luc, A. Miech, I. Barr 等人,“Flamingo:用于少样本学习的视觉语言模型”,神经信息处理系统进展, 2022年。[185] H. Liu, C. Li, Q. Wu 和 Y. J. Lee,“视觉指令调优”,神经信息处理系统进展, 2023年。[186] X. Puig, E. Undersander, A. Szot, M. D. Cote, T.-Y. Yang 等人,“Habitat 3.0:一个人类、化身和机器人共存的栖息地”,arXiv预印本 arXiv:2310.13724, 2023年。[187] F.-A. Croitoru, V. Hondru, R. T. Ionescu 和 M. Shah,“视觉中的扩散模型:综述”,IEEE模式分析与机器智能交易, 2023年。[188] J.-W. Liu, Y.-P. Cao, W. Mao, W. Zhang, D. J. Zhang, J. Keppo, Y. Shan, X. Qie 和 M. Z. Shou,“DeVRF:用于动态场景的快速可变形体素辐射场”,神经信息处理系统进展,第35卷, 2022年, 页码36762–36775。[189] K. Park, U. Sinha, P. Hedman, J. T. Barron, S. Bouaziz, D. B. Goldman, R. Martin-Brualla 和 S. M. Seitz,“HyperNeRF:一种用于拓扑变化神经辐射场的高维表示”,arXiv预印本 arXiv:2106.13228, 2021年。[190] E. Tretschk, A. Tewari, V. Golyanik, M. Zollhofer, C. Lassner 和 C. Theobalt,“非刚性神经辐射场:单目视频中的动态场景重建和新视角合成”,国际计算机视觉会议, 2021年。[191] Y.-L. Qiao, A. Gao 和 M. Lin,“NeuPhysics:从单目视频中编辑神经几何和物理”,神经信息处理系统进展,第35卷, 2022年, 页码12841–12854。[192] Z. Li, S. Niklaus, N. Snavely 和 O. Wang,“用于动态场景的时空视图合成的神经场流场”,计算机视觉与模式识别会议, 2021年。[193] C. Gao, A. Saraf, J. Kopf 和 J.-B. Huang,“从动态单目视频中合成动态视图”,IEEE/CVF国际计算机视觉会议论文集, 2021年, 页码5712–5721。[194] G. Wu, T. Yi, J. Fang, L. Xie, X. Zhang 等人,“用于实时动态场景渲染的4D高斯散射”,arXiv预印本 arXiv:2310.08528, 2023年。[195] B. P. Duisterhof, Z. Mandi, Y. Yao, J.-W. Liu, M. Z. Shou, S. Song 和 J. Ichnowski,“MD-Splatting:从4D高斯中学习度量变形,用于高变形场景”,arXiv预印本 arXiv:2312.00583, 2023年。[196] Z. Yang, H. Yang, Z. Pan 和 L. Zhang,“具有4D高斯散射的实时逼真动态场景表示与渲染”,国际学习表示会议(ICLR), 2024年。[197] I. Liu, H. Su 和 X. Wang,“动态高斯网格:从单目视频中一致的网格重建”,2024年。[198] J. Abou-Chakra, F. Dayoub 和 N. Sunderhauf,“ParticleNeRF:一种基于粒子的编码用于在线神经辐射场”,冬季计算机视觉应用会议, 2024年。[199] J. Abou-Chakra, K. Rana, F. Dayoub 和 N. Sunderhauf,“物理化高斯散射:用于机器人实时校正的世界模型”,arXiv预印本 arXiv:2406.10788, 2024年。[200] A. Blattmann, T. Dockhorn, S. Kulal, D. Mendelevitch, M. Kilian, D. Lorenz, Y. Levi, Z. English, V. Voleti, A. Letts 等人,“稳定视频扩散:扩展潜在视频扩散模型到大型数据集”,arXiv预印本 arXiv:2311.15127, 2023年。[201] F. Hofherr, L. Koestler, F. Bernard 和 D. Cremers, “用于从单一视频推断物理参数的神经隐式表示”,冬季计算机视觉应用会议,2023年。[202] S. Le Cleac’h, H.-X. Yu, M. Guo, T. Howell, R. Gao, J. Wu, Z. Manchester 和 M. Schwager, “增强动态神经对象的可微分物理模拟”,IEEE 机器人与自动化快报,第8卷,第5期,2780-2787页,2023年。[203] A. J. Zhai, Y. Shen, E. Y. Chen, G. X. Wang, X. Wang, S. Wang, K. Guan 和 S. Wang, “通过嵌入语言的特征场理解物理属性”,CVPR, 2024年。[204] K. Yang, X. Zhang, Z. Huang, X. Chen, Z. Xu 和 H. Su, “MovingParts:基于运动的3D部件发现用于动态辐射场”,国际学习表示会议,2024年。[205] W.-C. Tseng, H.-J. Liao, L. Yen-Chen 和 M. Sun, “CLA-NeRF:类别级别的关节神经辐射场”,2022年3月,arXiv:2202.00181 [cs]。[206] J. Kerr, C. M. Kim, M. Wu, B. Yi, Q. Wang, K. Goldberg 和 A. Kanazawa, “机器人观察并模仿:利用单目4D重建模拟关节物体操作”,机器人学习会议,2024年。[207] Y. Feng, Y. Shang, X. Li, T. Shao, C. Jiang 和 Y. Yang, “Pie-NeRF:基于物理的交互弹性动力学与NeRF”,arXiv 预印本 arXiv:2311.13099, 2023年。[208] L. Zhong, H.-X. Yu, J. Wu 和 Y. Li, “利用弹簧质量3D高斯实现弹性物体的重建与模拟”,arXiv 预印本 arXiv:2403.09434, 2024年。[209] H.-X. Yu, Y. Zheng, Y. Gao, Y. Deng, B. Zhu 和 J. Wu, “从视频中推断混合神经流体场”,神经信息处理系统进展,第36卷,2024年。[210] Y. Feng, X. Feng, Y. Shang, Y. Jiang, C. Yu, Z. Zong, T. Shao, H. Wu, K. Zhou, C. Jiang 和 Y. Yang, “高斯溅射:利用高斯撒点的动态流体合成”,2024年。[211] Y. Li, Z.-H. Lin, D. Forsyth, J.-B. Huang 和 S. Wang, “ClimaNeRF:神经辐射场中的极端天气合成”,国际计算机视觉会议 (ICCV), 2023年。[212] Z. Zong, X. Li, M. Li, M. M. Chiaramonte, W. Matusik, E. Grinspun, K. Carlberg, C. Jiang 和 P. Y. Chen, “用于降阶弹塑性与断裂的神经应力场”,SIGGRAPH Asia, 2023年。[213] Y. Yan, H. Lin, C. Zhou, W. Wang, H. Sun, K. Zhan, X. Lang, X. Zhou 和 S. Peng, “用于动态城市场景建模的街道高斯”,2024年。[214] H. Turki, J. Y. Zhang, F. Ferroni 和 D. Ramanan, “SUDS:可扩展的城市动态场景”,2023年。[215] J. Yang, B. Ivanovic, O. Litany, X. Weng, S. W. Kim, B. Li, T. Che, D. Xu, S. Fidler, M. Pavone 和 Y. Wang, “EmerNeRF:通过自监督实现的时空场景分解”,arXiv 预印本 arXiv:2311.02077, 2023年。[216] X. Zhou, Z. Lin, X. Shan, Y. Wang, D. Sun 和 M.-H. Yang, “DrivingGaussian:用于周围动态自动驾驶场景的复合高斯撒点”,2023年。[217] R. Martin-Brualla, N. Radwan, M. S. M. Sajjadi, J. T. Barron, A. Dosovitskiy 和 D. Duckworth, “野外NeRF:用于非约束照片集合的神经辐射场”,CVPR, 2021年, 7210–7219页。[218] M.-Y. Shen, C.-C. Hsu, H.-Y. Hou, Y.-C. Huang, W.-F. Sun, C.-C. Chang, Y.-L. Liu 和 C.-Y. Lee, “DriveEnv-NeRF:基于NeRF的自动驾驶环境探索以验证实际性能”,arXiv 预印本 arXiv:2403.15791, 2024年。[219] C. Lindstrom, G. Hess, A. Lilja, M. Fatemi, L. Hammarstrand, C. Petersson 和 L. Svensson, “NeRF是否准备好用于自动驾驶?迈向填补现实到仿真差距”,arXiv 预印本 arXiv:2403.16092, 2024年。[220] L. Li, Q. Lian, L. Wang, N. Ma 和 Y.-C. Chen, “Lift3D:通过提升2D GAN至3D生成辐射场合成3D训练数据”,计算机视觉与模式识别会议, 2023年。[221] L. Li, Q. Lian 和 Y.-C. Chen, “Adv3D:在驾驶场景中利用NeRF生成3D对抗性样本”,arXiv 预印本 arXiv:2309.01351, 2023年。声明:本文素材来源于https://arxiv.org/abs/2410.20220,致敬原作者。侵权可后台联系删除。另https://github.com/zubair-irshad/Awesome-Implicit-NeRF-Robotics
3D视觉之心是面向3D视觉感知方向相关的交流社区,由业内顶尖的3D视觉团队创办!聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
扫码添加小助理进群
3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。