TPAMI 2024 | PERF: 从单张全景图生成全景神经辐射场

文摘   2024-10-15 19:00   辽宁  

点击下方“计算机书童”卡片,每天获取顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

题目:PERF: Panoramic Neural Radiance Field From a Single Panorama

PERF: 从单张全景图生成全景神经辐射场

作者:Guangcong Wang; Peng Wang; Zhaoxi Chen; Wenping Wang; Chen Change Loy; Ziwei Liu


摘要

神经辐射场(NeRF)在给定多视角图像时,在新视角合成任务上取得了显著进展。最近,一些研究尝试利用3D先验知识,从单张图像中训练NeRF。然而,它们主要关注有限视角且包含少量遮挡的情况,这大大限制了其在真实世界中的360度全景场景中的扩展性,尤其是在存在大面积遮挡时。在本文中,我们提出了PERF,一个从单张全景图训练全景神经辐射场的360度新视角合成框架。值得注意的是,PERF允许在复杂场景中进行3D漫游,而无需繁琐的图像收集。为实现这一目标,我们提出了一种新颖的协同RGBD修复方法以及逐步修复和擦除的方法,将360度的2D场景提升为3D场景。具体而言,我们首先在给定单张全景图的情况下,预测全景深度图作为初始化,并通过体渲染重建可见的3D区域。接下来,我们将一种协同的RGBD修复方法引入NeRF,用于从随机视角完成RGB图像和深度图的修复,这种方法基于RGB的稳定扩散模型和单目深度估计器。最后,我们引入修复和擦除策略,以避免新采样视角与参考视角之间的几何不一致问题。这两个组件集成在NeRF的统一优化框架中,并实现了令人满意的结果。在Replica和新数据集PERF-in-the-wild上的大量实验表明,我们的PERF相较于最先进的方法具有优势。PERF可以广泛应用于真实世界的应用,如从全景到3D、从文本到3D以及3D场景风格化等应用。

关键词

  • 3D场景合成

  • 新视角合成

  • 全景神经辐射场

  • 单张全景图

I. 引言

神经辐射场(NeRF)最近因其出色的渲染质量而在新视角合成任务上获得了越来越多的关注。成功训练一个NeRF模型通常需要来自不同视角的多张图像进行监督。然而,密集地捕获一个场景的多张图像需要大量的精力。在许多实际场景中,仅用一张图像捕获场景对大多数人来说是更为方便的选择。在本文中,我们的研究兴趣在于给定单张360度的2D图像作为输入,训练一个全景神经辐射场。这个有前景的任务可以让我们无需费力地捕获图像便能在室内环境中漫游,具有许多实际应用,例如房屋导览、虚拟现实游戏和远程会议。

从单张全景图训练全景神经辐射场存在几个关键挑战。首先,全景图具有360度视角,但它没有3D信息。在没有任何3D先验的情况下,不可能从单张全景图中训练一个有效的NeRF。其次,由于遮挡问题,单张全景图只能部分观察到场景,因此,训练单视角全景神经辐射场成为了一个复杂的耦合问题,即3D场景重建和3D场景生成。我们一方面需要重建输入全景图的可见区域,另一方面需要在3D空间中生成合理的内容以语义匹配可见区域,这是相当困难的。第三,与有限视角的场景或360度以物体为中心的场景不同,全景场景通常包含大面积的遮挡以及各种开放世界的物体。第四,避免可见区域与不可见区域之间的几何冲突是一个挑战。当完成不可见区域的形状时,新合成的3D几何体不应遮挡给定视角的原始可见区域。否则,给定全景图中的某些可见点会成为“不可见点”,从而导致训练过程中的几何冲突。

现有的方法仅对这些问题提供了部分解决方案。一些NeRF方法通过考虑几何约束和高级语义约束,减少了对密集视角的需求,并通过少量图像进行3D重建。然而,这些NeRF方法主要研究多个视角的3D场景重建,而没有考虑3D场景生成,无法解决不可见的遮挡问题。

最近,一些方法尝试从单张图像中训练NeRF。它们要么直接使用对抗训练合成小尺寸的不可见区域,要么需要在其他相似场景上对NeRF进行预训练。然而,这些方法仅探讨了从单张图像生成有限视角的3D场景,在包含大面积遮挡的360度全景场景中,效果不佳。其他方法提出使用多平面图像来表示3D场景而不是NeRF。在这些方法中,视角也受到限制。与这些之前的艺术不同,我们的方法旨在从单张全景图训练全景神经辐射场,通过生成复杂场景的照片级逼真新视角,实现3D漫游。

最近,一些方法已初步尝试从单张全景图学习全景神经辐射场。它们引入了语义感知的约束、对不完整全景图的数据增强或选择重叠较少的完整图像。尽管如此,这些方法仍未能生成高质量的3D全景神经辐射场。与研究一般360度场景不同,一些方法研究了360度以物体为中心的场景,捕捉了围绕物体的多张图像且遮挡较少。我们的目标是从包含大面积遮挡的单张全景图生成3D场景,这与它们有所不同。其他一些并行的方法为3D补洞,但它们关注于有限视角或网格。

为了解决这些挑战,我们提出了PERF,一种从单张全景图训练全景神经辐射场的360度新视角合成方法。具体而言,我们预测了单张全景图作为初始几何的全景深度图。我们提出了一种协同RGBD修复方法,使用训练好的稳定扩散模型进行RGB修复,并使用单目深度估计器进行深度补全,旨在生成不可见区域的新外观和3D形状。更精确地说,我们将全景场景变换到一个看不见的视角,并使用稳定扩散模型完成不可见的感兴趣区域。接着,我们预测该感兴趣区域的深度图,并优化深度图,使其与全球全景场景保持一致(挑战1和2)。此外,我们还提出了一种逐步修复和擦除的方法,以避免不同视角之间几何不一致(挑战3和4)。修复和擦除方法从随机视角修复不可见区域,并擦除从其他参考视角观察到的冲突几何区域,从而实现更好的3D场景补全。我们通过逐步采样新视角来完成这一过程。我们在Replica和PERF-in-the-wild数据集上进行了实验,展示了我们提出的PERF方法的优越性和有效性。

总的来说,本文的主要贡献如下:

  1. PERF:我们提出了一种从单张全景图训练全景神经辐射场的新方法。为此,我们提出了一种基于训练好的稳定扩散模型的协同RGBD修复方法,用于RGB修复,以及基于训练好的单目深度估计器的几何补全方法。值得注意的是,协同RGBD修复无需额外的训练。

  2. 我们提出了一种逐步修复和擦除的方法,以避免不同视角之间的几何冲突。我们通过逐步增加随机视角来修复不可见区域,并通过比较新添加的视角与参考视角来擦除冲突区域。

  3. 大量实验:在Replica和PERF-in-the-wild数据集上,实验表明PERF在单视角全景神经辐射场方面达到了新的最先进水平。提出的PERF方法可以应用于从全景到3D、从文本到3D以及3D场景风格化任务,并在多个前景应用中展示了令人惊喜的结果。

III. 我们的方法

从单张全景图训练全景神经辐射场(NeRF)是一个具有挑战性的问题,原因在于:1)缺乏3D信息,2)大尺寸物体遮挡,3)重建与生成的耦合问题,4)修复过程中可见区域和不可见区域之间的几何冲突。一些方法通过直接插值NeRF、对抗学习、高级语义约束或在类似场景上进行预训练来恢复不可见区域。然而,在复杂的全景场景中,当允许任意人类视角时,通常会出现大面积遮挡。直接使用这些方法来解决单视角全景NeRF难以合成高质量的3D语义和几何体。在本文中,我们提出了PERF来应对这些挑战。在第III-A节中,我们简要介绍了NeRF和问题定义。然后,在第III-B节中,我们提供了PERF的概述。具体来说,我们在第III-C节中训练一个单视角NeRF,并为场景的可见区域提供深度图监督。在第III-D节中,我们集成了一种协同的RGBD修复方法来指导NeRF的训练,完成感兴趣区域的RGB图像和深度图。在第III-E节中,我们提出了一种逐步修复和擦除的方案,以避免可见区域和不可见区域之间的几何冲突。最后,在第III-F节中,我们提供了整个PERF算法的概述。

A. 预备知识和问题定义

神经辐射场: NeRF的目标是学习一个神经函数,将3D空间位置和视角方向映射为体积密度和颜色值。期望的像素颜色通过发射一条光线,其近端和远端边界为,并沿光线划分为个点。颜色通过下式混合得到:
其中。NeRF通过重建损失进行训练,其公式为:
其中为真实的像素颜色。
问题定义: 传统的NeRF旨在通过最小化公式(1)中的颜色重建损失,利用来自多个视角的图像学习映射函数。当视角数减少到一个时,优化问题变得不充分。本文的目标是训练一个全景NeRF,从单张RGB全景图中恢复3D场景。

B. PERF概述

PERF框架如图1所示。PERF主要由三个组件组成,包括1)单视角NeRF训练与深度监督;2)感兴趣区域的协同RGBD修复;3)逐步修复和擦除生成。具体来说,给定单张RGB全景图,我们首先使用深度估计模型预测其深度图并以此作为初始化,结合RGB全景图和深度图训练NeRF。然后,从输入全景图作为参考视角开始,我们执行协同RGBD修复过程,将NeRF扩展到多个随机视角。对于每个随机采样的视角,我们使用稳定扩散模型完成遮挡区域的外观,然后通过深度预测和尺度不变拼接完成这些区域的形状。我们注意到,新完成的不可见区域几何体可能与已学习的参考视角的观测结果冲突。为此,我们提出了一种逐步修复和擦除策略,计算冲突区域的掩码,并从NeRF训练中消除这些区域。接着,我们使用参考全景图视角和从随机视角生成的新全景图微调全景NeRF。微调完成后,新全景图也将被设置为即将进行NeRF学习的随机视角的参考全景图。通过随机采样相机姿态并训练NeRF,我们逐步扩大NeRF的视角范围,直到3D场景足够完整。我们在第III-D节设计了一种相机视角采样方法。通过这三个组件,我们从单视角全景图中实现了照片级真实的全景NeRF,使用户能够在复杂场景中漫游。

C. 单视角NeRF训练与深度图

首先,我们通过360度深度估计方法初始化可见区域的几何。为此,我们使用类似360MonoDepth的方法,通过融合透视投影图像的多个深度图来预测全景图的深度图。具体而言,给定单张全景图,我们通过不同的方向将图像投影到个透视投影图像,其中。接着,我们使用深度估计模型来估计的深度值并获得深度图。由于单视角深度估计的尺度模糊性,重叠区域的估计深度值可能会有很大不同。因此,在估计完透视深度图后,我们执行可变形对齐操作,将这些深度图共同对齐到一个可学习的全景深度图。对于每个透视深度图,我们为其分配一个尺度值和局部偏差值。为执行对齐操作,我们优化:
方程(2)由数据对齐项和全变差项组成。这里表示深度图的像素值,表示全景深度图的像素值,是平滑的损失函数,是将透视图像坐标映射到全景图像坐标的投影操作。对于一个理想的深度估计器,需要在每视图方式上优化缩放和偏差。然而,当前最先进的深度估计器存在深度误差。我们的方法放宽了偏差并优化每像素偏差,我们发现这已足够在不同视图间获得良好的对齐。360MonoDepth同时放宽了每视图缩放和偏差,并以每像素方式优化它们。过度放宽的约束可能会导致几何变形。通过同时使用RGB全景图和深度图,我们训练了一个针对可见区域的单视角NeRF。具体来说,给定单张全景图,我们通过深度估计器预测其深度图。我们将集成到NeRF的训练中,其公式为:
其中表示NeRF渲染的期望深度值,表示由深度估计器计算的相应深度像素值。我们通过优化来训练一个NeRF,使其感知可见区域的3D形状。由于只提供了一张全景图,训练的NeRF只能用于可见区域。接下来,我们将按下文所述完成场景的不可见区域。

D. 使用稳定扩散模型和单目深度估计器的协同RGBD修复

使用深度图进行的单视角NeRF训练能够为场景的可见区域提供准确的重建。而对于遮挡区域,训练的NeRF仅会产生模糊插值,因为我们只为可见区域进行了像素级重建。像素级重建不考虑高级语义,因此难以插值大尺寸的遮挡区域。因此,在从输入视图学习可见区域的几何和外观后,我们需要引导NeRF模型,在3D空间中推断不可见区域,将已学习的区域作为上下文语义信息。
我们一方面可以自由选择路径以在3D场景中进行修复;另一方面,我们必须在给定的已学习区域作为语境的前提下完成不可见的3D区域。我们通过根据估计的单视角全景深度图采样点来解决修复轨迹问题。
更具体地说,给定估计的单视角全景深度图,我们获得零仰角位置上所有像素的距离值。这些距离值在水平面上形成一个封闭曲线。注意到相邻像素之间的距离值可能突然变化,我们对距离值进行1D高斯滤波,得到平滑的封闭曲线。该曲线定义了相机可以移动的最大空间。为了采样新的相机位置,我们逐步在缩小的曲线上采样相机位置,其缩放比例为,与最大曲线相乘。在实验中,缩小曲线的数量为4,缩放因子分别为0.15、0.3、0.45和0.6。我们在每条缩小的曲线上均匀采样8个相机位置。结果,共采样了32个位置。
接下来,我们在3D场景中解决RGBD修复问题。直觉上可以直接在一个大规模的RGBD数据集上训练RGBD修复模型。目前,最大规模的RGBD数据集是DPT中描述的MIX 6,结合了多个多样的公开数据集,包含约140万张图像。然而,当前最先进的基于语言提示的文本到图像生成模型Stable Diffusion训练于LAION-400M数据集,该数据集包含经过CLIP过滤的4亿对图像-文本对。Stable Diffusion的修复版本基于基本的Stable Diffusion模型,添加了用于蒙版图像的输入通道,并针对RGB修复进一步微调。它启发我们充分利用这样一个在4亿级数据集上预训练的RGB修复模型,以帮助完成RGBD修复。我们的想法是结合Stable Diffusion和单目深度估计器DPT,进行协同RGBD修复。
为实现这一目标,我们需要1)识别不可见区域,并为每个新采样的相机视角获取遮挡区域的投影2D蒙版和RGB图像(有限视角图像);2)使用预训练的Stable Diffusion模型修复RGB图像,并使用深度估计器协同修复新采样相机视角的相应深度图。通过这种方式,完成这些遮挡区域的外观和几何体。
识别不可见区域: 在第III-C节中,我们训练了一个单视角NeRF,它可以为3D场景的可见区域提供准确的重建,但无法插值逼真的不可见区域。经过单视角NeRF的训练后,我们无法直接识别一个3D点是否可见。
在本节中,我们提出通过一种扭曲深度检查方案来识别不可见区域。具体来说,对于新采样的相机姿态,我们执行体积渲染并获得全景深度图和RGB全景图。为了区分一个像素是可见的还是不可见的,对于每个参考视角(参考视角将逐渐增加),我们将深度图扭曲回参考全景图的视角,并判断每个深度值是否与的对应深度值匹配,其公式为:
其中分别为的像素值。为一个允许小误差的小值,是一个扭曲函数,是一个指示函数,表示蒙版的一个像素,标记不可见(1)或可见(0)。如图2(a)所示,我们可以计算给定训练的NeRF,从参考视角到场景表面的深度值。在图2(b)中,我们将两个点从新视角扭曲到参考视角。扭曲后,观察到黄色实心点的深度保持不变,而黄色空心点的扭曲深度大于图2(a)中的深度。我们得出结论,根据公式(4),黄色实心点是可见的,黄色空心点是不可见的。蒙版帮助我们识别每个参考视角的不可见区域,以指导即将进行的修复过程。最终的蒙版通过对所有参考视角的蒙版进行逻辑与操作计算得到(我们如第III-E节所述逐步添加参考视角)。我们使用蒙版,并获得修复后的RGB图像和修复后的深度图用于RGBD修复(参见图1)。
协同RGBD修复: 然后我们完成这些不可见区域的内容。现有方法如SinNeRF直接使用对抗学习或高级语义特征填充遮挡。然而,在复杂的3D全景场景中,通常会出现大面积遮挡。直接使用对抗学习或高级语义约束无法填充大面积不可见区域,这将在第IV-A和IV-B节中展示。相比之下,我们提出了一种协同RGBD修复方法,集成了基于扩散的RGB修复模型和单目深度估计器DPT。
给定修复的RGB和深度全景图,注意到全景图像的内容组织不同于通常使用的透视摄像机,这些全景图像对于大多数主流预训练模型来说是领域外的。我们首先选择包含部分不可见区域的感兴趣区域(ROI),并将它们投影到正常视角(FOV)图像中,表示为。我们使用Stable Diffusion修复。在这里,修复模型将蒙版图像的潜在VAE表示作为额外的条件。它使用U-Net的额外输入通道,这些通道经过零初始化,并使用修复数据集进行微调。具体来说,Stable Diffusion模型将及其蒙版作为条件,输出修复后的RGB图像。我们没有直接修复深度图,而是使用深度估计器协同完成深度图。我们通过预测修复后的图像的深度图来推断其几何体。由于已知的可见区域,我们的想法是对齐之间的可见区域,从而修复不可见的几何体。由于之间的尺度和偏移不同,我们使用线性不变约束将拼接到中,以对齐可见区域并填充不可见区域,该过程通过以下公式优化:
其中分别为的像素。表示ROI中所有像素共享的一个标量,与ROI大小相同。是一个平滑的损失。第一个项正则化的线性不变性,第二项和第三项是受[54]启发的全变差(TV)损失。在对齐后,我们可以将拼接到蒙版全景图中,得到一个完整的全景图。
新视角下完成的RGB图像和深度图随后用于微调NeRF,以鼓励NeRF在不可见区域生成合理的新视角。我们通过采样相机姿态逐步进行协同RGBD修复,直到所有预定义的相机位置都被采样。然而,协同RGBD修复独立完成每个视角的不可见区域,这导致不同视角之间的3D几何体不一致。

E. 逐步修复和擦除生成

提出的协同RGBD修复并不能保证参考全景图与随机新视角生成的新全景图之间的几何一致性。如图3所示,我们首先给定图3(a)中的参考视角训练单视角NeRF。在新视角下,模型修复了两个绿色片段(如桌子和地板),如图3(b)所示。我们发现,上部点在图3(a)中是可见的,但在新视角的参考视图中变为不可见。也就是说,不可见区域(图3(b)中的上部绿色片段)的新合成几何体遮挡了参考视角的某些可见区域(例如上部点)。这种遮挡使得参考视角的部分可见区域变为不可见区域,导致不同视角间的几何冲突。这会影响NeRF的训练,进而损害3D场景的几何生成。
为避免几何冲突,我们的想法是修复和擦除策略。修复用于完成不可见区域,擦除用于删除冲突的修复区域。我们从采样视角进行RGBD修复,并根据参考视角擦除新视角的冲突区域。修复和擦除后的新视角会被添加到参考视角集合中。具体来说,我们首先计算一个蒙版,该蒙版表示新视角与参考视角之间的几何冲突。这通过与第III-D节中不可见区域检测所使用的类似深度检查策略实现。如图3所示,对于上部修复片段(冲突几何体),扭曲深度值在图3(b)中小于图3(a)中的可见深度值。对于下部修复片段(无冲突),扭曲深度大于可见深度值。形式上,考虑通过修复的深度图检查新视角的几何一致性,对于每个学习的参考视角,我们将深度图扭曲回参考全景图,并检查深度值是否小于的对应深度值,其公式为:
其中分别为的像素值。表示蒙版的一个像素,标记几何不一致(1)或一致(0)。冲突区域的最终蒙版通过对所有参考视角的个体蒙版进行逻辑与操作计算得到。在识别冲突区域后,我们将这些区域从NeRF的监督中删除。我们迭代修复不可见区域,并消除来自采样新视角的冲突区域,直到算法收敛到完整的3D几何体。注意,第III-D节中的第一次扭曲操作是为了检测不可见区域,而本节中的第二次扭曲操作是为了检测违反几何一致性约束的冲突修复区域。

F. 算法

在本节中,我们提供PERF的整体伪算法,以便更加清晰,如算法1所示。基本上,给定单张全景图,我们首先估计其深度图。给定,我们使用单视角全景图训练全景NeRF。单视角NeRF训练仅适用于可见区域,但无法插值不可见区域的几何和外观。为解决此问题,我们从深度图开始采样新视角。给定一个采样的新视角,我们计算不可见区域并根据公式(4)得到不可见蒙版。我们使用Stable Diffusion和预训练的单目深度估计器DPT进行协同RGBD修复。由于RGBD修复是独立对每个视角执行的,它导致不同视角的几何体不一致。为解决此问题,我们比较采样视角和每个参考视角,并擦除冲突区域。修复和擦除后的新视角会被添加到参考视角集合中。我们使用所有参考视角微调全景NeRF。

IV. 实验

数据集: 我们在Replica数据集上进行实验,以进行定量和定性评估。Replica数据集包含八个场景。对于每个场景,我们渲染三个分辨率为2048 × 1024的全景图,其中一个用于训练,另两个用于测试。渲染的测试图像不来自于训练中的采样视角。为了证明PERF的泛化能力,我们还在真实世界数据(in-the-wild)上评估了所提出的方法进行定性评估。我们收集了一个新的数据集PERF-in-the-wild,该数据集包含八个从互联网上下载的室内场景。每个场景只有一个全景图。
评估指标和协议: 我们在实验中采用了四个评估指标。其中,三个是标准的视角合成指标,针对整个测试图像计算——PSNR,SSIM和LPIPS。除了这三个指标外,我们还报告了“蒙版”版的PSNR。在该指标的计算中,对于每个测试视角,我们通过上述的协同RGBD修复和逐步修复和擦除方法生成不可见区域的蒙版,只有不可见区域中的像素被计算用于PSNR评估。蒙版PSNR是衡量单视角全景3D生成的关键指标,因为合成不可见区域是最具挑战性的问题。
为了评估像素级指标,我们需要对齐渲染图像和真实图像。因此,我们必须为渲染的颜色图像和真实的颜色图像使用相同的相机姿态。由于我们需要考虑一致的相机姿态,因此必须对我们的预测场景和真实场景进行几何尺度对齐。在PERF的训练过程中,PERF的3D几何体由深度估计器初始化,随后进行几何推断,在我们的预测几何体和真实几何体之间存在尺度模糊性。为了正确评估从新视角渲染的图像,我们在参考视角的预测深度图和真实深度图之间进行全局尺度对齐,具体来说,我们找到一个尺度值,以最小化我们的重新缩放的深度估计与真实深度图之间的均方误差。
实现细节: 我们使用Instant-NGP表示NeRF模型。哈希表大小为,具有16级特征向量,每级通道数为2。为了学习PERF,我们首先在1万次迭代中使用单输入全景图训练NeRF。然后,我们逐步采样32个新位置,距离参考全景图视角的位置逐渐增加。对于每个新添加的参考视角,在我们的协同RGBD修复和逐步修复和擦除之后,我们继续训练NeRF 2000次迭代,其中前100次迭代仅使用新参考视角进行监督,其余1900次迭代我们使用所有参考视角监督NeRF。我们使用Adam优化NeRF的参数。对于每个新采样视角的学习阶段,初始学习率设为,然后使用余弦退火策略衰减到。在每次迭代的训练过程中,我们随机采样2048条射线,并使用真实颜色值或修复颜色值和深度值来监督NeRF。训练一个场景通常需要大约2小时,在一张Nvidia V100 GPU上完成,GPU拥有32G内存。
更具体地说,我们使用NeRFAcc框架实现了Instant-NGP的NeRF训练和渲染。我们使用预训练的Stable-Diffusion-2模型作为修复模型。需要注意的是,修复模型的训练图像大多数是通过透视视角相机投影捕获的,不适用于直接在存在失真的全景图上使用。因此对于所有的蒙版区域,我们将其投影到透视视图中,采用修复后再将修复区域投影回全景图。为了对NeRF进行正则化,避免模糊效应,对于PERF和集成到我们全景框架中的所有基准方法,我们额外采用失真损失,权重,以鼓励NeRF的体积密度收敛到有效表面,而不是“漂浮”在各处。
对比方法: 为了展示我们方法的有效性,我们将PERF与以下三种最先进的少样本NeRF技术和两种最近的单全景视图合成方法进行比较。
  1. DS-NeRF 通过添加深度约束进行几何正则化,增加了基本NeRF在少样本新视角合成上的泛化能力。然而,它无法很好地合成遮挡区域。
  2. DietNeRF 通过添加语义正则化,使NeRF的渲染新视角透视投影图像的正则化,这是通过计算新视角和CLIP特征的参考视角之间的余弦相似度实现的。为了将DietNeRF集成到我们的全景NeRF学习框架中,我们随机渲染NeRF在新视角的遮挡区域的透视投影图像块,并针对参考输入视角的图像块优化CLIP损失。
  3. SinNeRF 通过计算DINO ViT特征的差异,添加了类似的图像块正则化器。除了语义损失外,SinNeRF还使用了带铰链GAN损失的对抗训练策略。为了将SinNeRF集成到我们的全景NeRF学习框架中,我们随机渲染NeRF在这些遮挡区域的投影图像块,并优化DINO ViT提取的语义损失。除了语义损失,对于SinNeRF我们遵循对抗训练策略,使用铰链GAN损失训练NeRF模型与判别器对抗。
  4. Omni-NeRF 从单个RGBD全景图合成新的全景视图。我们使用预测的深度图作为其深度输入。Omni-NeRF通过点云投影对采样姿态的多个“伪真实”RGB全景图进行训练。
  5. 360FusionNeRF 也从单个RGBD全景图合成新的全景视图。它还通过CLIP损失增加了语义一致性正则化,但作用于整个全景图而不是透视视图。与DietNeRF的主要区别在于它直接计算整个渲染全景图像的CLIP损失,而不是透视投影图像。

A. Replica数据集上的对比

我们在Replica数据集上将PERF与最先进的NeRF方法进行了比较。Replica数据集中的定量结果如表I所示。不出意料,PERF在所有指标上都取得了最佳表现。更重要的是,我们的方法在蒙版PSNR上取得了显著的提升,这表明我们的方法相比其他最先进的方法可以更好地修复不可见区域。
在图4中,我们提供了更多的视觉对比。正如图中所示,在DS-NeRF渲染结果的遮挡区域中出现了几个模糊效果。这是因为NeRF模型本身在没有额外监督的情况下,无法语义推断遮挡区域的内容。DietNeRF、SinNeRF和360FusionNeRF的渲染结果相比DS-NeRF具有更好的保真度,没有模糊效果。然而,填充遮挡区域的内容并没有很好地遵循语义上下文,看起来不自然。OmniNeRF的合成结果是模糊的,因为它仅使用颜色信息来监督NeRF模型,没有几何正则化。得益于Stable Diffusion模型强大的修复能力,我们的方法PERF生成的图像具有最佳的视觉质量,推断出的遮挡区域内容能够平滑地过渡到参考视角的可见区域。

B. PERF-in-The-Wild数据集上的对比

定性对比: 为了展示PERF的鲁棒性,我们还在我们收集的真实世界数据集上评估了PERF和基线少样本NeRF方法。由于没有真实世界图像的几何真实值,我们仅展示新视角的定性对比。图5展示了视觉对比,PERF的合成结果具有最佳的视觉质量。
用户研究: 由于没有真实世界图像的几何真实值,我们在PERF-in-the-wild数据集上仅展示了新视角的定性对比。为了补充在PERF-in-the-wild数据集上缺少的定量结果,我们进行了用户研究,比较了各种单视角方法的视觉效果。我们渲染了由四种方法和我们的方法预测的新全景图,并展示了输入视图中不可见区域的裁剪区域。对于每个问题,要求用户选择他们认为最符合以下标准的图像:1)清晰度——图像不应有任何模糊、噪点或其他视觉失真。2)语义连贯性——图像不应有任何令人不适的或与图像整体主题或含义不符的元素。图7展示了用户研究的两个示例问题。我们渲染了16个示例,29名用户参与了研究。结果如图6所示。我们可以观察到,约77.10%的用户更喜欢我们渲染的结果,明显优于其他方法。

C. 进一步分析

修复和擦除的有效性: 我们在Replica数据集上进行了消融研究。在此实验中,我们评估了没有我们提出的修复和擦除策略的PERF,即不进行几何冲突检查,直接将所有修复结果参与NeRF模型的监督。如表II所示,我们的方法在没有修复和擦除策略的情况下,在所有指标上显示出更差的定量结果。我们还在图9中提供了视觉结果。与第一列(“没有修复和擦除”)相比,第四列PERF(完全方法设计)在渲染图像和深度图方面具有更好的质量。没有修复和擦除策略,错误的多余几何体会出现,进而损害合成的RGB值。实验结果表明,修复和擦除方法能够避免不同视角间的几何冲突,从而实现更好的3D场景生成。
深度对齐: 在第III-C节中,我们优化了每视图缩放和每像素偏差。360MonoDepth对每像素方式优化了缩放和偏差。我们在图8中展示了一些特写视图。我们的设计产生了良好的几何效果,而360MonoDepth可能会导致轻微的几何(例如线条)变形。原因可能是过度放宽了优化约束。
AND和OR操作的对比: 为评估是否采用逻辑OR更具攻击性,我们进行了分析实验,如图9所示。“没有修复和擦除”表示移除了我们提出的修复和擦除组件。“半数投票”表示我们使用概率为0.5的AND和OR操作进行修复和擦除。“OR操作”表示仅使用OR操作进行修复和擦除。“AND操作”表示仅使用AND操作进行修复和擦除。结果显示,“AND操作”在RGB和深度图方面取得了更好的结果。尽管AND操作较为保守,但它避免了几何冲突,从而获得了更好的性能。
修复结果的多样性: 为评估修复结果的多样性,我们使用不同的种子训练我们的模型,结果显示对于一个场景,度量标准是相似的,如表III所示。图10展示了通过修复模型的多样性生成的微小差异。我们计算了八个场景的度量平均值,度量平均值对修复种子不敏感。
室外场景的评估: 由于室外场景是无界的,用单张全景图生成无界场景极具挑战性。在无界的室外场景中,不可见区域是无限的。使用单张全景图生成3D无界室外场景仍然是一个未解决的问题。为了评估室外场景,我们限制了室外场景的漫游区域。如图11所示,我们的方法优于最先进的方法360FusionNeRF。与PERF-in-the-wild数据集类似,由于我们没有真实视角来评估像素级度量,我们进行了用户研究,30名用户参与了研究。我们将PERF与360FusionNeRF进行了比较。结果如表IV所示,92.5%的用户更喜欢我们的合成结果。
网格可视化: 为进一步展示方法的有效性,我们展示了网格可视化结果,如图12所示。观察到我们的方法能够生成有前途的3D网格。

D. 应用

我们的PERF最初设计用于单全景图的新视角合成,也可以扩展到其他应用,例如从文本到3D和3D场景风格化。对于这些扩展应用,我们结合相关技术实现这些应用,如图13和图14中简要展示的。我们邀请读者在我们项目页面上观看详细的渲染视频。
从全景到3D: PERF可以从单张全景图重建室内全景场景,如图4和图5所示。PERF具有广泛的实际场景应用,例如3D虚拟导览、虚拟现实游戏/会议和电影制作。
从文本到3D: 目前的文本到3D方法主要集中在以文本驱动的物体中心3D生成。我们发现,将PERF与文本驱动的2D全景生成方法结合,例如Blockade Labs或Text2Light,可以生成有前景的3D场景。我们首先使用文本生成2D全景图,然后利用该2D全景图重建3D场景,如图13所示。
3D场景风格化: 由于PERF是一种从单张全景图重建3D场景的方法,因此对3D场景进行风格化是相对简单的。给定全景图,我们可以通过PERF重建3D场景。如果我们想将3D场景风格化为新的3D场景,只需将2D全景图风格化为作为参考视角,然后通过PERF重建。我们使用InstructPix2Pix进行2D全景图的风格转换,并通过PERF合成风格化的3D场景。结果如图14所示。

V. 结论

在本文中,我们介绍了一种新的方法,从单张全景图训练全景NeRF。我们提出了PERF,一个从单张全景图训练全景神经辐射场的360度新视角合成框架。具体来说,给定单张全景图,我们首先使用深度估计器预测初始深度图,并通过体渲染重建可见的3D几何体。随后,我们将协同RGBD修复方法集成到NeRF中,以完成来自随机视角的RGB图像和深度图的不可见区域。此外,我们引入逐步修复和擦除生成方法,以避免可见区域与不可见区域之间的几何不一致。在Replica和真实场景上的大量实验表明,我们的PERF相较于最先进的方法具有显著的优势。
局限性: 1)PERF显著提高了单次NeRF的性能,但在很大程度上依赖于深度估计器和稳定扩散模型的准确性。2)PERF需要对每个场景进行优化,这是一项耗时的工作。最近,一些研究关注于高效的3D表示(例如3D高斯喷溅),这可能显著减少优化时间。未来,将我们的方法与新的快速3D表示方法结合起来,可能会显著缩短优化时间。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 计算机书童 小编


计算机书童
为大家分享计算机、机器人领域的顶会顶刊论文
 最新文章