TPAMI 2024 | Ref-NeRF: 神经辐射场的结构化视角依赖外观

文摘   2024-11-07 19:00   辽宁  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

论文信息

题目:Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields

Ref-NeRF: 神经辐射场的结构化视角依赖外观

作者:Dor Verbin, Peter Hedman, Ben Mildenhall, Todd Zickler, Jonathan T. Barron, Pratul P. Srinivasan

论文创新点

  • 1 结构化视角依赖外观表示:Ref-NeRF通过引入一组空间变化的场景属性来结构化反射辐射的表示,替代了NeRF中对视角依赖外向辐射的参数化,从而更好地捕捉和再现光泽表面的观感。
  • 2 空间-频率信息集成网络(SFINet):提出了一个新颖的网络结构,该网络包含空间域信息分支、频域信息分支和双域交互,这使得模型能够同时在空间域和频域内进行学习,提高了对场景细节的捕捉能力。
  • 3 **改进的网络版本SFINet++**:在原始的SFINet基础上,通过替换基本卷积单元为信息无损的可逆神经算子,进一步增强了空间信息的表示能力,提升了模型在多模态图像融合任务中的性能。
  • 4 法向量的正则化技术:针对NeRF在法向量估计上的不足,Ref-NeRF引入了一种新的体积密度正则化方法,显著提高了法向量的质量,从而使得模型能够计算出准确的反射方向,渲染出真实的镜面反射效果。

摘要

神经辐射场(NeRF)是一种流行的视角合成技术,它通过多层感知器(MLP)参数化的连续体积函数来表示场景,这些MLP为每个位置提供体积密度和视角依赖的发射辐射。尽管基于NeRF的技术在表示细腻的几何结构和平滑变化的视角依赖外观方面表现出色,但它们常常无法准确捕捉和再现光泽表面的观感。我们通过引入Ref-NeRF来解决这一局限性,它用一组空间变化的场景属性来结构化反射辐射的表示,并替代了NeRF对视角依赖的外向辐射的参数化。我们展示了,结合对法向量的正则化,我们的模型显著提高了镜面反射的真实性和准确性。此外,我们展示了我们模型内部对发射辐射的表示是可解释的,并且对场景编辑有用。

关键字

  • 新视角合成
  • 神经辐射场
  • 场景编辑
  • 3D重建
  • 网格提取

I. 引言

神经辐射场(NeRF)[2] 使用神经体积场景表示从新的视角渲染出3D场景的引人注目的照片。给定场景中的任何输入3D坐标,一个“空间”多层感知器(MLP)输出该点对应的体积密度,而一个“方向”MLP输出沿任何输入观察方向的外向辐射。虽然NeRF的视角依赖外观的渲染乍一看可能看起来合理,但仔细观察镜面高光揭示了在渲染视图之间淡入淡出的虚假光泽伪影(图1),而不是以物理上可信的方式平滑地在表面上移动。这些伪影是由NeRF(和顶级扩展如mipNeRF[1])的两个根本问题引起的。首先,NeRF将每个点的外向辐射参数化为视图方向的函数,这不适合于插值。图2说明,即使对于一个简单的玩具设置,场景的真实辐射函数随着视角方向快速变化,特别是在镜面高光周围。因此,NeRF只能准确渲染在训练图像中观察到的特定视图方向上的点的外观,并且它对从新的视点插值的光泽外观的插值能力较差。其次,NeRF倾向于使用物体内部的各向同性发射器而不是表面点发出的视角依赖辐射来“伪造”镜面反射,导致物体具有半透明或“雾状”的外壳。我们的关键见解是,通过结构化NeRF对视角依赖外观的表示,可以使底层函数更简单,更易于插值。我们提出了一个模型,我们称之为Ref-NeRF,它通过提供关于局部法向量的视图向量的反射而不是视图向量本身作为输入,重新参数化了NeRF的方向MLP。图2(左列)说明了这一点,对于一个由远处照明下的光泽物体组成的玩具场景,这个反射辐射函数在场景中是恒定的(忽略照明遮挡和相互反射),因为它不受表面方向变化的影响。因此,由于方向MLP充当插值核,我们的模型能够更好地在附近点之间“共享”外观观察,以在插值视图中渲染更真实的视角依赖效果。我们进一步引入了一种集成方向编码技术,并将外向辐射结构化为明确的漫反射和镜面反射分量,以允许反射辐射函数在材料和纹理变化的场景中保持平滑。虽然这些改进使Ref-NeRF能够准确插值视角依赖的外观,但它们依赖于从NeRF的体积几何中估计的法向量的能力。这带来了一个问题,因为NeRF的几何形状是雾状的,并没有紧密地集中在表面上,它的法向量太嘈杂,无法用于计算反射方向(如图1右列所示)。我们通过一种新的体积密度正则化来解决这个问题,它显著提高了NeRF的法向量的质量,并鼓励体积密度围绕表面集中,使我们的模型能够计算准确的反射向量并渲染真实的镜面反射,如图1所示。总结来说,我们做出以下贡献:
  1. NeRF外向辐射的重新参数化,基于关于局部法向量的视图向量的反射(第3.1节)。
  2. 一种集成方向编码(第3.2节),当与漫反射和镜面反射颜色的分离(第3.3节)结合时,使反射辐射函数能够在不同材料和纹理的场景中平滑插值。
  3. 一种正则化,使体积密度围绕表面集中,并改善NeRF的法向量方向(第4节)。我们在目前顶级的神经视角合成表示mip-NeRF[1]的基础上应用了这些改进。我们的实验表明,Ref-NeRF产生了新视角的最先进的渲染效果,并在高度光泽或光滑物体的质量上显著优于以前的顶级视角合成方法。此外,我们对外向辐射的结构化产生了可解释的组成部分(法向量、材料粗糙度、漫反射纹理和镜面反射色),这使得场景编辑能力令人信服。

3 结构化视角依赖外观

在本节中,我们描述了Ref-NeRF如何将每个点的外向辐射结构化为(预过滤的)入射辐射、漫反射颜色、材料粗糙度和镜面反射色,这些参数比按视图方向参数化的外向辐射函数更适合于场景的平滑插值。通过在我们的方向MLP中显式使用这些组件(见图5),Ref-NeRF能够准确再现镜面高光和反射的外观。此外,我们模型对外向辐射的分解使得场景编辑成为可能。

3.1 反射方向参数化

虽然NeRF直接使用视图方向,我们却将外向辐射重新参数化为关于局部法向量的反射视图方向的函数:
其中 是从空间中的一个点指向相机的单位向量,而 是该点的法向量。如图2所示,这种参数化使得对光泽外观的插值更加适合。对于围绕反射视图方向旋转对称的BRDF,即满足 的某些叶函数p(包括如Phong这样的BRDF),并且忽略诸如互反射和自遮挡等现象,视角依赖的辐射仅是反射方向 的函数:
因此,通过使用反射方向查询方向MLP,我们实际上是在训练它输出这个积分作为 的函数。由于更一般的BRDF可能因Fresnel效应[34]而随视图方向和法向量之间的角度变化,我们还输入 到方向MLP,以允许模型调整基础BRDF的形状。

3.2 集成方向编码

在具有空间变化材料的真实场景中,辐射不能仅表示为反射方向的函数。较粗糙材料的外观随反射方向变化缓慢,而较光滑或更有光泽的材料的外观变化迅速。我们引入了一种技术,称为集成方向编码(IDE),它使我们的方向MLP能够高效地表示具有任何连续值粗糙度的材料的外向辐射函数。我们的IDE受到mip-NeRF[1]引入的集成位置编码的启发,该编码使空间MLP能够表示用于反走样的预过滤体积密度。首先,我们不使用NeRF中的正弦波集来编码方向,而是使用一组球谐函数 。这种编码得益于在球面上的稳定性,这一属性对于欧几里得空间中位置编码的有效性至关重要[2]、[40](更多细节见我们的补充材料)。接下来,我们通过编码分布的反射向量而不是单个向量,使方向MLP能够处理不同粗糙度的材料。我们使用以反射向量 为中心的球谐分布 von Mises-Fisher(vMF)分布(也称为归一化球高斯分布),并且具有由空间MLP定义的粗糙度参数 作为逆粗糙度 。粗糙度 由空间MLP输出(使用softplus激活),决定了表面的粗糙度:更大的 值对应于更粗糙的表面,具有更宽的vMF分布。我们的IDE使用这vMF分布下的一组球谐函数的期望值来编码反射方向的分布:
为了评估IDE的每个组成部分,我们必须对球谐函数与vMF分布进行积分。幸运的是,球谐函数是该操作的特征函数,其特征值仅取决于 ,如Claim 1所述(本补充材料中提供了此和以下声明的完整证明)。

3.3 漫反射和镜面反射颜色

我们通过分离漫反射和镜面反射分量来进一步简化外向辐射函数,利用漫反射颜色(根据定义)仅是位置的函数这一事实。我们修改了空间MLP以输出漫反射颜色 和镜面反射色 ,并将其与方向MLP提供的镜面反射颜色 结合以获得单一颜色值:
其中 表示逐元素乘法, 是一个固定的色调映射函数,将线性颜色转换为sRGB[41]并将输出颜色限制在 [0, 1] 范围内。

3.4 额外的自由度

诸如互反射和自遮挡照明等效果导致场景上的照明在空间上变化。因此,我们还将空间MLP的瓶颈向量 传递给方向MLP,以便反射辐射随3D位置变化。

4 准确法向量

尽管前一节描述的对外向辐射的结构化提供了更好的参数化,以便插值光泽度,但它依赖于体积密度的良好估计,以便于计算准确的反射方向向量。然而,基于NeRF的模型恢复的体积密度场存在两个局限性:1)从其体积密度梯度估计的法向量通常非常嘈杂(见图1和图6);2)NeRF倾向于通过在物体内部嵌入发射器并用“雾状”的漫反射表面部分遮挡它们来“伪造”光泽亮点。这是一个次优的解释,因为它要求表面上的漫反射内容是半透明的,以便嵌入的发射器可以“透过”。我们通过使用预测的法向量来计算反射方向来解决第一个问题:对于沿射线的每个位置,我们从空间MLP输出一个3向量,然后将其标准化以获得预测的法向量。我们使用一个简单的惩罚来将这些预测的法向量与沿每个射线的密度梯度法向量样本联系起来:
其中是沿射线的第个样本的权重,如方程1中定义的。这些MLP预测的法向量通常比梯度密度法向量更平滑,因为梯度算子作为MLP有效插值核的高通滤波器[40]。我们通过引入一个新颖的正则化项来解决第二个问题,该项惩罚沿射线对射线的渲染颜色有贡献的样本上的“背面”法向量:
这种正则化充当对“雾状”表面的惩罚:当样本“可见”(高)且体积密度沿射线减少(即和射线方向的点积为正)时,会惩罚样本。这种法向量方向惩罚阻止了我们的方法将光泽亮点解释为隐藏在半透明表面下的发射器,并且得到的改进的法向量使Ref-NeRF能够计算准确的反射方向,以用于查询方向MLP。注意,方程14将这种惩罚应用于空间MLP输出的法向量,而不是直接从密度场的梯度计算的法向量。我们发现,直接将法向量惩罚应用于梯度密度法向量往往会得到过于平滑的几何形状。由于NeRF在初始化时到处的密度都很低,在优化过程的早期,存在许多具有不可忽视权重的“背面”法向量。在这个阶段直接惩罚体积密度的梯度会鼓励几何形状在其他模型组件足够优化之前就变得像表面一样,这可能导致具有过度平滑几何形状的局部最小值。我们的方法将方向惩罚应用于预测的法向量,允许我们的方法自适应地应用方向损失,从而在不损失细节的情况下得到准确的法向量(见消融研究)。除了为计算反射方向提供平滑的法向量,并且提供了一种机制用于自适应保留细节的方向损失,预测的法向量还允许模型通过预测恒定的法向量方向,直接编码视图方向,从而实现从视图方向到反射方向的1对1映射(见方程4)。虽然这种行为受到法向量预测损失的抑制,但我们的模型可以利用这种行为在密度场无法捕获的尺度上描述的区域。虽然我们选择使用空间MLP预测的法向量来计算反射方向,但在整个论文中,我们使用梯度密度法向量进行可视化和定量评估,因为这些直接展示了恢复的场景几何质量。

5 实验

我们在mip-NeRF[1]的基础上实现了我们的模型,mip-NeRF是NeRF的一个改进版本,可以减少混叠。我们使用了与mip-NeRF相同的空间MLP架构(8层,256个隐藏单元,ReLU激活),但我们使用了一个更大的方向MLP(8层,128个隐藏单元,ReLU激活)来更好地表示高频反射辐射分布。更多基线实现细节,请参阅我们的补充材料。我们使用与之前的视角合成工作[1]、[2]、[28]相同的定量指标:PSNR、SSIM[43]和LPIPS[44]用于评估渲染质量,均角误差(MAE)用于评估估计的法向量。

5.1 Shiny Blender 数据集

尽管NeRF[2]使用的“Blender”数据集包含了具有复杂几何形状的各种对象,但在材料多样性方面严重受限:大多数场景主要是朗伯体。为了探索更具挑战性的物质属性,我们创建了额外的“Shiny Blender”数据集,其中包含6个不同的光泽物体在Blender下渲染,条件与NeRF的数据集相似(每个场景100个训练图像和200个测试图像)。表1中的定量结果突出了我们的模型与mip-NeRF相比在渲染这些高度光泽场景的新视图方面的显著优势,后者是以前的顶级技术。我们还包括了三个改进版本的mip-NeRF,它们都有8层方向MLP,分别:1)没有额外组件;2)将法向量附加到方向MLP的视图方向(如IDR[42]和VolSDF[32]中所做的);3)对我们的mip-NeRF的密度梯度法向量应用方向损失。我们的方法在新视图渲染质量和法向量精度方面显著优于所有这些改进的先前顶级神经视角合成方法的变体。尽管PhySG[28]恢复了更准确的法向量,但它需要地面真实对象掩码(所有其他方法仅需要RGB图像),并且产生的渲染质量明显较差。图6展示了我们的方法在数据集中的一个对象上的影响:尽管mip-NeRF[1]无法恢复这个简单的金属球的几何形状和外观,该球具有两种粗糙度,但我们的方法产生了几乎完美的重建。图12显示了此数据集中另一个视觉示例,展示了我们的模型对恢复的法向量和渲染的光泽度的改进。图7显示了我们的方法为Shiny Blender数据集中所有6个场景(以及8个Blender场景)估计的渲染图像和法向量。

5.2 Blender 数据集

我们还比较了Ref-NeRF与标准Blender数据集上的最近神经视角合成基线方法,该数据集来自原始NeRF论文[2]。表2显示,我们的方法在所有图像质量指标上优于所有先前的工作(见表3中的每个场景的PSNR)。我们的方法还产生了与其法向量MAE相比mip-NeRF的显著改进(降低了35%)。虽然混合表面体积VolSDF[32]恢复了略微更准确的法向量(MAE低15%),但我们的PSNR比它们高得多(6dB)。此外,VolSDF倾向于过度平滑几何形状,这使得我们的结果在检查时在质量上更优越(见图8)。

5.3 真实捕获场景

除了这两个合成数据集外,我们还在一组3个真实捕获的场景上评估了我们的模型。我们捕获了“轿车”场景,并使用了“花园球”和“玩具车”捕获,这些捕获来自Sparse Neural Radiance Grids论文[48]。图10和我们的补充材料表明,我们的渲染光泽反射和恢复的法向量在这些真实世界场景上通常更准确。

5.4 场景编辑

我们对外向辐射的结构化使得场景的视图一致编辑成为可能。尽管我们没有执行将外观分解为BRDF和照明的完整逆渲染分解,但我们的各个组件的行为直观,并且可以产生从标准NeRF无法获得的视觉上合理的场景编辑结果。图9显示了场景组件的编辑示例,我们的补充视频包含额外的示例,展示了我们编辑模型的视图一致性。

5.5 网格提取

我们模型估计的准确法向量也可以用于提取高质量网格。我们将Poisson表面重建[46]应用于从我们模型恢复的一组定向点,其中每个训练射线与其原点o和方向对应于沿射线的中点:
其中权重是方程1中的标准体积渲染权重,是沿射线的第个样本,而是在处的法向量,使用方程3计算。图11显示了将Poisson表面重建应用于从我们模型提取的定向点的结果,与以前的方法将Marching Cubes(MC)[47]应用于从我们的模型和mip-NeRF[1]提取的密度等值面τ=30的结果,以及从VolSDF[32]的有符号距离场提取的网格。将Poisson表面重建应用于我们的模型,可以得到更准确的网格,捕获精细的几何细节,并且与真实几何形状非常相似。

5.6 局限性

虽然Ref-NeRF在视角合成的神经场景表示方面显著优于以前的顶级表现,但它需要增加计算量:评估我们的集成方向编码比计算标准位置编码稍慢,并且通过空间MLP的梯度反向传播以计算法向量,使我们的模型比mip-NeRF优化速度慢大约25%。我们通过反射方向重新参数化外向辐射,并没有明确模拟互反射或非远场照明,因此在这些情况下,我们对mip-NeRF的改进有所减少。

6 结论

我们已经证明了以前的神经视角合成表示无法准确表示和渲染具有光泽和反射的场景。我们的模型,Ref-NeRF,引入了一种新的视角依赖外向辐射的参数化和结构化,以及对法向量的正则化。这些贡献使Ref-NeRF能够显著提高场景合成视图中视角依赖外观的质量和法向量的准确性。我们认为这项工作在捕获和再现对象和场景的丰富真实感外观方面取得了重要进展。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编


PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章