突破多场景训练方法限制!ETH开源SplatFormer:首个专门设计用于在3DGS上运行的点变换器模型

文摘   2024-11-18 07:00   上海  

点击下方卡片,关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

分布外新视角合成

新视角合成(Novel View Synthesis, NVS)主要研究如何将二维RGB图像转换为沉浸式三维场景,使用户能够在增强现实(AR)和虚拟现实(VR)环境中自由导航。传统上,该问题通过标准的新视角插值协议进行处理,其中测试视角沿输入视角的轨迹以固定间隔进行采样。基于此协议,已经出现了多种NVS方法,其中最近的3D高斯点云因其在视角插值任务中实现实时和高保真的效果而备受关注。

然而,AR和VR应用不仅要求输入视角之间的平滑过渡,还需要能够从输入分布以外的视角探索新区域。例如,用户可能希望从高海拔角度观察场景,而这种视角通常在捕获的视图中缺失。尽管新视角插值取得了显著进展,但分布外新视角合成(Out-of-Distribution Novel View Synthesis, OOD-NVS)这一任务仍然鲜有研究,尤其是在评估协议和方法论方面。相关的研究领域包括基于稀疏或单目输入视角的三维重建,这些方法通常需要对未见内容进行推测。虽然在创意应用中推测内容可能是有益的,但在需要精确重建的场景(如外科手术的三维可视化)或典型的日常捕获场景中,这种推测可能是不必要的。

想象一下,您正在博物馆中拍摄一座雕像。通过调整相机的海拔角度并围绕物体移动,您可能可以捕捉到它的大部分特征。然而,相机角度的空间分布可能是不均匀的,甚至是高度倾斜的,从而形成某些分布外视角,其中物体的某些部分仅被稀疏覆盖。图1展示了一个例子,其中输入视角是从用户的视角捕获的,围绕物体在变化但接近的海拔角度进行环绕,而分布外(OOD)目标视角则从自上而下的视角观察物体,显著偏离了输入分布。我们将这一挑战定义为分布外新视角合成(OOD-NVS)。我们认为,这一问题在日常捕获场景中具有实际意义,但却被研究社区在很大程度上忽视了。为了研究这一问题,我们使用ShapeNet和Google Scanned Objects数据集渲染了3D资产。如图1所示,当限制为低海拔输入时,现有NVS方法在分布外视角上的表现不佳,这突显了需要一种新方法来解决这一问题。

定义一种隐式正则化以改进OOD-NVS是一个重大挑战。我们假设,解决这一问题需要仔细考虑以下三个关键方面:

  1. 利用来自大规模数据集的通用先验
  2. 确保渲染中的三维一致性
  3. 充分利用所有输入视角中丰富的几何信息。

为满足这些需求,提出了SplatFormer[1],一种基于学习的前向三维变换器,旨在对高斯点云进行操作。SplatFormer将使用所有输入视角优化的初始3DGS集优化为新的增强集,从而在OOD条件下生成具有更少伪影的多视角一致二维渲染。

该方法首先从输入视角优化3DGS。尽管这一初始三维表示能够有效整合来自捕获图像的多视角信息,但我们观察到高斯点云的形状、外观和空间结构会偏向输入视角分布。这通常导致高斯点云在输入视角投影的薄区域上拉长,从而导致稀疏的表面覆盖。此外,这些点云可能形成无序的几何结构,从输入视角看似正确,但在分布外视角渲染时会出现显著的伪影。

不同于依赖于手工设计的正则化技术,SplatFormer将点变换器(Point Transformer)——一种为三维场景理解设计的基于注意力的架构——应用于将3DGS作为带有高斯属性的点云集处理。点变换器中的注意力机制能够学习嵌入在3DGS中的多视角信息,聚焦于初始3DGS预计算的空间结构内的局部邻域。其输出的残差被添加到输入的高斯属性中。更新后的3DGS随后从新视角渲染,并通过最小化渲染图像与真实图像之间的光度误差来训练SplatFormer。

项目主页:https://sergeyprokudin.github.io/splatformer/

主要贡献

  • 引入OOD-NVS:一种专门设计用于评估NVS方法在分布外视角渲染三维场景性能的新实验协议。结果表明,现有方法难以在OOD-NVS协议下实现良好的泛化;
  • 提出SplatFormer:一种新颖的基于学习的模型,用于优化有缺陷的3D高斯点云,减轻分布外视角的伪影。SplatFormer首次将点变换器应用于3DGS处理,有效利用了来自密集输入视角集的多视角信息,并学习了去除伪影的三维渲染先验;
  • 验证SplatFormer的性能提升:SplatFormer显著提升了基于3DGS的方法在OOD-NVS任务中的性能,在以对象为中心的场景中取得了显著增益,并展示了在无边界环境中应用的潜力。

鲁棒的分布外新视角合成

3DGS 的局限性

尽管直接优化高斯点云原语使得3DGS能够很好地适应输入图像,但它往往会过拟合,因为灵活的原语过于精准地贴合每个像素。高斯分布的平滑、连续特性支持高效的插值,但仅在测试视角与训练视角相似时有效。当测试视角显著偏离输入视角时,例如更高的相机海拔角度,重建质量会显著下降(如图2所示)。这一问题对于需要从所有视角一致渲染的AR和VR应用来说是至关重要的。

关键观察

如图2所示,随着测试视角的海拔角度增加,重建质量显著下降,凸显了3DGS在处理分布外(OOD)视角时的局限性。挑战在于如何在保留3DGS优点(如实时渲染和与基于光栅化工具的兼容性)的同时,使表示形式对视角变化更具鲁棒性。通过在3DGS优化中引入先验和约束以解决这一问题是一项复杂的任务。以往的方法尝试通过几何约束和数据驱动的先验来解决这一问题。然而,正如后续的实验结果(表1)所示,这些方法在实现鲁棒的新视角合成方面仍显不足,这进一步强调了开发更有效解决方案的必要性。

我们认为,解决这一问题需要从以下三个关键方面入手:

  1. 利用来自大规模数据集的通用先验;
  2. 确保渲染中的三维一致性;
  3. 充分利用所有输入视角中丰富的几何信息。

解决方案:SplatFormer

SplatFormer是一种新型的基于学习的前向三维神经模块,能够处理高斯点云并在分布外视角下实现鲁棒的新视角合成。如图2所示,即使测试视角显著偏离输入视角,我们的方法仍能保持高视觉质量。SplatFormer通过可学习参数进行参数化,通过捕捉空间关系和建模点云之间的交互来克服输入视角的偏置问题。受变换器架构的启发(其在学习数据中复杂关系方面表现出色),我们采用这种方法对3D高斯点云进行前向优化。

重建过程

重建过程(如图3所示)从一组校准的输入图像开始,通过3DGS优化生成点云原语。由于这些点云偏向于输入视角分布,我们应用SplatFormer进行前向优化,使其能够在分布外新视角合成中更具鲁棒性。SplatFormer采用基于Point Transformer V3(PTv3)架构的分层变换器编码器-解码器网络,并在大规模三维形状数据集上训练,结合二维渲染损失进行监督。该监督通过分层网络架构强制实现点云原语的空间规则性,利用来自大规模数据集的通用先验,并通过多视角一致渲染监督确保优化后的点云在三维空间中的一致性。

编码过程中,SplatFormer为每个点云分配一个抽象的V维特征向量

其中包含了三维原语的关键信息。特征解码器随后将这一潜在表示转化为点云属性的残差:

从而生成了更适合分布外新视角合成的优化点云

Point Transformer 编码器

我们的3DGS点云编码器基于PTv3框架。输入点集首先通过一个嵌入层以获取对应的输入特征,随后经过5个注意力块和下采样网格池化层。然后再经过4个注意力块和上采样网格池化层,以恢复分辨率。为了捕获高频细节并改善梯度流动,我们使用跳跃连接的MLP模块将中间下采样的输出映射到残差中,然后将这些残差添加到对应分辨率的上采样层中。每个阶段由包含层归一化、多头注意力和MLP的注意力块组成。此分层架构能够建模邻近点云原语之间的上下文关系。为了基于空间邻近高效地实现注意力机制,我们采用PTv3的序列化和网格池化策略。

特征解码器

提取的特征与原始点云属性进一步拼接,以结合变换器的上下文感知特征与初始属性,从而增强模型的收敛性。每个点的特征随后被输入到共享的特征解码头中,这些解码头由5个顺序MLP模块组成,用于预测初始点云属性的残差。为进一步提高训练稳定性,我们对最终MLP层的权重和偏置进行零初始化,从而使初始残差特征接近于零,确保初始输出与输入3DGS几乎一致。

学习数据驱动的先验

数据集
为了使SplatFormer能够通过数据驱动的先验来优化有缺陷的高斯点云,我们创建了一个大规模数据集,该数据集包含高斯点云原语及其对应的多视角图像对。具体来说,我们使用ShapeNet和Objaverse-1.0数据集,分别包含33,000个和48,000个场景。这些资产从低海拔输入视角和高海拔分布外(OOD)视角进行渲染。初始点云通过低海拔视角生成(参见第3节)。数据收集过程利用预算GPU(如RTX-2080Ti)高效完成,共耗时约3000 GPU小时。我们将数据和对应的渲染代码开源,以促进未来的研究。

训练目标
在使用低海拔输入视角通过最小化光度损失(公式3)生成初始3DGS后,SplatFormer模块执行前向优化。优化后的点云随后按照公式2从输入视角和OOD视角进行渲染,并使用光度损失和感知损失进行监督:

这一损失通过Adam优化器在多视角图像上进行优化,包括低海拔视角和高海拔OOD视角。这种平衡的方法确保模型在保留分布内视角高保真的同时,能够泛化到未见的视角。

通过引入的数据集和训练方法,SplatFormer能够从多样化的三维对象和视角配置中学习丰富的数据驱动先验。这些先验使模型能够校正3DGS对输入视角的偏置,从而在OOD场景中实现更准确和一致的重建。

实验效果

总结一下

在多样化视角条件下对三维资产进行真实感渲染对于增强现实(AR)和虚拟现实(VR)应用至关重要。SplatFormer引入了一种新的分布外(OOD)新视角合成测试场景,并证明了大多数神经渲染方法(包括采用正则化技术和数据驱动先验的方法)在测试视角与训练集显著偏离时,渲染质量会大幅下降,凸显了对更鲁棒渲染技术的需求。作为解决这一问题的初步尝试,SplatFormer一种旨在克服3D高斯点云(3DGS)在处理OOD视角时局限性的新颖点变换模型。通过在单次前向传播中优化3DGS表示,SplatFormer在这些场景中显著提升了渲染质量,并实现了最先进的性能,超越了之前为稀疏和密集视角输入设计的方法。我们模型的成功进一步强调了将变换器集成到真实感渲染工作流中的潜力。

参考

[1] SplatFormer: Point Transformer for Robust 3D Gaussian Splatting


本文仅做学术分享,论文汇总于『3D视觉之心知识星球』,欢迎加入交流!



【3D视觉之心】技术交流群
3D视觉之心是面向3D视觉感知方向相关的交流社区,由业内顶尖的3D视觉团队创办!聚焦维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)


扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。



3D视觉之心
3D视觉与SLAM、点云相关内容分享
 最新文章