全新框架DGGS:缓解干扰场景对通用3DGS的限制,解决现有无干扰方法的场景特定训练局限性

文摘   2024-11-28 07:00   上海  

点击下方卡片,关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

如何应对干扰物

移动设备的广泛普及为三维重建提供了前所未有的机会,激发了对从随意捕获的图像或视频序列(称为参考图像)直接生成三维合成能力的需求。最近的研究提出了通用三维表示法以应对这一挑战,无需逐场景优化,其中三维高斯投影(3DGS)因其计算效率而表现出特别的潜力。在追求从参考图像到3DGS的无场景依赖推理过程中,这些方法在每个训练步骤中模拟从“参考图像到3DGS再到新查询视图”的完整流程,利用选定的参考-查询对,并通过查询渲染损失优化整个过程。基于这一范式,通用3DGS需要综合的训练场景和学习几何相关性的机制,以处理新场景。然而,这些必要组件在不受约束的捕获场景中面临干扰物的根本性挑战

  1. 真实世界的场景通常缺乏无干扰的训练数据
  2. 干扰物破坏了有限参考图像之间的三维一致性。

为了解决这些问题,一个直接的解决方案是将无干扰方法整合到通用3DGS中,从残差损失中预测干扰掩膜。然而,这种方法存在两个基本局限性:首先,其基于损失的掩膜策略高度依赖于针对单场景输入和场景特定超参数的充分重复优化。在场景无关的训练环境中,由于场景转换和参考-查询对选择机制的波动,残差损失的不确定性增加。这种不确定性破坏了高损失区域对应于干扰物的核心假设,可能将目标对象误分类为干扰物,从而导致不充分的训练监督。其次,即使在推理阶段获得了准确的掩膜,参考图像中的常见遮挡区域仍然对空间重建产生影响,并由于参考图像数量的有限性而无法完整恢复。

针对第一个挑战,我们设计了一种无干扰通用训练范式,结合了基于参考的掩膜预测和掩膜优化模块,通过精确的干扰掩膜提高训练稳定性。具体而言,即使在每次迭代中处理多样化场景时缺乏显式的场景表示,我们的方法利用了“从参考图像到3DGS”范式中固有的稳定参考渲染。通过利用参考图像中静态对象的跨视图几何一致性,我们消除了被错误识别的干扰区域。在将过滤后的掩膜分离为干扰和视差误差分量后,我们应用掩膜优化模块,该模块结合了预训练的分割结果以填充干扰区域,并在这些区域引入基于参考的辅助监督以完成遮挡区域的重建。最后,为应对随机参考-查询对的挑战,我们引入了一种基于平移和旋转矩阵的接近驱动的训练视图选择策略。

针对第二个挑战,尽管可以准确预测干扰区域,但在有限参考图像情况下,大量遮挡区域仍难以重建。因此,我们提出了一种两阶段的无干扰通用推理框架。具体而言,在第一阶段,我们设计了一种基于预测粗略3DGS和干扰掩膜的参考评分机制,用于引导选择具有最少干扰的参考图像,以在第二阶段进行精细3DGS重建。为进一步缓解这一阶段的残余干扰所导致的重影伪影,我们引入了干扰修剪模块,通过移除三维空间中与干扰相关的高斯元素来消除这些伪影。

DGGS[1]是一项新的无干扰通用3DGS任务,这是目前我们所知范围内首次探索这一问题。为应对这一挑战,我们提出了一个框架,旨在缓解训练和推理阶段中干扰物的不利影响。大量在富含干扰物的数据集上的实验表明,我们的方法能够成功解决与干扰物相关的问题,同时提高传统无干扰模型的通用性。此外,我们基于参考的训练范式在无场景依赖掩膜预测方面实现了优于现有场景特定无干扰方法的性能。

具体方法

方法 (Method)

在具有充足参考-查询对的训练设置中,无论是参考图像集 还是查询图像 的存在干扰物,都会对通用模型所依赖的三维一致性产生影响,导致训练不稳定以及在通用性范式下的推理伪影。因此,我们设计了一个无干扰通用训练范式以及一个无干扰通用推理框架来缓解这些问题。

无干扰通用训练

为了缓解场景转换和随机参考-查询对采样带来的不确定性,我们提出了无干扰通用训练范式,如图 2 所示。该范式包括以下三个主要模块:基于参考的掩膜预测 (Reference-based Mask Prediction),掩膜优化 (Mask Refinement),以及训练视图选择策略 (Training Views Selection)。这些模块协同工作,无场景依赖地提高每次训练迭代中的掩膜预测精度,并增强训练过程的稳定性。

基于参考的掩膜预测

在式 (4) 中,干扰掩膜的过度分类会阻碍复杂区域的几何重建(如图 5 所示)。为此,我们提出了一种无场景依赖的掩膜预测方法,通过从参考图像生成的稳定渲染结果中识别非干扰区域,来减轻误分类带来的问题。

具体地,我们设计了一个掩膜过滤器,利用参考图像生成的非干扰区域掩膜 ,并通过基于三维几何一致性的变换操作,将其映射到查询视图中以优化掩膜预测。掩膜的生成和映射过程如下:

其中:

  • 表示从参考视图 渲染的3DGS;
  • 是用于判断非干扰区域的阈值(实验上设置为 0.001);
  • 为对应参考视图 的深度图;
  • 是一个图像投影操作符,用于将 转换到查询视图

尽管通过上述方法可以在一定程度上识别非干扰区域,但由于深度预测误差和噪声的影响,生成的 精度有限。为此,我们引入了一个预训练的分割模型对掩膜进行填充和噪声抑制。此外,我们设计了多参考掩膜融合策略,以减轻变换过程中的偏差。

掩膜优化

在生成初步掩膜 后,直接利用分割结果来移除过多的干扰区域,同时填充不精确的变换区域是一种常见做法。与参考图像不同,查询视图中的掩膜 同时包含两种成分:干扰区域和由参考-查询视图变化引起的视差误差。后者通常仅出现在图像边缘。因此,在优化掩膜之前,需要对掩膜区域进行分离。

视差误差掩膜的生成基于以下确定性方法。给定 个参考视图对应的单掩膜 ,我们将其按照式 (7) 所述投影到查询视图 ,并通过并集操作生成最终的视差误差掩膜

之后,我们将 分离,并结合预训练的分割模型对干扰区域进行优化,最终生成优化后的掩膜 。该优化掩膜替代式 (4) 中的 ,从而减轻训练阶段的干扰影响。

此外,与传统的无干扰方法不同,参考图像提供了对查询视图中掩膜区域的辅助监督,从而为遮挡区域的重建提供了额外的指导。我们通过将优化后的掩膜 反投影到参考视图,并利用参考图像的分割掩膜 来完成遮挡区域的重建。其辅助损失函数表达式为:

最终的优化目标函数调整为:

训练视图选择

参考视图与查询视图的选择策略对训练的稳定性至关重要。当查询视图与参考视图之间的位姿差异较大时,次优的渲染结果会导致非干扰区域和图像边缘的高残差损失。为此,我们提出了一种基于最小位姿差异的参考-查询视图选择策略。

具体地,在每次训练迭代中,我们随机采样一个场景及其对应的查询视图。然后根据它们的平移和旋转矩阵差异,选择 2N 个平移差异最小的视图,并从中挑选 N 个旋转差异最小的视图作为参考视图集。需要确保参考视图集中不包含查询视图。

此选择策略通过减少参考与查询视图之间的位姿差异,显著提高了训练过程的稳定性和有效性。

无干扰通用推理

尽管训练和掩膜预测得到了改进,推理阶段仍然面临两个关键问题:(1) 参考图像的数量不足会影响遮挡区域的可靠重建;(2) 参考图像中的残余干扰不可避免地会出现在生成的新视图中,以伪影形式表现出来。为解决这些问题,我们提出了一个两阶段的无干扰通用推理框架,如图 3 所示。

参考评分机制

在推理阶段,从包含干扰的随意捕获图像或视频帧集合中选择干扰影响最小的参考图像是核心目标。为此,我们设计了一种基于预训练 DGGS 的参考评分机制,作为推理框架的第一阶段。

具体而言,参考评分机制分为以下几个步骤:

  1. 初步采样:从场景图像池中随机采样 个相邻参考图像,用于通过 DGGS 生成粗略的 3DGS 表示。

  2. 掩膜预测:利用 DGGS 对剩余的图像生成干扰掩膜,所有掩膜 被收集作为评分的依据。

  3. 评分计算:将采样的参考图像评分与干扰掩膜中正像素数量相关联。评分较低的图像被优先选为参考图像,表达式如下:

    其中 表示掩膜中正像素的计数操作。

通过这一机制,可以选择干扰较少的参考图像用于后续精细 3DGS 推理。然而,为了平衡效率,第一阶段的图像分辨率可以适当减半,以降低计算开销。

干扰修剪

即使通过参考评分机制选择了“更干净”的参考图像,在真实场景中获取完全无干扰的参考图像几乎是不可能的。这些残余干扰会通过高斯编码-解码过程传播,并在生成的新视图中形成虚影伪影。为此,我们提出了一种干扰修剪协议。

干扰修剪的核心思想是利用参考图像对应的干扰掩膜选择性地修剪三维空间中与干扰区域对应的高斯元素,从而消除干扰的影响。具体操作如下:

  1. 掩膜辅助修剪:将参考图像的干扰掩膜投影到三维空间,定位对应的高斯元素。
  2. 高斯元素移除:删除这些高斯元素的解码属性,仅保留非干扰区域的高斯元素,用于生成最终的推理结果。

这一策略有效地消除了推理阶段的残余干扰伪影,同时保留了场景中的有效信息。

实验效果

总结一下

DGGS无干扰通用三维高斯投影提出了一项实际挑战,它有望缓解干扰场景对通用3DGS的限制,同时解决现有无干扰方法的场景特定训练局限性。我们提出了创新的训练和推理范式,以减轻干扰数据导致的训练不稳定性和推理伪影。大量跨多场景的实验和讨论验证了我们方法的有效性,并展示了基于参考的范式在处理干扰数据方面的潜力。我们希望这项工作能够为未来社区讨论无干扰通用3DGS奠定基础,并可能扩展到解决更广泛应用中的三维数据挑战。

参考

[1] Distractor-free Generalizable 3D Gaussian Splatting


本文仅做学术分享,论文汇总于『3D视觉之心知识星球』,欢迎加入交流!



【3D视觉之心】技术交流群
3D视觉之心是面向3D视觉感知方向相关的交流社区,由业内顶尖的3D视觉团队创办!聚焦维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)


扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。



3D视觉之心
3D视觉与SLAM、点云相关内容分享
 最新文章