在所有基准创下新高!微软开源PF3plat:无需位姿先验,全新3DGS重建和新视角合成框架!

科技   2024-11-11 07:01   江苏  

点击下方卡片,关注「3DCV」公众号
选择星标,干货第一时间送达

来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门独家秘制视频课程最新顶会论文、计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting

作者:Sunghwan Hong, Jaewoo Jung, Heeseong Shin, Jisang Han, Jiaolong Yang, Chong Luo, Seungryong Kim

机构:Korea University、Microsoft Research Asia、Korea Advanced Institute of Science & Technology

原文链接:https://arxiv.org/abs/2410.22128

代码链接:https://github.com/cvlab-kaist/PF3plat

1. 导读

我们考虑了在单个前馈中从未定位的图像合成新视图的问题。我们的框架利用了3DGS的快速、可扩展性和高质量的3D重建和视图合成能力,我们进一步扩展了它,以提供一种实用的解决方案,放松常见的假设,如密集的图像视图、精确的相机姿态和大量的图像重叠。我们通过识别和解决因使用像素对齐的3DGS而产生的独特挑战来实现这一点:不同视图之间的未对齐3D高斯分布会引起干扰或稀疏梯度,从而破坏训练的稳定性并阻碍收敛,尤其是在不满足上述假设的情况下。为了减轻这一点,我们采用预训练的单目深度估计和视觉对应模型来实现3D高斯的粗略对准。然后,我们引入了轻量级、可学习的模块,以从粗略的对齐中优化深度和姿态估计,从而提高3D重建和新视图合成的质量。此外,利用精确的估计来估计几何置信度得分,该得分评估3D高斯中心的可靠性并相应地调节高斯参数的预测。对大规模真实数据集的广泛评估表明,PF3plat在所有基准测试中树立了新的先进水平,并得到了验证我们设计选择的全面消融研究的支持。

2. 引言

近年来,三维重建和新视角合成技术备受关注,特别是随着神经辐射场(Neural Radiance Fields,NeRF)和三维高斯溅射(3D Gaussian Splatting,3DGS)的出现。这些进展推动了高质量的三维重建和新视角合成技术的发展。然而,许多现有方法依赖于严格的假设,如密集图像视图、精确相机姿态以及大量图像重叠,这些假设限制了它们的实际应用范围。

在真实场景中,随意捕获的图像包含稀疏且相距较远的视角,且缺乏精确的相机姿态,因此假设能够以精确相机姿态密集捕获视图是不切实际的。理想情况下,实用的新视角合成解决方案应能够快速且有效地仅使用两张图像(甚至在视角发生显著变化的情况下)进行操作。

为了解决这些局限性,近期的研究引入了广义视图合成框架,这些框架能够从具有最小重叠的稀疏图像中进行单次前向传播的新视角合成。在这些方法中,特别是利用3DGS的方法,展现了卓越的渲染速度和效率,以及令人印象深刻的三维重建和视图合成质量,凸显了基于三维高斯表示的潜力。然而,它们仍然依赖于精确的相机姿态,这在稀疏环境中难以获取,从而限制了它们的实际应用。

最近,无需姿态的广义视图合成框架被提出,用于将三维重建和新视角合成与相机姿态解耦。给定一组未标定姿态的图像,这些框架旨在不依赖额外数据(如真实相机姿态)的情况下,联合学习辐射场和三维几何。随后,可以通过训练的神经网络推断出学习的辐射场和几何信息,从而实现单次前向推理。虽然这些开创性的工作提高了实用性,但其性能仍不尽如人意,且渲染速度较慢的问题仍未解决。为了在给定宽基线图像时提高性能和鲁棒性,Hong等开发了一个统一框架,该框架使用额外数据(如真实姿态)进行监督,联合估计相机姿态、对应关系和辐射场。然而,该方法仍然继承了NeRF的固有局限性,包括内存消耗大、渲染速度慢,因此不适用于实际应用。

在本文中,我们提出了PF3plat(无需姿态的前向传播三维高斯溅射),这是一个新颖框架,用于从单次前向传播的未标定姿态图像中快速且逼真地进行新视角合成。我们的方法利用了像素对齐3DGS的效率和高质量重建能力,同时放宽了常见假设,如密集图像视图、精确相机姿态、特定场景优化和大量图像重叠。然而,使用像素对齐3DGS的主要挑战在于其对精确深度和相机姿态估计的依赖,以准确定位三维高斯中心。这些估计的不准确会导致错位,进而产生噪声或稀疏梯度,破坏训练稳定性并阻碍收敛,尤其是在放宽上述假设或在多场景训练期间无法应用特定场景优化来纠正错误时。

为了缓解这些问题,我们发现利用预训练的单目深度估计和视觉对应关系模型来实现三维高斯粗对齐非常有效,从而促进了稳定的学习过程。随后,我们引入了可学习的模块,旨在细化从粗对齐获得的深度和姿态估计,以提高三维重建和视图合成的质量。这些模块是几何感知且轻量级的,因为我们利用了深度网络的特征并避免了直接微调。然后,使用这些细化的深度和姿态估计来实现几何感知置信度评分,以评估三维高斯中心的可靠性,并据此调整高斯参数(如不透明度、协方差和颜色)的预测。

我们在大规模真实世界的室内和室外数据集上进行了广泛的评估,结果表明PF3plat在所有基准测试中均达到了最新技术水平。全面的消融研究验证了我们的设计选择,证实我们的框架为无需姿态的通用新视角合成提供了一种快速且高性能的解决方案。

3. 效果展示

RealEstate10K和ACID数据集上的定性结果。给定两个上下文视图(a)和(b ),我们将新颖的视图渲染结果与其他方法进行比较。

4. 主要贡献

我们的贡献总结如下:

• 我们使用3DGS解决了无需姿态、前向传播新视角合成的挑战,放宽了现有方法的许多常见假设,提高了实用性。我们的方法适用于宽基线图像,且训练和推理时除了RGB图像集合外无需额外数据,凸显了其实用性。

• 为了解决由于三维高斯错位导致的学习过程不稳定这一独特挑战,我们设计了一种方法来实现粗对齐。然后,我们引入了轻量级细化模块和几何感知评分函数,这些模块和函数不仅提高了重建和视图合成的质量,还避免了通常与直接微调相关的灾难性遗忘问题。推荐课程:实时400FPS!高精NeRF/Gaussian SLAM定位与建图

• 我们的框架提出了一种有效的方法,能够从稀疏且未标定姿态的图像中快速且高性能地进行三维重建和新视角合成。我们已证明,我们的方法在所有基准测试中均达到了最新技术水平。

5. 方法

所提方法的总体架构和损失。(a)给定一组未标定姿态的图像,我们的方法使用从粗到细的策略对齐三维高斯。(b)除了光度损失外,我们还通过确保它们位于同一对象表面上,通过二维-三维和三维-三维一致性损失来强制执行三维高斯一致性。

提出的细化和置信度估计模块。在我们的精细对齐模块中,我们细化了深度和姿态,以提高三维重建和视图合成的质量,同时估计置信度以评估预测的三维高斯中心的可靠性。

6. 实验结果

RealEstate-10K与ACID数据集。表1总结了新视角合成任务的性能表现,而表2则报告了姿态估计的结果。从表1的结果来看,我们的方法显著优于之前无需姿态信息的通用方法,在这些基准测试中树立了新的最优水平。此外,与之前的最优方法CoPoNeRF相比,我们的方法在峰值信噪比(PSNR)上实现了2.8 dB的提升,证明了其卓越的重建质量和鲁棒性。此外,我们的方法在RealEstate-10K数据集上的姿态估计表现优异;然而,我们观察到Hong等人在ACID数据集上实现了更低的姿态误差。这种差异可能归因于场景规模更大,如海岸景观和天空视图,这增加了我们细化过程的复杂性,并给我们的深度网络在估计场景的度量深度时带来了挑战。尽管如此,我们的方法在生成新视角图像质量上的优势以及Hong等人利用真实姿态进行监督,为大规模环境提供了稳健指导的事实,缓解了这一局限性。此外,ACID数据集包含许多动态场景,这超出了我们当前的研究范围。因此,与其他方法相比,我们的方法在估计动态场景姿态方面可能效果较差。

DL3DV数据集。虽然RealEstate-10K和ACID涵盖了各种室内和室外场景,但RealEstate-10K主要以室内环境为主,而ACID则包含大量动态场景。为了更全面地评估我们的方法在各种现实世界场景中的表现,我们还在最近发布的DL3DV数据集上进行了进一步评估。结果总结在表3中。从这些结果中,我们观察到,在大重叠场景下,我们的方法比CoPoNeRF高出4 dB以上,在小重叠场景下高出3.8 dB,这凸显了我们的方法在处理多样化和复杂环境时的卓越准确性和鲁棒性。这进一步证明了我们的方法在处理不同场景和对象类型方面的有效性,加强了其在实际新视角合成任务中的应用潜力。

7. 总结 & 未来工作

在本文中,我们介绍了一种基于学习的框架,该框架利用三维几何相似性(3DGS)解决了无需姿态的新视角合成问题,实现了从无需姿态的图像中高效、快速且逼真的视角合成。所提出的框架PFSplat建立在基础模型之上,该基础模型包含用于克服3DGS固有局限性的基础模型。虽然设计的基础模型已经超越了现有方法,我们还设计了模块来解决基础模型的局限性,从而提升了整体性能。该方法仅从无需姿态的图像中进行训练和推理,即使在仅提供少量重叠度极低的图像的场景中也是如此。我们已证明,我们的方法在现实世界的大规模数据集上超越了所有现有方法,树立了新的最优性能水平。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉最前沿工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉从入门到精通知识星球

「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
官网:www.3dcver.com

具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

3D视觉工坊
专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地,力争打造为国内最专业的3D视觉社区。官网:www.3dcver.com 佳v:cv3d007 或 13451707958
 最新文章