MVSplat360:从稀疏视图到360°全景合成的前馈方法

文摘   2024-11-22 07:00   上海  

作者 | ADFeed  编辑 | ADFeed

点击下方卡片,关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views

介绍:
https://donydchen.github.io/mvsplat360/
代码:
https://github.com/donydchen/mvsplat360
论文:
https://arxiv.org/abs/2411.04924

MVSplat360 是一种创新的前馈方法,用于从稀疏视图合成360°新视角的多样化真实世界场景。这种方法通过结合几何感知的3D重建和时间一致的视频生成,解决了输入视图重叠少和视觉信息不足的挑战。

MVSplat360 有效地利用了一个预训练的稳定视频扩散(SVD)模型,将特征直接渲染到潜在空间中,这些特征作为姿态和视觉线索,指导去噪过程,产生逼真且3D一致的新视角。这一方法不仅提高了合成质量,还减少了对大量图像数据的依赖,使得在资源有限的情况下也能实现高质量的新视角合成。

MVSplat360 的特点在于其端到端的可训练性,以及能够处理极少的输入视图,最低仅需5个稀疏输入视图即可渲染任意新视图。此外,该模型在新的DL3DV-10K基准测试中展现出了卓越的性能,与现有技术相比,在视觉质量上取得了显著的改进。这些特性使得MVSplat360在实际应用中具有广泛的潜力,尤其是在需要从有限视角合成全景图像的场景中。

技术解读

MVSplat360 技术的思路是利用前馈神经网络从少量稀疏视图合成360°新视角的场景。这项技术通过结合3D重建和视频生成的方法,有效地融合了几何感知的3D重建模型和时间一致性的视频生成模型,以产生高质量且几何准确的新视角图像。

其具体处理过程如下:

  • 首先使用一个前馈3D高斯绘制(3DGS)模型来重建场景的粗略几何结构,这一步骤涉及到多视图特征提取、成本体积构建和深度估计。

  • 然后,该模型预测额外的高斯特征,这些特征可以直接渲染到潜在空间中,为后续的稳定视频扩散(SVD)模型提供姿态和视觉线索。

  • SVD模型利用这些线索对粗略重建进行细化,生成视觉上吸引人的新视角,这些视角在多视图中是一致的,并且几何上是准确的。

  • MVSplat360的端到端可训练性允许从SVD模型传回的梯度优化几何主干网络,从而提高视觉质量。此外,该技术还通过选择正确的相机视点和处理视图间的交互来增强360°场景合成的能力。

总的来说,MVSplat360技术能够从极少的输入视图中生成高质量、逼真的360°新视角图像,这对于增强现实、虚拟现实以及3D视频游戏等领域具有重要的应用前景。随着视频扩散模型和预训练权重的不断进步,MVSplat360的性能有望进一步提升,其在3D视觉合成领域的应用潜力巨大。

论文解读

本研究介绍了MVSplat360,一种创新的前馈方法,用于从稀疏视图合成360°新视角的多样化真实世界场景。

主要内容要点概括如下:

摘要

  • 介绍了MVSplat360,一种仅使用稀疏观测值进行360°新视角合成(NVS)的前馈方法,解决了输入视图重叠少和视觉信息不足的挑战。

引言

  • 讨论了3D重建和新视角合成的快速发展,以及现有方法的局限性,特别是在使用有限源视图进行多样化真实世界场景的新视角合成方面。

相关工作

  • 回顾了稀疏视图场景重建和合成的相关研究,包括可微分渲染方法和前馈场景重建方法。

方法论

  • 多视图粗几何重建:使用前馈3DGS模型MVSplat进行多视图信息匹配和融合,构建粗略的3D几何重建。

  • 多帧外观细化:利用预训练的稳定视频扩散(SVD)模型对粗略重建进行外观细化,生成3D一致的新视角。

  • 训练目标:介绍了模型的端到端训练方法,包括重建损失、扩散损失和潜在空间对齐损失。

实验

  • 实验细节:描述了数据集、评估指标和实现细节。

  • 新DL3DV-10K基准测试结果:在新构建的DL3DV-10K基准测试中,MVSplat360在360°新视角合成任务上取得了优于现有方法的性能。

  • RealEstate10K基准测试结果:在RealEstate10K数据集上,MVSplat360同样展现了优越的性能。

  • 消融研究和分析:通过消融研究进一步分析了MVSplat360的性能。

结论

  • 总结了MVSplat360的主要贡献,即提出了一种从稀疏输入视图合成360°新视角的有效方法,并在新的基准测试中验证了其效果。


【3D视觉之心】技术交流群
3D视觉之心是面向3D视觉感知方向相关的交流社区,由业内顶尖的3D视觉团队创办!聚焦维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)


扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。



3D视觉之心
3D视觉与SLAM、点云相关内容分享
 最新文章