以下文章来源于3D视觉之心
点击上方“计算机视觉life”,选择“星标”
快速获得最新干货
MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views
介绍:
https://donydchen.github.io/mvsplat360/
代码:
https://github.com/donydchen/mvsplat360
论文:
https://arxiv.org/abs/2411.04924
MVSplat360 是一种创新的前馈方法,用于从稀疏视图合成360°新视角的多样化真实世界场景。这种方法通过结合几何感知的3D重建和时间一致的视频生成,解决了输入视图重叠少和视觉信息不足的挑战。
MVSplat360 有效地利用了一个预训练的稳定视频扩散(SVD)模型,将特征直接渲染到潜在空间中,这些特征作为姿态和视觉线索,指导去噪过程,产生逼真且3D一致的新视角。这一方法不仅提高了合成质量,还减少了对大量图像数据的依赖,使得在资源有限的情况下也能实现高质量的新视角合成。
MVSplat360 的特点在于其端到端的可训练性,以及能够处理极少的输入视图,最低仅需5个稀疏输入视图即可渲染任意新视图。此外,该模型在新的DL3DV-10K基准测试中展现出了卓越的性能,与现有技术相比,在视觉质量上取得了显著的改进。这些特性使得MVSplat360在实际应用中具有广泛的潜力,尤其是在需要从有限视角合成全景图像的场景中。
技术解读
MVSplat360 技术的思路是利用前馈神经网络从少量稀疏视图合成360°新视角的场景。这项技术通过结合3D重建和视频生成的方法,有效地融合了几何感知的3D重建模型和时间一致性的视频生成模型,以产生高质量且几何准确的新视角图像。
其具体处理过程如下:
首先使用一个前馈3D高斯绘制(3DGS)模型来重建场景的粗略几何结构,这一步骤涉及到多视图特征提取、成本体积构建和深度估计。
然后,该模型预测额外的高斯特征,这些特征可以直接渲染到潜在空间中,为后续的稳定视频扩散(SVD)模型提供姿态和视觉线索。
SVD模型利用这些线索对粗略重建进行细化,生成视觉上吸引人的新视角,这些视角在多视图中是一致的,并且几何上是准确的。
MVSplat360的端到端可训练性允许从SVD模型传回的梯度优化几何主干网络,从而提高视觉质量。此外,该技术还通过选择正确的相机视点和处理视图间的交互来增强360°场景合成的能力。
总的来说,MVSplat360技术能够从极少的输入视图中生成高质量、逼真的360°新视角图像,这对于增强现实、虚拟现实以及3D视频游戏等领域具有重要的应用前景。随着视频扩散模型和预训练权重的不断进步,MVSplat360的性能有望进一步提升,其在3D视觉合成领域的应用潜力巨大。
论文解读
本研究介绍了MVSplat360,一种创新的前馈方法,用于从稀疏视图合成360°新视角的多样化真实世界场景。
主要内容要点概括如下:
摘要
介绍了MVSplat360,一种仅使用稀疏观测值进行360°新视角合成(NVS)的前馈方法,解决了输入视图重叠少和视觉信息不足的挑战。
引言
讨论了3D重建和新视角合成的快速发展,以及现有方法的局限性,特别是在使用有限源视图进行多样化真实世界场景的新视角合成方面。
相关工作
回顾了稀疏视图场景重建和合成的相关研究,包括可微分渲染方法和前馈场景重建方法。
方法论
多视图粗几何重建:使用前馈3DGS模型MVSplat进行多视图信息匹配和融合,构建粗略的3D几何重建。
多帧外观细化:利用预训练的稳定视频扩散(SVD)模型对粗略重建进行外观细化,生成3D一致的新视角。
训练目标:介绍了模型的端到端训练方法,包括重建损失、扩散损失和潜在空间对齐损失。
实验
实验细节:描述了数据集、评估指标和实现细节。
新DL3DV-10K基准测试结果:在新构建的DL3DV-10K基准测试中,MVSplat360在360°新视角合成任务上取得了优于现有方法的性能。
RealEstate10K基准测试结果:在RealEstate10K数据集上,MVSplat360同样展现了优越的性能。
消融研究和分析:通过消融研究进一步分析了MVSplat360的性能。
结论
总结了MVSplat360的主要贡献,即提出了一种从稀疏输入视图合成360°新视角的有效方法,并在新的基准测试中验证了其效果。
「小六的机器人AI圈」为机器人AI行业从业者提供从入门、学习、交流、求职、线下链接、合作、、创业、行业内幕、咨询、答疑等一系列的服务。快人一步,步步领先!
扫码立减 30元加入!送上千页独家答疑电子书!加入3天内不满意无条件退款。付款后务必联系客服领取权益~
推荐阅读
MetaCam EDU 正式发售!应用于机器人定位导航、实景三维重建等,让研发之路,畅通无阻!最强助攻!让你的机器人轻松实现自主SLAM并重建稠密彩色点云!
隧道低纹理大摆锤,暴力SLAM!
暴力升级!暗黑隧道极限测试SLAM!
效果哇塞!3D高斯泼溅来实景重建公园!
全面启动!全国线下试用报名!
MetaCam EDU 产品功能及细节详细介绍
MetaCam EDU 实机展示和操作