来自北大、港中文、腾讯等机构的研究人员提出ViewCrafter,可以从根据单张或稀疏输入图像生成精确相机可控的新视角视频,并支持场景级图生3D、文生3D和稀疏视角重建等应用。
论文标题:
ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis
论文链接:
https://arxiv.org/abs/2409.02048
代码链接:
https://github.com/Drexubery/ViewCrafter
项目主页:
https://drexubery.github.io/ViewCrafter/
Huggingface Demo:
https://huggingface.co/spaces/Doubiiu/ViewCrafter
一、研究动机
相机轨迹可控的视频生成,单视角输入
相机轨迹可控的视频生成,2视角输入。
文生3D
单图生3D
二、方法介绍
2.1 点云表征
点云渲染结果
2.2 视频扩散模型
2.3 ViewCrafter:基于点云先验的可控视角视频生成
方法流程图
如图所示, 给定单张或稀疏视角输入图像,我们首先使用快速多视图stereo方法构建其点云表征,以实现精准地移动相机进行自由视角渲染。随后,为了解决点云渲染结果中存在的大面积缺失区域、几何失真和点云伪影,我们训练了一个以点云渲染结果为控制信号的视频扩散模型作为增强渲染器,在粗糙的点云渲染结果的基础上进一步生成具有高保真度和3D一致性的新视角。
视频扩散模型主要由三个模块组成。我们采用一对继承自Stable Diffusion的VAE编码器和解码器对点云渲染结果进行压缩,以降低模型开销。此外,我们利用CLIP图像编码器处理参考图像,以使得模型获得对输入图像的语义关系的理解。模型的核心是一个去噪U-Net,他接受压缩后的点云渲染结果和噪声作为输入,将其逐步去噪成具有高保真度的新视角。在训练过程中,我们只训练去噪U-Net的权重,冻结其他模块的参数,并在RealEstate10K和DL3DV这两个大规模多视角数据集上进行训练。
在推理过程中,通过结合点云提供的显式3D信息以及视频扩散模型的强大生成能力,我们的方法能够在视频生成过程中实现6自由度的精准相机位姿控制,并生成高保真度、一致性强的新视角视频。
2.4 应用:稀疏视角3D高斯重建,图生3D和文生3D
三、对比实验
3.1 新视角生成
3.2 场景重建
四、消融实验
4.1 利用点云先验作为视频扩散模型控制信号的有效性
4.2 模型对粗糙点云的鲁棒性
点云渲染和生成结果对比
五、未来计划
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。