一张图搞定3D视效！深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

创业 2024-09-20 08:22 北京

来自北大、港中文、腾讯等机构的研究人员提出ViewCrafter，可以从根据单张或稀疏输入图像生成精确相机可控的新视角视频，并支持场景级图生3D、文生3D和稀疏视角重建等应用。

论文标题：
ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis
论文链接：
https://arxiv.org/abs/2409.02048
代码链接：
https://github.com/Drexubery/ViewCrafter
项目主页：
https://drexubery.github.io/ViewCrafter/
Huggingface Demo：
https://huggingface.co/spaces/Doubiiu/ViewCrafter

一、研究动机

尽管NeRF和3D-GS等新视角生成方法可以生成高保真度的新视角，但他们依赖于密集的多视角训练数据，且不具备泛化能力，这限制了它们在训练资源受限场景下的应用。在实际应用中，一个更普适的问题场景是训练一个可范化的模型，在不需要训练或微调的情况下从稀疏视角图像甚至单张输入图像中生成新视角。解决这个问题具有相当大的挑战性，因为它需要训练的模型对3D物理世界有全面的理解。为了实现这个目标，我们提出ViewCrafter，一个能够对任意输入图像实现相机轨迹精确可控的新视角视频生成的视频扩散模型，并基于ViewCrafter探索了图像生成3D、文本生成3D和稀疏视角重建等应用。

相机轨迹可控的视频生成，单视角输入

相机轨迹可控的视频生成，2视角输入。

文生3D

单图生3D

二、方法介绍

2.1 点云表征

DUSt3R等快速多视图/单视图stereo技术的发展使得从单张或稀疏图像中快速重建点云表征成为可能。点云表征能够提供3D场景的粗略信息，支持精确的相机位置控制以实现自由视角渲染。然而，由于点云的表示能力较弱，加之极其稀疏的输入图像只能提供有限的3D线索，重建出的点云存在大面积的遮挡和缺失区域，并可能面临几何形变和点云噪声。这些问题限制了其在新视角合成上的应用。

点云渲染结果

2.2 视频扩散模型

在大规模视频数据集上训练的视频扩散模型能够深入理解3D物理世界，支持从单张图像或文本提示中生成符合物理规律和现实世界规则的视频内容。然而，现有的视频扩散模型缺乏显式的场景3D信息，因此在视频生成过程中难以实现精确的相机视角控制。

2.3 ViewCrafter：基于点云先验的可控视角视频生成

我们提出将视频扩散模型的生成能力与点云表征提供的显式3D先验相结合，以实现相机精准可控的任意场景高保真度新视角视频生成。

方法流程图

如图所示, 给定单张或稀疏视角输入图像，我们首先使用快速多视图stereo方法构建其点云表征，以实现精准地移动相机进行自由视角渲染。随后，为了解决点云渲染结果中存在的大面积缺失区域、几何失真和点云伪影，我们训练了一个以点云渲染结果为控制信号的视频扩散模型作为增强渲染器，在粗糙的点云渲染结果的基础上进一步生成具有高保真度和3D一致性的新视角。

视频扩散模型主要由三个模块组成。我们采用一对继承自Stable Diffusion的VAE编码器和解码器对点云渲染结果进行压缩，以降低模型开销。此外，我们利用CLIP图像编码器处理参考图像，以使得模型获得对输入图像的语义关系的理解。模型的核心是一个去噪U-Net,他接受压缩后的点云渲染结果和噪声作为输入，将其逐步去噪成具有高保真度的新视角。在训练过程中，我们只训练去噪U-Net的权重，冻结其他模块的参数，并在RealEstate10K和DL3DV这两个大规模多视角数据集上进行训练。

在推理过程中，通过结合点云提供的显式3D信息以及视频扩散模型的强大生成能力，我们的方法能够在视频生成过程中实现6自由度的精准相机位姿控制，并生成高保真度、一致性强的新视角视频。

2.4 应用：稀疏视角3D高斯重建，图生3D和文生3D

基于ViewCrafter和我们提出的迭代式新视角生成算法,我们可以从单张图像/稀疏视角甚至一段文字描述中进行3D高斯重建，以支持实时渲染和沉浸式3D体验。

三、对比实验

3.1 新视角生成

我们在Tanks-and-Temples,CO3D, RealEstate10K这三个真实世界数据集上与SOTA方法进行了定量和定性比较，实验结果证明我们的方法在相机位姿控制的精准程度，以及生成新视角的视觉质量上都大幅超过对比方法

3.2 场景重建

我们在Tanks-and-Temples数据集上与稀疏视角重建领域的SOTA方法进行了定量和定性比较，实验结果证明我们的方法在3D高斯重建渲染出的新视角的视觉质量上大幅超过对比方法

四、消融实验

4.1 利用点云先验作为视频扩散模型控制信号的有效性

一些同期工作采用普吕克坐标作为视频生成模型的控制信号，以实现相机可控的新视角生成。作为对比，为了验证点云控制信号的优越性，我们训练了一个以普吕克坐标为控制信号的新视角生成模型，并进行控制变量实验，保证除了控制信号外其他模型结构与ViewCrafter一致。两个模型在新视角生成任务上对比结果如下所示：

实验结果证明，不管是在新视角生成质量还是在相机控制的精准程度上，我们使用的基于点云的控制信号都要优于基于普吕克坐标的控制信号。

4.2 模型对粗糙点云的鲁棒性

如图所示，对于作为控制信号的点云具有严重几何形变的情况，我们的模型依然能够有效地进行几何纠错和空洞修补。这证明了我们的方法对点云控制信号的鲁棒性。

点云渲染和生成结果对比

五、未来计划

我们验证了ViewCrafter对于静态场景的强大新视角生成能力。在未来的工作中，我们将探索和单目视频深度估计方法结合，实现单目动态视频的新视角生成和4D重建。

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650514011&idx=1&sn=2009094e7091649ab9396e4073b88db0

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

ICLR 2024 | BioBridge：通过知识图谱桥接生物医学基础模型

将门月报 | 格灵深瞳携手北京铁路局、文远知行与Uber达成战略合作、帷幄与华为云建立战略合作伙伴关系......

清华、北大等发布Self-Play强化学习最新综述

ECCV 2024 | 代码开源&方法简单，探索基于相机RAW图像的High-level视觉任务：RAW-Adapter

ICML 2024 | 从拓扑视角出发，10行代码提升类别不平衡图节点分类

Talk预告｜慕尼黑工业大学翟光耀：SG-Bot - 基于场景图生成式模型的机械臂操作和物体重排

300篇文献！大模型走向物理世界：TeleAI发布大模型驱动的具身智能综述

Talk预告｜北京航空航天大学阮受炜：探索视觉感知的3D视角鲁棒性

ECCV 2024 | EchoScene：通过场景图扩散生成3D室内场景

一张图搞定3D视效！深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉