一张图生成高质量广视野3D场景，还可控制摄像轨迹

科技 2024-12-30 17:40 北京

Wonderland团队投稿
量子位 | 公众号 QbitAI

只需一张图，就能生成高质量、广范围的3D场景！

泰迪熊、花园、山谷都从平面图片变成了仿佛触手可及的立体物品。

这就是来自多伦多大学、Snap和UCLA的研究团队推出的全新模型——Wonderland。

他们首次证明，三维重建模型可以有效地建立在扩散模型的潜在空间上，进而实现高效的三维场景生成，是单视图3D场景生成领域的一次突破性进展。

具体来说，团队引入了一种大规模重建模型，该模型使用视频扩散模型中的潜在信息，以前馈方式预测场景的3D表示（3DGS）。

视频扩散模型可以精确地按照指定的相机轨迹创建视频，生成包含多视角信息的潜在特征，同时保持三维一致性。

三维重建模型则通过渐进式训练策略在视频潜在空间进行训练，高效地生成高质量、大范围和通用的三维场景。

这样一来，机器就可以高效地模拟人类从单张图像中感知并想象三维世界的能力了。

技术突破：从单张图像到三维世界的关键创新

传统的3D重建技术往往依赖于多视角数据或逐个场景(per-scene)的优化，且在处理背景和不可见区域时容易失真。

为解决这些问题，Wonderland创新性地结合视频生成模型和大规模3D重建模型，实现了高效高质量的大规模3D场景生成：

向视频扩散模型中嵌入3D意识

通过向视频扩散模型中引入相机位姿控制，Wonderland在视频latent空间中嵌入了场景的多视角信息，并能保证3D一致性。视频生成模型在相机运动轨迹的精准控制下，将单张图像扩展为包含丰富空间关系的多视角视频。

双分支相机控制机制

利用ControlNet和LoRA模块，Wonderland实现了在视频生成过程中对于丰富的相机视角变化的精确控制，显著提升了多视角生成的视频质量、几何一致性和静态特征。

大规模latent-based 3D重建模型（LaLRM）

Wonderland创新地引入了3D重建模型LaLRM，利用视频生成模型生成的latent直接重构3D场景（feed-forward reconstruction）。重建模型的训练采用了高效的逐步训练策略，将视频latent空间中的信息转化为3D高斯点分布（3D Gaussian Splatting, 3DGS），显著降低了内存需求和重建时间成本。凭借这种设计，LaLRM能够有效地将生成和重建任务对齐，同时在图像空间与三维空间之间建立了桥梁，实现了更加高效且一致的广阔3D场景构建。

效果展示：视频生成

基于单张图和camera condition，实现视频生成的精准视角控制：

Input Image and Camera Trajectory

Camera-guided视频生成模型可以精确地遵循轨迹的条件，生成3D-geometry一致的高质量视频，并具有很强的泛化性，可以遵循各种复杂的轨迹，并适用于各种风格的输入图片。

一起来看看更多的例子：

不同的输入图片，同样的三条相机轨迹，生成的视频：

给定输入图片和多条相机轨迹，生成视频可以深度地探索场景：

效果展示：3D场景生成

基于单张图，利用LaLRM, Wonderland 可以生成高质量的、广阔的3D场景：

基于单张图和多条相机轨迹，Wonderland 可以深度探索和生成高质量的、广阔的3‍D场景：

卓越性能：在视觉质量和生成效率等多个维度上表现卓越

Wonderland的主要特点在于其精确的视角控制、卓越的场景生成质量、生成的高效性和广泛的适用性。

实验结果显示，该模型在多个数据集上的表现超越现有方法，包括视频生成的视角控制、视频生成的视觉质量、3D重建的几何一致性和渲染的图像质量、以及端到端的生成速度均取得了优异的表现：

双分支相机条件策略：通过引入双分支相机条件控制策略，视频扩散模型能够生成3D-geometry一致的多视图场景捕捉，且相较于现有方法达到了更精确的姿态控制。
Zero-shot 3D 场景生成：在单图像输入的前提下，Wonderland可进行高效的3D场景前向重建，在多个基准数据集（例如RealEstate10K、DL3DV 和Tanks-and-Temples）上的3D场景重建质量均优于现有方法。
广覆盖场景生成能力: 与过去的3D 前向重建通常受限于小视角范围或者物体级别的重建不同，Wonderland能够高效生成广范围的复杂场景。其生成的3D场景不仅具备高度的几何一致性，还具有很强的泛化性，能处理out-of-domain的场景。
超高效率: 在单张图像输入的问题设定下，利用单张A100，Wonderland仅需约5分钟即可生成完整的3D场景。这一速度相比需要16分钟的Cat3D提升了3.2倍，相较需要3小时的ZeroNVS更是提升了36倍。

应用场景：视频和3D场景内容创作的新工具

Wonderland的出现为视频和3D场景的创作提供了一种崭新的解决方案。

在建筑设计、虚拟现实、影视特效以及游戏开发等领域，该技术展现了广阔的应用潜力。

通过其精准的视频位姿控制和具备广视角、高清晰度的3D场景生成能力，Wonderland能够满足复杂场景中对高质量内容的需求，为创作者带来更多可能性。

尽管模型表现优异，Wonderland研发团队深知仍有许多值得提升和探索的方向。

例如，进一步优化对动态场景的适配能力、提升对真实场景细节的还原度等，都是未来努力的重点。

希望通过不断改进和完善，让这一研发思路不仅推动单视图3D场景生成技术的进步，也能为视频生成与3D技术在实际应用中的广泛普及贡献力量。

论文: https://arxiv.org/abs/2412.12091
项目主页：https://snap-research.github.io/wonderland/

— 完 —

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

量子位

追踪人工智能新趋势，关注科技行业新突破

OpenAI再招华人研究员！高中入围美国“少年诺贝尔奖”，还在哈佛教书

Grok新生图功能大翻车，画人总是画不对，网友喊话马斯克：给谷歌道歉

你的专属“钢铁侠”助手OS Agents来了！浙大联手OPPO、零一万物等10个机构推出全新综述

CES2025倒计时，量子位AI专题已就位

抑郁6个月后，DeepMind两万引科学家离世，万字绝笔谈在AI行业工作的压力

昆仑万维周亚辉：AGI时代也叫机器人时代，决定未来十年新首富

阿里零一万物强强联合！成立产业大模型联合实验室

4o-mini只有8B，o1也才300B！微软论文意外曝光GPT核心机密

10秒极速出片！还有超多特效模版，国产视频模型又整新活了

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

CES2025倒计时，量子位AI专题已就位

具身智能工业场景需求明确，扩大应用场景和处理复杂数据仍是发展重点｜云深处李超@MEET2025

潞晨尤洋：视频生成的GPT-4时刻，3年后可以见证 | MEET 2025

阿里前端第一人AI创业首秀，要做全球内容创作者的GitHub！公司俩月估值过亿，5k人排队内测

本科学历但创造出GPT，奥特曼盛赞为「爱因斯坦级」天才，OpenAI总裁：他想要的，我们都给

搞乐队的物理学家，开始给普通人科普黑洞了

这届打工人太难带？全能智能体出手了

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

黄仁勋自掏腰包50亿，开源英伟达GPU管理工具

ViT作者飞机上也要读的改进版Transformer论文，花2个小时详细批注解读分享出来

奥特曼公布OpenAI新年目标：AGI/Agent排前列，4o/Sora要更新，还有……

智谱版o1终于也来了：直接拿下考研数学，一句话就能做小游戏！

智源王仲远：多模态大模型对产业更加重要，得多模态大模型得天下 | MEET 2025

AI视频突飞猛进这一年，国产之光可灵AI笑到最后

苹果布局人形机器人：“自我为中心”感知系统动态避障，比英伟达cuRobo计算效率提升26倍

LeCun：对人工智能末日的担忧被夸大了，Meta正在构建超级智能助手

一张图生成高质量广视野3D场景，还可控制摄像轨迹

南京大学FinTech课题组招募大模型AI4Finance国际联培博士生

稚晖君开源百万机器人真机数据集

南大周志华：百万模型进入学件基座系统，很多我们没预期过的事也有可能实现 | MEET 2025

DeepSeek V3“报错家门”：我是ChatGPT

算力直降97%，GPT-3存储只用20MB？！这篇直接在1.58-bit下训练模型的新论文火了

机器人空间泛化也有Scaling Law！清华新国大新算法框架让机器人操作更加鲁棒

北大数学家独作论文登数学顶刊！袁新意统一了算术与几何Bogomolov猜想

CPO薪资倒挂CEO，创业公司薪酬情况大起底

超越ControlNet++！腾讯优图提出动态条件选择新架构

OpenAI科学家：现有模型+后训练足以产生黎曼猜想的新证明

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

3D版抖音有望诞生，零门槛3D创作时代来临｜VAST宋亚宸@MEET 2025

协议曝光！原来微软OpenAI这样定义AGI

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

把注意力计算丢给CPU，大模型解码吞吐量提高1.76~4.99倍

宿舍/房间网不好？一加新机能穿3墙、离200米接收wifi信号，玩《原神》平均帧率超120

2年间AI大模型成本骤降万倍，商业化应用加速跑｜智谱张帆@MEET2025

智平方郭彦东：具身智能到达GPT-2时刻，产业化成败在于“物理世界大模型”工程化能力

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

英伟达年终核弹！全新B300为o1推理大模型打造，RTX5090也曝光了

钛动科技陈德品：Scaling Law在营销应用中也适用，AIGC内容正在催生爆款 | MEET2025

o3挑战ARC-AGI，遇见大网格就懵圈？英国工程师：ARC-AGI不适合大模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

一张图生成高质量广视野3D场景，还可控制摄像轨迹

Wonderland团队 投稿量子位 | 公众号 QbitAI

技术突破：从单张图像到三维世界的关键创新

效果展示：视频生成

效果展示：3D场景生成

卓越性能：在视觉质量和生成效率等多个维度上表现卓越

应用场景：视频和3D场景内容创作的新工具

Wonderland团队投稿
量子位 | 公众号 QbitAI