10秒创造一个世界！吴佳俊大神最新研究成果，比现有技术快100倍

科技 2024-11-04 13:00 广东

来源：量子位

斯坦福吴佳俊团队与MIT携手打造的最新研究成果，让我们离实时生成开放世界游戏又近了一大步。‍‍

从单一图像出发，在用户的实时交互下生成无限延展的3D场景：

只需上传一张图片，就能踏入一个由AI创造的虚拟世界。用户可以通过移动视角和输入文本提示，实时决定接下来要探索的方向和场景内容：

从鸟瞰图的视角，可以清晰看到虚拟世界的生成过程：

无论是魔幻森林、现实都市，还是宁静乡村，WonderWorld都能在眨眼间为你呈现：

这项工作名为WonderWorld，由斯坦福吴佳俊团队和MIT联合打造。

WonderWorld的项目主页上还有能以第一视角移动的交互式场景：

资深游戏创业者，GOAT Gamin的首席AI官兴奋地表示：“它还能对非真实感的图片work。有无限多的可能性！”

在硅谷广受欢迎的Hacker News上，WonderWorld也一度被放在头版讨论：

要知道，之前的生成式AI方法都需要数十分钟甚至若干小时才能生成一个单独的场景，WonderWorld的速度可谓打开了交互式新世界的大门。

那这究竟是如何做到的？

交互式生成 3D 世界

要让用户来控制生成一个3D世界，最核心的难点在于生成速度。先前的AI生成3D场景的方法大都需要先逐步生成许多目标场景的2D图片来补全被遮挡的部分，然后再优化得到一个3D场景的表示。这个过程耗时颇多。

WonderWorld的核心突破在于其惊人的速度。

研究团队开发的FLAGS (Fast LAyered Gaussian Surfels) 场景表示方法，使得系统能在短短10秒内生成一个新场景。这一速度比现有方法快了近100倍，真正将交互式3D世界生成推向了实时的门槛。

具体来说，WonderWorld生成新场景时，会先生成一张场景的2D图片（对于第一个场景则是直接使用输入图片），从图片中生成三张layer images，再从layer images来生成 FLAGS 表示。

FLAGS表示由三层Gaussian surfels组成：天空层，背景层，以及前景层。每一层都从对应的layer image中生成。天空和背景的layer image 都单独进行了遮挡的补全，因此WonderWorld不需要逐步生成多张图片。

另外，FLAGS表示的每个Gaussian surfel都唯一对应一个layer image 上的像素，因此它可以使用估计的像素级别几何信息（如单目深度和单目法向量）来初始化Gaussian surfels的参数，从而加速其优化过程。

最后，WonderWorld 还针对多个3D场景之间经常出现几何“裂缝”的问题，提出了Guided depth diffusion。核心想法是，利用已经生成的 3D 场景的深度信息作为 guidance，使新生成场景的深度与其一致。只要新旧场景在连接处的深度一致，那么场景的裂缝就得以弥合。

值得一提的是，无论是2D图片生成还是深度估计模块，都可以直接采用预训练模型，因此整个框架不需要任何训练。

实验测试

由于先前没有任何方法可以做到交互式3D场景生成，研究人员采用了连贯3D场景生成的方法WonderJourney，单一场景生成的Text2Room以及LucidDreamer作对比。由于缺乏现有可用评估数据集，研究人员生成了28个场景作为测试。

研究人员首先展示了更多的交互式生成的场景，从而说明WonderWorld可以在应用到不同场景类型以及不同视觉风格：

与基准方法的比较表明，WonderWorld明显优于各个方法：

从人类偏好评估的角度，WonderWorld 也显著更受青睐：

此外，从一张输入图片，WonderWorld能够接受不同的用户控制，生成不同的场景内容：

作者简介

该篇论文主要作者来自斯坦福大学吴佳俊团队。

论文一作俞洪兴，斯坦福大学五年级博士生。

主要研究领域为重建可交互的物理世界。他曾获得 SIGGRAPH Asia 最佳论文奖，高通奖学金，以及 Meta 奖学金和 NVIDIA 奖学金的提名。

吴佳俊，现任斯坦福大学助理教授，隶属于斯坦福视觉与学习实验室（SVL）和斯坦福人工智能实验室（SAIL）。

在麻省理工学院完成博士学位，本科毕业于清华大学姚班，曾被誉为“清华十大学神”之一。

论文链接：
https://arxiv.org/pdf/2406.09394

参考链接：
[1]https://x.com/Koven_Yu/status/1835769026934673595
[2]https://kovenyu.com/wonderworld

推荐阅读

欢迎大家加入DLer-计算机视觉技术交流群！

大家好，群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享，主要方向有：图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注：研究方向+学校/公司+昵称（如图像分类+上交+小明）
👆 长按识别，邀请您进群！

http://mp.weixin.qq.com/s?__biz=MzU2NDExMzE5Nw==&mid=2247545502&idx=1&sn=04621e4f1a6e25154fde1bf1b18afe63

深度学习技术前沿

本公众号专注于深度学习领域的前沿技术分享和学术交流。推送有关于机器学习、深度学习、强化学习、计算机视觉、自然语言处理等领域干货文章，致力于在第一时间内汇集和发布最新人工智能技术和前沿资讯。

最新文章

12万人面临降薪！国际巨头内部大动荡。。。

RTX 4090可运行，已完全开源，史上最快视频生成模型问世！

一位阿里P9的年薪和家庭资产

黄仁勋与沈向洋院士对谈GPU算力、机器人和爱情

AI顶会AAAI收了一篇论文：没算法没实验，全靠idea思路好...

打破纪录！中国科学家让薛定谔的猫活了23分钟

硅谷最神秘的「黑手党」纷纷出走创业，融资近百亿！足以改变整个AI格局的革命

CV大神，MIT何恺明教授最新课程资料！

六院院士！又一顶尖学者归国，全职加盟清华大学

Scaling Law或将终结？哈佛MIT预警：低精度量化已无路可走。。。

国际巨头，AMD宣布全球裁员4%！

大模型推理加速技术的学习路线是什么?

吴恩达：大模型的下一个热门方向

3名高中生杀出重围，论文已被顶会 NeurIPS 2024录用

香港城市大学招机器学习 /大语言模型方向全奖博士

教授含泪惜别“双一流”高校：教学，影响了我原创性科研成果的产出

谷歌2024博士奖学金名单揭晓！清华姚班大神、KAN一作大佬入选

被美国“制裁”的中国大学名单。。。

美国司法部勒令谷歌出售 Chrome

耽误业界好多年？ Karpathy：现在回想，真的后悔极了。。。。

校长书记双院士！教育部副部长，任C9党委书记

WHALE来了，南大周志华团队最新成果发布！下一个世界模型？

又一985，落地深圳！

马斯克招人策略曝光：需进行9轮面试，低底薪+股票奖励

中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文

最新版《神经网络和深度学习》中文版.pdf

Make U-Nets Great Again！北大&华为强强联合

ETH官宣制裁中国学生，国防七子等高校均在名单内。。。

清华大学获X-Embodiment最佳论文奖，机器人顶会CoRL 2024

被导师放养，后果可能很严重。。。

50s完成7B模型量化，放大招，4bit直接达到 SOTA

MIT教授，何恺明大神最新课程资料下载！

高校不给教授们涨工资了，开始裁员计划？

一个模型走天下！智源提出全新扩散架构OmniGen

2025QS亚洲大学排名出炉，197所中国高校上榜！

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

武汉大学：新增8位“国家杰青”！创历史新高

特朗普回归，硅谷科技圈大变！埃隆·马斯克身价突破3000亿

突发！OpenAI七年元老、安全副总裁Lilian Weng官宣离职！北大本科

俄罗斯对谷歌开出天价罚单！远超全球GDP总和

又一院士被“除名”！院士终生制，没了？

投资21.7亿！C9新校区

深圳一家公司造出世界上最酷机器人，卖2-3万美元

涨点神器！100个即插即用注意力模块

90后上海女生，成美国数学大奖首位女性华人得主！

TPAMI 2024｜解耦图神经网络，效果惊艳！

翁荔：掌管OpenAI安全的神

国内外有哪些不错的计算机视觉研究团队或实验室？

10秒创造一个世界！吴佳俊大神最新研究成果，比现有技术快100倍

诺奖得主，受聘西湖大学！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉