10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成，比现有技术快100倍！

文摘 2024-10-30 23:59 上海

点击下方卡片，关注计算机视觉Daily

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

WonderWold团队投稿
转载自：量子位（QbitAI）

斯坦福吴佳俊团队与MIT携手打造的最新研究成果，让我们离实时生成开放世界游戏又近了一大步。‍‍

从单一图像出发，在用户的实时交互下生成无限延展的3D场景：

只需上传一张图片，就能踏入一个由AI创造的虚拟世界。用户可以通过移动视角和输入文本提示，实时决定接下来要探索的方向和场景内容：

从鸟瞰图的视角，可以清晰看到虚拟世界的生成过程：

无论是魔幻森林、现实都市，还是宁静乡村，WonderWorld都能在眨眼间为你呈现：

这项工作名为WonderWorld，由斯坦福吴佳俊团队和MIT联合打造。

论文：https://arxiv.org/pdf/2406.09394

主页：https://kovenyu.com/wonderworld

WonderWorld的项目主页上还有能以第一视角移动的交互式场景：

资深游戏创业者，GOAT Gamin的首席AI官兴奋地表示：“它还能对非真实感的图片work。有无限多的可能性！”

在硅谷广受欢迎的Hacker News上，WonderWorld也一度被放在头版讨论：

要知道，之前的生成式AI方法都需要数十分钟甚至若干小时才能生成一个单独的场景，WonderWorld的速度可谓打开了交互式新世界的大门。

那这究竟是如何做到的？

交互式生成 3D 世界

要让用户来控制生成一个3D世界，最核心的难点在于生成速度。先前的AI生成3D场景的方法大都需要先逐步生成许多目标场景的2D图片来补全被遮挡的部分，然后再优化得到一个3D场景的表示。这个过程耗时颇多。

WonderWorld的核心突破在于其惊人的速度。

研究团队开发的FLAGS (Fast LAyered Gaussian Surfels) 场景表示方法，使得系统能在短短10秒内生成一个新场景。这一速度比现有方法快了近100倍，真正将交互式3D世界生成推向了实时的门槛。

具体来说，WonderWorld生成新场景时，会先生成一张场景的2D图片（对于第一个场景则是直接使用输入图片），从图片中生成三张layer images，再从layer images来生成 FLAGS 表示。

FLAGS表示由三层Gaussian surfels组成：天空层，背景层，以及前景层。每一层都从对应的layer image中生成。天空和背景的layer image 都单独进行了遮挡的补全，因此WonderWorld不需要逐步生成多张图片。

另外，FLAGS表示的每个Gaussian surfel都唯一对应一个layer image 上的像素，因此它可以使用估计的像素级别几何信息（如单目深度和单目法向量）来初始化Gaussian surfels的参数，从而加速其优化过程。

最后，WonderWorld 还针对多个3D场景之间经常出现几何“裂缝”的问题，提出了Guided depth diffusion。核心想法是，利用已经生成的 3D 场景的深度信息作为 guidance，使新生成场景的深度与其一致。只要新旧场景在连接处的深度一致，那么场景的裂缝就得以弥合。

值得一提的是，无论是2D图片生成还是深度估计模块，都可以直接采用预训练模型，因此整个框架不需要任何训练。

实验测试

由于先前没有任何方法可以做到交互式3D场景生成，研究人员采用了连贯3D场景生成的方法WonderJourney，单一场景生成的Text2Room以及LucidDreamer作对比。由于缺乏现有可用评估数据集，研究人员生成了28个场景作为测试。

研究人员首先展示了更多的交互式生成的场景，从而说明WonderWorld可以在应用到不同场景类型以及不同视觉风格：

与基准方法的比较表明，WonderWorld明显优于各个方法：

从人类偏好评估的角度，WonderWorld 也显著更受青睐：

此外，从一张输入图片，WonderWorld能够接受不同的用户控制，生成不同的场景内容：

作者简介

该篇论文主要作者来自斯坦福大学吴佳俊团队。

论文一作俞洪兴，斯坦福大学五年级博士生。

主要研究领域为重建可交互的物理世界。他曾获得 SIGGRAPH Asia 最佳论文奖，高通奖学金，以及 Meta 奖学金和 NVIDIA 奖学金的提名。

吴佳俊，现任斯坦福大学助理教授，隶属于斯坦福视觉与学习实验室（SVL）和斯坦福人工智能实验室（SAIL）。

在麻省理工学院完成博士学位，本科毕业于清华大学姚班，曾被誉为“清华十大学神”之一。

参考链接：

[1]https://x.com/Koven_Yu/status/1835769026934673595

绘图神器下载
后台回复：绘图神器，即可下载绘制神经网络结构的神器！
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
CVPR 2024 论文和代码下载
在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立
扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群
▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzU4OTg3Nzc3MA==&mid=2247496609&idx=1&sn=9e9f3d1a23e8fad27a21a31b901e93c0

计算机视觉Daily

一个专注于计算机视觉开源项目的公众号，涵盖CV、传统图像处理、OpenCV、深度学习、机器学习代码实战和相关资料等内容

最新文章

Mamba作者点赞！清华团队深入分析长上下文建模中的状态崩溃

CVPR 2025 坐等Rebuttal，ICLR 2025和AAAI 2025投稿微信群来了！

突发！AI科学家重返谷歌！

微软亚洲研究院MSRA招聘实习生

AAAI 2025 开奖倒计时！CVPR 2025、ICLR 2025 投稿微信群来了！

重磅发布！最新版《深度学习》书籍开放下载

NeurIPS 2024 | 收敛加快8倍，准确率提升超30%！华科大提出MoE Jetpack框架

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

发一篇CVPR真不难

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

博士延毕，师兄终于毕业了。。。

NeurIPS 2024 Oral | 大模型量化新工作！4bit达到新SOTA！

ICLR 2025 分数出炉！附AAAI 2025和CVPR 2025投稿微信群

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

CVPR 2025 正式截稿！ICLR 2025和AAAI 2025投稿微信群成立！

突发！谷歌宣布35岁Keras之父Francois Chollet离职！

面完腾讯算法岗，心态崩了。。。

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

ICLR 2025 分数出炉！附ICLR 2025和CVPR 2025投稿微信群

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN：填补周期性特征建模缺陷

ICLR 2025 即将开分！ICLR 2025和CVPR 2025投稿微信群来了！

这本大模型书籍可以下载了！

即插即用！加速扩散Transformer！Meta提出自适应缓存新方法，视频生成加快2.6倍！

多模态大模型最新研究进展！OpenAI、谷歌、Meta和微软杀疯了！

AAAI 2025 分数出炉！附微信群！

顶刊TPAMI 2024！解耦图神经网络：同时训练多个简单的GNN，而不是一个！

AAAI 2025 即将开奖！附微信群！

Copilot一夜杀死编程助手！GitHub官宣接入Claude和谷歌Gemini！OpenAI沦为备胎。。。

AAAI 2025 投稿微信群成立！

10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成，比现有技术快100倍！

CVPR 2025 投稿微信群成立！

黄仁勋预言成真了！！

NeurlPS 2024 Oral | 多模态融合检测端到端算法E2E-MFD来了！

CVPR 2025 投稿交流群成立！

Transformer杀疯了！跨模态3D目标检测SOTA！易复现！

NeurIPS 2024 | 免训练！超强！FreeLong：长视频生成框架

CVPR 2025 投稿交流群来了！

LeCun锐评诺奖：出于压力才颁给AI，但两个成果已经完全无用！玻尔兹曼机和Hopefield网络

敲响警钟！首例大模型卷进青少年自杀案？明星AI创业公司面临诉讼。。。

ECCV 2024 | 谷歌提出LookupViT：全新通用视觉Transformer块

ICLR 2025 投稿交流群来了！

OpenAI满血版o1剧透：数学代码能力再破天花板！已开启测试评估！

ECCV 2024 | ClearCLIP：删除两个组件，可以提升语义分割性能！

AAAI 2025 投稿交流群成立！

Apple AI落后两年？库克回应：“不抢首发，只做最好”。。。

异常检测和缺陷检测微信群成立！

AI解决132年数学难题！Transformer成功寻找新的李雅普诺夫函数，三体问题相关

AAAI 2025 投稿交流群来了！

DenseNet作者刘壮官宣！将入职普林斯顿大学助理教授！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成，比现有技术快100倍！

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

WonderWold团队 投稿转载自：量子位（QbitAI）

交互式生成 3D 世界

实验测试

作者简介

绘图神器下载

后台回复：绘图神器，即可下载绘制神经网络结构的神器！

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

▲扫码加入星球学习

整理不易，请赞和在看

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

WonderWold团队投稿
转载自：量子位（QbitAI）