【文生智界】WonderWorld：一图在手，世界我有

文摘 2024-11-08 13:15 江苏

近年来，3D 场景生成技术蓬勃发展，许多研究成功探索了强大的生成图像先验和单目深度估计的改进。

然而，现有的 3D 场景生成方法都是离线进行的，用户提供单个起始图像或文本提示，然后系统在几十分钟到几小时后返回一个固定的 3D 场景或场景视频。这种离线生成的方式可能适用于小型、孤立的场景或视频，对于许多场景生成用例存在问题。

例如，在游戏开发中，设计师希望逐步迭代构建 3D 世界；在 VR 和视频游戏中，用户期望新内容比当前生成的场景更大、更多样化。未来，用户可能希望获得更多：一个允许他们自由探索和塑造动态演变、无限虚拟世界的系统。

所有这些都激发了交互式3D场景生成问题的提出，用户可以在其中控制生成（或外推）新3D场景的内容和位置，并以低延迟查看生成的场景。近日，斯坦福吴佳俊团队与 MIT 携手打造的最新研究成果 WonderWorld，让我们离想象前进了一大步！

WonderWorld，来源：https://arxiv.org/pdf/2406.09394

WonderWorld是什么？

WonderWorld 是一个全新的交互式 3D 场景生成框架，它允许用户从一张单一图像出发，交互式地指定场景内容和布局，并以低延迟的方式查看创建的场景。

WonderWorld 图生 3D 场景过程，来源：X@Koven_Yu

用户可以输入一张初始图像，系统会自动生成第一个 3D 场景。
接下来，用户可以通过移动相机视角来选择新场景的生成位置，并通过输入文字提示来指定场景的内容。WonderWorld 会根据用户的指令，利用文本引导的扩散模型和大型语言模型（LLM）生成新的场景图像，并将其与现有场景无缝连接。
用户可以在实时渲染的虚拟环境中自由漫游，并随时添加新的场景和内容，从而构建出一个不断扩展的3D世界。

WonderWorld 不同场景风格示例

WonderWorld 支持各种不同的场景风格，同时还支持在同一个场景中指定不同的风格。

WonderWorld 在同一场景中指定不同风格示例

WonderWorld的关键技术

WonderWorld 的核心技术是 Fast LAyered Gaussian Surfels（FLAGS）。

FLAGS 是一种全新的3D场景表示方法，它将场景分成前景层、背景层和天空层，并使用“曲面元素”来表示每一个层级。这种设计使得场景的生成和渲染速度得到了极大的提升，仅需不到10秒，你就能看到一个全新的场景呈现在你的眼前。

WonderWorld 实现原理，来源：https://arxiv.org/pdf/2406.09394

更重要的是，FLAGS 能够巧妙地利用单视图层生成技术和基于几何的初始化方法，避免了传统方法需要生成大量多视角图像和深度图的繁琐过程，极大地提高了效率。

除了 FLAGS 之外，WonderWorld 还采用了以下关键技术：

文本引导的扩散模型： 用于生成场景图像，并对背景层和天空层进行修复；
大型语言模型（LLM）： 用于生成结构化的场景描述和文本提示，以控制场景内容和风格；
引导深度扩散（Guided Depth Diffusion）： 用于生成与现有几何形状一致的深度信息，以减少几何失真，确保新场景与现有场景无缝衔接。

引导深度扩散（Guided Depth Diffusion）技术

WonderWorld的应用前景

WonderWorld 的应用前景十分广阔：

游戏开发：游戏设计师可以使用 WonderWorld 快速构建 3D 游戏世界，并根据玩家的反馈进行实时调整；
虚拟现实：WonderWorld 可以为用户提供更具沉浸感和交互性的 VR 体验，让他们在无限延展的虚拟世界中自由探索；
创意设计：设计师可以使用 WonderWorld 快速创建各种 3D 场景，用于产品展示、建筑设计等领域；
城市规划：WonderWorld 还可以用于创建虚拟城市模型，为城市规划提供辅助决策；
教育培训：将抽象的知识转化为直观的 3D 场景，可以帮助学生们更好地理解和掌握知识。

虽然 WonderWorld 目前还存在一些局限性，例如生成的场景仅包含正面朝向的表面、视角合成范围有限、难以处理细节丰富的物体等，但它作为一种交互式 3D 场景原型设计方法，已经展现出巨大的潜力。

相信随着技术的不断发展，WonderWorld 会不断完善它的功能，克服现有的局限性，为我们带来更加精彩的应用体验！

槿墨AI

产品服务

结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识，深入业务场景，精确捕获用户意图，为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务

📞若您有相关需求，欢迎点击下方链接与我们沟通洽谈

🗨️也可以在公众号后台给我们留言

http://mp.weixin.qq.com/s?__biz=MzkwMjY0ODMwNA==&mid=2247487457&idx=1&sn=e0e1642deb2d7c2ce58a44718fe69c9c

槿墨AI

开启探索人类未来命运的旅程，拥抱如槿似墨的无限可能。

最新文章

【文生智界】WonderWorld：一图在手，世界我有

【文生智界】介绍一下，Stable Diffusion！文生图的稳定之选

【文生智界】AI将3D建模带入大众视野，创意如何突破技术壁垒？

告别预设剧本，“人生”永无止境：Unbounded

国庆节火遍抖音的AI雷军从何而来——GPT-SoVits

ChatGPT终于变AI搜索引擎了！网页/手机/桌面版同时上线，即将人人可用

7天开发一个AI Agent应用！秘密武器：一体化数据库

苹果AI上线，ChatGPT免费用！首款M4 Mac诞生

大模型“投资热”降温，下半场转向“应用落地”

POINTS多模态大模型亮相：微信团队打造，高效简洁性能强

港大最新开源LightRAG：更快、更强、更经济的RAG系统

AIGC丨ChatGPT的流式输出技术SSE实践！

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

切，这玩意儿不就是一眼 AI …… 吧？

字节：不做眼镜做耳机，揭秘Ola Friend核心技术

YOLO11：重新定义性能极限！对比YOLO8如何？

H100价格大跌！GPU供需失衡，真过剩？

大语言模型垂直领域融合的最优解：微调or检索增强生成?

长文本、语音、视觉全覆盖，中国移动抬上大招：九天善智！

李飞飞「数字表兄弟」破解机器人训练难题！零样本sim2real成功率高达90%

LLM（大语言模型），我们距离应用还差什么？

特斯拉首款无人驾驶出租问世，马斯克掀翻全场！无方向盘、无踏板，3万美元26年量产

诺贝尔物理和化学奖都颁给了AI，意味着什么？

双向奔赴！什么是大模型和数据库的双向赋能？

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在手机上了

RT-DETRv3横空出世！探究实时目标检测的尽头

【一手实测】Tripo 2.0：AI 3D生成天花板再拉升！

聊聊3DGS，各应用方向的最新进展是？

李飞飞创业后的首个专访：空间智能是下一个“北极星”

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

用AI和宠物闲聊，解锁「毛孩子」语言，铲屎官心动！

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

【盘点】AI视觉算法主流部署方式，到底怎么选？

会领路、能聊天，现在的导航已经next level了

深夜空降！OpenAI草莓正式发布，命名o1， GPT-4o被碾压！

对话Qwen2-VL：多模态大模型背后的逻辑

上交大：让代码自动成长！培养你的专属宝可梦

PyTorch官宣去CUDA推理！Triton时代来了

FairMOT：解锁复杂环境下多目标跟踪的难题！

Cursor：开发者的新质生产力，人人都是程序员？

机器人身穿衣服做家务，逼真到被质疑是人类套壳

大模型应用新战场：揭秘终端侧AI竞争关键｜智在终端

全国首个上手机的AI视频通话来了！《黑神话：悟空》经文也能破译

【深度解读】政务大模型的产业图谱、企业布局与落地应用

又创新？U-KAN：专注图像边界细节优化的网络架构！

AI开启“城市漫步”，这Citywalk够不够贴心！

【梳理】主流推荐算法：如何让AI更精准地“猜你喜欢”？

Midjourney地位不稳？AI绘图又一黑马出现，附4款产品一手实测

实测！30秒即可生成工业级Mesh，媲美人工建模？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉