近年来,3D 场景生成技术蓬勃发展,许多研究成功探索了强大的生成图像先验和单目深度估计的改进。
然而,现有的 3D 场景生成方法都是离线进行的,用户提供单个起始图像或文本提示,然后系统在几十分钟到几小时后返回一个固定的 3D 场景或场景视频。这种离线生成的方式可能适用于小型、孤立的场景或视频,对于许多场景生成用例存在问题。
例如,在游戏开发中,设计师希望逐步迭代构建 3D 世界;在 VR 和视频游戏中,用户期望新内容比当前生成的场景更大、更多样化。未来,用户可能希望获得更多:一个允许他们自由探索和塑造动态演变、无限虚拟世界的系统。
所有这些都激发了交互式3D场景生成问题的提出,用户可以在其中控制生成(或外推)新3D场景的内容和位置,并以低延迟查看生成的场景。近日,斯坦福吴佳俊团队与 MIT 携手打造的最新研究成果 WonderWorld,让我们离想象前进了一大步!
WonderWorld是什么?
WonderWorld 是一个全新的交互式 3D 场景生成框架,它允许用户从一张单一图像出发,交互式地指定场景内容和布局,并以低延迟的方式查看创建的场景。
接下来,用户可以通过移动相机视角来选择新场景的生成位置,并通过输入文字提示来指定场景的内容。WonderWorld 会根据用户的指令,利用文本引导的扩散模型和大型语言模型(LLM)生成新的场景图像,并将其与现有场景无缝连接。
用户可以在实时渲染的虚拟环境中自由漫游,并随时添加新的场景和内容,从而构建出一个不断扩展的3D世界。
WonderWorld 不同场景风格示例
WonderWorld的关键技术
FLAGS 是一种全新的3D场景表示方法,它将场景分成前景层、背景层和天空层,并使用“曲面元素”来表示每一个层级。这种设计使得场景的生成和渲染速度得到了极大的提升,仅需不到10秒,你就能看到一个全新的场景呈现在你的眼前。
除了 FLAGS 之外,WonderWorld 还采用了以下关键技术:
文本引导的扩散模型: 用于生成场景图像,并对背景层和天空层进行修复;
大型语言模型(LLM): 用于生成结构化的场景描述和文本提示,以控制场景内容和风格;
引导深度扩散(Guided Depth Diffusion): 用于生成与现有几何形状一致的深度信息,以减少几何失真,确保新场景与现有场景无缝衔接。
引导深度扩散(Guided Depth Diffusion)技术
WonderWorld的应用前景
游戏开发:游戏设计师可以使用 WonderWorld 快速构建 3D 游戏世界,并根据玩家的反馈进行实时调整;
虚拟现实:WonderWorld 可以为用户提供更具沉浸感和交互性的 VR 体验,让他们在无限延展的虚拟世界中自由探索;
创意设计:设计师可以使用 WonderWorld 快速创建各种 3D 场景,用于产品展示、建筑设计等领域;
城市规划:WonderWorld 还可以用于创建虚拟城市模型,为城市规划提供辅助决策;
教育培训:将抽象的知识转化为直观的 3D 场景,可以帮助学生们更好地理解和掌握知识。
结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识,深入业务场景,精确捕获用户意图,为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务
📞若您有相关需求,欢迎点击下方链接与我们沟通洽谈
🗨️也可以在公众号后台给我们留言