【文生智界】WonderWorld:一图在手,世界我有

文摘   2024-11-08 13:15   江苏  

近年来,3D 场景生成技术蓬勃发展,许多研究成功探索了强大的生成图像先验和单目深度估计的改进。

然而,现有的 3D 场景生成方法都是离线进行的,用户提供单个起始图像或文本提示,然后系统在几十分钟到几小时后返回一个固定的 3D 场景或场景视频。这种离线生成的方式可能适用于小型、孤立的场景或视频,对于许多场景生成用例存在问题。

例如,在游戏开发中,设计师希望逐步迭代构建 3D 世界;在 VR 和视频游戏中,用户期望新内容比当前生成的场景更大、更多样化。未来,用户可能希望获得更多:一个允许他们自由探索和塑造动态演变、无限虚拟世界的系统。

所有这些都激发了交互式3D场景生成问题的提出,用户可以在其中控制生成(或外推)新3D场景的内容和位置,并以低延迟查看生成的场景。近日,斯坦福吴佳俊团队与 MIT 携手打造的最新研究成果 WonderWorld,让我们离想象前进了一大步!

WonderWorld,来源:https://arxiv.org/pdf/2406.09394


WonderWorld是什么?



WonderWorld 是一个全新的交互式 3D 场景生成框架,它允许用户从一张单一图像出发,交互式地指定场景内容和布局,并以低延迟的方式查看创建的场景。

WonderWorld 图生 3D 场景过程,来源:X@Koven_Yu
用户可以输入一张初始图像,系统会自动生成第一个 3D 场景。
接下来,用户可以通过移动相机视角来选择新场景的生成位置,并通过输入文字提示来指定场景的内容。WonderWorld 会根据用户的指令,利用文本引导的扩散模型和大型语言模型(LLM)生成新的场景图像,并将其与现有场景无缝连接。
用户可以在实时渲染的虚拟环境中自由漫游,并随时添加新的场景和内容,从而构建出一个不断扩展的3D世界

WonderWorld 不同场景风格示例

WonderWorld 支持各种不同的场景风格,同时还支持在同一个场景中指定不同的风格。
WonderWorld 在同一场景中指定不同风格示例


WonderWorld的关键技术


WonderWorld 的核心技术是 Fast LAyered Gaussian Surfels(FLAGS)

FLAGS 是一种全新的3D场景表示方法,它将场景分成前景层、背景层天空层,并使用“曲面元素”来表示每一个层级。这种设计使得场景的生成和渲染速度得到了极大的提升,仅需不到10秒,你就能看到一个全新的场景呈现在你的眼前。

WonderWorld 实现原理,来源:https://arxiv.org/pdf/2406.09394
更重要的是,FLAGS 能够巧妙地利用单视图层生成技术和基于几何的初始化方法,避免了传统方法需要生成大量多视角图像和深度图的繁琐过程,极大地提高了效率。

除了 FLAGS 之外,WonderWorld 还采用了以下关键技术

  • 文本引导的扩散模型: 用于生成场景图像,并对背景层和天空层进行修复;

  • 大型语言模型(LLM): 用于生成结构化的场景描述和文本提示,以控制场景内容和风格;

  • 引导深度扩散(Guided Depth Diffusion): 用于生成与现有几何形状一致的深度信息,以减少几何失真,确保新场景与现有场景无缝衔接。

引导深度扩散(Guided Depth Diffusion)技术



WonderWorld的应用前景


WonderWorld 的应用前景十分广阔:
  • 游戏开发:游戏设计师可以使用 WonderWorld 快速构建 3D 游戏世界,并根据玩家的反馈进行实时调整;

  • 虚拟现实:WonderWorld 可以为用户提供更具沉浸感和交互性的 VR 体验,让他们在无限延展的虚拟世界中自由探索;

  • 创意设计:设计师可以使用 WonderWorld 快速创建各种 3D 场景,用于产品展示、建筑设计等领域;

  • 城市规划:WonderWorld 还可以用于创建虚拟城市模型,为城市规划提供辅助决策;

  • 教育培训:将抽象的知识转化为直观的 3D 场景,可以帮助学生们更好地理解和掌握知识。


虽然 WonderWorld 目前还存在一些局限性,例如生成的场景仅包含正面朝向的表面、视角合成范围有限、难以处理细节丰富的物体等,但它作为一种交互式 3D 场景原型设计方法,已经展现出巨大的潜力。
相信随着技术的不断发展,WonderWorld 会不断完善它的功能,克服现有的局限性,为我们带来更加精彩的应用体验!
槿墨AI
产品服务

结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识,深入业务场景,精确捕获用户意图,为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务

📞若您有相关需求,欢迎点击下方链接与我们沟通洽谈

🗨️也可以在公众号后台给我们留言



槿墨AI
开启探索人类未来命运的旅程,拥抱如槿似墨的无限可能。
 最新文章