速递|李飞飞 World Labs 推出首个 AI 系统—— 生成从图片到可交互的 3D 场景

科技   2024-12-03 09:35   浙江  

李飞飞创立的 World Labs 推出了首个项目 —— 一个能从单张照片生成类似游戏 3D 场景的 AI 系统,其独特性在于支持交互且可以修改。
World Labs 的系统能为场景提供交互效果和动画,例如更改物体的颜色和动态调整背景灯光。
该系统属于一个新兴的 AI 类别——“世界模型”(World Models),许多此类模型可以模拟游戏和 3D 环境,但通常存在伪影和一致性问题。
初创公司 Decart 的 Minecraft 模拟世界模型 Oasis 分辨率较低,并且容易“忘记”关卡布局。
World Labs 在官方博客中提到,目前的大多数生成式 AI 工具生成的是 2D 内容,比如图像或视频,而生成 3D 内容则提升了控制力和一致性。这将改变我们制作电影、游戏、模拟器以及其他物理世界数字表现形式的方式。
World Labs 的系统将图片转换为可交互和探索的 3D 场景。用户可以通过使用箭头键或 WASD 移动,然后单击并拖动鼠标来探索这些 AI 生成的场景。
这些场景在浏览器中实时渲染,并配备可调的模拟景深效果(DoF)。官网上提供了一个调节景深的滑块,景深效果越强,背景物体就越模糊。
World Labs 的方法确保了生成的场景在生成后保持不变,并遵循基本的物理规律,具有一定的实体感和深度感。
World Labs 还支持模拟推拉变焦,同时调整摄像机的位置和视野:
World Labs 还提到,大多数生成模型预测的是像素,而预测 3D 场景则具有许多优势:
  • 持久的现实感
    一旦生成了一个世界,它会保持稳定。如果你暂时离开视线,然后再回来,场景不会发生变化。这种持久性提供了更连贯的体验,避免了传统生成模型中场景不一致的情况。

  • 实时控制
    在生成场景后,用户可以实时在场景中自由移动。例如,你可以停下来仔细观察一朵花的细节,或者绕过一个角落,看看背后隐藏了什么。这种实时互动使场景更具沉浸感和探索性。

  • 正确的几何结构
    World Labs 生成的世界遵循 3D 几何的基本物理规则。这些场景具有实体感和深度感,与某些 AI 生成视频的梦幻性质形成对比,更贴近现实体验。

深度图是将 3D 场景投影到二维空间的一种方式,它通过像素的颜色深浅来表达物体的远近。

例如,离摄像机较近的像素可能被显示为亮色,而较远的像素则为暗色。这种方式直观地展示了场景的三维空间结构,为开发者和用户理解场景的深度和布局提供了重要工具。

通过这些特性,World Labs 的技术为生成式 AI 3D 场景奠定了坚实基础,并大幅提升了内容的交互性、真实性和一致性。

最后,World Labs 还展示了一条视频,作者 Brittani Natali 将 World Labs 的技术与 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具相结合的工作流程:

✦ 精选内容 ✦

a16z 合伙人预计,继续推动下一代模型,需要每个阶段增加 10 倍计算资源、10 倍电力和 10 倍数据
新出炉的 200+页 AI 现状报告都说了什么?AI First 初创公司营收增速比传统 SaaS 公司要快两倍!
5 个硅谷最新 AI 共识:未来将是多模型共存局面,单一 AI 模型不再占据主导地位,杀手级应用已悄然出现......
VC 今年以来对 AI 初创公司投资达 641 亿美元,接近 2021 年峰值,但全球 AI 年收入总额也才数百亿美元






有新Newin
无限向新力。
 最新文章