李飞飞创立的 World Labs 推出了首个项目 —— 一个能从单张照片生成类似游戏 3D 场景的 AI 系统,其独特性在于支持交互且可以修改。World Labs 的系统能为场景提供交互效果和动画,例如更改物体的颜色和动态调整背景灯光。该系统属于一个新兴的 AI 类别——“世界模型”(World Models),许多此类模型可以模拟游戏和 3D 环境,但通常存在伪影和一致性问题。初创公司 Decart 的 Minecraft 模拟世界模型 Oasis 分辨率较低,并且容易“忘记”关卡布局。World Labs 在官方博客中提到,目前的大多数生成式 AI 工具生成的是 2D 内容,比如图像或视频,而生成 3D 内容则提升了控制力和一致性。这将改变我们制作电影、游戏、模拟器以及其他物理世界数字表现形式的方式。World Labs 的系统将图片转换为可交互和探索的 3D 场景。用户可以通过使用箭头键或 WASD 移动,然后单击并拖动鼠标来探索这些 AI 生成的场景。这些场景在浏览器中实时渲染,并配备可调的模拟景深效果(DoF)。官网上提供了一个调节景深的滑块,景深效果越强,背景物体就越模糊。
World Labs 的方法确保了生成的场景在生成后保持不变,并遵循基本的物理规律,具有一定的实体感和深度感。World Labs 还支持模拟推拉变焦,同时调整摄像机的位置和视野:World Labs 还提到,大多数生成模型预测的是像素,而预测 3D 场景则具有许多优势:持久的现实感
一旦生成了一个世界,它会保持稳定。如果你暂时离开视线,然后再回来,场景不会发生变化。这种持久性提供了更连贯的体验,避免了传统生成模型中场景不一致的情况。
实时控制
在生成场景后,用户可以实时在场景中自由移动。例如,你可以停下来仔细观察一朵花的细节,或者绕过一个角落,看看背后隐藏了什么。这种实时互动使场景更具沉浸感和探索性。
正确的几何结构
World Labs 生成的世界遵循 3D 几何的基本物理规则。这些场景具有实体感和深度感,与某些 AI 生成视频的梦幻性质形成对比,更贴近现实体验。
深度图是将 3D 场景投影到二维空间的一种方式,它通过像素的颜色深浅来表达物体的远近。
例如,离摄像机较近的像素可能被显示为亮色,而较远的像素则为暗色。这种方式直观地展示了场景的三维空间结构,为开发者和用户理解场景的深度和布局提供了重要工具。
通过这些特性,World Labs 的技术为生成式 AI 3D 场景奠定了坚实基础,并大幅提升了内容的交互性、真实性和一致性。
最后,World Labs 还展示了一条视频,作者 Brittani Natali 将 World Labs 的技术与 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具相结合的工作流程:
✦ 精选内容 ✦