图片来源:World Labs
据TechCrunch报道,由AI教母李飞飞创立的初创公司World Labs近日公布了其首个项目:一种能够从单张图像生成类似电子游戏的3D场景的AI系统。
虽然许多AI系统都可以将照片转换为3D模型和环境,但World Labs的场景独具特色,其生成的场景不仅可以交互,还可以进行修改。
“我们的技术可以让你进入任何图像,并在3D中探索它,”World Labs在博客中写道。“输入图像之外的所有内容都是由AI生成的。”
视频来源:World Labs
这些AI生成的场景在World Labs官网的演示中可以供任何拥有键盘和鼠标的用户探索。虽然场景略显卡通化,但其表现令人印象深刻。它们可以实时在浏览器中渲染,支持可控的相机视角和可调节的景深效果(DoF)。景深效果越强,背景物体越模糊。
World Labs的系统属于新兴的“世界模型”(World Models)AI类别。许多此类模型可以模拟游戏和3D环境,但通常会存在伪影和一致性问题。例如,初创公司Decart的《Minecraft》模拟世界模型“Oasis”分辨率较低,并且容易“忘记”关卡布局。
相比之下,World Labs的方法确保了生成的场景在生成后保持一致,并遵循基本的物理法则,从而体现出场景的坚实感和深度。
此外,World Labs的系统还可以为场景应用交互式效果和动画,例如改变物体颜色或动态调整背景光照。
“大多数生成式AI工具生成的是2D内容,如图像或视频,”World Labs表示。“生成3D内容则提升了控制和一致性。这将改变我们制作电影、游戏、模拟器以及其他数字化物理世界的方式。”
World Labs于今年早些时候成立,目前已从包括Andreessen Horowitz(a16z)、阿什顿·库彻(Ashton Kutcher)、英特尔资本(Intel Capital)、AMD Ventures以及埃里克·施密特(Eric Schmidt)等在内的投资者处筹集了2.3亿美元的风险投资。公司估值超过10亿美元,并计划在2025年推出首款产品。
除了交互式场景,World Labs还计划开发面向艺术家、设计师、开发者、电影制作人和工程师等专业人士的工具,目标客户包括视频游戏开发者和电影制片厂。
“我们已经具备创建虚拟交互世界的能力,但这需要花费数亿甚至更多资金以及大量的开发时间,”World Labs联合创始人贾斯汀·约翰逊(Justin Johnson)在a16z播客的一期节目中说道。“(世界模型)不仅能生成一张图像或一段视频,还能提供一个完全模拟的、生动的、可交互的3D世界。”
图片来源:World Labs
当然,目前该技术仍有改进空间。World Labs的场景并非完全可探索,用户的活动范围受限于一个小区域(如果尝试超出边界,会碰到限制)。此外,偶尔会出现渲染错误,例如物体以不自然的方式融合在一起。
不过,World Labs称这些只是“早期预览”。
“我们正在努力提升生成世界的规模和逼真度,并尝试新的用户交互方式,”这家初创公司在博客中写道。