一、模型发布背景与团队介绍
发布时间:当地时间2024年12月2日凌晨。
发布主体:由AI学者、斯坦福大学教授李飞飞联合创办的World Labs。
团队核心成员:李飞飞与贾斯汀·约翰逊(Justin Johnson)、克里斯托夫·拉斯纳(Christoph Lassner)和本·米尔登霍尔(Ben Mildenhall)。其中,贾斯汀·约翰逊是李飞飞的博士生,现为密歇根大学的助理教授。
团队规模与融资:World Labs于2024年9月正式亮相,目前拥有20名员工,包括CV和图形学领域的研究人才,以及系统工程、产品设计等职位。公司已迅速完成了2.3亿美元的融资,得到了AI领域知名人士Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等人的支持,公司估值已超过10亿美元。
二、模型特点与功能
空间智能:该模型是World Labs的首个“空间智能”模型,能够从单个图像一键生成3D世界。
交互性与可修改性:与以往的AI工具不同,World Labs生成的3D场景具有交互性,用户可以在其中自由探索,并实时调整摄像机的位置和视野、更改对象颜色等。
3D效果与一致性:该模型能够估算出3D几何图形,填充场景中未见的部分,创建新的内容,实现各个方位的3D世界构建。与生成式AI工具生成的图片或视频等2D内容相比,以3D形式生成的内容具有更好的控制性和一致性。
适应多种场景与风格:该模型可以适应各种场景类型和艺术风格,如生成不同的相机效果、3D效果以及经典绘画风格的3D内容。
三、应用场景与影响
电影、游戏制作:该模型将极大简化电影制作、游戏制作、VR游戏制作等内容素材的制作流程,提高3D内容的一致性和质量。
艺术创作:创作者可以使用该模型生成不同风格的3D环境,并将其整合到现有的工作流程中,填补创意工作流程中的空白。
未来展望:World Labs表示,他们正在努力改进生成的3D世界的大小和逼真度,并尝试与用户互动的新方法。未来,该模型有望在其他人工智能工具中自然地结合,为用户带来更加丰富的3D体验。
四、用户体验与反馈
实时渲染与探索:在World Labs网站的演示中,这些由AI生成的场景均通过浏览器实时渲染而成。用户可以使用箭头键或键盘(WASD)键移动,并单击并拖动鼠标实现交互,从而自由探索场景。
创作者试用:已有一些创作者受邀试用了该模型,并将其整合到了现有的工作流程中。他们表示,这项技术完美地填补了创作过程中的空白,可以让角色布置和精确的镜头调度变得更容易。