空间智能一小步,AI世界一大步。
AI圈又迎来一个里程碑式的新进展。
斯坦福大学计算机领军科学家、“AI教母”李飞飞博士3个月前刚刚创立的World Labs,发布了其首个空间AI项目,实现从单一图像生成交互式3D场景。
一图一世界,一张2D图片生成整个3D世界。
更赞叹的是,这个3D世界遵循基本的几何物理空间规则,用户可以用键盘或鼠标,未来还可能是语音控制及目光所指,在AI构建出的3D环境做交互和探索。
这不仅仅标志着空间智能领域的一个重要突破,更预示着AR/VR、游戏、电影、创业产业乃至元宇宙即将迎来翻天覆地的变化。
李飞飞曾经说过:“在AI领域中,真正难以解决的问题是什么?我的答案是空间智能——这项技术可以赋能和实现创作、设计、学习、AR/VR、机器人等领域的无数可能用例。”
World Labs的核心技术堪称质的飞跃。
与传统3D建模和渲染方法想对比,它最大的魅力在于仅仅提供一张2D图像,具备空间智能的AI就能一生万物,从2D图像中生成完整的、可与用户交互的3D场景。
World Labs首次发布的技术系统也具备了三大特点:
持久现实、实时控制和真实几何。
持久现实:通过World Labs生成的三维环境场景创建后就可以保持稳定态,用户可以自由在3D场景中进行探索,而在探索过程中并不会出现3D环境的突变;
例如用户提供一张来自中世纪的世界名画,World Labs的AI系统就能迅速将其转化为一个可探索的3D环境。
实时控制:输出的结果是完全交互式的,观众可以通过可移动的摄像头来观看3D场景,放佛自己置身其中;用户也在3D空间环境中移动,放大和缩小;
例如用户可以在3D环境中自由行走、观察,甚至与虚拟物体进行交互,体验前所未有的交互感和控制感。
真实几何:生成的3D场景都遵循正确的几何和物理规则,场景中物体细节、空间关系、光影效果都符合我们对现实世界的认知;正确几何保障了这个光怪陆离的生成后的3D虚拟世界的真实感和沉浸感。
⬆️荷兰后印象派画家文森特·梵高的画布油彩画《夜间的露天咖啡馆》,创作于1888年9月
李飞飞教授在AI界有着举足轻重的地位。
从ImageNet到3D世界生成,李飞飞的学术旅程见证了AI技术的不断进化。
2009年,她创建ImageNet数据集为计算机视觉和深度学习的爆发奠定了基础。今天,她带领World Labs团队破解了空间智能的密码,又一次站在人工智能的尖端。
2023年初,AI圈注定会发生点什么。
当“AI教母”李飞飞与硅谷知名风投公司a16z的合伙人Martin Casado共进晚餐并深度交流之后,李飞飞坚定了自己的判断,空间智能是下一轮人工智能技术革新的关键,而重要的步骤是,从当前的AI大语言模型转向“大世界模型”。
于是,李飞飞邀请自己的学生Justin Johnson加入团队,Martin引荐了另外两位科学家创始团队——Christoph Lassner和Ben Mildenhall,四位AI精英联合创建World Labs。
World Labs于2024年1月在旧金山正式成立,李飞飞亲自挂帅担任CEO。
其顾问团队也星光熠熠,包括斯坦福大学计算机科学系助理教授、清华大学姚班毕业的青年学者吴佳俊,加州大学伯克利分校教授吴义仁等。
⬆️World Labs 创始人团队,左起依次为 Ben Mildenhall、Justin Johnson、Christoph Lassner 和李飞飞
创立之初,World Labs已收获2.3亿美元融资,约计人民币16亿。
该融资由a16z、NEA恩颐投资和Radical Ventures领投,AMD、Adobe、Databricks风投部门、Shinrai Investments LLC以及英伟达创始人兼CEO黄仁勋都是其投资人。
目前World Labs估值已超过10亿美金,是名符其实的独角兽。
World Labs所着力的空间智能是AI理解真实的密钥,蕴含着巨大的商业和应用价值。
World Labs的目标,就是构建一个能够理解、生成并与3D世界进行交互的大世界模型(LWM),从而让人工智能系统具备与人类相似的空间感知和智能。
大世界模型(LWM)必将切实赋能人类3D建模、工业设计、游戏产业、电影、元宇宙等领域,也将深刻助推AR/VR、机器人、自动驾驶汽车、工业元宇宙等前沿科技的发展。
World Labs关于“空间智能”的宏伟计划拟分为三步走:
其一是构建一个深入理解三维、物理、几何以及空间和时间概念的空间智能大世界模型;
其二是将AR/VR技术与大世界模型相融合,共融发展;
其三是大世界模型将应用于具身智能、自动驾驶、智能工厂、元宇宙等领域,促进其改进与发展。
在3D生成AI这个新兴领域,World Labs并非唯一玩家。
其主要竞争对手还包括:
Meshy:AI驱动3D建模和内容创建;
Deepmotion:AI驱动3D动画和动作捕捉;
Alpha3D:开发AI解决方案生成3D资产;
Vast:Tripo AI通过文本或图像提示生成3D模型。
⬆️图片来源:VAST官方公众号 - 由Tripo生成的3D模型的六视渲染图“站在水面玻璃球上的火烈鸟”
尽管竞争激烈,但World Labs凭借李飞飞在AI领域的卓越成就和深厚的AI世界的广泛影响力,为公司赢得了业界的高度信任和先发的资本优势;
其强大的研发天团和积累深厚的科研技术成果,也让在World Labs在空间智能的大航海航程中占据了最有利的位置。
梵天是印度教的主神,也是创世之神。
李飞飞的World Labs也正在创建一个“梵天”的新世界。
而产业格局在大世界模型的激荡下重新发牌、理牌、洗牌。
游戏产业:这或许是个人拥有Idea就可以生产游戏的时代。
World Labs的技术将彻底重塑游戏开发的流程和可能性;它将极大地加速游戏场景的制作速度,降低游戏开发门槛,为独立开发者赋能。
此外,这项技术还支持动态生成的游戏世界,根据玩家的行为或故事发展实时创建新的场景,为游戏内容和玩法创新带来了无限可能。
电影制作:用提示词去构建一部电影巨作。
World Labs的技术可以作为强大的快速视觉化工具,加速创意的可视化过程;导演和概念设计师可以通过简单的文字描述或粗略草图,立即生成逼真的3D场景;在虚拟制片方面,这项技术有望成为新的行业标准,普及高质量视觉效果的制作。
元宇宙:低成本实现元宇宙。
World Labs的技术恰好填补了元宇宙关键的技术缺口——为构建大规模、高保真度的虚拟世界提供解决方案,加速元宇宙构建进程。World Labs技术支持实时编辑和交互,满足元宇宙世界沉浸式的交互探索。
更多产业:降低3D制作门槛。
传统的3D建模和动画制作耗时耗力,需要大量专业人才和昂贵的软硬件投入。World Labs与其他AI工具无缝对接,将创造出令人惊叹的效益。创作者用文本或图像大模型生成初始概念图,再用World Labs技术将其转化为三维环境场景;艺术创作、文化创意、建筑设计、城市规划、文物保护、教育培训等产业将大受其益。
更多的创新和智能将随之涌现。
一图一世界,一飞一菩提。
大世界模型启动“反向二向箔”。
World Labs正在带领我们走向真正的元宇宙纪元。