一图一世界,一飞一菩提

科技   2024-12-03 20:09   北京  

文丨曦昱

空间智能一小步,AI世界一大步。

AI圈又迎来一个里程碑式的新进展。

斯坦福大学计算机领军科学家、“AI教母”李飞飞博士3个月前刚刚创立的World Labs,发布了其首个空间AI项目,实现从单一图像生成交互式3D场景。

一图一世界,一张2D图片生成整个3D世界。

更赞叹的是,这个3D世界遵循基本的几何物理空间规则,用户可以用键盘或鼠标,未来还可能是语音控制及目光所指,在AI构建出的3D环境做交互和探索。

这不仅仅标志着空间智能领域的一个重要突破,更预示着AR/VR、游戏、电影、创业产业乃至元宇宙即将迎来翻天覆地的变化。

World Labs的一图一世界

飞飞曾经说过:“在AI领域中,真正难以解决的问题是什么?我的答案是空间智能——这项技术可以赋能和实现创作、设计、学习、AR/VR、机器人等领域的无数可能用例。”

World Labs的核心技术堪称质的飞跃。

与传统3D建模和渲染方法想对比,它最大的魅力在于仅仅提供一张2D图像,具备空间智能的AI就能一生万物,从2D图像中生成完整的、可与用户交互的3D场景。

World Labs首次发布的技术系统也具备了三大特点

持久现实、实时控制和真实几何。

持久现实:通过World Labs生成的三维环境场景创建后就可以保持稳定态,用户可以自由在3D场景中进行探索,而在探索过程中并不会出现3D环境的突变;

例如用户提供一张来自中世纪的世界名画,World Labs的AI系统就能迅速将其转化为一个可探索的3D环境。

实时控制:输出的结果是完全交互式的,观众可以通过可移动的摄像头来观看3D场景,放佛自己置身其中;用户也在3D空间环境中移动,放大和缩小;

例如用户可以在3D环境中自由行走、观察,甚至与虚拟物体进行交互,体验前所未有的交互感和控制感。

真实几何:生成的3D场景都遵循正确的几何和物理规则,场景中物体细节、空间关系、光影效果都符合我们对现实世界的认知;正确几何保障了这个光怪陆离的生成后的3D虚拟世界的真实感和沉浸感。

⬆️美国当代画家爱德华·霍普的板面油画《夜行者》,创作于1942年

⬆️荷兰后印象派画家文森特·梵高的画布油彩画《夜间的露天咖啡馆》,创作于1888年9月

李飞飞的AI神话

李飞飞教授在AI界有着举足轻重的地位。

从ImageNet到3D世界生成,李飞飞的学术旅程见证了AI技术的不断进化。

2009年,她创建ImageNet数据集为计算机视觉和深度学习的爆发奠定了基础。今天,她带领World Labs团队破解了空间智能的密码,又一次站在人工智能的尖端。

2023年初,AI圈注定会发生点什么。

当“AI教母”李飞飞与硅谷知名风投公司a16z的合伙人Martin Casado共进晚餐并深度交流之后,李飞飞坚定了自己的判断,空间智能是下一轮人工智能技术革新的关键,而重要的步骤是,从当前的AI大语言模型转向“大世界模型”

于是,李飞飞邀请自己的学生Justin Johnson加入团队,Martin引荐了另外两位科学家创始团队——Christoph Lassner和Ben Mildenhall,四位AI精英联合创建World Labs。

World Labs于2024年1月在旧金山正式成立,李飞飞亲自挂帅担任CEO。

其顾问团队也星光熠熠,包括斯坦福大学计算机科学系助理教授、清华大学姚班毕业的青年学者吴佳俊,加州大学伯克利分校教授吴义仁等。

⬆️World Labs 创始人团队,左起依次为 Ben Mildenhall、Justin Johnson、Christoph Lassner 和李飞飞

创立之初,World Labs已收获2.3亿美元融资,约计人民币16亿。

该融资由a16z、NEA恩颐投资和Radical Ventures领投,AMD、Adobe、Databricks风投部门、Shinrai Investments LLC以及英伟达创始人兼CEO黄仁勋都是其投资人。

目前World Labs估值已超过10亿美金,是名符其实的独角兽。

空间智能的星辰大海

World Labs所着力的空间智能是AI理解真实的密钥,蕴含着巨大的商业和应用价值。

World Labs的目标,就是构建一个能够理解、生成并与3D世界进行交互的大世界模型(LWM),从而让人工智能系统具备与人类相似的空间感知和智能。

大世界模型(LWM)必将切实赋能人类3D建模、工业设计、游戏产业、电影、元宇宙等领域,也将深刻助推AR/VR、机器人、自动驾驶汽车、工业元宇宙等前沿科技的发展。

World Labs关于“空间智能”的宏伟计划拟分为三步走

其一是构建一个深入理解三维、物理、几何以及空间和时间概念的空间智能大世界模型;

其二是将AR/VR技术与大世界模型相融合,共融发展;

其三是大世界模型将应用于具身智能、自动驾驶、智能工厂、元宇宙等领域,促进其改进与发展。

World Labs的竞争对手

在3D生成AI这个新兴领域,World Labs并非唯一玩家。

其主要竞争对手还包括:

  • Meshy:AI驱动3D建模和内容创建;

  • Deepmotion:AI驱动3D动画和动作捕捉;

  • Alpha3D:开发AI解决方案生成3D资产;

  • Vast:Tripo AI通过文本或图像提示生成3D模型。

⬆️图片来源:VAST官方公众号 - 由Tripo生成的3D模型的六视渲染图“站在水面玻璃球上的火烈鸟”

尽管竞争激烈,但World Labs凭借李飞飞在AI领域的卓越成就和深厚的AI世界的广泛影响力,为公司赢得了业界的高度信任和先发的资本优势;

其强大的研发天团和积累深厚的科研技术成果,也让在World Labs在空间智能的大航海航程中占据了最有利的位置。

世界正在改变

梵天是印度教的主神,也是创世之神。

李飞飞的World Labs也正在创建一个“梵天”的新世界。

而产业格局在大世界模型的激荡下重新发牌、理牌、洗牌。

游戏产业:这或许是个人拥有Idea就可以生产游戏的时代。

World Labs的技术将彻底重塑游戏开发的流程和可能性;它将极大地加速游戏场景的制作速度,降低游戏开发门槛,为独立开发者赋能。

此外,这项技术还支持动态生成的游戏世界,根据玩家的行为或故事发展实时创建新的场景,为游戏内容和玩法创新带来了无限可能。

电影制作:提示词去构建一部电影巨作。

World Labs的技术可以作为强大的快速视觉化工具,加速创意的可视化过程;导演和概念设计师可以通过简单的文字描述或粗略草图,立即生成逼真的3D场景;在虚拟制片方面,这项技术有望成为新的行业标准,普及高质量视觉效果的制作。

元宇宙:低成本实现元宇宙。

World Labs的技术恰好填补了元宇宙关键的技术缺口——为构建大规模、高保真度的虚拟世界提供解决方案,加速元宇宙构建进程。World Labs技术支持实时编辑和交互,满足元宇宙世界沉浸式的交互探索。

更多产业:降低3D制作门槛。

传统的3D建模和动画制作耗时耗力,需要大量专业人才和昂贵的软硬件投入。World Labs与其他AI工具无缝对接,将创造出令人惊叹的效益。创作者用文本或图像大模型生成初始概念图,再用World Labs技术将其转化为三维环境场景;艺术创作、文化创意、建筑设计、城市规划、文物保护、教育培训等产业将大受其益。

更多的创新和智能将随之涌现。

一图一世界,一飞一菩提。

大世界模型启动“反向二向箔”。

World Labs正在带领我们走向真正的元宇宙纪元。

如果您有什么想说的,欢迎在评论区留言讨论!
投稿或寻求报道,欢迎私信“投稿”,添加编辑微信
如果您想要获取最新的科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会!
欢迎扫描下方二维码,加头部科技创始人、AI头号玩家俱乐部主理人晶总微信!

头部科技
头部科技是技术新世界的记录者、探索者和推动者。我们致力于普及细分场景的科技解决方案,打造科技和人才创新知识图谱。无论你身处技术公司或传统行业,在这里都可以找到智能化、数字化升级的案例和伙伴。在无限的时空中,和你共同探索科技原力是我们的荣光。
 最新文章