凭一张图就能生成3D世界,空间智能时代来了?

文摘   2024-12-09 16:41   新疆  
任意一张照片,就可以生成可以闲逛的3D世界。听起来像科幻作家的幻想,但随着AI技术发展,已经成为触手可及的现实。
12月3日,斯坦福大学教授李飞飞宣布,她带领的World Labs团队推出了一张图片便能生成3D世界的AI系统,他们将该系统命名为“大型世界模型”(Large World Model, LWM),称自己为空间智能AI公司。模型一经推出就受到全球网友关注,有人表示,现实版的盗梦空间来了!

World Labs 官网截图
在已经开放的即时演示中,用户可以在浏览器上直接操控,感受World Labs塑造的世界。如输入一张博物馆取景照片,AI会帮你设想出入门,下一间相邻的展馆、展品;输入世界名画《夜晚露天咖啡座》,就可以走进画中,感受完整的街区环境……
那么,“大型世界模型”有何不同?具体应用场景有哪些?又将给AI的发展带来怎样的影响?
一张图,生成3D世界
“还是比较惊喜的。此前Sora本身也有点模拟世界的‘味道’,但‘大型世界模型’是另外一种技术路线,整体上行业觉得超出预期。”中国AIGC产业联盟研究院院长、无界AI联合创始人马千里表示。
“大型世界模型”可以简单视为人工智能形成虚拟世界的工具:用户只需上传一张图片,系统便能根据这张图片中的环境信息,自动生成一个相应范围内的3D虚拟世界。
此外,用户可直接在网页端,通过鼠标或键盘,轻松浏览这个3D世界。而且生成的3D世界具有交互性,用户能够像玩游戏那样,自由地移动相机,来探索这个3D世界,景深、变焦等操作均可行。
“交互性实际上是通过键盘的输入或鼠标移动,向AI输入指令,它会根据指令,实时渲染生成相应的场景,而在此之前,大家所看到的3D场景都是由人工预先构建好的。”浙江大学博士生导师朱霖潮解释道。
此次“大型世界模型”让人惊艳的是,遵循了3D几何物理基本规则,具有真实的深度感和空间感。
在马千里看来,3D几何物理基本规则的遵循,是AI模型在大量的3D数据训练后,对图像内容达成了充分理解,这体现了AI对现实世界的理解更进一步。
但在遵循现实世界物理规则上,朱霖潮也表示,“大型世界模型”距离实际应用还有一定的距离。“虽然声称引入一些物理机理,但如何生成更遵循物理基本原则的技术细节尚未披露,在某些场景上,也出现渲染错误,比如不同的物体以不自然的方式融合,成为了一团色块。”
不过,据了解,World Labs表示这些只是“早期预览”,他们正在努力提升生成世界的规模和真实度,并探索新的交互方式。
世界生成模型的应用场景广泛
在3D生成赛道,World Labs并不是第一个“吃螃蟹的人”。此前,英伟达、Meta等多家公司也在积极布局物理AI与3D世界的相关技术,市场竞争激烈。
在国内,也有不少企业加入其中。以无界AI为例,企业产品“魔镜”也是利用AI生成3D产品。用户在浏览器上,只要输入一张照片,“魔镜”就可以根据照片上的人物,形成相对应的3D模型,最终可制作成手办模型。
工具的革新,应用场景的落地是大部分人关心的问题。
World Labs在官博中表示,他们计划构建对艺术家、设计师、开发人员、电影制片人和工程师等专业人士有用的工具。允许任何人想象和创造自己的世界,将生成性人工智能的潜力从 2D 图像和视频扩展到3D世界。
“像‘大型世界模型’这类AI模型的出现,未来也许能够很好地填充VR世界里的数字空间。”马千里解释道,VR里的数字空间建设成本非常高,开发的周期也比较慢,这类工具的出现,将会使得数字空间的建模成本降低,并且能够根据需求,迅速构建出虚拟世界场景,这意味元宇宙将离人们越来越近。
李飞飞的博士生、World Labs联合创始人贾斯汀•约翰逊则在社交媒体上指出,随着这项技术的成熟,未来我们可能不再需要使用手机、平板等不同尺寸的屏幕。他表示,如果你能够将虚拟内容与物理世界无缝融合,那么对所有这些屏幕的需求就会减少。
空间智能时代已经到来
两年前,ChatGPT惊艳发布,从此生成式AI一路狂奔,从平面图像和文本处理,迈向对三维世界的理解。从文生智能到空间智能,生成式的AI正在以极快地速度认知人类的物理世界。
“大型世界模型”的出现,也正是空间智能的一次实际展示。
李飞飞对空间智能的定义是:空间智能是机器在3D空间和时间中感知、推理和行动的能力。在她看来,空间智能是AI领域的下一个前沿技术方向。
今年9月,在接受媒体访谈时,李飞飞表示,空间智能是她的下一个北极星,该技术将改变AI的发展进程。她认为,空间智能与语言智能一样重要,甚至在某些方面可能更古老、更基础,AI的发展不会局限于处理平面图像或文本,而是会迈向对三维世界的理解,这是智能发展的自然延伸。
那么,由World Labs开启的空间智能AI,未来对AI发展的影响如何?
朱霖潮表示,人在处理信息过程中,主要还是以视觉信息为主,这样的大模型的出现,可以让更多人去关注视觉模型,包括如何构建一个更好的3D环境,实现符合物理的运动,这些都可能吸引更多的人去往这个领域。
“当前AI投入太大了,方向很重要,这样的AI技术被验证后,那么企业就敢下注赛道,进而促进产业的发展。”马千里说道。
如今,单个图像生成3D世界模型,让我们对空间智能有了初步的理解。未来,或许还有更多大模型的出现。随着AI算法的不断优化,和硬件设备的升级,空间智能将进一步突破现有的技术边界,也许就成为人类生活方式转型的重要驱动力。
大胆想象一下,再加上时间维度,训练成功的话,也许AI真的可以通晓古今,预测未来?


版权归原作者所有,如有侵权,请联系我们


由科普中国重新排版编辑    内容来自:潮新闻


内容资源由项目单位提供


科普博州
科学普及 科学传播 科技服务
 最新文章