空间智能来了!1张图生成一个3D游戏世界!游戏圈炸锅

文摘   2024-12-03 17:05   日本  

开局一张图,故事全靠编。以前可能是个网络热梗,但是现在,可能成为真的了。

作为AI领域影响力最大的女性和华人之一 ,AI学者、斯坦福大学教授人工智能科学家。李飞飞 首推的空间智能首个产品惊艳亮相。这一动作可谓是轰动全网。游戏圈和人工智能圈全都炸翻天。虽说现在有不少 AI 都能把照片转化为 3D 模型,但 World Labs 带来的不只是建模,而是一个真正可交互、可编辑的活体世界。
除了原始输入的图片,所有内容都是通过 AI 生成。

#one

一个活的世界,比一千张死的图片更有价值

World Labs 在博客中说道:

大多数生成式 AI 工具都制作图像或视频等 2D 内容。相反,以 3D 形式生成可以提高控制和一致性。这将改变我们制作电影、游戏、模拟器和物理世界的其他数字表现形式的方式。

相比之下,World Labs 却创造出了一个稳定、真实且符合物理规则的 3D 世界。

此前李飞飞表示,视觉空间智能是她的“北极星”。空间智能与语言智能一样重要,甚至在某些方面可能更古老、更基础。她还提到,AI的发展不会局限于处理平面图像或文本,而是会迈向对三维世界的理解,这是智能发展的自然延伸。

在World Labs网站的演示里,这些由AI生成的场景均通过浏览器实时渲染而成,用户可以使用箭头键或键盘(WASD)键移动,然后单击并拖动鼠标实现交互,从而自由探索场景。具体来看,该AI工具配备了可操控的滑块来调节模拟景深(DoF)与模拟推拉变焦(dolly zoom),当使用者将景深效果调至越强时,背景中的物体便会越发模糊,为整个视觉体验增添了更多层次感与真实感。

此外,该工具也支持调整摄像机的位置和视野、更改对象颜色,通过3D场景结构创建聚光灯特效、创建自动运行的动态效果等交互方式。

使用鼠标或键盘 W/A/S/D 自由穿行,然后用鼠标单击并拖动来环顾四周:

体验地址:https://www.worldlabs.ai/blog

场景生成好后,你就成了一个虚拟摄影师,在浏览器里实时操控相机,想拍什么角度就拍什么角度,如同专业摄影。

还能模拟浅景深,不过,只有距离相机一定距离的物体才能清晰对焦:

李飞飞认为,包括图像分类、视觉推理和英语理解,人工智能在多个基准测试中的表现都超过了人类,人工智能模型在 ImageNet、SQuAD 和 SuperGLUE 等既定基准测试上已经达到性能饱和,促使研究人员开发更具挑战性的模型。
新的人工智能模型,如 SegmentAnything 和 Skoltech,正被用于为图像分割和 3D 重建等任务生成专门的数据。数据对于人工智能技术改进至关重要。使用人工智能来创建更多数据增强了当前的能力,并为未来的算法改进铺平了道路,尤其是在更困难的任务上。
随着生成模型生成高质量的文本、图像等,基准测试已慢慢开始转向纳入人工评估,如 Chatbot Arena 排行榜,而不是计算机排名,如 ImageNet 或 SQuAD。公众对人工智能的看法正成为跟踪人工智能进展的一个越来越重要的考虑因素。如 PaLM-E 和 RT-2。除了改进的机器人功能外,这些模型还可以提出问题,这标志着机器人向能够更有效地与现实世界互动迈出了重要一步。




#one

创造的世界也会符合真实的物理规则


World Labs 的核心突破在于,他们没有止步于像素级的表面呈现,而是直指 3D 场景生成的本质优势:恒久的现实:创造出来的 3D 世界是稳定的,不会消失或者偷偷改变。

实时控制:生成场景后,想去哪去哪,甚至能凑近看花朵的每个细节。

真实的物理规则:生成的世界遵循现实世界的物理法则,没有漂浮的物体,没有穿墙的 bug,就像现实世界一样自然

World Labs 还表示,通过深度贴图技术,他们成功让每个像素都有了真实的空间距离感。而图片中每个像素的颜色,都是由它和摄像头的距离来决定的。

不仅如此,World Labs 还给场景注入了灵魂——添加各种互动特效,打造动画效果,让整个世界活起来。

通过官方的介绍来看,对于传统的静态画像,World Labs 还能把梵高、霍珀这些大师的名画还原成可以探索的 3D 世界。这样的还原与原作品的理解,让人惊叹和称赞。

联动 Midjourney,让创作者玩转 3D 新世界。图像生成是生成与真实图像难以区分的图像的任务。

如今的图像生成器非常先进,大多数人都很难区分人工智能生成的图像和人脸的实际图像突出显示了 2022 年至 2024 年各种 Midjourney 模型变体的几代,表明 Midjourney 在两年内生成超现实主义图像的能力有了显著提高。

2022 年,该模型制作了卡通化和不准确的哈利波特渲染,但到 2024 年,它可以创造出惊人的逼真描绘

说到创作过程,3D 生成的世界还能和其他 AI 工具完美配合,这意味着创作者可以用自己熟悉的工具,创造出全新的体验。比如说,World Labs 可以先使用文本到图像模型生成图像,从而从文本创建世界。不同的模型有自己的风格,而这些独特的风格都能被保留下来。

条件输入或执行条件控制是指通过指定生成的图像必须满足的某些条件来引导图像生成器创建的输出的过程。现有的文本到图像模型通常缺乏对图像空间构图的精确控制,因此很难单独使用提示来生成具有复杂布局、各种形状和特定姿势的图像。通过在其他图像上训练这些模型来微调它们以获得更好的构图控制在理论上是可行的,但许多专门的数据集(例如用于人体姿势的数据集)不足以支持成功的训练。2023 年,斯坦福大学的研究人员放出了ControlNet,因为它质量更高,条件保真度更高。ControlNet 的引入是朝着创建能够编辑图像的高级文本到图像生成器迈出的重要一步,以更准确地复制复杂的图像。

已经有一些创作者通过与 World Labs 达成合作,提前用上了。比如,Eric Solorio 就展示了怎么用它来设计人物动作和控制镜头。

而 Brittani Natali 则把 World Labs 的技术和 Midjourney、Runway、Suno、ElevenLabs 等工具组合起来,设计丰富的镜头运动,并创作出富有情感张力的短片。

不过,World Labs 也坦言:

这些结果是我们生成 3D 世界的第一次早期预览。我们正在努力提高生成世界的大小和保真度,并尝试让用户与它们交互的新方式。人工智能安全领域最近的关注集中在发现能够绕过 LLM 实施的安全协议的对抗性攻击。这些研究中的大部分需要大量人工干预,并且特定于特定模型。在 2023 年,研究人员发现了一种能够跨各种 LLM 运行的通用攻击。这种攻击诱导对齐模型生成令人反感的内容该方

并且,World Labs 现在也在招人,总共开放应用 AI 研究工程师、业务运营、数据工程师、模型优化工程师、产品设计师等 8 类岗位。

感兴趣可以去看看:https://jobs.ashbyhq.com/worldlabs


据官方消息,World Labs已经完成超过2.3亿美元的融资,投资方包括硅谷风投a16z、NEA和Radical Ventures等。这一轮融资不仅体现了投资界对李飞飞及其团队的认可,也意味着空间智能领域的巨大潜力。

https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024.pdf

玩酷推荐
介绍好玩且酷的产品!包括数字游戏、生成式AI、人工智能、智能终端设备等
 最新文章