全文2,600 字,阅读约需6分钟
斯坦福大学教授李飞飞接受了 IEEE Spectrum 的独家采访。这位人工智能领域的传奇人物,因创建 ImageNet 数据集和竞赛而闻名于世。通过这一开创性工作,她为深度学习的蓬勃发展奠定了坚实基础。
ImageNet 竞赛要求人工智能系统在 1,000 个类别中准确识别物体和动物。2012 年,神经网络模型 AlexNet 以显著优势胜出,在学界引发轩然大波,由此揭开了神经网络技术迅猛发展的序幕。这一突破得益于互联网海量免费训练数据的支持,以及 GPU 带来的强大计算能力。
在过去的 13 年里,计算机视觉不仅在物体识别方面取得重大突破,更将研究重心转向图像和视频生成等更具挑战性的领域。作为推动这一领域不断向前的中坚力量,李飞飞创立了斯坦福大学以人为中心的人工智能研究院(HAI)。而今年,她又开启了新的征程 - 创立 World Labs,致力于开发能让用户沉浸式探索的 3D 场景,期望赋予人工智能"空间智能",使其具备生成、推理和交互 3D 世界的能力。
采访文稿
问题一: 您为什么把演讲命名为“登上视觉智能的阶梯”?
李飞飞: 我觉得智能的发展有不同的复杂性和精细化层次,这一点是显而易见的。在演讲中,我想让大家感受到,尤其是在过去十多年深度学习革命的推动下,视觉智能领域取得的进步令人叹为观止。我们的技术能力正在不断突破。此外,我还受到Judea Pearl在《为什么》一书中提出的“因果关系阶梯”的启发。这次演讲还有一个副标题——“从‘看’到‘做’”。我觉得,人们往往忽视了“看”与互动和行动之间的紧密联系,这不仅适用于动物,也同样适用于人工智能体。而这与语言有所不同。语言更多是一种用来表达想法的交流工具。在我看来,视觉和语言是两种相辅相成、同样深刻的智能形式。
问题二: 您是说我们会本能地对一些视觉信息作出反应吗?李飞飞: 我并不仅仅是指本能。如果我们回顾感知能力的进化史以及动物智能的发展过程,就会发现两者紧密相连。每当我们能够从环境中获取更多的信息时,进化的驱动力就会推动能力和智能不断提升。如果一个生物无法感知环境,它与世界的关系会非常被动;无论是进食还是被捕食,都是一种被动的行为。但当生物能够通过感知从环境中获取信息时,进化压力就会加剧,而这正是推动智能发展的关键力量。
问题三: 您认为,通过让机器感知更多环境,我们是在推动机器智能向更高层次发展吗?
李飞飞: 我不确定“更深层次”是否是最恰当的形容词。我认为我们是在赋予机器更多能力,让它们变得更复杂、更强大。我坚信,攻克空间智能问题是迈向全面智能的基础性和关键性一步。
问题四: 我看过 World Labs 的演示。为什么您会选择研究空间智能并开发这些 3D 世界?
李飞飞: 我认为,空间智能是视觉智能的未来方向。如果我们真心想解决视觉问题,并将其与行动相结合,就必须面对一个显而易见的事实:我们生活的世界是 3D 的,而不是平面的。无论是机器人还是其他设备,这些物理代理都将生活在 3D 世界中。即使是虚拟世界,也正在越来越向 3D 发展。艺术家、游戏开发者、设计师、建筑师和医生等领域的人士,即便是在虚拟环境中工作,他们的很多内容也是基于 3D 的。如果我们稍微停下来思考这一简单却深刻的事实,就会发现解决 3D 智能问题的重要性不容置疑。
问题五: 我很好奇,World Labs 是如何在场景中实现物体恒常性和物理定律的。这似乎是一个令人振奋的进展,因为像 Sora 这样的生成视频工具在这方面仍然存在明显的不足。
李飞飞: 当你承认世界是 3D 的,很多事情就会变得顺理成章。例如,我们在社交媒体上发布的一个视频中展示了篮球被投入场景的效果。因为这是一个 3D 场景,它能表现出真实的物理行为。如果场景仅仅是由 2D 像素生成的,篮球根本无法移动。
问题六: 或者像 Sora 那样,篮球可能会移动一下,但随后消失。您在推动这项技术时,面临的最大挑战是什么?
李飞飞: 到目前为止,没人真正解决过这个问题,这确实非常困难。比如在 [World Labs 的演示视频中],
我们用一幅梵高的画作生成了一个完整的场景,而且风格完全一致:艺术风格、光线效果,甚至周边环境中可能存在的建筑类型。如果你转身却看到摩天大楼,这就完全不符合逻辑,对吧?更重要的是,这必须是一个 3D 场景,用户需要能够进入并探索其中。所以这远远超出了简单的像素生成。
问题七: 您能透露一些训练数据的情况吗?李飞飞: 数据量非常大。
问题八: 如果人工智能系统能够真正理解 3D 世界,这将为我们带来哪些改变?李飞飞: 这会极大地激发人类的创造力和生产力。我一直希望能用更高效的方式来设计我的房子。同时,医学领域也需要理解 3D 世界,比如人体结构的复杂性。我们常说未来的机器人会帮助人类,而机器人需要在 3D 世界中行动,空间智能是它们大脑中不可或缺的一部分。此外,我们还谈到虚拟世界,这些技术能让人们“身临其境”地参观、学习或者娱乐,尤其是结合 AR(增强现实)技术。我非常希望有一天能戴着智能眼镜,走在国家公园中,实时获取有关树木、小径、云朵的信息。我还希望通过空间智能学习各种新技能。
问题九: 比如哪些技能呢?
李飞飞: 举个简单的例子,如果我的车在高速公路上爆胎了,现在我会打开一个教学视频来学习如何换轮胎。但如果我可以戴上一副眼镜,直接查看车况并获得操作指导,那就太棒了。当然,这只是一个简单的例子。你还可以想象做饭、雕塑等充满趣味性的事情。
问题十: 您认为我们在有生之年能够在这方面取得多大突破?
李飞飞: 我相信这些会在我们有生之年实现,因为技术进步的速度实在太快了。看看过去十年的成就,就可以预见未来的可能性。
我们团队专注企业AI解决方案
联系负责人:Milo-1101(仅限企业客户)
原视频链接:https://spectrum.ieee.org/fei-fei-li-world-labs
素材来源官方媒体/网络新闻