专访李飞飞：从2D到3D，AI将为我们带来哪些改变？

科技 2024-12-15 00:01 北京

全文2,600 字，阅读约需6分钟

斯坦福大学教授李飞飞接受了 IEEE Spectrum 的独家采访。这位人工智能领域的传奇人物，因创建 ImageNet 数据集和竞赛而闻名于世。通过这一开创性工作，她为深度学习的蓬勃发展奠定了坚实基础。

ImageNet 竞赛要求人工智能系统在 1,000 个类别中准确识别物体和动物。2012 年，神经网络模型 AlexNet 以显著优势胜出，在学界引发轩然大波，由此揭开了神经网络技术迅猛发展的序幕。这一突破得益于互联网海量免费训练数据的支持，以及 GPU 带来的强大计算能力。

在过去的 13 年里，计算机视觉不仅在物体识别方面取得重大突破，更将研究重心转向图像和视频生成等更具挑战性的领域。作为推动这一领域不断向前的中坚力量，李飞飞创立了斯坦福大学以人为中心的人工智能研究院(HAI)。而今年，她又开启了新的征程 - 创立 World Labs，致力于开发能让用户沉浸式探索的 3D 场景，期望赋予人工智能"空间智能"，使其具备生成、推理和交互 3D 世界的能力。

采访文稿

问题一： 您为什么把演讲命名为“登上视觉智能的阶梯”？

李飞飞： 我觉得智能的发展有不同的复杂性和精细化层次，这一点是显而易见的。在演讲中，我想让大家感受到，尤其是在过去十多年深度学习革命的推动下，视觉智能领域取得的进步令人叹为观止。我们的技术能力正在不断突破。此外，我还受到Judea Pearl在《为什么》一书中提出的“因果关系阶梯”的启发。这次演讲还有一个副标题——“从‘看’到‘做’”。我觉得，人们往往忽视了“看”与互动和行动之间的紧密联系，这不仅适用于动物，也同样适用于人工智能体。而这与语言有所不同。语言更多是一种用来表达想法的交流工具。在我看来，视觉和语言是两种相辅相成、同样深刻的智能形式。

问题二： 您是说我们会本能地对一些视觉信息作出反应吗？李飞飞： 我并不仅仅是指本能。如果我们回顾感知能力的进化史以及动物智能的发展过程，就会发现两者紧密相连。每当我们能够从环境中获取更多的信息时，进化的驱动力就会推动能力和智能不断提升。如果一个生物无法感知环境，它与世界的关系会非常被动；无论是进食还是被捕食，都是一种被动的行为。但当生物能够通过感知从环境中获取信息时，进化压力就会加剧，而这正是推动智能发展的关键力量。

问题三： 您认为，通过让机器感知更多环境，我们是在推动机器智能向更高层次发展吗？

李飞飞： 我不确定“更深层次”是否是最恰当的形容词。我认为我们是在赋予机器更多能力，让它们变得更复杂、更强大。我坚信，攻克空间智能问题是迈向全面智能的基础性和关键性一步。

问题四： 我看过 World Labs 的演示。为什么您会选择研究空间智能并开发这些 3D 世界？

李飞飞： 我认为，空间智能是视觉智能的未来方向。如果我们真心想解决视觉问题，并将其与行动相结合，就必须面对一个显而易见的事实：我们生活的世界是 3D 的，而不是平面的。无论是机器人还是其他设备，这些物理代理都将生活在 3D 世界中。即使是虚拟世界，也正在越来越向 3D 发展。艺术家、游戏开发者、设计师、建筑师和医生等领域的人士，即便是在虚拟环境中工作，他们的很多内容也是基于 3D 的。如果我们稍微停下来思考这一简单却深刻的事实，就会发现解决 3D 智能问题的重要性不容置疑。

问题五： 我很好奇，World Labs 是如何在场景中实现物体恒常性和物理定律的。这似乎是一个令人振奋的进展，因为像 Sora 这样的生成视频工具在这方面仍然存在明显的不足。

李飞飞： 当你承认世界是 3D 的，很多事情就会变得顺理成章。例如，我们在社交媒体上发布的一个视频中展示了篮球被投入场景的效果。因为这是一个 3D 场景，它能表现出真实的物理行为。如果场景仅仅是由 2D 像素生成的，篮球根本无法移动。

问题六： 或者像 Sora 那样，篮球可能会移动一下，但随后消失。您在推动这项技术时，面临的最大挑战是什么？

李飞飞： 到目前为止，没人真正解决过这个问题，这确实非常困难。比如在 [World Labs 的演示视频中]，

我们用一幅梵高的画作生成了一个完整的场景，而且风格完全一致：艺术风格、光线效果，甚至周边环境中可能存在的建筑类型。如果你转身却看到摩天大楼，这就完全不符合逻辑，对吧？更重要的是，这必须是一个 3D 场景，用户需要能够进入并探索其中。所以这远远超出了简单的像素生成。

问题七： 您能透露一些训练数据的情况吗？李飞飞： 数据量非常大。

问题八： 如果人工智能系统能够真正理解 3D 世界，这将为我们带来哪些改变？李飞飞： 这会极大地激发人类的创造力和生产力。我一直希望能用更高效的方式来设计我的房子。同时，医学领域也需要理解 3D 世界，比如人体结构的复杂性。我们常说未来的机器人会帮助人类，而机器人需要在 3D 世界中行动，空间智能是它们大脑中不可或缺的一部分。此外，我们还谈到虚拟世界，这些技术能让人们“身临其境”地参观、学习或者娱乐，尤其是结合 AR（增强现实）技术。我非常希望有一天能戴着智能眼镜，走在国家公园中，实时获取有关树木、小径、云朵的信息。我还希望通过空间智能学习各种新技能。

问题九： 比如哪些技能呢？

李飞飞： 举个简单的例子，如果我的车在高速公路上爆胎了，现在我会打开一个教学视频来学习如何换轮胎。但如果我可以戴上一副眼镜，直接查看车况并获得操作指导，那就太棒了。当然，这只是一个简单的例子。你还可以想象做饭、雕塑等充满趣味性的事情。

问题十： 您认为我们在有生之年能够在这方面取得多大突破？

李飞飞： 我相信这些会在我们有生之年实现，因为技术进步的速度实在太快了。看看过去十年的成就，就可以预见未来的可能性。

我们团队专注企业AI解决方案

联系负责人：Milo-1101（仅限企业客户）

原视频链接：https://spectrum.ieee.org/fei-fei-li-world-labs

素材来源官方媒体/网络新闻

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

40岁副教授跳槽去大厂，试用期没过被辞退, 原单位回不去, 哭得稀里哗啦……

[送5本]《机器学习漫画小抄》万人追读，未出版就爆火，这本机器学习漫画小抄终于出版了！

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

今天Qwen2.5技术报告发布啦！

大厂跳槽到Start up！分享我的心路历程

震撼高层，中国工程院院士孙凝晖给正国级、副国级讲课-《人工智能与智能计算的发展》

炸裂发布！《大语言模型：导论》重磅发布！（附PDF）

Anthropic：Agents 2024年度总结！

解析大模型常用微调方法：P-Tuning、Prefix Tuning、Adapter、LoRA

[vLLM vs TensorRT-LLM]：采样方法对两者性能的影响

10W+下载，2025最新中文版《大模型基础》教程pdf免费分享

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

DPO vs PPO：深度解读谁是LLM Alignment的未来

零容忍！一博士被撤销学位，证书作废

必看！大模型训练圣经《从头训练大模型》免费PDF分享

YYDS！哈工大博士的PyTorch笔记火了！！

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

谷歌首席科学家 Jeff Dean演讲：人类设计芯片需要18个月，AI只用了1秒钟

微软开源MarkitDown，RAG文档解析就这么解决了~

吴恩达最新演讲：企业都在技术栈底层较劲，应用层才是价值洼地

最值得读的LLM书！下载量10w+！《基于Transformer和扩散模型的生成式AI》pdf免费分享

所有大模型领域学习者必读论文，没有之一！由深度学习三巨头联合撰写！

校招字节终于开奖，大模型50K*16 ！！

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

一文看懂：四种多Agent范式哪种最好

OCR多模态大模型：视觉模型与LLM的结合之路

DL4大名著，谷歌科学家Kaggle大神编写《Python深度学习》最新中文版分享

AAAI 2025论文中了：没算法没实验，全靠idea思路好...

2024年大模型后训练(post-training)总结

大模型Infra王朝2024

Qwen预训练并未终结~

终于弄懂了《Transformer入门到精通》高清pdf分享

我国退步最快的985大学？曾位列全国前十，如今排名连年下降...

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉