李飞飞：World Labs这样实现「空间智能」

科技 2024-12-16 09:01 吉林

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 机器之心

编辑 | 泽南、陈陈

遵循世界的 3D 特性，很多事就会变得自然而然。

说到斯坦福大学教授李飞飞（Fei-Fei Li），她提倡的「空间智能」最近正在引领 AI 发展方向。

李飞飞已经在人工智能历史上赢得了一席之地，她多年来一直致力于创建 ImageNet 数据集和竞赛，在深度学习革命中发挥了重要作用。

2012 年，一个名为 AlexNet 的神经网络引爆了 AI 研究界，它的表现远远超过所有其他类型的模型，并赢得了当年的 ImageNet 竞赛。自那时起，神经网络开始腾飞，其动力来自互联网上可用的大量免费训练数据和提供空前计算能力的 GPU。

自 ImageNet 以来的 13 年里，计算机视觉研究者们掌握了物体识别，并转向图像和视频生成。李飞飞与他人共同创办了斯坦福大学以人为本人工智能研究所 (HAI)，并继续突破计算机视觉的界限。

就在今年，她创办了一家初创公司 World Labs，旨在生成用户可以探索的 3D 场景。World Labs 致力于为人工智能提供「空间智能」，即生成、推理和与三维世界互动的能力。

李飞飞昨天在人工智能顶会 NeurIPS 上发表了主题演讲，讲述了她对机器视觉的愿景。她表示，非常荣幸第一次在 NeurIPS 上演讲，50 分钟讲 180 页 PPT 是个很有趣的经历。

在演讲之前，李飞飞接受了 IEEE Spectrum 的独家采访，让我们看看她对空间智能有哪些新的见解：

Eliza Strickland：你为什么把你的演讲命名为「提升视觉智能的阶梯（Ascending the Ladder of Visual Intelligence）？」

李飞飞：智能具有不同层次的复杂性和精细度。在这次演讲中我想传达的是，在过去几十年，尤其是深度学习发生变革的十多年里，我们在视觉智能方面学会做的事情简直令人叹为观止。我们正在变得越来越擅长使用这项技术。同时，我也受到了 Judea Pearl 因果阶梯理论的启发，这一理论出自他 2020 年出版的书《The Book of Why》。

演讲还有一个副标题，即「从看到做到（From Seeing to Doing）」。这是人们没有足够重视的一点：从看到与交互和做事紧密相关，无论是对于动物还是对于 AI 智能体来说都是如此。这与语言背道而驰。语言从根本上来说是一种用来传达思想的交流工具。在我看来，它们是非常互补但同样深刻的智能模式。

Eliza Strickland：你的意思是我们对某些视觉刺激有本能的反应吗？

李飞飞：我不仅仅是在谈论本能。如果你观察感知的演变和动物智能的演变，你会发现它们是深深交织在一起的。每当我们能够从环境中获取更多信息时，进化的力量就会推动事物能力和智能向前发展。如果你不能感知环境，你与世界的关系就非常被动；无论你是捕食者还是被捕食者，都是一个非常被动的行为。

但是一旦你能够通过感知从环境中获取线索，进化的压迫感就会增加，这推动了智能的发展。

Eliza Strickland：你认为这就是我们创造越来越深层次的机器智能的方式吗？通过让机器更多地感知环境？

李飞飞：我不确定「深度」这个词是不是我该用的形容词。我认为我们正在创造更多的能力。我认为它将变得更加复杂，更有能力。解决空间智能问题确实是朝着全面智能（full-scale intelligence）迈出的一个基本且关键的步骤，这是绝对正确的。

Eliza Strickland：我看到过 World Labs 的演示。你为什么想研究空间智能并构建这些 3D 世界。

李飞飞：我认为空间智能是视觉智能的发展方向。如果我们真的想要解决视觉问题，并且将其与行动联系起来，有一个非常简单、显而易见的事实：世界是三维的。我们不是生活在一个平面世界中。我们的物理智能体，无论是机器人还是设备，都将生活在三维世界中。即使是虚拟世界也越来越变得三维化。

如果你和艺术家、游戏开发者、设计师、建筑师、医生交谈，即使他们在虚拟世界中工作，很多内容也是三维的。如果你花一点时间认识到这个简单但深刻的事实，毫无疑问，解决 3D 智能的问题是根本性的。

Eliza Strickland：我很好奇 World Labs 中的场景是如何保持物体永久性并遵守物理定律的。这感觉像是一个令人兴奋的进步，因为像 Sora 这样的视频生成工具仍然在处理这些事情。

李飞飞：一旦你遵循世界的 3D 特性，很多事情就会变得自然而然。例如，在我们发布的一段视频中，有一个关于篮球的视频。由于场景是 3D 的，篮球会根据重力或其他物理规则正确落地并与环境交互。如果场景只是由 2D 像素生成的，篮球不会有任何物理反应，无法表现出落地或运动的效果。

Eliza Strickland：就像 Sora，球可能会去某个地方，然后消失。在推动这项技术发展的过程中，你面临的最大技术挑战是什么？

李飞飞：没有人解决了这个问题，对吧？这非常非常困难。在一个 demo 中，我们取了一幅梵高的画作，并围绕它生成了整个场景，风格一致：艺术风格、光线，甚至是那个街区会有什么样的建筑。如果你转过身来看到的是摩天大楼，那将完全不可信，对吧？而且它必须是三维的。你必须能够进入其中。所以它不仅仅是像素。

Eliza Strickland：你能说说你用来训练它的数据吗？

李飞飞：非常多。

Eliza Strickland：在算力方面是否存在很多挑战？

李飞飞：这需要大量的算力。是公共部门无法承担的那种计算能力。这也是我需要通过休学术假，以私营部门的方式来做这件事的部分原因。同时，这也是我一直倡导公共部门获得计算资源访问权的部分原因，我自己的经历强调了在足够资源支持下进行创新的重要性。

Eliza Strickland：赋予公共部门权力是一件好事，因为公共部门通常更愿意通过获取知识，为人类谋福利。

李飞飞：知识发现需要资源支持，对吧？在伽利略时代，最好的望远镜是让天文学家观察新天体的望远镜。Hooke 意识到放大镜可以变成显微镜，并发现了细胞。

每当有新的技术工具出现时，它都会帮助人们寻求知识。现在，在人工智能时代，技术工具涉及计算和数据。对于公共部门，我们必须认识到这一点。

Eliza Strickland：你希望联邦政府提供哪些资源？

李飞飞：过去五年来，斯坦福大学 HAI 一直在做这项工作。我们一直在与国会、参议院、白宫、行业和其他大学合作，创建国家人工智能研究资源中心 (NAIRR)。

Eliza Strickland：假设我们能让人工智能系统真正理解 3D 世界，这会给我们带来什么？

李飞飞：它将为人们释放大量创造力和生产力。我希望以更高效的方式设计我的房子。我知道许多医疗用途都涉及理解一个非常特殊的 3D 世界，即人体。我们总是谈论未来人类将创造机器人来帮助我们，但机器人在 3D 世界中导航，它们需要空间智能作为大脑的一部分。

我们还谈论虚拟世界，它将允许人们参观很多地方、学习概念或娱乐。这些都要使用 3D 技术，尤其是混合现实技术，我们称之为 AR [增强现实]。我很想戴着一副眼镜穿过国家公园，它能让我了解树木、道路、云朵的信息。我也想借助空间智能学习不同的技能。

Eliza Strickland：会是什么样的技能？

李飞飞：我举个蹩脚的例子，如果我在高速公路上爆胎了，我该怎么办？现在，我打开一个「如何换轮胎」的视频。但如果我能戴上眼镜，看看我的车发生了什么，然后得到指导，那就太酷了。但这是一个蹩脚的例子。你可以考虑烹饪，你可以考虑雕刻 —— 有趣的事情。

Eliza Strickland：你认为（这个方向）在我们这一代能走多远？

李飞飞：我认为这会是我们有生之年的事，因为技术进步的速度非常快。你已经看到了过去 10 年带来的变化。这肯定预示着接下来会发生什么。

参考内容：

https://spectrum.ieee.org/fei-fei-li-world-labs

https://x.com/drfeifei/status/1867286498086990325

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

机器学习算法与自然语言处理

关注AI前沿技术，助力AI学者进步

最新文章

人大教授张鸣：退休之际，讲点废话（这也太敢言了）

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

近期必看的多模态大模型进展：从Qwen2-VL到Pixtral

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

《一书解决几乎所有机器学习问题》.PDF下载

16种新型RAG最新进展

李飞飞：World Labs这样实现「空间智能」

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

OpenAI发布49页长文，讲述o1的安全机制

谷歌Willow量子芯片逆天出世！5分钟颠覆10亿亿亿计算极限，马斯克奥特曼惊叹

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora开服被挤爆！支持中文/编剧模式/作品分享，145块就能玩

今日最佳 AI 论文：简单蒸馏训练，就能超越 o1-preview？

5分钟完成最强超算10^25年工作，谷歌量子芯片重大突破，马斯克、奥特曼齐祝贺

困扰数学家近60年的搬沙发难题疑似被解决！119页论文证明最优解，百万网友围观

英伟达提出全新Star Attention，10倍加速LLM推理！登顶Hugging Face论文榜

LLM不会CoT隐性推理，只会显性推理！

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

LeCun团队新作：在世界模型中导航

刚刚，2025 IEEE Fellow名单出炉：戴琼海、姜大昕、尹首一、翟广涛、褚晓文等人入选

复旦大学，上海创智院等多家单位联合发布大模型社交智能体综述

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

o1满血版最鲜测！这¥1500花得值吗？

从答案到问题：一种新的学习目标让LLM更擅长推理

满血版o1深夜震撼上线，奥特曼怼脸演示超强推理！终极Pro版每月1450元

GAN作者追忆往事：论文是DDL前一周开始写的，最初在NeurIPS大会无人问津

刚刚，谷歌ViT核心骨干集体投奔OpenAI：他们为Sora打下基础

1-bit大模型还能再突破！新一代BitNet架构启用4位激活值

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

ICLR'25 惊现[10,10,10,10]满分论文，ControlNet 一作张吕敏新作，Github 5.8k 颗星

Text-to-SQL新SOTA！华科团队提出双向模式链接新方法RSL-SQL

纽约大学十四年精华《机器学习基础》第二版免费下载

北京理工AI教育服务上线！DirectionAI：大模型驱动的个性化教学方式

图结构转文本序列，大模型直接读懂！图推理性能大涨

翁荔离职OpenAI后第一个动作：万字长文探讨RLHF的漏洞，网友们抢着传看

DeepMind用语言游戏让大模型学AlphaGo自我博弈，数据限制不存在了

图结构转文本序列，大模型直接读懂！图推理性能大涨

马斯克全力阻止OpenAI转盈利！已向法院申请禁令，奥特曼：我和爱人休假盖树屋

Token化一切！北大、谷歌等提出TokenFormer，Transformer从未这么灵活过

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

陶哲轩新论文“太反直觉”：再战Erdős问题，证明44年数学猜想是错的

自我反思助力VLM推理！南大清华提出VLM自训练框架，支持Inference Scaling

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉