田渊栋：2024年年终总结

科技 2025-01-02 11:48 北京

新智元报道

【新智元导读】2024年已经结束，2025年对于AI又意味着什么？田渊栋最新长文中对过去一年做了全面的总结。

一转眼2024年又接近尾声了，该是写总结的时候了。

学术研究

这一年我们还是做了一些比较有趣的工作，主要围绕两个要点：其一是提高大语言模型（LLM）在一些困难推理和规划（reasoning & planning）问题上的能力，其二是如何提升LLM的训练与部署的效率，此外作为业余爱好，我继续做一些理论工作来理解网络学习的本质。

更好的LLM推理和规划。尽管大语言模型在许多任务上表现出色，但在应对复杂的推理规划问题时，相比传统符号搜索算法，仍然不尽如人意，像旅行规划问题（Travel Planning, ICML'24 Spotlight）就是一个例子。今年我们围绕这一难题展开了一系列研究。在年初的Searchformer中，我们将A*搜索的符号推理过程中的中间步骤（如搜索、展开下一步节点、从死路中回溯等）记录下来，并作为模型的思维链，针对一些传统规划问题进行训练。用十分之一参数和十分之一数据，我们的模型性能相当于直接预测答案的模型，在此基础上再用自身好的合成数据进行微调，优化其性能（相当于某种程度的蒸馏），结果发现推理链变得更短，而模型的性能却不断提升。现在回过头来看，这与广泛讨论的o1的思路有一定相似之处。

在SearchFormer的基础上，我们的Dualformer通过随机移除推理链中的部分token和步骤（有时甚至完全移除），来缩短模型的推理链条，同时优化其推理能力。有意思的地方是通过这种方式，DualFormer实现了快思考（fast thinking）与慢思考（slow thinking）的动态切换。面对简单问题时，模型能够快速得出答案，而在复杂问题上，它会自动切换到更深入的推理模式。

年末的Coconut利用了连续隐空间（Continuous Latent Space）来减少推理链的长度，从最初的离散思维链（CoT）开始，使用课程学习（curriculum training）的方法，我们逐步将其中的每一句话压缩成一个连续的隐空间表示。通过这种方式，推理链的长度大幅缩短。Coconut在一些需要搜索回溯，有大量岔路和陷阱的数据集上，效果比CoT要好——因为不带反思的CoT是贪心搜索的，会掉进死胡同，然后出现幻觉得到错误的答案；而连续隐空间推理链似乎会以广度优先方式同时搜索所有可能的下一步，从而得到正确的答案。我有种感觉，连续隐空间相当于量子力学希尔伯特空间里的叠加态，而将它离散化采样成一些token相当于通过观测，让叠加态塌缩到一个确定的答案，如果不离散化，在连续空间计算可能更有效率。关于这个方向，我们还会继续探索。

让LLM在推理和规划上变强的另一条路线是调用已有组合优化工具来解决困难的优化问题。像旅行规划（Travel Planning）可以通过先用LLM把自然语言的提问转化成符号表示，然后调用已有的一些符号求解工具，比如说混合整数规划（MILP），来直接得到最优解，再转回自然语言。整个过程保证最优解的质量并且输出接近实时。我们的一篇EMNLP Demo paper就是这么做的，之后针对多轮对话，还可以用Agent Constitution的方式进行优化，以让大模型能在最小的对话轮数内问到关键的问题，收集最优先的信息。

最后LLM本身也可以用来加速离散空间的组合搜索过程。一个例子是如何生成看起来像自然语言的对抗性提示词（Adversarial Promp）来攻破大模型的安全机制。这个问题并不容易，因为提示词是一个长的离散token序列，其搜索空间十分巨大，而且还要有各种复杂的自然语言约束。我们上半年的AdvPrompter通过微调一个LLM来生成对抗性提示词，使得目标模型输出危险句子的概率变大，这样兼顾语言的自然性和攻击的有效性，同时训练也较有效率。实验表明用开源模型生成的对抗性提示词，迁移到闭源模型同样有效。

提高LLM训练及部署的效率。上半年的GaLore（ICML'24 Oral）开发了一种能够减少内存消耗的预训练/微调的方法。与SGD或者Adam把梯度拉长成一个大向量再优化不同，GaLore把模型中的权重视为原本的矩阵，对其梯度进行低维投影，这样就大幅减少了优化过程中所需的计算资源。

梯度的大小变小了，其对应的优化器的状态（Optimizer State）也会变小，进而显著降低内存消耗。这样就不用要求权重本身是低秩的（事实上在预训练一开始时权重因为随机初始化肯定不是低秩的）。用这种做法可以把7B的模型预训练所需内存压缩到24G以内，一张RTX 4090卡可以放下，在20B token以内的训练效果也和全量梯度差不多，之后会有更大规模的结果。

在此基础上，我们联合一些学术实验室推出Q-GaLore（权重采用4比特存储，进一步减少内存消耗）和Tensor-GaLore（低维投影张量梯度，应用于解PDE方程）等后续工作。自发布以来，GaLore这篇工作还是有一定影响力。

另外我们也有一些模型部署的工作。MobileLLM发现一些直接训练端侧小模型（350M-1B）的有趣技术，SpinQuant优化权重旋转矩阵以减少outlier对于量化模型的影响，在LLaMA 3.2 1B/3B的模型上有应用（见Meta的官方博客）。最近，我们与CMU合作的MagicPIG揭示了Top-K注意力机制的一些本质问题，在模型部署时将KV cache放入CPU内存，并且通过Local Sensitive Hashing （LSH）来提高KV cache载入速度。

从下半年开始，我在Meta AI（FAIR）负责领导一个专注于规划和推理方向的团队。团队规模约为10人，致力于提升模型推理和规划的能力。今年开了个还不错的头，希望明年能做出有更多有意思的东西来。下一年还是希望更加hands-on，对想要实现的目标集中精力去进行深度思考。

小说《破晓之钟》出版

今年我的小说《破晓之钟》终于出版了，也算是第一次破圈的尝试。豆瓣和微信读书上的评分都还不错，也收到很多鼓励的评价。实体书的销量也可以，出版社说打算再印一些。这一切都已经超出我的预期了。

小说是2020-2021年写的，当时还没有能用的大模型，每个字都是自己敲出来的。接下来的第二部应该会用AI尝试一下辅助写作。目前就算是最好的大模型（如GPT 4o、Claude 3.5 Sonnet和Gemini 2）写出来的东西也是不能用的，需要经过大量的修改，但已经比一年前好太多，特别是Claude 3.5能自动把一些角色联系起来制造有意义的互动，新出的Gemini 2也能主动制造一些情节转折了，当然这些都仅限于千字以内，再长就回到了经典的「迎接任何挑战」，「前途一定光明」，「幸福生活在一起」等等的无聊套路上。期待之后的一些工作流的组合会带来惊喜。

对未来的一些疯狂的想法

马上要2025年了，大模型变得越来越好用，能力也越来越强，它将不再仅仅是劲爆新闻，而会大量渗透进我们每天的生活。举个实际例子，最近我用大模型开发了一个简单的会议管理工具，它会快速生成网页，用户可以在页面上选择时间段并直接安排会议，我在手机上批准后，会自动给双方发会议提醒，并将这个时间段标记为占用。整个开发过程仅花了两个多小时，而以前如果要实现类似功能，可能需要大量时间研究工具文档或API。现在借助大模型，开发变得极为高效。这个工具是我在参加NeurIPS会议前一天临时起意写的，在开会期间发挥了很大作用，尽管还有些bug，但有效减少了额外的沟通协调。

另一个例子是我手机上的一个每天给我推荐arXiv文章的Bot，也是代码写了几个小时就上线，自己点按钮选择喜不喜欢这篇文章，让Bot自己训练模型满足推荐偏好。有了这个Bot之后，相关论文就能第一时间发现，并且能充分利用碎片时间，相当方便。其它的还有ToDoBot等等，不停提醒每天要做的事情，减少无所事事刷手机的时间。

未来的竞争力，将越来越依赖于个人对大模型工具的使用能力，将工具与自身需求相结合，形成高度私人化个性化的工作流程。像这篇博客就是用Whisper听写+大模型整理的，但省不了各种拷贝粘贴操作。

我很期待明年在Agent起来后，做个人项目更加自动化便利化的可能性。以后从「需求」到「实现」的链条会越缩越短，对效率的不懈追求会减少中间的冗余节点，最后的形态可能会出乎所有人的预料。在写代码变成不停写注释按Tab的今天，可能更重要的是想像力，清楚的战略规划，还有立即行动的执行力。有了这些之后，在各类AI满地都是，便宜得如水和空气一样的未来，「言出法随」或者「所思即所得」就不再是科幻小说里描绘的未来，而是活生生的现实了。

什么时候真正会有AGI

与大家通常的定义不同，AGI在我心中的定位是「AI是否达到人类学习的效率」，人可以通过很少一些样本去学习，并且能深入理解问题的本质，并产生深刻的见解。

但目前的大模型还做不到，需要极大量的数据样本，这些样本让人去看，一百辈子都不够。即便如此，吐出来的文字和分析都浮于表面，处于「外行看起来很高深，但内行看起来很傻逼」的状态。

要做到这一点，我还是觉得AI最终要系统化理论化。这方面的工作并不是公司的核心任务，但我个人认为非常重要。等到scaling laws所需的资源超过能提供的极限，或者进步停滞，那理解模型其内在学习机制的重要性会变得更加突出。

这将是从「炼金术」到「化学」的转变，也是研究者的巨大机遇。今年的这篇CoGO（见田渊栋：求道之人，不问寒暑（十））让我有幸窥见神经表示和符号表示的有趣联系：由梯度下降获得的两层神经网络的解，和代数结构有着深刻的关联。当然这个只存在于比较特殊的情况下，在更加一般化的情况下，两者如何对应，会是一个很有意思的研究课题。

参考资料：

https://zhuanlan.zhihu.com/p/15135181332

注：本文得到了作者本人授权转载，若二次转载需联系原作者。

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

奥特曼惊呼奇点临近！95%人类饭碗将被AI抢走，2028年百万AI上岗

「停止雇佣人类」广告牌爆火，OpenAI放惊人言论：每月2000刀，AI淘汰人类！

首个由o1 pro指导诈骗案开庭！原告九成资产被骗，利用AI绝地反击

OpenAI最大秘密，竟被中国研究者破解？复旦等惊人揭秘o1路线图

CMU等曝光GitHub「地下产业链」！450万个Star都是刷的

陶哲轩自述被拒稿是常事，「大牛名字」不是通行证！

招人！新智元邀你勇闯ASI之巅

2025智能世界50震撼预测！AI海啸来袭，5维度看清AGI与潜在可能

DeepMind天才科学家疑抑郁自杀！41岁SuperGLUE之父英年早逝，AI圈悲痛不已

斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手

复旦等提出「中国版GPT-Zero」！毕业论文AI率自查神器｜AAAI 2025

动物版谷歌翻译来了？Nature：用AI解码野性的呼唤！

招人！新智元邀你勇闯ASI之巅

史上最激烈H-1B骂战引爆美国！马斯克开炮：进口劳动力断供，美国科技要崩

微软论文意外「走光」，OpenAI参数全泄密！GPT-4o仅200B，o1 300B

比人类神经元快10亿倍！港中文、中科院「超级大脑」：1秒识图3479万张

大规模3D场景2分钟生成，效率提升30倍！中科院发布空间智能新框架 | AAAI 2025

田渊栋：2024年年终总结

招人！新智元邀你勇闯ASI之巅

奇点临近！美国47%工作岗位将被ASI卷走，大佬急发「逃生攻略」

o3拿下25%高分震惊数学教授，2025 IMO金牌或被AI收入囊中！

OpenAI o1「作弊」修改系统，强行击败专业象棋AI！全程无需提示

招人！新智元邀你勇闯ASI之巅

Ilya布局末日倒计时？奥特曼与谷歌大佬揭秘2025年ASI降临时间表！

反手就是开源！英伟达豪掷7亿美元收购专攻GPU初创Run:ai

2024年AI编程有多强？谷歌工程主管揭秘残酷真相

招人！新智元邀你勇闯ASI之巅

惊人反转！OpenAI吹哨人死于谋杀？公寓被洗劫有打斗痕迹，马斯克发声

Hinton发2024末日预警：10年内人类灭绝！奥特曼预言18个月ASI降临

英伟达2025祭出「迷你大脑」，雷神「Thor」剑指千亿机器人市场！

9大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

2024年人工智能年终总结报告｜Artificial Analysis

招人！新智元邀你勇闯ASI之巅

谷歌劈柴立军令状：必斩OpenAI，夺回第一！

雷军千万年薪挖角95后天才少女，AI女神逆风翻盘！

o1 pro深评博士医学论文，震惊顶尖免疫学家！2分破解神秘作家身份

招人！新智元邀你勇闯ASI之巅

OpenAI大地震一分为二，全力冲刺AGI！一半向钱看，一半装理想

AI掌控编码人类狂按Tab，软件工程自主时代来临！OpenAI董事长Taylor重磅长文

OpenAI研究员首次提出「AGI时间」进化论！o1数学已达「分钟级AGI」

招人！新智元邀你勇闯ASI之巅

OpenAI微软「秘密协议」首次曝光：盈利超过1000亿美元就是AGI！

吹哨人之死：26岁OpenAI举报人离奇自杀，母亲心碎曝出惊人内幕！

英伟达年终大礼，最强AI GPU曝光！全新B300让o1/o3推理性能上天算力爆表

首篇「角色扮演AI」综述！复旦等提出大模型三层人格分类框架：群体、角色、个性化 | TMLR

招人！新智元邀你勇闯ASI之巅

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

15大机构十年研究证明：无约束AI必然超越人类，创造能力也更强！

英特尔至强6独享MRDIMM，内存带宽飙升，加速推理达2.4倍！

Anthropic联创：Scaling Law没崩，但推理成天价！有了TTT，25年AI更加速

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉