Ilya 「Scaling What」的答案会是程序性知识吗？

科技 2024-12-01 12:25 北京

机器之心PRO · 会员通讯 Week 48

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. Ilya 「Scaling What」的答案会是程序性知识吗？

什么是程序性知识？程序性知识会是 Scaling Law 的新机会吗？LLM 通过程序性知识学会了什么策略？预训练数据中常有哪些程序性知识？程序性知识如何影响 LLM 推理？LLM 推理能力辩论还会持续吗？...

2. 「瞄准」o1：国内大模型厂商的技术思路有何不同？过度推理成通病？

R1-Lite、K0-Math...国内纷纷推出的类 o1 推理模型，谁更强？各家做推理模型的技术思路有何异同？在训练、推理不同阶段，主要有哪些技术方案？国内开源模型分别在哪些维度，打过 o1 模型了？为何推理模型们普遍存在「过度推理」的问题？...

3. 吴恩达主题演讲：AI 作为通用目的技术正在重塑各个领域

吴恩达在演讲中都聊了什么？生成式 AI 的进步为应用层带来了哪些新机会？吴恩达提出的 Agentic Flow 有什么新进展？吴恩达认为 AI 下一步会如何发展？...

...本期完整版通讯含 3 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递，其中技术方面 8 项，国内方面 9 项，国外方面 11 项。

本期通讯总计 23188 字，可免费试读至 9%

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① Ilya 「Scaling What」的答案会是程序性知识吗？

引言：LLM 在近几年的发展中不断取得突破，但关于模型是否具备「真的推理能力」的辩论一直没有盖棺定论。其中，相信「预测下个 token 就能实现真正的理解」，相信预训练能够让模型从数据中学习世界的抽象表征的 Ilya Sutskever 也在最近的访谈中表示「Scaling the right thing matters more now than ever。」在这一趋势下，有许多工作开始探究推理推理层的 Scaling Law。但 UCL 和 Cohere 的新作发现，影响模型推理能力的「thing」也可能是预训练中的程序性知识。

「The Right Thing to Scale? 」程序性知识是什么？

1、对于「LLM 是否具备推理能力」的辩论中，有许多工作发现经过预训练的 LLM 在零试条件下展现出具备处理各类陌生任务的能力。

① UCLA 的 Webb 等研究者在 2022 年 12 月的论文中发现，LLM 在零试条件下，具有通过类比推理解决新问题的能力，类似 GPT-3 和 GPT-4 的模型在抽象模式归纳方面表现出色，大多数情况下匹配甚至超过了人类的能力。[1]

② Webb 等人的工作在发布后受到了质疑，称 LLM 在零试条件下对基于文本的类比问题展现的推理能力可能只是测试问题与模型训练数据中的材料相似，但 Webb 在后续的工作澄清了测试材料，并进一步提供了证明 LLM 的推理能力可以泛化到「反事实」任务中。[2]

③ 对于 LLM 在算数方面的能力局限，McLeish 等人在 2024 年 5 月的论文则提出用特殊的嵌入方法（Abacus Embedding）就能改善，让模型完成简单的算数，并且这种方式有希望解锁对多步推理任务的改进。[3]

2、在否定 LLM 具备真实推理能力的声音中，最为流行的假设认为 LLM 的「推理」过程实际是某种形式的近似检索，也有很多工作发现 LLM 处理语言形式的能力存在局限，或是无法处理微小的任务变化，能力不够稳健等。

① 苹果团队在 2024 年 7 月的论文中通过 GSM-Symbolic 数据集验证了 LLM 的数学能力，分析发现 OpenAI 的 GPT-4 或开源的 Llama、Phi、等模型都没有展现出任何形式推理的证据，而是更像是复杂的模式匹配器。[4]

② 哈佛的研究者 2023 年 2 月的论文发现，LLMs 在一些理论心智任务上表现出了一定的能力，但这些能力很脆弱的，在面对任务的微小变化时就会崩溃。这表明 LLMs 可能并没有真正理解理论心智，而是在依赖于对特定任务的模式识别和记忆。[5]

③ MIT 和波士顿大学的研究者在 2024 年 6 月的论文中指出，尽管 LLMs 在某些任务上显示出了一定程度的泛化能力，但它们在面对与预训练数据中常见的任务不同的反事实任务时，性能会下降。

3、在 LLM 推理能力的争论中，大多持反对意见的工作的共同发现是，LLM 推理依赖于训练数据中类似问题的频率。然而，也有工作发现 LLM 并不会一直照搬训练数据中的数学推理步骤，回答事实问题和推理问题的「思路」也不一样。

4、Cohere 和 UCL 的在 2024 年 11 月的工作中发现了一个「折衷」的结论，即 LLM 其实能从训练数据的「程序性知识」里学到一种通用的推理方法，但不同语料确实会影响模型的推理能力。[7]

① 「程序性知识」（procedural knowledge）是一种知识类型，它涉及执行特定任务或解决问题所需的步骤和方法。这种知识通常包括一系列的操作或规则，指导个体如何进行特定的活动或推理过程。

② 程序性知识是关于「如何做」的知识。在 LLM 的语境下，程序性知识指的是模型从预训练数据中学习到的，用于执行推理任务的一系列逻辑步骤或计算过程。

③ 在 LLM 预训练数据中，数学题的步骤或运算序列就是程序性知识的一部分。当处理一个数学问题时，模型不仅需要知道最终答案，还需要知道如何通过一系列数学运算来得到这个答案。

5、该工作表明，对于事实问题，模型确实依赖于特定的文档来检索答案。然而，对于推理问题，答案通常不会出现在最具影响力的数据中。LLM 使用的推理方法看起来不同于检索，而更像是「从许多文档中综合程序性知识并进行类似的推理」的一种通用策略。[7]

① 模型在面对一个新的推理问题时，会利用它从预训练数据中学到的类似任务的解决步骤来生成答案。

② 上述行为与简单地从预训练数据中检索（retrieval）已知事实或答案不同，模型实际上是在应用一种更通用的策略，将从多种文档中提取的程序性知识综合起来，以解决新的推理问题。

6、在所有的程序性知识中，UCL 和 Cohere 的研究者发现代码预料在所有的任务中均有作用。这一发现也带来了一个新的可能性，即「是否可能存在一种预训练数据（如代码）可以让 LLM 从中学习到多种任务？」[7]

程序性知识是如何影响 LLM 进行推理的？[7]

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650945050&idx=3&sn=7ad2b2c107654196409b1861a626a7d8

机器之心

专业的人工智能媒体和产业服务平台

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

Ilya 「Scaling What」的答案会是程序性知识吗？

关于计算机视觉中的自回归模型，这篇综述一网打尽了

ChatGPT 发布后这两年，该关注什么？机器之心打包了24个主题350多篇高质量文章

三名高中生，为近百年的分形定理带来了新证明

陶哲轩：通义千问QwQ奥数真厉害，开源大模型顶流

GPT-5涌现能力可预测？UC伯克利仅使用当前模型检查点预测未来模型

多模态慢思考：分解原子步骤以解决复杂数学推理

「瞄准」o1：国内大模型厂商的技术思路有何不同？过度推理成通病？

AI现场发了2万红包，打开了大模型Act时代

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

斯坦福吴佳俊扩散自蒸馏来了！突破文生图身份保留挑战

算法系统协同优化，vivo与港中文推出BlueLM-V-3B，手机秒变多模态AI专家

上百万智能体在OASIS模拟平台上玩推特，AI玩社交媒体和真人有多像？

向量数据库的中场战事：长期主义者Zilliz如何全球突围

世界首次！智源研究院实现数字孪生心脏电功能超实时仿真

rebuttal真的有用！这篇ICLR论文，所有审稿人都加了2分，直接跃升排名第9

12%计算量就能媲美原模型，Adobe、罗切斯特大学等提出YOPO剪枝技术

LLM破局泛化诊断难题，MSSP刊登北航PHM实验室健康管理大模型交叉研究

刚刚，Ilya的Seq2Seq、Ian的GAN获NeurIPS时间检验奖

Scaling Law 撞墙？复旦团队大模型推理新思路：Two-Player架构打破自我反思瓶颈

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

遗憾不？原来百度2017年就研究过Scaling Law，连Anthropic CEO灵感都来自百度

HuggingFace工程师亲授：如何在Transformer中实现最好的位置编码

跨模态大升级！少量数据高效微调，LLM教会CLIP玩转复杂文本

Sora就这么泄露了三小时，网友调侃Altman急拔网线，艺术家们也在抗议被「白嫖」

创业一年半，胖了30斤，AI大佬感叹：还是回谷歌好

吴恩达出手，开源最新Python包，一个接口调用OpenAI等模型

陈天奇团队LLM结构化生成新引擎XGrammar：百倍加速、近零开销

「毕昇一号」DNA活字存储喷墨打印机来了，低成本、高效率、全自动的DNA存储

撞墙还是新起点？自回归模型在图像领域展现出Scaling潜力

和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

更新了！带Agent的Cursor太疯狂了

小学二年级数学水平，跟着这篇博客也能理解LLM运行原理

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模型了

智能体竟能自行组建通信网络，还能自创协议提升通信效率

AI版周扒皮！打字速度慢、鼠标超30秒未动，就被AI「警告」，Karpathy下场评论

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉