Ilya 「Scaling What」的答案会是程序性知识吗?
科技
2024-12-01 12:25
北京
---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----1. Ilya 「Scaling What」的答案会是程序性知识吗?什么是程序性知识?程序性知识会是 Scaling Law 的新机会吗?LLM 通过程序性知识学会了什么策略?预训练数据中常有哪些程序性知识?程序性知识如何影响 LLM 推理?LLM 推理能力辩论还会持续吗?...2. 「瞄准」o1:国内大模型厂商的技术思路有何不同?过度推理成通病?R1-Lite、K0-Math...国内纷纷推出的类 o1 推理模型,谁更强?各家做推理模型的技术思路有何异同?在训练、推理不同阶段,主要有哪些技术方案?国内开源模型分别在哪些维度,打过 o1 模型了?为何推理模型们普遍存在「过度推理」的问题?...3. 吴恩达主题演讲:AI 作为通用目的技术正在重塑各个领域吴恩达在演讲中都聊了什么?生成式 AI 的进步为应用层带来了哪些新机会?吴恩达提出的 Agentic Flow 有什么新进展?吴恩达认为 AI 下一步会如何发展?......本期完整版通讯含 3 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递,其中技术方面 8 项,国内方面 9 项,国外方面 11 项。 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 要事解读① Ilya 「Scaling What」的答案会是程序性知识吗?
引言:LLM 在近几年的发展中不断取得突破,但关于模型是否具备「真的推理能力」的辩论一直没有盖棺定论。其中,相信「预测下个 token 就能实现真正的理解」,相信预训练能够让模型从数据中学习世界的抽象表征的 Ilya Sutskever 也在最近的访谈中表示「Scaling the right thing matters more now than ever。」在这一趋势下,有许多工作开始探究推理推理层的 Scaling Law。但 UCL 和 Cohere 的新作发现,影响模型推理能力的「thing」也可能是预训练中的程序性知识。「The Right Thing to Scale? 」 程序性知识是什么?1、对于「LLM 是否具备推理能力」的辩论中,有许多工作发现经过预训练的 LLM 在零试条件下展现出具备处理各类陌生任务的能力。① UCLA 的 Webb 等研究者在 2022 年 12 月的论文中发现,LLM 在零试条件下,具有通过类比推理解决新问题的能力,类似 GPT-3 和 GPT-4 的模型在抽象模式归纳方面表现出色,大多数情况下匹配甚至超过了人类的能力。[1]② Webb 等人的工作在发布后受到了质疑,称 LLM 在零试条件下对基于文本的类比问题展现的推理能力可能只是测试问题与模型训练数据中的材料相似,但 Webb 在后续的工作澄清了测试材料,并进一步提供了证明 LLM 的推理能力可以泛化到「反事实」任务中。[2]③ 对于 LLM 在算数方面的能力局限,McLeish 等人在 2024 年 5 月的论文则提出用特殊的嵌入方法(Abacus Embedding)就能改善,让模型完成简单的算数,并且这种方式有希望解锁对多步推理任务的改进。[3]2、在否定 LLM 具备真实推理能力的声音中,最为流行的假设认为 LLM 的「推理」过程实际是某种形式的近似检索,也有很多工作发现 LLM 处理语言形式的能力存在局限,或是无法处理微小的任务变化,能力不够稳健等。① 苹果团队在 2024 年 7 月的论文中通过 GSM-Symbolic 数据集验证了 LLM 的数学能力,分析发现 OpenAI 的 GPT-4 或开源的 Llama、Phi、等模型都没有展现出任何形式推理的证据,而是更像是复杂的模式匹配器。[4]② 哈佛的研究者 2023 年 2 月的论文发现,LLMs 在一些理论心智任务上表现出了一定的能力,但这些能力很脆弱的,在面对任务的微小变化时就会崩溃。这表明 LLMs 可能并没有真正理解理论心智,而是在依赖于对特定任务的模式识别和记忆。[5]③ MIT 和波士顿大学的研究者在 2024 年 6 月的论文中指出,尽管 LLMs 在某些任务上显示出了一定程度的泛化能力,但它们在面对与预训练数据中常见的任务不同的反事实任务时,性能会下降。3、在 LLM 推理能力的争论中,大多持反对意见的工作的共同发现是,LLM 推理依赖于训练数据中类似问题的频率。然而,也有工作发现 LLM 并不会一直照搬训练数据中的数学推理步骤,回答事实问题和推理问题的「思路」也不一样。4、Cohere 和 UCL 的在 2024 年 11 月的工作中发现了一个「折衷」的结论,即 LLM 其实能从训练数据的「程序性知识」里学到一种通用的推理方法,但不同语料确实会影响模型的推理能力。[7]① 「程序性知识」(procedural knowledge)是一种知识类型,它涉及执行特定任务或解决问题所需的步骤和方法。这种知识通常包括一系列的操作或规则,指导个体如何进行特定的活动或推理过程。② 程序性知识是关于「如何做」的知识。在 LLM 的语境下,程序性知识指的是模型从预训练数据中学习到的,用于执行推理任务的一系列逻辑步骤或计算过程。③ 在 LLM 预训练数据中,数学题的步骤或运算序列就是程序性知识的一部分。当处理一个数学问题时,模型不仅需要知道最终答案,还需要知道如何通过一系列数学运算来得到这个答案。5、该工作表明,对于事实问题,模型确实依赖于特定的文档来检索答案。然而,对于推理问题,答案通常不会出现在最具影响力的数据中。LLM 使用的推理方法看起来不同于检索,而更像是「从许多文档中综合程序性知识并进行类似的推理」的一种通用策略。[7]① 模型在面对一个新的推理问题时,会利用它从预训练数据中学到的类似任务的解决步骤来生成答案。② 上述行为与简单地从预训练数据中检索(retrieval)已知事实或答案不同,模型实际上是在应用一种更通用的策略,将从多种文档中提取的程序性知识综合起来,以解决新的推理问题。6、在所有的程序性知识中,UCL 和 Cohere 的研究者发现代码预料在所有的任务中均有作用。这一发现也带来了一个新的可能性,即「是否可能存在一种预训练数据(如代码)可以让 LLM 从中学习到多种任务?」[7]