Datawhale干货
作者:Cameron R. Wolfe,编译:机器之心
Datawhale干货
作者:Cameron R. Wolfe,编译:机器之心
原文链接:https://cameronrwolfe.substack.com/p/llm-scaling-laws
「如果你有一个庞大的数据集并且训练了一个非常大的神经网络,那么成功是肯定的!」——Ilya Sutskever
「有了足够的训练数据,验证损失的 scaling 与模型大小的函数关系应该大致上是平滑幂律。」 - 摘自 [4]
「损失随模型大小、数据集大小和用于训练的计算量呈幂律变化,有些趋势跨越了七个数量级以上。」 - 摘自 [1]
模型参数的数量。 数据集的大小。 用于训练的计算量。
「较大的模型具有更高的样本效率,因此最佳的计算效率训练涉及在相对适量的数据上训练非常大的模型,并在收敛之前停止。」 - 来自 [1]
「这些结果表明,随着我们适当扩大模型大小、数据和计算,语言建模性能会平稳且可预测地提高。我们预计,更大的语言模型将比当前模型表现更好,样本效率更高。」 - 来自 [1]
使用各种训练设置训练一堆较小的模型。 根据较小模型的性能拟合 Scaling Law。 使用 Scaling Law 推断更大模型的性能。
「这就是我们今天看到的所有进步的驱动力 —— 在庞大的数据集上训练的超大型神经网络。」 - Ilya Sutskever
这些模型的细节更公开。 除了 scaling 预训练过程外,后期的模型还极大受益于后训练研究。
对纯文本进行自监督预训练非常有效。 使用长而连续的文本跨度进行预训练非常重要。 以这种方式进行预训练后,可以对单个模型进行微调,使其能以最领先的准确度解决各种不同的任务。
预训练数据集改成了 WebText,它比 BooksCorpus 大得多,并且是通过从互联网上抓取数据创建的。 这些模型没有针对下游任务进行微调。相反,是通过使用预训练模型执行零样本推理来解决任务。
「具有足够体量的语言模型将开始学习推断和执行自然语言序列中演示的任务,以便更好地预测它们,无论它们的方法如何。」 - 来自 [3]
「GPT-4 是一个基于 Transformer 的模型,经过预训练可以预测文档中的下一个 Token 。训练后的对齐过程可提高事实性和遵守期望行为的衡量标准。」 - 来自 [5]
GPT-4 是基于 Transformer 的。 该模型使用了下一个 token 预测进行预训练。 使用公开和授权的第三方数据。 该模型通过 RLHF 进行了微调。
「经过适当训练的大型语言模型的最终损失…… 可通过用于训练模型的计算量的幂律近似。」 - 来自 [5]
「预计所需的训练数据量远远超出了目前用于训练大型模型的数据量。」 - 来自 [6]
路透社称,OpenAI 正在改变其产品战略,因为其在 scaling 当前方法方面遇到了瓶颈。 The Information 称,GPT 模型的改进速度开始放缓。 彭博社强调了几个前沿实验室在尝试构建更强大的 AI 时面临的困难。 TechCrunch 称,scaling 开始产生收益递减。 《时代》杂志发表了一篇细致入微的文章,强调了导致 AI 研究放缓的各种因素。 Ilya Sutskever 在 NeurIPS’24 的获奖演讲中表示,「我们所知的预训练将会终结」。
「这两种说法都可能是真的:scaling 在技术层面上仍然有效。针对用户的进步速度正在放缓。」 - Nathan Lambert
「实践者经常使用下游基准准确度作为模型质量的代理指标,而不是在困惑度评估集上的损失。」 - 来自 [7]
Scaling Law 告诉我们,增加预训练的规模将平稳地降低 LLM 的测试损失。 我们真正关心的是获得「更好」的 LLM。
「scaling 研究通常侧重于计算最优的训练方案…… 由于较大的模型在推理时成本更高,因此现在对较小的模型进行过度训练是一种常见的做法。」 - 来自 [7]
基于 DeepSeek-v2 的优化版 MoE 架构。 用于平衡 MoE 负载的新型无辅助损失策略。 多 token 预测训练目标。 从长思维链模型(类似于 OpenAI o1)中蒸馏推理能力。
「我们在 14.8T 高质量和多样化的 token 上训练 DeepSeek-V3。预训练过程非常稳定。在整个训练过程中,我们没有遇到任何无法挽回的损失峰值或不得不回滚。」 - 来自 [8]
更大的计算集群。 更多(和更好的)硬件。 大量电力。 新算法(例如,用于更大规模分布式训练的算法,可能跨越多个数据中心)。
「在 scaling 的每一个数量级,都必须找到不同的创新。」—— Ege Erdil(Epoch AI)
LLM 系统/智能体。 推理模型。
任务分解:将任务本身分解成更小的子任务,这些子任务可以单独解决,然后汇总形成最终答案。 链式处理:通过对 LLM 进行多次顺序调用而不是单次调用来解决任务或子任务。
将任务进一步分解成更小的文本块来总结 (即类似于递归 / 层次分解)。 将多个 LLM 调用链接在一起;例如,让一个 LLM 提取章节中所有重要的事实或信息,然后另一个 LLM 基于这些关键事实生成章节总结。
LLM-as-a-Judge 风格的评估模型通常会在生成最终评估结果之前提供评分理由。 已有研究者提出用于教导较小 / 开放 LLM 写出更好思维链的监督微调和指令调优策略。 LLM 经常被要求反思并批评或验证自己的输出,然后基于这些信息修改输出。
「OpenAI o1 是一个使用强化学习训练的新型大型语言模型,可以执行复杂的推理。o1 在回答之前会思考 —— 它可以在回复用户之前产生一个很长的内部思维链。」 - 来自 [21]
在 Codeforces 的竞争性编程问题中排名第 89 位。 在美国数学奥林匹克(AIME)资格赛中达到美国学生前 500 名水平。 在研究生水平的物理、生物和化学问题(GPQA)上超过人类博士生的准确率。
「我们发现,随着强化学习的增加(训练时间计算)和思考时间的增加(测试时间计算),o1 的性能会持续提高。」 - 来自 [22]
在 ARC-AGI 基准测试中得分为 87.5%,而 GPT-4o 的准确率仅为 5%。o3 是第一个在 ARC-AGI 上超过人类水平(85%)的模型。该基准测试曾被称为 AGI 的「北极星」,五年多来一直未被攻克。 在 SWE-Bench Verified 上的准确率为 71.7%,在 Codeforces 的 Elo 得分为 2727,这使 o3 的水平达到了全球前 200 名参赛的人类程序员。 EpochAI 的 FrontierMath 基准测试的准确率为 25.2%,比之前最先进的 2.0% 的准确率有所提高。陶哲轩曾表示,此基准「极其困难」,并且很可能在「至少几年内」都无法被 AI 系统解决。 OpenAI 给出了 o3 的精简版本 o3-mini 的预览,它的性能非常好,并且计算效率得到了显著提升。
训练时间(强化学习)计算。 推理时间计算。
Scaling Law 正在自然衰减。 对 LLM 能力的期望差异很大。 大规模跨学科工程研究的没有想预期那么快。