从Pre-training Scaling Law到Inference Scaling Law:OpenAI O1模型引领新范式

科技   2024-09-30 19:09   北京  

OpenAI O1 模型引领的新范式

©作者|坚果

来源|神州问学


一、引言


9月13日凌晨,OpenAI发布了其最新研究成果——OpenAI O1模型。这一成果标志着人工智能领域的一项重大突破。不同于以往任何模型,OpenAI O1通过结合强化学习与自我推理技术,在复杂任务处理上展现出了卓越的能力,特别是在科学、编码和数学等领域。OpenAI官方宣称,O1模型在多个基准测试中的表现已接近甚至超越了人类专家水平。值得注意的是,O1模型在回应用户提问前会经历一系列复杂的“内部思考”过程,这一特性使其能够更精准地理解问题并给出高质量的答


OpenAI还提供了模型在后训练阶段的缩放定律图表,显示了随着强化学习时间和推理思考时间的增长,O1模型性能得到显著提升。国内顶尖研究团队认为,O1模型特别强调了训练和推理阶段的计算需求,并提出了train-time compute和test-time compute两个全新的RL后训练缩放定律。


图源openai官方


英伟达工程师Jim Fan指出,OpenAI早已意识到推理阶段计算的重要性,而这一认识直到近期才被学术界广泛接受。他总结道,未来的AI系统计算开销将更多地集中在推理服务上,而非单纯的预训练计算。



本文将从传统大模型的预训练缩放定律到最近兴起的后训练缩放定律,再到目前已有研究趋势的推理缩放定律,介绍O1模型在这些领域的贡献,并探讨这些新的缩放定律对未来大模型训练优化的影响。


Pre-training Scaling Law 回顾


定义与意义


Pre-training Scaling Law(预训练扩展定律)是指模型性能与训练过程中所投入资源(包括计算量、数据量以及模型参数量)之间关系的一个经验法则。在机器学习尤其是深度学习领域,Pre-training Scaling Law的重要性不言而喻。它不仅帮助研究人员理解和优化模型训练过程,还为资源分配提供了理论依据。简单来说,当我们在给定任务上使用更大的模型、更多的训练数据以及更强的计算能力时,通常会看到模型性能的持续改善。


历史沿革


2020年,OpenAI团队训练了一个具有175亿参数的自回归语言模型GPT-3,并在超过二十个NLP数据集上进行了评估。首次提到“Smooth scaling of performance with compute”,指出模型性能与计算量和模型大小之间的关系,表明随着计算能力的平滑扩展,性能会随之提高。以交叉熵验证损失为衡量标准的性能遵循幂律趋势,与用于训练的计算量成正比。



同年,OpenAI团队进一步验证了这一结果,并发表了关于神经语言模型的缩放定律:模型损失随着模型大小、数据集大小和训练计算量的增加呈幂律关系,这些趋势跨越了超过七个数量级。这些关系允许我们确定在固定计算预算下的最优分配,表明更大的模型在样本效率上具有显著优势。



2022年,DeepMind提出的“Chinchilla”缩放定律是LLM中引用最广泛的缩放定律。Chinchilla论文提出了这样一个问题:如果你有固定的训练计算预算,你应该如何平衡模型大小和训练时间以生成最高质量的模型?训练成本由模型大小(参数数量)乘以数据大小(标记数量)决定。较大的模型比较小的模型更强大,但使用更多数据进行训练也会提高模型质量。在固定的计算预算下,增加模型大小与增加训练时间之间存在权衡。Chinchilla的作者训练了数百个模型,并报告了最佳标记与参数比(TPR)约为20。这个约20个标记/参数的“Chinchilla最优”值很快成为行业标准(例如,后来的模型如Cerebras-GPT和Llama-1 65B都是使用Chinchilla缩放进行训练的)。



当前瓶颈


尽管预训练和模型规模的增加带来了性能的提升,但也存在一些挑战和瓶颈。


2021年,Sharad Chitlangia的研究发现,随着上游准确性的提高,下游任务的性能会饱和,这表明需要更深入地理解模型表示在不同层中的演变方式,以及如何平衡上游和下游任务之间的性能。


2022年,Matthew等人采用反馈对齐(DFA)这一方法来训练Transformer,并通过尺度定律对其效率进行了评估。发现替代反向传播的方法(如Direct Feedback Alignment)未能提供比传统反向传播更有效的扩展性,这表明在最终任务性能、收敛速度以及最终的计算和数据需求方面,不同方法之间的权衡很少被明确概述。



2023年,James A等人评估了不同规模的语言模型在各种任务上的表现,并分析了不同因素对模型性能的影响。发现随着模型大小和训练数据量的增加,模型性能会下降,且模型大小越大,性能下降的速度越快,即在预训练过程中可能出现的逆向缩放现象,尽管总体性能保持较高。



二、Post-tarining Scaling Law 的兴起


定义与特点


Post-training Scaling Law(后训练扩展定律)指的是训练阶段的计算量不再只是和参数量的上升有关,同时也会包含RL探索时LLM推理的计算量。与此同时,测试阶段模型推理和反思的计算量也会影响模型最终的表现。


相关研究


今年8月6日,DeepMind论文提到调整模型的测试时间计算资源来提高其性能。他们探索了两种主要策略:一种是修改建议分布,这是LLM生成响应的过程;另一种是优化验证器,这是从生成的响应中选择最佳答案的机制。这可以通过训练一个基于过程的奖励模型来完成,该模型评估答案中各个步骤的正确性。这种策略增加了模型后训练阶段测试时间以增加模型性能。


关键技术


● 自我对弈强化学习(Self-play RL)自我博弈是一种强化学习框架,其中智能体通过与自己进行多次对弈来收集训练数据。这种方法可以有效减少对复杂环境的依赖。自我博弈的思想最初来源于AlphaGo Zero,该系统通过自我对弈生成数据,并使用蒙特卡洛树搜索(MCTS)来指导每一步的决策。这种方法同样适用于其他需要策略规划的任务场景。


● 思维链(Chain of Thought, CoT)思维链是大模型复杂问题推理的关键。2022年,Wei等人在数据集中加入一段“逐步推理”的文字,激发大模型的思考能力。这种方法允许模型将多步推理问题分解为中间步骤,从而提高模型在处理复杂问题时的准确性和可解释性。思维链技术通过模拟人类解决问题时的思考过程,使得大型语言模型能够逐步分析问题并生成中间推理步骤,最终得出准确答案。这种方法不仅提升了模型在数学、常识和符号推理任务中的表现,而且对模型规模有显著影响,大模型受益更大。此外,思维链提示还使大语言模型更具可解释性,并提供了调试推理路径错误的机会。


实践案例


O1模型在多个任务上展示出了卓越的能力,尤其是在需要高度逻辑推理的领域,如数学求解和程序编写等。在数学竞赛题目解答方面,O1模型不仅能正确回答问题,还能提供详尽的解题步骤,帮助用户深入理解解题过程。此外,在编程领域,O1模型同样表现出色,能够在编写代码时给出合理的建议,并解释其背后的逻辑。OpenAI官网展示了O1的CoT过程,但由于商业化的考量,在实际使用过程中CoT细节做了隐藏。(有些学者认为隐藏大模型的CoT过程导致人们对模型的CoT过程无法进行干预和判断)。



三、Inference Scaling Law 的探索


定义与背景


Inference Scaling Law(推理扩展定律)指出,通过增加推理时间和计算资源,可以显著改善模型输出的质量。9月5日,Nathan Lambert提出“我们需要在推理上投入更多”,这是一个人们一直念念不忘的口头禅。基于最佳N采样的想法,通过对多个完成进行采样,然后使用另一个模型(例如RLHF中使用的奖励模型)来选择最佳响应,可以将更多的推理支出转化为性能。这些方法从一开始就与RLHF研究密切相关。OpenAI的一些论文将其作为利用奖励模型提高下游性能的唯一方法,而不是执行完整的RLHF管道。9月13日,Jim Fan也提到OpenAI肯定早就弄清楚了推理扩展定律,而学术界最近才发现。


研究进展


2024年7月19日,Databricks发布了一篇关于模型训练推理的缩放定律,他们用比Chinchilla定律建议的更多数据来训练更小的模型。用更多的算力花销进行训练以生成更小但功能相当强大的模型,在实际的推理阶段得到了更好的模型性能。他们的扩展定律量化了训练-推理的权衡,生成了在其整个生命周期内最佳的模型。



2024年7月31日,Brown等人在其最新研究中发现,通过增加推理样本的数量,模型在某些任务上的准确率得到了明显的提升。例如,在编程相关任务中,DeepSeek-Coder模型在SWE-Bench基准测试上,从单个样本时的15.9%准确率提升到了250个样本时的56%,这一成绩超越了Sonnet-3.5模型。有团队在GitHub开放了复现O1后训练缩放规律的图,同时采用majority vote的方法增加模型推理时间从而提升模型性能的实验对比。



四、OpenAI O1 模型的独特之处


强化学习+“隐式思维链”


O1模型融合了强化学习(Reinforcement Learning, RL)与思维链技术,通过将复杂问题拆解并分配给多个推理链进行独立思考,最终汇总得出解决方案。这种结合强化学习搜索与学习机制的方法,依托于大型语言模型(Large Language Model, LLM)原有的推理能力,通过迭代式的自引导(Bootstrap)模型生成合理的推理路径。


推理时间 = 新的扩展维度:


O1模型的发布,意味着AI能力的提升不再局限于预训练阶段,还可以通过在Post-Training阶段中提升RL训练的探索时间和增加模型推理思考时间来实现性能提升,即Post-Training Scaling Law。


数据飞轮 + Bootstrap -> SuperIntelligence :


正如Jim Fan所言,O1模型易于形成数据飞轮效应。如果给出的答案是正确的,那么整个搜索路径就会变成一个小的数据集,包含正面奖励和负面奖励,用于训练示例。这成为了GPT推理的核心机制,使得模型能够持续学习如何分析和解决复杂问题,并最终可能向着超级智能迈出一步。


五、OpenAI O1 模型引领的新范式


模拟人类思考


遵循人类解决问题的自然规律,即在面对不同复杂度的任务时采取相应策略:简单问题即时反馈,复杂问题则通过多层次、多阶段的推理来找到最优解。目前O1模型最大的问题是一些简单的问题的思维链计算时间较长,参考DeepMind的论文,目前已经开始研究模型对问题的分辨能力。


AI思维链安全


隐藏的思维链为监控模型提供了独特的机会。将来我们可能希望监控思路是否有操纵用户的迹象。然而,要做到这一点,模型必须能够自由地以不变的形式表达其想法,因此我们不能将任何政策合规性或用户偏好训练到思维链上。我们也不想让用户直接看到一个不对齐的思路。


六、结论


O1模型被认为是通往人工通用智能(AGI)道路上的一个重要突破,标志着AGI范式的一次重大升级。它利用强化学习技术显著提升了语言模型的泛化能力,尤其注重基于语言的思维链构建。这不仅仅是简单的模型迭代,而是对整个技术框架的根本性改进。作为AGI发展新阶段的起点,O1模型正在促进从顶尖AI实验室到整个行业对于自我博弈强化学习(self-play RL)这一方法论的广泛接受与应用。


O1已经实现了向AGI第二阶段的跃迁,这表明其具备了更强大的类人推理能力。正如我们在现实生活中所观察到的那样,人们往往能够迅速应对简单的挑战,但对于复杂问题则需要更多时间去思考与解决。


面向未来,针对O1模型的研究将进一步聚焦于如何优化其推理流程,特别是明确思维链的终止条件及设计科学合理的奖励函数等方面。通过持续的技术革新,我们期待O1能在更多实际应用场景中发挥作用,加速推进AI技术向着更加人性化、智能化的方向发展,最终实现全面的通用智能时代。


参考资料:


https://openai.com/index/learning-to-reason-with-llms/

OpenAI o1: A New Paradigm For AI - by Alberto Romero


X 上的 Jim Fan:“OpenAI Strawberry (o1) is out! We are finally seeing the paradigm of inference-time scaling popularized and deployed in production. As Sutton said in the Bitter Lesson, there're only 2 techniques that scale indefinitely with compute: learning & search. It's time to shift focus to https://t.co/jTViQucwxr” / X


[2001.08361] Scaling Laws for Neural Language Models


[2210.14593] Scaling Laws Beyond Backpropagation


[2203.15556] Training Compute-Optimal Large Language Models


[2305.14681] Emergent inabilities? Inverse scaling over the course of pretraining


Scaling laws for post-training quantized large language models | OpenReview


北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式


[2408.03314] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

https://www.ifaamas.org/Proceedings/aamas2023/pdfs/p1053.pdf


[2206.07682] Emergent Abilities of Large Language Models


https://www.interconnects.ai/p/openai-strawberry-and-inference-scaling-laws


推理规模扩展定律(inference scaling law)会成为大力出奇迹的新方向吗?它能带我们走进 AGI 吗?| 宝玉的分享


How Long Should You Train Your Language Model? | Databricks Blog


[2407.21787] Large Language Monkeys: Scaling Inference Compute with Repeated Sampling


GitHub - hughbzhang/o1_inference_scaling_laws: Replicating O1 inference-time scaling laws



智见AGI
围绕生成式AI技术的交流社区,与开发者和合作伙伴共同探究有深度的生成式AI技术前沿洞见、技术迭代、案例解析、方法和实践,助力企业的数字化转型
 最新文章