AI新范式:强化学习及后训练扩展律

文摘   2024-09-16 15:15   北京  

在人工智能(AI)的浩瀚星空中,每一次技术的飞跃都如同新星爆发,照亮整个领域的前行道路。近期,OpenAI发布的o1模型,不仅在多项智力测试中拔得头筹,更以其背后的技术革新——强化学习(RL, Reinforcement Learning)及后训练扩展律(Post Training Scaling Laws),为AI的发展开辟了新空间。

可以说,在其他深度学习方法、类脑智能、世界模型(含空间智能等)为代表的其他人工智能未能取得实质突破之前OpenAI掀起的这一革新将在当前主流的大模型范式基础上,继续为AI的发展开辟出新的范式。

业界观点概述

实际上在o1发布之前的半年,在大模型领域有点落后焦虑的谷歌研究团队就对外说过要将现在的大模型方法和他们DeepMind长期积累的强化学习做深入结合,甚至说过不使用Transformer,但后来又把Transformer作者招聘回去了。可惜谷歌迄今并未对外发布结合强化学习的实质进展,也许是真的还没有,也许是他们觉得还不够成熟。然而,近日OpenAI率先发布的结合强化学习的o1模型(虽然还不是完全版本,但和之前一样,在AI领域他们几乎总能领先美国国内半年,领先全球一年),引发了业界的广泛关注和热烈讨论。

很多人对o1进行了验证和评估(包括能提前使用内部完全版本的专家们),o1展现了复杂推理问题上的明显提升,展现了类似人类研究生的专业水平。Kimi创始人杨植麟指出,大模型发展面临的数据瓶颈和算力瓶颈,在o1模型中通过强化学习的方法得到了新的解决思路。o1不仅在门萨智商测试中夺冠,还得到了数学家陶哲轩的高度评价,其在数学问题解决上的能力令人印象深刻。OpenAI研究副总裁Mark Chen更是提出了一个引人深思的观点:大型神经网络可能已经展现出某种程度的意识。新浪新技术研发负责人张俊林强调了o1在逻辑推理能力上的显著提升,认为这是大模型领域的一大飞跃。北京大学对齐与交互实验室的研究人员则深入解析了后训练扩展律的核心价值,以及o1如何通过强化学习在推理阶段进行深度优化。


新范式概述

o1模型所代表的新范式,在现有大模型基础上核心在于着重强化学习及后训练扩展律的应用。这一范式不再单纯依赖于模型参数的增加或训练数据的扩大,而是通过优化模型的学习和推理能力,实现性能的飞跃。强化学习使得模型能够不断生成新的数据并自我学习,从而突破天然数据的限制;后训练扩展律则强调在预训练之后,通过强化学习在推理阶段进行大量的计算和探索,进一步优化模型性能。


新范式与现有范式差异

新范式也是建构在现有大模型基础上的范式,而不是否定或者去掉现有的大模型。与传统的大模型范式相比,o1所代表的新范式在多个方面展现出了显著的差异:

从数据驱动到能力驱动:传统大模型主要依赖于庞大的训练数据和强大的计算能力,通过增加模型参数量和数据规模来提升性能。然而,随着数据规模的增大,新知识比例降低,逻辑推理数据在训练数据中的比例也太低,导致性能提升的边际效益递减。相比之下,o1模型通过强化学习,让模型学会自动寻找从问题到正确答案的中间步骤,增强了复杂问题的解决能力,实现了从数据驱动到能力驱动的转变。

从静态模型到动态优化:传统大模型在训练完成后,其参数和结构相对固定,难以适应不断变化的任务需求。而o1模型通过后训练扩展律,在推理阶段进行大量的计算和探索,实现了模型的动态优化。这种优化不仅扩展了模型的适用范围,还使得模型在面对复杂问题时能够展现出更强的泛化能力。

从单一任务到通用智能:传统大模型在不同领域使用,虽然有一定的通用性,但往往需要针对特定任务进行训练或微调,难以较好适应不同行业和任务的需求,特别是复杂任务。而o1模型则展现出了通用智能的潜力,能够适用于不同行业和任务,具有极强的泛化能力。这种通用智能的出现,不仅提高了AI的应用范围,还有可能对社会GDP产生杠杆效应。


新范式背后的技术原理

o1模型所代表的新范式,其背后的技术原理主要包括以下几个方面:

强化学习:强化学习是o1模型实现自我学习和性能提升的关键。通过让模型在环境中不断尝试和探索,根据奖励信号调整策略,模型能够逐渐学会解决复杂任务的方法。在o1模型中,强化学习被用于训练模型生成推理过程,并将这些过程融入到训练数据中,从而不断提升模型的能力。

后训练扩展律:后训练扩展律强调了模型在预训练之后的进一步优化空间。在o1模型中,后训练扩展律通过强化学习在推理阶段进行大量的计算和探索,实现了模型的深度优化。这种优化不仅提高了模型的性能,还使得模型能够更好地适应不断变化的任务需求。

链式思维(COT)的自动化:o1模型通过实现链式思维(COT)的自动化,提高了模型在解决复杂逻辑问题时的效率。通过类似AlphaGo的蒙特卡洛树搜索(MCTS)技术路线,o1模型能够训练大模型快速找到通向正确答案的COT路径。这一技术突破使得大模型在解决复杂逻辑问题时更加高效和准确,也不需要依赖人类煞费苦心和不停尝试撰写Prompt。

类迭代式的Bootstrap方法:o1模型采用类迭代式的Bootstrap方法,让模型学会生成合理的推理过程。这种方法通过不断迭代和优化,使得模型能够逐渐提升其在复杂任务上的性能。同时,这种方法还扩展了模型的适用范围,使得模型能够更好地适应不同行业和任务的需求。


新范式需要注意事项

数据与算力的平衡:尽管强化学习和后训练能够提升模型能力,但它们对数据质量和计算效率的要求更高。因此,在追求新范式带来的性能提升时,需确保高质量数据资源的充足和算力的高效利用。

通用智能与特定任务的平衡:通用智能模型具有极强的泛化能力,但在某些特定任务上可能不如定制化模型。因此,在开发和应用过程中,需根据任务需求选择合适的模型类型,以实现最佳性能。

模型推理与指令遵循的协同:强化学习使模型在推理能力上得到显著提升,但同时也需关注模型对指令的遵循能力。确保模型在复杂任务中既能深入推理,又能准确执行指令,是实现全面智能的关键。

后训练扩展律的合理利用:后训练扩展律为模型在预训练后的进一步优化提供了可能。然而,过度依赖后训练可能导致模型在推理阶段计算量过大,影响实际应用效率。因此,需合理平衡预训练和后训练的比例,以实现性能与效率的双重提升。

持续学习与模型更新的策略:强化学习使模型能够持续学习并提升智能,但同时也需考虑模型更新的策略。如何确保模型在持续学习过程中保持稳定性,以及如何在模型更新时兼顾新旧数据的兼容性,是需重点关注的问题。


总之,扩展律得以继续延续传奇,继Transformer之后,强化学习又将得到足够的重视,这一新范式又将在未来一年甚至几年对AI和AI产业产生深远影响。中国如果想要在AI领域实现领先和突破,只是过去和现在这样每次Follow别人的新范式是很难的,需要我们从底层去思考AI,去研究AI的方法,在深度学习、类脑智能、世界模型等领域实现突破。加油。


延伸阅读


科创生活
一个科技与生活的爱好者~科技动态、有爱生活——收集、介绍最新科技动态,传播、鼓励清新有爱生活
 最新文章