华泰 | OpenAI o1:大模型范式的转折点

文摘   2024-09-24 07:33   江苏  

OpenAI发布o1模型,标志着大模型的训练范式向推理侧转移

9月12日,OpenAI官方发布最新模型o1,指出其最大特点在于接受了强化学习(RL)训练,并在模型推理时采用更长的内部思维链(chain of thought,CoT),实现了模型在物理、化学、数学等强逻辑领域性能大幅提升。我们认为,o1的意义在以下几个方面:1)大模型Scaling Law的重心由预训练向后训练和推理侧转移。2)RL和长CoT的使用,定性增加了后训练和推理所需的算力。3)目前o1擅长的领域仍然是强推理需求的数学、代码、物理等领域,后续随着RL的进一步迭代,多领域泛化能力有望提升。建议关注国内算力链、苹果链和核心AI应用相关公司。

点击小程序查看研报原文



核心观点

大模型训练范式:Scaling Law重心从预训练向后训练和推理转移

2020年OpenAI提出的Scaling Law是大模型迭代的重要基础理论。o1之前,Scaling Law的重心在预训练,通过给予大模型更多的参数、训练数据和算力,提升模型的智能表现。o1发布后,OpenAI指出,在预训练Scaling Law的同时,通过在后训练引入RL并且在推理中增加长CoT(意味着更多的计算),同样能够大幅提升模型的性能表现,即Scaling Law在能够在大模型预训练、后训练和推理的所有阶段持续赋能。我们认为,o1的问世,为下一步大模型的训练和迭代提供了新的参考范式——RL+CoT。


新范式下的算力消耗:定性看,需要更多的训练和推理算力

o1之前的模型如GPT-4o,经历了预训练和后训练(基于人类反馈的强化学习RLHF)两个主要阶段,推理则采用单次推理或短CoT。我们认为,o1模型在预训练阶段算力变化或不大,旨在保证模型有着较好的通用能力。后训练阶段由于采用了RL,需要通过不断搜索的方式来迭代输出优化结果,因此算力消耗有望上升。推理阶段,o1在RL训练下学会了内部长CoT,推理所需token增长明显,因此推理算力相比之前的单次推理或显著上升。综上,在新的大模型训练范式下,定性看,模型需要更多的训练和推理算力。


目前o1擅长强逻辑推理,后续迭代有望提升其泛化能力

据OpenAI官网,对于AIME考试(类似美国高中生奥赛),o1在每个问题只有一个样本的情况下准确率平均为74,相比GPT-4提升了62。GPQA diamond(化学、物理和生物学方面的专业知识)测试中,o1超过了PhD-Level人类专家。我们认为,由于RL中奖励函数设置需要明确的“对错”概念,因此o1目前更擅长强逻辑和数学等有明确对错的问题推理。但是随着RL+CoT范式的不断迭代,o1及后续模型有望出现“涌现”现象,将能力泛化到强逻辑以外的通用问题领域,或有利于复杂AI应用的迭代。


风险提示:宏观经济波动,AI技术进步不及预期。



正文

o1模型标志着大模型的训练范式向推理侧转移

OpenAI最新模型o1标志着大模型训练范式从预训练向推理侧的转移。9月12日,OpenAI官方发布最新模型o1,指出其最大特点在于接受了强化学习(RL)训练,并在模型推理时采用更长的内部思维链(chain of thought,CoT),实现了模型在物理、化学、数学等强逻辑领域性能大幅提升。例如对于AIME考试(类似美国高中生奥赛),o1在每个问题只有一个样本的情况下准确率平均为74,相比GPT-4提升了62。GPQA diamond(化学、物理和生物学方面的专业知识)测试中,o1超过了PhD-Level人类专家。我们认为,RL+CoT的范式,效果上显著增强了模型强逻辑推理能力,后续国内外的大模型厂商,或将沿RL+CoT的新路线持续迭代模型。



o1实质上表明大模型训练的重心由预训练转移到后训练和推理2020年OpenAI提出的Scaling Law是大模型迭代的重要基础理论。o1之前,Scaling Law的重心在预训练,通过给予大模型更多的参数、训练数据和算力,提升模型的智能表现。o1发布后,OpenAI指出,在预训练Scaling Law的同时,通过在后训练引入RL并且在推理中增加长CoT(意味着更多的计算),同样能够大幅提升模型的性能表现,即Scaling Law在能够在大模型预训练、后训练和推理的所有阶段持续赋能。我们认为,o1的问世,为下一步大模型的训练和迭代提供了新的参考范式——RL+CoT。




定性看,RL+CoT需要更多的训练和推理算力o1之前的模型如GPT-4o,经历了预训练和后训练(基于人类反馈的强化学习RLHF)两个主要阶段,推理则采用单次推理或短CoT。我们认为,o1模型在预训练阶段算力变化或不大,旨在保证模型有着较好的通用能力。后训练阶段由于采用了RL,需要通过不断搜索的方式来迭代输出优化结果,因此算力消耗有望上升。推理阶段,o1在RL训练下学会了内部长CoT,推理所需token增长明显,因此推理算力相比之前的单次推理或显著上升。综上,在新的大模型训练范式下,定性看,模型需要更多的训练和推理算力。




投资建议

我们认为,一方面。由于RL+CoT将模型训练范式从预训练的Scaling Law扩散到了后训练和推理的Scaling Law,在预训练算力变化不大的情况下,RL后训练和CoT推理将带来新的算力需求,具体需求的多少取决于RL搜索的深度、CoT内在的长度和推理效果的权衡。由于RL+CoT实际上为其他模型厂商定下了下一代模型迭代的基本路线,其他模型有望复刻,带来广泛的训练算力需求提升。建议关注算力相关环节公司。


其次,o1虽然目前解决的是数学、代码、科学领域的推理能力,但本质是模型CoT的构建能力,而CoT作为推理的重要手段,是有可能在端侧结合用户的更多私有数据完成的。苹果AI Agent是CoT能力较理想的计算平台。建议关注链相关公司


最后,o1的强逻辑推理能力有望泛化到更广泛和通用的领域,并且推理性能相比o1之前的模型有较大幅度提升,因此基于o1和后续大模型的AI应用和Agent有望从本质上超越前代能力。建议关注核心AI应用公司。


风险提示

宏观经济波动。若宏观经济波动,产业变革及新技术的落地节奏或将受到影响,宏观经济波动还可能对AI投入产生负面影响,从而导致整体行业增长不及预期。


AI技术进步不及预期。若AI技术和大模型技术进步不及预期,或将对相关的行业落地情况产生不利影响。


相关研报

研报:《OpenAI o1:大模型范式的转折点》2024年9月22日

谢春生 分析师 S0570519080006 | BQZ938

袁泽世 分析师 S0570524090001


关注我们


华泰证券研究所国内站(研究Portal)

https://inst.htsc.com/research

访问权限:国内机构客户


华泰证券研究所海外站

https://intl.inst.htsc.com/research 

访问权限:美国及香港金控机构客户
添加权限请联系您的华泰对口客户经理

免责声明

▲向上滑动阅览

本公众号不是华泰证券股份有限公司(以下简称“华泰证券”)研究报告的发布平台,本公众号仅供华泰证券中国内地研究服务客户参考使用。其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,且若使用本公众号所载内容,务必寻求专业投资顾问的指导及解读。华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。

本公众号转发、摘编华泰证券向其客户已发布研究报告的部分内容及观点,完整的投资意见分析应以报告发布当日的完整研究报告内容为准。订阅者仅使用本公众号内容,可能会因缺乏对完整报告的了解或缺乏相关的解读而产生理解上的歧义。如需了解完整内容,请具体参见华泰证券所发布的完整报告。

本公众号内容基于华泰证券认为可靠的信息编制,但华泰证券对该等信息的准确性、完整性及时效性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。

在任何情况下,本公众号中的信息或所表述的意见均不构成对任何人的投资建议。订阅者不应单独依靠本订阅号中的内容而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。订阅者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。

本公众号版权仅为华泰证券所有,未经华泰证券书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。华泰证券具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。

华泰证券科技研究
华泰证券TMT研究团队公众号。站在全球化视角,致力于为投资人提供及时有深度的TMT产业研究。
 最新文章