OpenAI发布o1模型,标志着大模型的训练范式向推理侧转移
9月12日,OpenAI官方发布最新模型o1,指出其最大特点在于接受了强化学习(RL)训练,并在模型推理时采用更长的内部思维链(chain of thought,CoT),实现了模型在物理、化学、数学等强逻辑领域性能大幅提升。我们认为,o1的意义在以下几个方面:1)大模型Scaling Law的重心由预训练向后训练和推理侧转移。2)RL和长CoT的使用,定性增加了后训练和推理所需的算力。3)目前o1擅长的领域仍然是强推理需求的数学、代码、物理等领域,后续随着RL的进一步迭代,多领域泛化能力有望提升。建议关注国内算力链、苹果链和核心AI应用相关公司。
大模型训练范式:Scaling Law重心从预训练向后训练和推理转移
2020年OpenAI提出的Scaling Law是大模型迭代的重要基础理论。o1之前,Scaling Law的重心在预训练,通过给予大模型更多的参数、训练数据和算力,提升模型的智能表现。o1发布后,OpenAI指出,在预训练Scaling Law的同时,通过在后训练引入RL并且在推理中增加长CoT(意味着更多的计算),同样能够大幅提升模型的性能表现,即Scaling Law在能够在大模型预训练、后训练和推理的所有阶段持续赋能。我们认为,o1的问世,为下一步大模型的训练和迭代提供了新的参考范式——RL+CoT。
新范式下的算力消耗:定性看,需要更多的训练和推理算力
o1之前的模型如GPT-4o,经历了预训练和后训练(基于人类反馈的强化学习RLHF)两个主要阶段,推理则采用单次推理或短CoT。我们认为,o1模型在预训练阶段算力变化或不大,旨在保证模型有着较好的通用能力。后训练阶段由于采用了RL,需要通过不断搜索的方式来迭代输出优化结果,因此算力消耗有望上升。推理阶段,o1在RL训练下学会了内部长CoT,推理所需token增长明显,因此推理算力相比之前的单次推理或显著上升。综上,在新的大模型训练范式下,定性看,模型需要更多的训练和推理算力。
目前o1擅长强逻辑推理,后续迭代有望提升其泛化能力
据OpenAI官网,对于AIME考试(类似美国高中生奥赛),o1在每个问题只有一个样本的情况下准确率平均为74,相比GPT-4提升了62。GPQA diamond(化学、物理和生物学方面的专业知识)测试中,o1超过了PhD-Level人类专家。我们认为,由于RL中奖励函数设置需要明确的“对错”概念,因此o1目前更擅长强逻辑和数学等有明确对错的问题推理。但是随着RL+CoT范式的不断迭代,o1及后续模型有望出现“涌现”现象,将能力泛化到强逻辑以外的通用问题领域,或有利于复杂AI应用的迭代。
风险提示:宏观经济波动,AI技术进步不及预期。
o1模型标志着大模型的训练范式向推理侧转移
OpenAI最新模型o1标志着大模型训练范式从预训练向推理侧的转移。9月12日,OpenAI官方发布最新模型o1,指出其最大特点在于接受了强化学习(RL)训练,并在模型推理时采用更长的内部思维链(chain of thought,CoT),实现了模型在物理、化学、数学等强逻辑领域性能大幅提升。例如对于AIME考试(类似美国高中生奥赛),o1在每个问题只有一个样本的情况下准确率平均为74,相比GPT-4提升了62。GPQA diamond(化学、物理和生物学方面的专业知识)测试中,o1超过了PhD-Level人类专家。我们认为,RL+CoT的范式,效果上显著增强了模型强逻辑推理能力,后续国内外的大模型厂商,或将沿RL+CoT的新路线持续迭代模型。
o1实质上表明大模型训练的重心由预训练转移到后训练和推理。2020年OpenAI提出的Scaling Law是大模型迭代的重要基础理论。o1之前,Scaling Law的重心在预训练,通过给予大模型更多的参数、训练数据和算力,提升模型的智能表现。o1发布后,OpenAI指出,在预训练Scaling Law的同时,通过在后训练引入RL并且在推理中增加长CoT(意味着更多的计算),同样能够大幅提升模型的性能表现,即Scaling Law在能够在大模型预训练、后训练和推理的所有阶段持续赋能。我们认为,o1的问世,为下一步大模型的训练和迭代提供了新的参考范式——RL+CoT。
定性看,RL+CoT需要更多的训练和推理算力。o1之前的模型如GPT-4o,经历了预训练和后训练(基于人类反馈的强化学习RLHF)两个主要阶段,推理则采用单次推理或短CoT。我们认为,o1模型在预训练阶段算力变化或不大,旨在保证模型有着较好的通用能力。后训练阶段由于采用了RL,需要通过不断搜索的方式来迭代输出优化结果,因此算力消耗有望上升。推理阶段,o1在RL训练下学会了内部长CoT,推理所需token增长明显,因此推理算力相比之前的单次推理或显著上升。综上,在新的大模型训练范式下,定性看,模型需要更多的训练和推理算力。
投资建议
我们认为,一方面。由于RL+CoT将模型训练范式从预训练的Scaling Law扩散到了后训练和推理的Scaling Law,在预训练算力变化不大的情况下,RL后训练和CoT推理将带来新的算力需求,具体需求的多少取决于RL搜索的深度、CoT内在的长度和推理效果的权衡。由于RL+CoT实际上为其他模型厂商定下了下一代模型迭代的基本路线,其他模型有望复刻,带来广泛的训练算力需求提升。建议关注算力相关环节公司。
其次,o1虽然目前解决的是数学、代码、科学领域的推理能力,但本质是模型CoT的构建能力,而CoT作为推理的重要手段,是有可能在端侧结合用户的更多私有数据完成的。苹果AI Agent是CoT能力较理想的计算平台。建议关注果链相关公司。
最后,o1的强逻辑推理能力有望泛化到更广泛和通用的领域,并且推理性能相比o1之前的模型有较大幅度提升,因此基于o1和后续大模型的AI应用和Agent有望从本质上超越前代能力。建议关注核心AI应用公司。
风险提示
宏观经济波动。若宏观经济波动,产业变革及新技术的落地节奏或将受到影响,宏观经济波动还可能对AI投入产生负面影响,从而导致整体行业增长不及预期。
AI技术进步不及预期。若AI技术和大模型技术进步不及预期,或将对相关的行业落地情况产生不利影响。
相关研报
谢春生 分析师 S0570519080006 | BQZ938
袁泽世 分析师 S0570524090001
关注我们
https://inst.htsc.com/research
访问权限:国内机构客户
https://intl.inst.htsc.com/research
免责声明