计算机|OpenAI o1推理升级,关注强化学习新机遇

财富   财经   2024-09-18 08:18   北京  

杨泽原  丁奇  马庆刘  

OpenAI o1模型升级思维链和强化学习,重点提升模型推理性能,代码、数学、科学等强逻辑领域能力大幅提升,持续探索AGI实现新方式。新模型在训练和推理端同步推动算力需求倍增,算力产业链景气度持续上升;应用端进一步降低各领域应用开发成本,推理性能提升扩展强逻辑场景覆盖,加速各领域应用落地。建议持续关注相关领域的头部AI公司。


事项:北京时间9月13日凌晨, OpenAI发布o1模型;OpenAI o1具备复杂推理能力,代码、数学、科学领域达到顶尖水平。


o1可将任务拆解成多个简单任务,构成完整思维链并进行优化,提升最终回答的逻辑性、综合性、准确性。当前preview版本已开放给5级API用户,并将在下周向企业和学术用户优先开放。根据公司官网,编程方面,模型在Codeforces竞赛上超过83%的专业人员。数学方面,以2024年的美国数学邀请赛为测试集,o1单次生成可解决74%的问题,多次生成后进一步提升正确率到83%,而GPT-4只能解决12%的问题。科学方面,模型GPQA Dimond测试集正确率78%,超越人类专家70%水平。



技术解析:强化学习+LLM寻求最优路径,奖励模型泛化问题尚需验证。


参考OpenAI官网及DeepMind的论文Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters(Charlie Snell,Jaehoon Lee,Kelvin Xu等),我们推测o1模型将复杂任务拆解成多任务构成的思维链,并采用类似强化学习(RL)的模式,通过各节点行为优化寻求最优路径。其中,奖励模型决定优化方向,拥有明确评判标准的领域更具优势,因此o1模型在代码、数学、科学领域表现更优,而在写作、编辑等任务上表现暂时不及GPT-4o,未来奖励模型能否准确评估其他的输出结果,是相关技术路线发展的核心问题之一。



算力投入:强化学习带来算力投入和推理成本倍增。


根据OpenAI测算,训练和推理端用于强化学习的算力投入与模型效果依然成正比,大模型获得全新有效算力投入途径,有望带来数倍于传统大模型的算力需求。其中模型推理端算力需求增长显著,根据公司官网,当前o1-preview模型生成时间可达分钟级,API定价输入15美元/百万Token和输出60美元/百万Token,较GPT-4o输入5美元/百万Token和输出15美元/百万Token的定价有数倍增长。根据英伟达CEO黄仁勋在Communacopia + Technology会议上的发言,海外Blackwell系列需求旺盛,算力行业景气度持续上行。



应用展望:加速开发成本优化,Agent能力提升B端率先受益。


短期聚焦代码、数学、科学等强逻辑领域,其中AI代码生成将推动全领域开发效率提升。根据微软财报,海外GitHub Copilot Q1付费用户数超180万,同比,国内工商银行软开中心编码助手生成代码量占总代码量的比例超32%,o1模型代码能力,有望进一步提升AI辅助开发效率。未来模型通过奖励模型泛化有望扩展更多行业,加速对边缘行业和场景的覆盖,思维链结合工具使用、知识库等能力应用,可以形成更强Agent性能,服务企业汇总、分析、预警、预测、管理等强逻辑任务需求。



风险因素:


AI核心技术发展不及预期,AI被不当使用造成严重社会影响,企业数据安全风险,信息安全风险,行业竞争加剧。



投资策略:


OpenAI o1模型重点升级思维链能力,结合强化学习,提升代码、数学、科学等强逻辑领域能力,持续探索AGI实现方式。新模型在训练和推理端同步推动算力需求倍增,算力产业链景气度持续上升;应用端进一步降低各领域应用开发成本,推理性能提升扩展强逻辑场景覆盖,C端和B端应用有望加速。建议持续关注相关领域的头部AI公司。






本文节选自中信证券研究部已于2024年9月15日发布的《计算机行业“智能网联”系列报告 47—OpenAI o1推理升级,关注强化学习新机遇》报告,具体分析内容(包括相关风险提示等)请详见报告。若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。


本资料所载的证券市场研究信息是由中信证券股份有限公司(以下简称“中信证券”)的研究部编写。中信证券研究部定位为面向专业机构投资者的卖方研究团队。通过微信形式制作的本资料仅面向中信证券客户中的金融机构专业投资者,请勿对本资料进行任何形式的转发行为。中信证券不因任何订阅本公众号的行为而将订阅人视为中信证券的客户。若您并非中信证券客户中的金融机构专业投资者,为保证服务质量、控制投资风险,应首先联系中信证券机构销售服务部门或经纪业务系统的客户经理,完成投资者适当性匹配,并充分了解该项服务的性质、特点、使用的注意事项以及若不当使用可能会带来的风险或损失,在此之前,请勿订阅、接收或使用本订阅号中的信息。本资料难以设置访问权限,若给您造成不便,还请见谅!感谢您给予的理解和配合。若有任何疑问,敬请发送邮件至信箱kehu@citics.com。

重要声明:


本资料定位为“投资信息参考服务”,而非具体的“投资决策服务”,并不涉及对具体证券或金融工具在具体价位、具体时点、具体市场表现的判断。需特别关注的是(1)本资料的接收者应当仔细阅读所附的各项声明、信息披露事项及风险提示,关注相关的分析、预测能够成立的关键假设条件,关注投资评级和证券目标价格的预测时间周期,并准确理解投资评级的含义。(2)本资料所载的信息来源被认为是可靠的,但是中信证券不保证其准确性或完整,同时其相关的分析意见及推测可能会根据中信证券研究部后续发布的证券研究报告在不发出通知的情形下做出更改,也可能会因为使用不同的假设和标准、采用不同观点和分析方法而与中信证券其它业务部门、单位或附属机构在制作类似的其他材料时所给出的意见不同或者相反。(3)投资者在进行具体投资决策前,还须结合自身风险偏好、资金特点等具体情况并配合包括“选股”、“择时”分析在内的各种其它辅助分析手段形成自主决策。为避免对本资料所涉及的研究方法、投资评级、目标价格等内容产生理解上的歧义,进而造成投资损失,在必要时应寻求专业投资顾问的指导。(4)上述列示的风险事项并未囊括不当使用本资料所涉及的全部风险。投资者不应单纯依靠所接收的相关信息而取代自身的独立判断,须充分了解各类投资风险,自主作出投资决策并自行承担投资风险。


本订阅号中的所有资料版权均属中信证券。不得以任何方式修改、发送或复制本订阅号中的内容。除经中信证券认可的情况外,其他一切转载行为均属违法。版权所有,违者必究。


中信证券研究
中信证券研究官方公众号,“一号在手,投资无忧!”
 最新文章