特别声明
特别声明《证券期货投资者适当性管理办法》、《证券经营机构投资者适当性管理实施指引(试行)》于2017年7月1日起正式实施。通过新媒体形式制作的本公众号推送信息仅面向西部证券的专业投资者。若您并非西部证券的专业投资者。请取消关注本公众号,不再订阅、接收或使用本公众号中的任何推送信息。因本公众号受限于访问权限的设置,若给您造成不便,烦请谅解!感谢您给予的理解与配合。
核心观点
北京时间2024年9月13日,OpenAI发布o1系列大模型,同时在技术博客《Learning to Reason with LLMs》中对o1模型做了详细介绍。
· o1系列模型是OpenAI首个经过强化学习训练的模型——它在输出回答前会思考,会在产生一个很长的内部思维链。
与人在回答难题之前进行长时间思考类似,o1 在尝试解决问题时会使用思维链。通过强化学习,o1学会了:1)完善思维链并改进策略;2)学会了识别和纠正错误;3)将困难的步骤分解为更简单的步骤;4)在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。
· 推理层面的Scaling Law正在出现,即推理(思考)的增加也能大幅提高模型的性能。
大规模的强化学习可以教会大模型如何在高数据效率的训练过程中使用其思维链进行高效思考。OpenAI在技术报告中表示,随着强化学习(训练时计算)的增加和思考时间的增加(测试时计算),o1的性能会不断提高,也就是说模型可以通过推理阶段更多的思考来提升逻辑推理能力,做出更优质的决策和回答。
· o1系列包含o1、o1-preview和o1-mini三款模型,o1-mini未来或将免费开放。
1)o1:该系列最强的模型,暂未对外公开;2)o1-preiview:o1的早期版本,可以立即提供给ChatGPT付费用户和API用户,目前每位用户每周仅能给 o1-preview 发送 30 条消息;3)o1-mini:是一个更小的模型,在预训练期间针对 STEM 推理进行了优化,速度更快,擅长编程;性价比更高,整体来看,o1-mini 的成本比 o1-preview 低 80%;目前每周只能发50条消息。OpenAI 表示,未来将向所有 ChatGPT 免费用户提供 o1-mini 的访问权限。
· 在编程、数学等需要强推理能力的领域,o1模型表现优异。
在许多推理为主的基准测试中,o1 的表现甚至可以与人类专家媲美。在 2024 年的 AIME (美国顶尖高中数学竞赛)中,GPT-4o 平均能解决 12%(1.8/15)的问题,而 o1 能解决超70%的问题,甚至在使用学习的评分函数对 1000 个样本重新排序后能达到了 93%(13.9/15),排名全美前 500 名。在 GPQA Diamond (智力基础测试,用于测试化学、物理和生物方面的专业知识)中,o1 的表现超过了一些人类专家,成为第一个在该基准测试中实现达到此成就的模型。编程领域,基于o1进行了初始化并进一步训练了其编程技能后,OpenAI 得到了一个非常强大的编程模型(o1-ioi),该模型在 2024 年国际信息学奥林匹克竞赛(IOI)赛题上得到了213分,达到了排名前49%的水平。
相关公司
寒武纪、海光信息、工业富联。
风险提示
技术进展不及预期、 应用落地不及预期、行业竞争加剧。
西部证券—投资评级说明
分析师声明
免责声明
研究报告来源
证券研究报告:《计算机行业周观点第23期 -- 推理层面的Scaling law,正在出现》
对外发布时间:2024年9月13日
对外发布机构:西部证券研究发展中心
参与人员信息:
分析师:郑宏达
执业编号:S0800524020001
邮箱:zhenghongda@research.xbmail.com.cn
联系人:卢可欣
邮箱:lukexin@research.xbmail.com.cn