【西部计算机】推理层面的Scaling Law,正在出现

科技   2024-09-14 16:22   广东  

特别声明

特别声明《证券期货投资者适当性管理办法》、《证券经营机构投资者适当性管理实施指引(试行)》于2017年7月1日起正式实施。通过新媒体形式制作的本公众号推送信息仅面向西部证券的专业投资者。若您并非西部证券的专业投资者。请取消关注本公众号,不再订阅、接收或使用本公众号中的任何推送信息。因本公众号受限于访问权限的设置,若给您造成不便,烦请谅解!感谢您给予的理解与配合。


             核心观点             


北京时间2024年9月13日,OpenAI发布o1系列大模型,同时在技术博客《Learning to Reason with LLMs》中对o1模型做了详细介绍。

· o1系列模型是OpenAI首个经过强化学习训练的模型——它在输出回答前会思考,会在产生一个很长的内部思维链。

与人在回答难题之前进行长时间思考类似,o1 在尝试解决问题时会使用思维链。通过强化学习,o1学会了:1)完善思维链并改进策略;2)学会了识别和纠正错误;3)将困难的步骤分解为更简单的步骤;4)在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。

· 推理层面的Scaling Law正在出现,即推理(思考)的增加也能大幅提高模型的性能。

大规模的强化学习可以教会大模型如何在高数据效率的训练过程中使用其思维链进行高效思考。OpenAI在技术报告中表示,随着强化学习(训练时计算)的增加和思考时间的增加(测试时计算),o1的性能会不断提高,也就是说模型可以通过推理阶段更多的思考来提升逻辑推理能力,做出更优质的决策和回答。

· o1系列包含o1、o1-preview和o1-mini三款模型,o1-mini未来或将免费开放。

1)o1:该系列最强的模型,暂未对外公开;2)o1-preiview:o1的早期版本,可以立即提供给ChatGPT付费用户和API用户,目前每位用户每周仅能给 o1-preview 发送 30 条消息;3)o1-mini:是一个更小的模型,在预训练期间针对 STEM 推理进行了优化,速度更快,擅长编程;性价比更高,整体来看,o1-mini 的成本比 o1-preview 低 80%;目前每周只能发50条消息。OpenAI 表示,未来将向所有 ChatGPT 免费用户提供 o1-mini 的访问权限。

· 在编程、数学等需要强推理能力的领域,o1模型表现优异。

在许多推理为主的基准测试中,o1 的表现甚至可以与人类专家媲美。在 2024 年的 AIME (美国顶尖高中数学竞赛)中,GPT-4o 平均能解决 12%(1.8/15)的问题,而 o1 能解决超70%的问题,甚至在使用学习的评分函数对 1000 个样本重新排序后能达到了 93%(13.9/15),排名全美前 500 名。在 GPQA Diamond (智力基础测试,用于测试化学、物理和生物方面的专业知识)中,o1 的表现超过了一些人类专家,成为第一个在该基准测试中实现达到此成就的模型。编程领域,基于o1进行了初始化并进一步训练了其编程技能后,OpenAI 得到了一个非常强大的编程模型(o1-ioi),该模型在 2024 年国际信息学奥林匹克竞赛(IOI)赛题上得到了213分,达到了排名前49%的水平。

             相关公司             


寒武纪、海光信息、工业富联。

             风险提示             


技术进展不及预期、 应用落地不及预期、行业竞争加剧。






             西部证券—投资评级说明             


             分析师声明             


             免责声明             



             研究报告来源             


证券研究报告《计算机行业周观点第23期 -- 推理层面的Scaling law,正在出现》

对外发布时间:2024年9月13日

对外发布机构:西部证券研究发展中心


参与人员信息:

分析师:郑宏达 

执业编号:S0800524020001

邮箱:zhenghongda@research.xbmail.com.cn


联系人:卢可欣

邮箱:lukexin@research.xbmail.com.cn



本公众号推送内容仅面向西部证券股份有限公司(以下简称“西部公司”)机构客户,请勿对本公众号内容进行任何形式的转发。若您并非西部证券机构客户,请取消关注本公众号,不再订阅、接收或使用本公众号中的内容。因本公众号难以设置访问权限,若给您造成不便,烦请谅解!西部证券不会因订阅本公众号的行为或者收到、阅读本公众号推送内容而视相关人员为客户。

本公众号内容基于已公开的信息编制,但作者对该等信息的真实性、准确性及完整性不作任何保证。本公众号所载的意见、评估及预测仅为出具日的观点和判断,该等意见、评估及预测在出具日外无需通知即可随时更改。在不同时期,西部证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。同时,本公众号所指的证券或投资标的的价格、价值及投资收入可能会波动。西部证券不保证本公众号所含信息保持在最新状态。对于西部证券其他专业人士(包括但不限于销售人员、交易人员)根据不同假设、研究方法、即时动态信息及市场表现,发表的与本公众号不一致的分析评论或交易观点,西部证券没有义务向本公众号所有接收者进行更新。西部证券对本公众号所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。

在任何情况下,本公众号所载的观点、结论和建议仅供投资者参考之用,并非作为购买或出售证券或其他投资标的的邀请或保证。客户不应以本公众号取代其独立判断或根据本报告做出决策。该等观点、建议并未考虑到获取本报告人员的具体投资目的、财务状况以及特定需求,在任何时候均不构成对客户私人投资建议。投资者应当充分考虑自身特定状况,并完整理解和使用本公众号内容,不应视本公众号为做出投资决策的唯一因素,必要时应就法律、商业、财务、税收等方面咨询专业财务顾问的意见。西部证券以往相关研究报告预测与分析的准确,不预示与担保本公众号及西部证券今后相关研究报告的表现。对依据或者使用本公众号及西部证券其他相关研究报告所造成的一切后果,西部证券及作者不承担任何法律责任。

本公众号版权仅为西部证券所有。未经公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号版权。如征得西部证券同意进行引用、刊发的,需在允许的范围内使用,并注明出处为“西部证券研究发展中心”,且不得对本公众号进行任何有悖原意的引用、删节和修改。如未经西部证券授权,私自转载或者转发本公众号,所引起的一切后果及法律责任由私自转载或转发者承担。西部证券保留追究相关责任的权力。本公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91610000719782242D。


宏达说
中国科技发展的大时代!西部证券分析师郑宏达(证券投资咨询(分析师):S0800524020001)
 最新文章