“草莓”现真身

财富 2024-09-13 14:04 广东

9月13日，OpenAl宣布其最新的模型OpenAl o1（内部代号“草莓大模型”）正式发布，主打推理能力，号称能解决比以往模型更难的科学、编程和数学问题。

- 推理能力大：OpenAI 表示，o1 模型在物理、化学和生物等学科的 challenging 基准测试中，表现与博士生相当

- 数学和编程能力： 在一项国际数学奥林匹克竞赛（IMO）的资格考试中，GPT-4o 的正确率只有 13%，而 o1 模型的正确率高达 83%！在 Codeforces 编程竞赛中，o1 模型的成绩也达到了前 89%！

之前的市场预期：

发布时间基本符合预期：

技术关键点：RL & CoT & 慢思考换取推理能力【大幅】提升

【为什么提高？Scaling Law新范式，从预训练向后训练和推理转移】o1经过强化学习训练来执行复杂的推理，并在回答之前产生一个很长的内部思维链（CoT）。强化学习（RL）+ 思维链（CoT）在高度数据高效的训练过程中教会模型如何高效思考。随着更多的强化学习（训练时的计算）和更多的思考时间（测试时的计算），o1的性能会持续提升。这种Scaling束与LLM的预训练显著不同，Scaling中心向预训练向后训练&推理转移。

【效果：数学、物理、逻辑、代码能力“大幅”提升】AIME考试（类似美国高中生奥赛）中，GPT-4o 平均只解决了 12% (1.8/15) 的问题。o1 在每个问题只有一个样本的情况下平均为 74% (11.1/15)。【提升62%】。GPQA diamond（测试化学、物理和生物学方面的专业知识）上，o1【超过了PhD-Level】专家，并没有花1-1.5年的时间！Codeforces编程竞赛中，结果GPT-4o 为808， o1为 1807，超过 93% 的人类对手。

【对应用的影响】以编程智能体Devin为例，4o驱动下评估分25.9%，o1驱动下评估分为51.8%，再加点后续产品优化能做到74.2%！就是我们之前说的，更智能的大模型将解决killer app和agent的应用问题！等到成本进一步控制下来，killer app将更容易出现。

【对算力影响的初步定性判断】首先，大规模的Scaling Law仍然是需要的，保证模型有较好的基础性能。在此基础上，强化学习、思维链和更长的思考时间，对应了更大的后训练和推理算力消耗。初步判断算力需求上升并且幅度不小。

【使用与成本】现在开始，ChatGPT Plus 和 Team用户将能够访问 ChatGPT 中的 o1 模型【无需排队】。除了o1，还发了o1 mini，价格便宜80%。由于对算力消耗的提升，【o1-preview 的每周速率限制为 30 条消息，o1-mini 的每周速率限制为 50 条。】 API价格：o1每百万token，输入$15输出$60，4o输入2.5$输出$10，贵了快6倍。

综合以上，OpenAI o1技术的关键词：【RL（Self-Play RL）强化学习】【思维链（CoT）】。

在此催化下，今日光模块&PCB大涨。

- o1模型数理化能力超预期：

o1数理化、编码领域能力出色。o1在国际数学奥林匹克竞赛（IMO）考试中得分83%，此前GPT-4o仅解决了13%的问题，且o1在Codeforces比赛中达到第89个百分位。应用领域来看，o1所增强的推理功能可用于医疗保健行业的细胞测序数据注释、物理学领域的量子光学数学公式生成等一些列科学、编码、数学领域。

o1-mini更经济、更快速。同系列模型中，o1-mini是一种更快捷、更便宜的推理模型，擅长编码，o1-mini比o1-preview便宜80%，适用于需要推理但不需要广泛世界知识的应用程序。

o1目前为早期版本。其功能性尚不及ChatGPT如浏览网页、分析上传的文件和图像。目前ChatGPT Plus和Team用户可在ChatGPT中手动选择o1-mini和o1-preview，下周ChatGPT Enterprice和Edu用户也可访问。在启动时，o1-preview 的每周速率限制为30条消息，o1-mini 的每周速率限制为50条消息。

- o1的亮点在于在尝试解决问题时会使用思维链（CoT），具备识别和纠正错误能力，在自我内部思考时间增加时，其能力也能得到提升。这不同于传统的Scaling Law（尺度定律），后者主要关注训练过程中的参数量、数据量和计算量。我们认为此次OpenAI o1系列的发布并不仅仅是新模型的亮相，而是为未来大模型的性能开辟了新路径。

英伟达的具身团队领导者 Jim Fan 直接在 X 上点评了这一事件的历史意义——模型不仅拥有训练时的 scaling law，还拥有推理层面的 scaling law，双曲线的共同增长，将突破之前大模型能力的提升瓶颈——意味着大幅提升了对算力需求持续性。

光模块边际变化，1和5的逻辑开始兑现。光博会及光模块专家重要更新：

1、昨日和今日meta分别奔赴光模块厂家F和XC看厂并下单（XYS时间不知），预计meta总订单规模130万只800G左右（大约30%硅光），在24Q4和25Q1执行完，价格没有下降，单模800美金，而且硅光价格没有下降。

2、1.6T光模块目前XC最为领先，且预计25年大概率均是硅光（提升毛利率），而且开始阶段份额预计很高。

3、目前看N客户25年Q1的800G订单环比并没有减少。

4、1.6T的dsp主要还是用博通的，100g的eml芯片目前非常紧缺时断时续，无源、MT插芯偶尔会缺货/电芯片目前还算稳定。

5、目前XC和G客户一起在研发全光交换机（CPO不用担心了）

http://mp.weixin.qq.com/s?__biz=MzkwMjA4NTUyMg==&mid=2247544777&idx=1&sn=66b3d84f4d9deb4b08f3c807990a99a4

调研纪要

机构调研、电话会议

最新文章

裁员严重，大家做好准备吧！

OpenAI o1产业观点

关于国产GKJ

制冷剂配额政策落地

“草莓”现真身

OpenAI新模型技术猜想及投资启示

储能专家要点

光博会要点

锂矿见底？

太阳能的忠实粉丝

边际变化

T链催化在即

四两拨千斤

特朗普支持率的低估风险

三部门发布！

软着陆

苹果AI如何落地？

HW三折屏预约火爆

对金融行业趋势的一些浅见

重磅！券商合并！

特斯拉公布！

预期底建立！

白酒：斜率更加陡峭

中国神船来了

PCB&光模块传闻

五部门发布！

中报的线索

反弹！

关于按揭降息

储能：景气不断验证

集体涨价

IP卡牌新方向

龙头涨价！

市场有周期，人无再少年..

iPhone供应链及散热方案升级解读

拼多多：不分红不回购，减免百亿手续费

关于“房屋养老金”制度

石墨烯散热方案解读

进入降息周期

制冷剂配额政策解读

北京机器人大会跟踪

西南水电站建设解析

似曾相识

《黑神话：悟空》与游戏板块

转折点！

小米24Q2：汽车毛利率大超预期

黄金预期差

上半年VE出口需求为何超预期？

国常会核准！

当然是选择原谅了...

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉