[研讯]OpenAI发布o3模型：推理能力进一步大幅提升，大幅拉近与人类距离，AGI的重要节点

科技 2024-12-21 21:48 北京

为财经人士倾心打造的投研资讯平台

预期差就是生产力。

—— 京北月光

🌟推理能力真正接近人类：o3是OpenAI推出的最新大规模推理模型，经过强化学习(RL)训练，作为o1的进阶版本，在通用领域的推理能力上取得了重大突破。该模型在编程能力方面表现出色，CodeForces评分超过2700，达到了世界顶尖竞技程序员的水平，我们在o1发布前认为OpenAI新模型只有SWe Bench达到70%以上才是本质的突破。达到真正的“AI程序员”和“AGI”的雏形，o3这一代模型在SWE-bench测试中获得71.7%的成绩，远超o1。ARC Prize上o1系列模型最高仅有32%，而o3提高到88%。科学与数学能力提升上，在GPQA测试中，o3的得分为87.7%，显著高于其他大型语言模型（如Gemini Flash 2的62%）和o1的78%。在FrontierMath 2024-11测试中，o3将准确率从2%提升至25%，展现出其在数学和科学领域的强大潜力。

🌟模型特点与计算特性：o3目前是测试时计算成本最高的模型，可以通过增加计算资源来提升性能，同时推出了精简版本“O3-mini”，预计在2025年1月开放。虽然o3模型系列暂时不对公众开放对话功能，仅供安全测试，但其在ARC-AGI测试中的表现显示出前所未有的新任务适应能力与图形推理能力。。

🌟o3的架构？从模型架构上，我们从去年开始认为Guided Search/MCTS为模型能力突破的核心，OpenAI 并未披露o3详细架构，但表示o3在o1基础上大幅加强了强化学习的算力投入，是test time compute的下一代，并且可以选择推理时的算力投入。与OpenAI合作测试模型能力的ARC AGI Prize认为o3采用自然语言程序搜索，在token空间中进行思维链（Chain of Thought, CoT）搜索，结合蒙特卡罗树来指导搜索过程。

🌟o3能够大规模替代人类工作了吗？以Arc Prize的测试为例，人类完成普通工作需要5美元，o3在低推理消耗下需要17-20美元，而o3mini的成本在o3二十分之一以下，与o1mini接近。我们认为o3系列的成本将会在未来一年内继续大幅降低。

投资建议：我们认为OpenAI 的o3发布为AGI的最重要节点，推理能力更加接近人类，推理算力消耗相对于o1继续大幅提升。我们持续看好算力、模型、应用的NVDA MSFT CRM等标的，我们认为值得关注o3对于Guided Search的应用，CPU等搜索用算力未来AI大模型推理的拓展。

完整内容，更多调研纪要，提前收到，硬核精华资讯流，扫码加入：

如果觉得文章有点收获，点右上角点个在看并分享到朋友圈，看完顺手点个点赞和在看

免责声明：本文及公众号任何文章之观点，皆为交流探讨之用，不构成任何投资建议。

京北月光

顺势借势为主，低潜埋伏为辅，擅长融合题材、基本面、技术面，预判超级趋势

最新文章

[研讯]字节跳动25年资本开支或将达到1600亿元，国产算力产业链全面受益！

[研讯]半导体设备的逻辑

[研讯]智能眼镜，加速

[研讯]精达股份的逻辑

[研讯]微信小店送礼物，逻辑与机会

[研讯]广合科技的逻辑

[研讯]佰维存储的逻辑

[研讯]OpenAI发布o3模型：推理能力进一步大幅提升，大幅拉近与人类距离，AGI的重要节点

[研讯]闪极999元AI眼镜5万台首发售罄、成为全球第二爆款，投资机会

[研讯]国产化DDR 5面世，投资机会！

[研讯]对华芯片禁令升级，AI自主可控的机会

[研讯]中芯国际的逻辑

[研讯]麦格米特的逻辑

[研讯]科华数据的逻辑

[研讯]谷子经济最大预期差

[研讯]广钢气体的逻辑

[研讯]国产数据中心产业链的逻辑

[研讯]禾川科技的逻辑

[研讯]字节豆包，比肩ChatGPT！

[研讯]微信小店推出送礼，复制微信红包，可能颠覆电商格局？

[研讯]为什么AI SoC是核心？

[研讯]豪鹏科技的逻辑

[研讯]思特威的逻辑

[研讯]脑机接口，大进展!

[研讯]]智能眼镜迎催化

[研讯]利基存储的逻辑

[研讯]激光雷达的逻辑

[研讯]豆包视觉理解模型对于AI眼镜意味着什么？

[研讯]|艾为电子的逻辑

[研讯]SoC的逻辑

[研讯]福日电子的逻辑

[研讯]AI25年看推理，低估了谁？

[研讯]船舶的逻辑

[研讯]博通：超预期的逻辑到底在哪里？

[研讯]彩虹股份的逻辑

[研讯]铂科新材的逻辑

[研讯]中芯国际的逻辑

[研讯]铁锂与储能专家交流纪要

[研讯]量子计算距离真正有用还有多少距离？

[研讯]铜连接板块大涨，关注什么？

[研讯]伟达服务器电源供应商

[研讯]若羽臣的逻辑

[研讯]大摩-AI供应链：ASIC 2.0-3nm项目的正面交锋

[研讯]广合科技的逻辑

[研讯]2025年通信策略之 AI篇：迎接AI的大推理时代

[研讯]爱婴室的逻辑

[研讯]生益科技的逻辑

[研讯]ASIC助力博通上万亿美元市值，投资机会在哪？

[研讯]字节AI产业链的投资机会

[研讯]为什么我们战略看好AI玩具的投资机会？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉