为财经人士倾心打造的投研资讯平台
—— 京北月光
🌟推理能力真正接近人类:o3是OpenAI推出的最新大规模推理模型,经过强化学习(RL)训练,作为o1的进阶版本,在通用领域的推理能力上取得了重大突破。该模型在编程能力方面表现出色,CodeForces评分超过2700,达到了世界顶尖竞技程序员的水平,我们在o1发布前认为OpenAI新模型只有SWe Bench达到70%以上才是本质的突破。达到真正的“AI程序员”和“AGI”的雏形,o3这一代模型在SWE-bench测试中获得71.7%的成绩,远超o1。ARC Prize上o1系列模型最高仅有32%,而o3提高到88%。科学与数学能力提升上,在GPQA测试中,o3的得分为87.7%,显著高于其他大型语言模型(如Gemini Flash 2的62%)和o1的78%。在FrontierMath 2024-11测试中,o3将准确率从2%提升至25%,展现出其在数学和科学领域的强大潜力。
🌟模型特点与计算特性:o3目前是测试时计算成本最高的模型,可以通过增加计算资源来提升性能,同时推出了精简版本“O3-mini”,预计在2025年1月开放。虽然o3模型系列暂时不对公众开放对话功能,仅供安全测试,但其在ARC-AGI测试中的表现显示出前所未有的新任务适应能力与图形推理能力。。
🌟o3的架构?从模型架构上,我们从去年开始认为Guided Search/MCTS为模型能力突破的核心,OpenAI 并未披露o3详细架构,但表示o3在o1基础上大幅加强了强化学习的算力投入,是test time compute的下一代,并且可以选择推理时的算力投入。与OpenAI合作测试模型能力的ARC AGI Prize认为o3采用自然语言程序搜索,在token空间中进行思维链(Chain of Thought, CoT)搜索,结合蒙特卡罗树来指导搜索过程。
🌟o3能够大规模替代人类工作了吗?以Arc Prize的测试为例,人类完成普通工作需要5美元,o3在低推理消耗下需要17-20美元,而o3mini的成本在o3二十分之一以下,与o1mini接近。我们认为o3系列的成本将会在未来一年内继续大幅降低。
投资建议:我们认为OpenAI 的o3发布为AGI的最重要节点,推理能力更加接近人类,推理算力消耗相对于o1继续大幅提升。我们持续看好算力、模型、应用的NVDA MSFT CRM等标的,我们认为值得关注o3对于Guided Search的应用,CPU等搜索用算力未来AI大模型推理的拓展。
完整内容,更多调研纪要,提前收到,硬核精华资讯流,扫码加入:
如果觉得文章有点收获,点右上角点个在看并分享到朋友圈,看完顺手点个点赞和在看
免责声明:本文及公众号任何文章之观点,皆为交流探讨之用,不构成任何投资建议。