OpenAI 的 o1 模型:突破AI极限,重新定义人工智能

文摘   2024-09-18 14:30   美国  

当人工智能似乎触及边界之际,OpenAI 再次以令人瞩目的方式打破常规,推出了全新的推理系统——o1。

作为 AI 领域的一次重大飞跃,o1 不仅继承了早期 Q* 项目和神秘的“Strawberry”(草莓)项目的精髓,更是通过实时在线搜索和强化学习的深度融合,重新定义了复杂任务处理的方式。它揭示了全新的“推理扩展定律”,证明了增加推理计算投入可以显著提升输出准确性。

本文将深入剖析 o1 的诞生背景、核心技术和未来潜力,我们一起看看这一革命性系统如何引领人工智能迈向新的高度。


美西时间9月12日,OpenAI发布了新推理系统o1,这是人工智能领域的一次重要进展。o1系统基于早期的Q*项目以及最近传闻中的“Strawberry”项目,采用了一种全新的方式来处理复杂任务。与传统的自回归模型(autoregressive language models)不同,o1为用户进行实时在线搜索,并大量使用强化学习,推动了AI能力的进一步扩展。这一系统还揭示了新的“推理扩展定律”(inference scaling laws),表明增加推理计算的投入可以提高输出的准确性。


一、从 Q* 到草莓(Strawberry)再到 o1


OpenAI最新的o1模型发布已经酝酿了一段时间,特别是去年11月领导层动荡时的泄密事件引发了广泛关注。当时的消息透露,这个新模型具备强大的计算资源,能够解决某些数学问题,令研究人员非常兴奋。这个早期成果展示了训练过程中巨大的潜力,尤其是基于Q*方法的模型——内部代号为“Strawberry”(草莓)——在生成文本时能够进行推理,采用某种树状推理搜索的方式。


o1并非仅仅是一个语言模型,而是一个复杂的系统。它通过将高级计算过程转化为连贯的输出,接近一种闭环控制系统的形式,这在语言建模领域是前所未有的。扩展这个系统必然是一项巨大的挑战,尽管目前o1仍处于预览阶段,但它的发展路线与过去的强化学习(RL)突破,如AlphaGo,具有相似性。o1将成为未来众多产品的核心推理引擎,具有广阔的应用前景。


o1系统通过强化学习,以非常高效的数据方式训练模型,极大提升了模型的性能——无论是在训练时通过更多计算资源,还是在测试时通过增加推理时间。这个方法与通常的LLM预训练扩展策略有很大不同,更加注重高效推理。


尽管取得了这些突破,当前发布的o1预览版并不是OpenAI的最顶尖模型。根据测试结果,它的性能位于GPT-4和完整的o1模型之间。



o1在其他基准测试中的得分不一,例如在ARC-AGI和aider编程挑战中与Claude 3.5的结果相似。在数学、物理等科学问题面前,表现很出色。此外,OpenAI提供了更多关于完整o1系统(注意,不是预览版)的评估。



OpenAI本次只发布预览版,而非最终版,可能是因为:

  • 无法向用户提供最强配置,因为成本太高。

  • 没有足够的基础设施来部署最终版本。

  • 最终版本可能还没有达到他们的安全标准。

无论如何,o1仍然是一个颠覆性的新AI模型。英伟达的高级研究人员Jim Fan总结了下一代AI系统在计算资源消耗方面的变化,认为o1是向真正的语言模型代理过渡的开始。



o1这种方法并非对每个查询都经济有效。像下面这种简单的查询在这个系统中会消耗高达225个Token。而正常的模型应该只需要10到12个Token。我们认为,ChatGPT最终会通过路由的方式,将你的查询引导到正确的模型。



二、使用强化学习训练 o1模型


OpenAI 最近发布的 "o1" 是人工智能领域的一个重大突破,尤其是在大规模部署方面。o1 能够进行大规模文本搜索,这标志着从传统语言模型向更加具备自主性的 AI 系统的转变。虽然 o1 的具体工作机制仍然不完全清楚,但可以确定的是,它采用了基于强化学习(RL)的算法。


与一些可以回溯推理的旧系统不同,o1 的强项在于一步接一步地构建推理过程,符合强化学习中“前向生成”的概念。这种方式与传统强化学习领域(如游戏)中的规则一致,在这些领域中,动作一旦执行便无法撤销。对于 o1 来说,每生成一个词就相当于采取一个动作,而这些动作会不断扩展上下文(即“状态”),这种复杂且不断增长的轨迹管理正是 o1 的关键创新点之一。


在强化学习应用于语言模型时,一个主要挑战是奖励的分配。在传统的 RL 中,奖励往往是二元的,并且通常在整个序列结束时分配,这使得很难识别模型在哪一步犯了错误。最新的研究则通过“过程奖励模型”解决了这个问题,该模型会为推理过程中的每一步进行评分。OpenAI 的 "Let’s Verify Step By Step" 论文展示了如何通过逐步评价来提高模型的准确性。在这个系统中,错误的步骤可以及早被纠正,从而允许 RL 代理根据不同的奖励路径探索和区分正确与错误的推理过程。


探索(exploration)在 o1 的强化学习训练中发挥了至关重要的作用。早期版本的模型行为可能与现有系统(如 GPT-4)相似,但随着奖励机制的引导,模型逐渐发现了新的推理步骤。这种探索对于模型性能的持续改进至关重要;如果没有广泛的状态探索,模型的表现可能会趋于停滞,甚至出现过拟合或性能下降的情况。


三、o1 的成本为什么那么高?


OpenAI 的 o1 模型之所以推理成本高,主要原因在于其独特的解码过程,结合了生成模型和强化学习(RL),与之前的模型如 GPT-4 有很大的不同。o1 每个输入和输出 token 的高昂价格,反映了这种新方法的复杂性,而不是因为模型本身更大。实际上,o1 可能并不比 GPT-4 大,但每个 token 执行的计算量要多得多,因为它在生成多个候选答案后会对其进行评估和打分。


与传统的自回归模型只预测下一个 token 不同,o1 似乎采用了并行解码的策略。对于每个推理步骤,模型会生成多个候选输出,并在完成这个步骤后对它们进行打分。这种生成、打分和选择的过程可能是推理过程中计算成本高的主要原因,因为它需要分支生成多个潜在的继续路径,然后从中选择最优解。


这种方法与传统的自回归模型相比,有着本质的不同,因为它在生成每一步时必须考虑多个候选方案并进行并行评估,而不是按顺序一步步生成 token。这种并行解码方式也解释了为什么 o1 的推理比一般的聊天模型贵得多。目前o1-preview 每百万个输入token收费 15 美元,每百万个输出token收费 60 美元。这个价格是GPT 4o mini的10倍。



四、o1模型的壁垒和未来


在o1模型推出之际,海内外又在讨论OpenAI的技术先进性和国内的差距。目前看来,复制这种先进AI系统还面临诸多挑战,包括:


  • 模块化和保密性:创建类似于o1的系统比复制ChatGPT这样的模型要复杂得多,因为模块化AI系统中的各部分之间有着紧密的相互作用。这些系统对其模块如何连接非常敏感。OpenAI很谨慎,没有公开其模型的工作原理,这使得复制更加困难。

  • 种子数据与初始训练:OpenAI很可能聘请了高技能的标注员来生成复杂的推理路径,使用多种方法来解决问题,从而创建有价值的训练数据。仅仅复制推理轨迹是不够的,因为这些模型可能还使用了对比学习(contrastive learning)来进一步优化决策能力。

  • 成本与计算资源:生成和过滤模型输出的成本可能是现有语言模型的10倍、100倍甚至1000倍。尤其是在涉及RL(强化学习)的情况下,需要数十万的样本数据来进行训练。目前只有少数几家大公司能够承担。

展望未来,o1模型可能不仅限于数学领域,还会扩展到工具使用等其他领域。ChatGPT未来或许会自动调用o1进行某些任务,提升其整体能力。此外,保持o1模型的独立性可能并不现实,它很可能会与其他系统进行整合。


最终,随着AI技术的快速发展,这些系统将表现出越来越独立的行为模式,人类监督会逐渐减少。类似AlphaGo的“第37步”(人类看来的臭棋,却是取得关键致胜的一招)的语言领域革命性时刻,也许很快就会出现。



硅谷科技评论(SVTR),在ChatGPT问世之际,创立于美国硅谷,是一家数据驱动的AI孵化器。依托AI创投库(Database)AI创投社(Community)风险投资(Venture Capital),为创始人提供人才、资金和咨询服务,打造全球前沿科技(AI)创新生态系统。联系凯瑞(pkcapital2023),加入我们创业工作室,成为导师、顾问创业合伙人。更多内容,文末阅读原文访问AI创投库(svtr.ai)

AI周报:


001002003004005006007008009010
011012013014015016017018019020
021022023024025026027028029030
031032033034035036037038039040
041042043044045046047048
049
050 
051052 
053
054 
055
056
057
058
059
060
061
062 
063 
064
065066
067
068
069
070


AI创投



+



AI工程师有多强?3天上线全球首个AI数库
“AI张雪峰”诞生,北大团队用 AI 重塑教育咨询
1人团队,百万营收的AI套壳
独立创始人的崛起:如何独自创办公司
全球七大科技巨头的 4000 亿美元 AI 战略布局
性格决定创业成败顶尖VC投的AI公司
如何寻找创业方向中美AI创投异同
如何聘请CEO
应该关注哪些AI公司
如何确定CEO的薪水如何评估AI初创公司
如何分配股权和头衔海外投资人谈AI新趋势
如何组建和召开董事会做通才还是专才风投人
如何写商业计划书红杉资本如何做投资
初创公司估值如何及早识别独角兽
如何找到创业合伙人如何避免7大投资陷阱
AI初创公司商业模式合伙人是怎么炼成的
选择自己的创业导师 
Souring的艺术
创始人如何做电梯演讲

精品基金VS超级基金

YC给年轻创始人建议

初创工作室

如何成为亿万富翁
颜值如何影响VC决策
如何做出困难的决定
如何快速解读对方性格
如何在海外启动新产品
硅谷投资人的武器库
如何确认真实投资意愿
VC改变世界
找这种人实现快速裂变
AI 创投七大新趋势
AI原生公司定价策略
全球AI创投生态
GTM指南谁是全球创业之都
如何选择VCCowboy:AI大势所趋
YC:如何独立思考
全球AI投资机构Top10
如何打造AI驱动的公司
风投界的水晶球
不要像投资人那样思考Coatue:AI革命
创始人与市场契合度
Altimeter:谁是AI C端赢家
为什么初创公司会失败
ICONIQ小扎的朋友圈
初创公司如何聘请CEO
彼得·泰尔
什么决定创业成败
General Catalyst
AI驱动VCSOSV: 从草根到帝国
AI创业如何选赛道
YC
创始人的年龄有多重要
丹尼尔·格罗斯
如何建立社交媒体形象
微软(M12)


AI行业



+



全球 Gen AI 独角兽大盘点,中国4家大模型上榜
大模型系列:海外 数学 性价比 编程 医疗 评估 训练成本 | 小模型
AI 公司创始人 华裔创始人 北美科技人才中心地图
AI 公司地理和行业分布 以色列 德国 旧金山湾区 欧洲
福布斯AI 50 斯坦福AI指数 企业科技AI 30 高增长AI 50 C端AI 50 | 工具AI 50 | SVTR AI 100 | 自力更生AI 25
AI+编程 医疗 企服 电商 设计 勘探 教育 写作 客服 法律 视频 3D | 音乐 | 搜索 | 心理精神 | 消费者科技 | 安全 | 生产力工具 | 浏览器 | 游戏 | 会计 | 数据分析 | 销售 | Scribe | 金融投资
人工智能能做什么?
LLMOps
AI是否会被垄断AI未解之谜
开源AI开发者工具AI域名
生成式 AI 六大趋势
巨头的AI战争
AI Agent自动化具身智能
AI专利2023年AI总结和展望


AI公司



+



11x.ai:AI虚拟销售员,半年内突破200万美元
Adobe:从Adobe、Figma、Canva 到 OpenAI
Amazon:人工智能战略
Anduril Industries:AI 重新定义现代战争与和平
Anthropic:OpenAI"宫斗"背后的公司
Apple:产品收入变迁 AI 并购之王
Bardeen:让AI代理更稳更快,让人人都能享用自动化

Calendly:日程安排助手,AI效率工具鼻祖

Canva:从Adobe、Figma、Canva 到 OpenAI

Carta:想要取代纽交所的股权管理工具

Cohere:为企业提供大模型

Consensus:用AI解锁学术

CoreWeave:GPU租赁独角兽,英伟达的好盟友

Databricks:从数据湖到大模型
DeepL:从机器翻译到AI写作的语言沟通利器
Discord:腾讯多次押注,打造属于你自己的线上互动社区
DoNotPay:世界首款AI机器人律师

Duolingo:如何改写语言学习

E2B:为 AI 代理构建自动化云平台
Figma从Adobe、Figma、Canva 到 OpenAI

Glean:重塑知识工作的未来

Google:谷歌人工智能战略
Grammarly:从论文查重到AI写作的沟通利器
Hugging Face:开源AI的未来
Jenni AI:如何通过AI写作实现年入千万
Marblism:一句AI提示词自动生成各类软件
Microsoft:收入拆解M12
Midjourney:0融资,11人,$1亿收入
Mistral,欧洲大模型,性价比之王
MultiOn,用人工智能代理给软件装上大脑
Neuralink:让失明者重见光明,让瘫患者再次行走,让人类与AI融合永生
NVIDIA:收入按产品线拆解AI投资策略
OpenAI:人工智能突破的前沿员工董事会营销GPT Store奥特曼马斯克地产生意微软投资婚礼产品生态Thrive Capital
Pika:AI视频的未来
Rad AI:如何用 AI 改变医疗保健?
Reddit:奥特曼押注基于兴趣社交的美版“贴吧”
Replicate:1人AI公司背后的幕后英雄
Replite:教马斯克的儿子如何写代码
Perplexity:挑战谷歌,站在AI搜索最前沿
RunwayAI视频的未来
Scale AI:如何成为数字世界的“水源”
Shein:打造下一个“中国首富”

SpaceX:梦想照进现实,人类星际生命的曙光

Stability AI:SD 背后的公司和创始人
Stripe:马斯克和奥特曼押注的支付王者
Substack:美版公众号,为价值付费

Superhuman:邮件超人,拥抱 AI

Vannevar Labs:AI+国防,军事人工智能掘金者
Zapier:ChatGPT最受欢迎插件的过去和未来

硅谷科技评论
全球前沿科技,创业投资孵化
 最新文章