OpenAI草莓正式发布,命名o1,强化学习突破LLM推理极限, GPT-4o被碾压!

百科   2024-09-13 09:20   上海  


北京时间 9 月 13 日午夜,OpenAI 正式公开一系列全新 AI 大模型,旨在专门解决难题。这是一个重大突破,新模型可以实现复杂推理,一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。



OpenAI 称,今天在 ChatGPT 和大模型 API 中新发布的是该系列中的第一款模型,而且还只是预览版 ——o1-preview。除了 o1,OpenAI 还展示了目前正在开发的下次更新的评估。


o1 模型一举创造了很多历史记录。


首先,o1 就是此前 OpenAI 从山姆・奥特曼到科学家们一直在「高调宣传」的草莓大模型。它拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力,相比 GPT-4o 有巨大提升,让大模型的上限从「没法看」直接上升到优秀水平,不专门训练直接数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。



奥特曼表示,虽然 o1 的表现仍然存在缺陷,不过你在第一次使用它的时候仍然会感到震撼。



其次,o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年 AlphaGo 强化学习的成功 —— 给越多算力,就输出越多智能,一直到超越人类水平。


也就是从方法上,o1 大模型首次证明了语言模型可以进行真正的强化学习。



开发出首个 AI 软件工程师 Devin 的 Cognition AI 表示,过去几周一直与 OpenAI 密切合作,使用 Devin 评估 o1 的推理能力。结果发现, 与 GPT-4o 相比,o1 系列模型对于处理代码的智能体系统来说是一个重大进步。



最后在实践中,o1 上线之后,现在 ChatGPT 可以在回答问题前先仔细思考,而不是立即脱口而出答案。就像人类大脑的系统 1 和系统 2,ChatGPT 已经从仅使用系统 1(快速、自动、直观、易出错)进化到了可使用系统 2 思维(缓慢、深思熟虑、有意识、可靠)。这让它能够解决以前无法解决的问题。


从今天 ChatGPT 的用户体验来看,这是向前迈进一小步。在简单的 Prompt 下,用户可能不会注意到太大的差异,但如果问一些棘手的数学或者代码问题,区别就开始明显了。更重要的是,未来发展的道路已经开始显现。


总而言之,今晚 OpenAI 丢出的这个重磅炸弹,已经让整个 AI 社区震撼,纷纷表示 tql、睡不着觉,深夜已经开始抓紧学习。接下来,就让我们看下 OpenAI o1 大模型的技术细节。


模型表现

首先,它在数学和编码方面表现非常出色。

  • 在国际数学奥林匹克(IMO)资格考试中,GPT-4o 只正确解决了 13% 的问题,而o1的得分是83%。

  • 编码方面,OpenAI o1 在竞争性编程问题 (Codeforces) 中排名第 89%,

  • 在物理、化学、生物学科中的表现达到了博士生水平,78分超越了人类专家69.7分。

而且,在众多基准测试上均超过了GPT-4o。

效果好到把大家都常用来测试的MATH和GSM8K干崩了,因为表现太好,不得已只能用美国奥数的题目来评比。

背后的思维链,可自主思考纠错

回复速度慢,尤其擅长数学和编码,与先前对草莓模型的爆料完全对应的上。为什么回复变慢?

因为OpenAI通过大规模强化学习算法,o1在回答问题前会产生一个内部的复杂的思维链,这使得它能够进行更深入的推理,并且o1学会了如何高效地使用其思维链。

类似于人类在回答难题之前,可能会思考很长时间,o1 在尝试解决问题时也会使用一系列思维。通过强化学习,o1 学会磨练其思维链并完善其策略,能认识并纠正错误。它学会将棘手的步骤分解为更简单的步骤。当这个方法不起作用时,它会尝试另一种方法。这个过程极大地提高了模型的推理能力。

为了培养o1模型的链式思维能力,OpenAI大规模的使用强化学习算法训练模型。

而OpenAI也没想到的是,随着更多的强化学习投入和思考时间的延长,o1模型的性能在不断地提高,这与LLM预训练时提高性能的方法有很大不同。

通过强化学习,o1模型学会了使用思维链,分步骤回答问题。

也就是说,在回答困难问题前,o1模型就像人类一样,可以自我纠正学习。

令人惊艳的是,o1模型可以自己判断答案是否正确,如果这个答案错误,它会再重新想办法解决。以此,o1模型的推理能力得到超大量级的提高。

如何使用 OpenAI o1?


ChatGPT Plus 和 Team(个人付费版与团队版)用户马上就可以在该公司的聊天机器人产品 ChatGPT 中开始使用 o1 模型了。你可以手动选取使用 o1-preview 或 o1-mini。不过,用户的使用量有限。


可以联系我们,获得API调用资源,微信:shadowteamcn


目前,每位用户每周仅能给 o1-preview 发送 30 条消息,给 o1-mini 发送 50 条消息。


是的,很少!不过 OpenAI 表示正在努力提升用户的可使用次数,并让 ChatGPT 能自动针对给定提示词选择使用合适的模型。



至于企业版和教育版用户,要到下周才能开始使用这两个模型。


至于通过 API 访问的用户,OpenAI 表示达到了 5 级 API 使用量的开发者可以即刻开始使用这两个模型开始开发应用原型,但同样也被限了速:20 RPM。什么是 5 级 API 使用量?简单来说,就是已经消费了 1000 美元以上并且已经是超过 1 个月的付费用户。请看下图:



OpenAI 表示对这两个模型的 API 调用并不包含函数调用、流式传输(streaming)、系统支持消息等功能。同样,OpenAI 表示正在努力提升这些限制。


未来


OpenAI 表示,未来除了模型更新之外,还将增加网络浏览、文件和图像上传等功能,以让这些模型变得更加有用。


「除了新的 o1 系列模型,我们计划继续开发和发布我们的 GPT 系列模型。」


参考内容:

https://openai.com/index/introducing-openai-o1-preview/

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

https://openai.com/index/learning-to-reason-with-llms/

https://x.com/sama/status/1834283100639297910


AI实践派
算法备案,大模型备案,数据出境,AI合规
 最新文章