OpenAl 发布 o1 模型,具备人类的推理能力,大模型已达到人类博士水平了吗?

科技   2024-09-13 11:49   安徽  

点击上方蓝色字「大全Prompter」>右上角...>设为星标

大家好,我是大全,90 后宝爸,BAT 大厂架构师,专注于输出 AI 入门 + AI 提示词内容,全国最大 AI 俱乐部教练,关注我一起进步。

“大半夜的,OpenAI 发布了 o1,我的头皮真的都发麻了。”

o1 系列的横空出世,直接给出了一个响亮的回应:“你大爷还是你大爷。”

o1 在回答之前会进行思考——它可以在响应用户之前产生一长串的内部思维链。

首先来看几组数据,彻底颠覆你的认知:

AIME 2024 数学竞赛中,o1 的预览版达到了 56.7% 的准确率,而正式版更是高达 83.3%。代码竞赛上,o1 的表现也极为抢眼,从 11% 的 GPT-4o 提升到 89%。

更令人震撼的是,在 GPQA-Diamond 这个科学问题测试中,o1 超越了人类专家水准,达到了 78% 准确率。

那为什么叫 o1 呢,我们看看官网回答:

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

翻译一下是:

对于需要复杂推理的任务来说,这是一个重大的进步,并且代表了人工智能能力的一个新的水平。鉴于此,我们决定将计数器重置为1,并把这个系列命名为OpenAI o1。

接下来大全一一分析 o1 讲带来哪些变革:

1、重新定义 AI 推理:从快思考到慢思考

o1 系列最大亮点就是它“慢思考”机制。

相比于过去依赖大数据和“快思考”的 GPT 系列,o1 更像是引入了人类解决复杂问题的思维,能通过逐步推理来解决高复杂度问题。
这种从快思考到慢思考转变,是 AI 走向通用人工智能(AGI)的重要一步。
在过去的模型中,我们常常见到一些大模型在简单任务上表现优异,但一旦遇到多步骤的复杂问题,或者需要更多推理和思考的场景时,模型的表现就开始下滑。
而 o1 的突破在于,它不仅能快速给出答案,还能对复杂问题进行深度拆解,推理过程更加稳定和可靠。
这正如 Greg Brockman 所说的:“人们早已发现,提示模型‘逐步思考’可以提升表现,但通过端到端的试错方式来训练模型进行推理,效果更加可靠。
”这意味着 OpenAI 成功把复杂推理能力 Scale 到了前所未有的高度。

2、数据说话:全面碾压 GPT-4

o1 在多个高复杂度任务中表现出了极高水准,特别是在数学和代码方面。
AIME 2024 数学竞赛中,o1 的预览版达到了 56.7% 的准确率,而正式版更是高达 83.3%。代码竞赛上,o1 的表现也极为抢眼,从 11% 的 GPT-4o 提升到 89%。
更令人震撼的是,在 GPQA-Diamond 这个科学问题测试中,o1 超越了人类专家水准,达到了 78% 准确率。
这些数据背后展现的不仅仅是模型在推理上提升,更是对复杂问题思考模式重构。
与之相比,GPT-4o 在许多高复杂度问题上的表现就显得力不从心。
这也是为什么 o1 系列的出现让行业中许多研究者狂喜。
推理时间延长、Context 长度的加倍,这一切都标志着 AI 在处理复杂问题上地进步。

3、Self-play RL 和 End-to-End 思维链:技术上的飞跃

o1 系列核心技术之一就是 Self-play RL(自我对弈强化学习)。
通过这种方法,模型能够在与自己互动的过程中,不断磨练思维链、纠正错误,并逐步提升推理能力。
这种能力,不仅使得 o1 可以解决以前无法应对复杂任务,还让它在面对变化的情境时能够更加灵活应对。
与 Self-play RL 相结合的,是 end-to-end 的思维链推理。
过去,AI 模型往往需要通过明确提示来逐步指导其思维过程,而 o1 已经具备了自我反思能力,可以在没有外部明确指导的情况下,独立完成复杂的推理任务。
这无疑给模型的训练和使用带来革命性变化。
这些技术进步带来的不仅是理论上的突破,也直接反映在了实际应用上。
无论是数学竞赛、科学推理还是代码生成,o1 的表现都极为的出色。
甚至在一些过去 AI 模型难以触及领域,比如化学、物理、生物学等,o1 的推理能力也展现了极高的潜力。

4、o1 带来的产业变革

会带来哪些变革呢?对于科研、工程和开发者来说,o1 强大推理能力意味着 AI 将成为更加可靠的工具,能够协助人类解决过去无法解决的问题。
1)o1 可以帮助科研人员解读复杂的生物学数据,为物理学家生成复杂的量子物理公式,甚至在医疗领域进行药物研发。
这些能力将极大的加速各领域研究进程,甚至可能带来一些颠覆性发现。
2)o1 的发布也引发了工程和开发人员狂欢。
推理时间的延长、Context 长度的加倍、模型对提示的敏感性增加,这一切都意味着开发人员在使用 o1 ,需要更高质量提示词和更加精细的 Prompt Engineering。这为相关领域的开发者提供了新的机会和挑战。
3)o1 在推理成本上的变化也引发了讨论。
尽管推理成本相对较高,但其强大性能和能力,仍然吸引了大量开发者和企业用户的目光。可以预见,未来随着模型的不断优化和规模化,推理成本有望下降,AI 将进一步普及并应用到更多场景中。

5、使用效果

目前,o1 系列已经向部分 ChatGPT Plus 和开发者开放,然后我激动的去看了一眼我的账号,果然有了:
这里再和大家看看不同版本的区别:
O1-preview:具有很强的推理能力和广阔的世界知识。(每周30条)
O1-mini:速度更快,成本便宜 80%,并且在编码任务方面比 O1-Preview 更具竞争力。(每周50条)
我们来看看炸裂的使用效果,据说这个题目几乎没有一个大模型幸免,我们首先看看 GPT-4o 的效果:
毫无疑问,回答错误了,我们再来看看 o1 的效果:
首先让我非常震惊的就是有一个思考功能,思考了 61 秒给出了答案
那么来看看,到底思考了什么呢?
好家伙,居然思考了这么多,这意味着什么呢?
意味着之前 GPT4o 适合的一步步思考,以及思考链模式彻底无用了,而且还可能有副作用,
因为现在 o1 完全会自己思考了,这样反而是越简洁的提示词,可能效果会更好。
真的是所谓提示词的技巧会慢慢消失,Ai 会越来越大众化了,不需要学习那么多复杂的技能。
对了,最后看一下答案:
初期版本大全验证还无法上传文件,以及没有联网能力,虽然存在一些功能缺失和推理时间过长的问题,但是我相信潘多拉盒子已经打开,未来以至。
这次 o1 系列模型发布,标志着通向 AGI 的道路真的已经没有了“技术障碍”,大全真的对 AI 的未来充满了期待。

6、结语:AI 进入新的纪元

o1 不仅是 OpenAI 一次产品迭代,更是 AI 行业一次重大飞跃,从快思考到慢思考,从简单推理到复杂推理,o1 开启了 AI 迈向 AGI 重要一步。
“人类通向 AGI 的路上,真的已经没有任何阻碍了”

订阅下方公众号,回复 免费拉你进 AI 微信学习群,领取价值 999 的神秘 AI 大礼包
大家好,我是大全,90 后宝爸,211 本科法学毕业,大一开始自学编程,北漂 10 年,从小白到架构师,全国最大 AI 俱乐部万人航海教练。
当下是一名 AI 领域创业者,借势 AI 90 天击穿公域,全网涨粉 5万+,总阅读 500万+。
大全的愿景是成为 AI 的布道者,带领 10 万小白入门 AI,让更多的人在大全这里掌握 AI (提示词)的能力,在已经到来的 AI 时代不掉队,不被 AI 淘汰。
扫码免费加入我的 AI 星球,邀请了很多大佬
会分享很多 AI 学习干货,可领价值 1999 AI 学习福利


我就知道你“在看”

大全Prompter
AI 提示词 Prompt、Sora AI视频、Suno AI音乐 领域|5 万 AI 星球读者(合伙人) ,带小白入门 AI|AI 副业变现 | 爱好:读书,拳击,拉丁,厨艺,绘画,户外|
 最新文章