点击上方蓝色字「大全Prompter」>右上角...>设为星标
大家好,我是大全,90 后宝爸,BAT 大厂架构师,专注于输出 AI 入门 + AI 提示词内容,全国最大 AI 俱乐部教练,关注我一起进步。
“大半夜的,OpenAI 发布了 o1,我的头皮真的都发麻了。”
o1 系列的横空出世,直接给出了一个响亮的回应:“你大爷还是你大爷。”
o1 在回答之前会进行思考——它可以在响应用户之前产生一长串的内部思维链。
首先来看几组数据,彻底颠覆你的认知:
AIME 2024 数学竞赛中,o1 的预览版达到了 56.7% 的准确率,而正式版更是高达 83.3%。代码竞赛上,o1 的表现也极为抢眼,从 11% 的 GPT-4o 提升到 89%。
更令人震撼的是,在 GPQA-Diamond 这个科学问题测试中,o1 超越了人类专家水准,达到了 78% 准确率。
那为什么叫 o1 呢,我们看看官网回答:
For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.
翻译一下是:
对于需要复杂推理的任务来说,这是一个重大的进步,并且代表了人工智能能力的一个新的水平。鉴于此,我们决定将计数器重置为1,并把这个系列命名为OpenAI o1。
1、重新定义 AI 推理:从快思考到慢思考
o1 系列最大亮点就是它“慢思考”机制。
相比于过去依赖大数据和“快思考”的 GPT 系列,o1 更像是引入了人类解决复杂问题的思维,能通过逐步推理来解决高复杂度问题。这种从快思考到慢思考转变,是 AI 走向通用人工智能(AGI)的重要一步。在过去的模型中,我们常常见到一些大模型在简单任务上表现优异,但一旦遇到多步骤的复杂问题,或者需要更多推理和思考的场景时,模型的表现就开始下滑。而 o1 的突破在于,它不仅能快速给出答案,还能对复杂问题进行深度拆解,推理过程更加稳定和可靠。这正如 Greg Brockman 所说的:“人们早已发现,提示模型‘逐步思考’可以提升表现,但通过端到端的试错方式来训练模型进行推理,效果更加可靠。”这意味着 OpenAI 成功把复杂推理能力 Scale 到了前所未有的高度。2、数据说话:全面碾压 GPT-4
o1 在多个高复杂度任务中表现出了极高水准,特别是在数学和代码方面。AIME 2024 数学竞赛中,o1 的预览版达到了 56.7% 的准确率,而正式版更是高达 83.3%。代码竞赛上,o1 的表现也极为抢眼,从 11% 的 GPT-4o 提升到 89%。更令人震撼的是,在 GPQA-Diamond 这个科学问题测试中,o1 超越了人类专家水准,达到了 78% 准确率。这些数据背后展现的不仅仅是模型在推理上提升,更是对复杂问题思考模式重构。与之相比,GPT-4o 在许多高复杂度问题上的表现就显得力不从心。这也是为什么 o1 系列的出现让行业中许多研究者狂喜。推理时间延长、Context 长度的加倍,这一切都标志着 AI 在处理复杂问题上地进步。3、Self-play RL 和 End-to-End 思维链:技术上的飞跃
o1 系列核心技术之一就是 Self-play RL(自我对弈强化学习)。通过这种方法,模型能够在与自己互动的过程中,不断磨练思维链、纠正错误,并逐步提升推理能力。这种能力,不仅使得 o1 可以解决以前无法应对复杂任务,还让它在面对变化的情境时能够更加灵活应对。与 Self-play RL 相结合的,是 end-to-end 的思维链推理。过去,AI 模型往往需要通过明确提示来逐步指导其思维过程,而 o1 已经具备了自我反思能力,可以在没有外部明确指导的情况下,独立完成复杂的推理任务。这些技术进步带来的不仅是理论上的突破,也直接反映在了实际应用上。无论是数学竞赛、科学推理还是代码生成,o1 的表现都极为的出色。甚至在一些过去 AI 模型难以触及领域,比如化学、物理、生物学等,o1 的推理能力也展现了极高的潜力。4、o1 带来的产业变革
会带来哪些变革呢?对于科研、工程和开发者来说,o1 强大推理能力意味着 AI 将成为更加可靠的工具,能够协助人类解决过去无法解决的问题。1)o1 可以帮助科研人员解读复杂的生物学数据,为物理学家生成复杂的量子物理公式,甚至在医疗领域进行药物研发。这些能力将极大的加速各领域研究进程,甚至可能带来一些颠覆性发现。推理时间的延长、Context 长度的加倍、模型对提示的敏感性增加,这一切都意味着开发人员在使用 o1 ,需要更高质量提示词和更加精细的 Prompt Engineering。这为相关领域的开发者提供了新的机会和挑战。尽管推理成本相对较高,但其强大性能和能力,仍然吸引了大量开发者和企业用户的目光。可以预见,未来随着模型的不断优化和规模化,推理成本有望下降,AI 将进一步普及并应用到更多场景中。5、使用效果
目前,o1 系列已经向部分 ChatGPT Plus 和开发者开放,然后我激动的去看了一眼我的账号,果然有了:O1-preview:具有很强的推理能力和广阔的世界知识。(每周30条)O1-mini:速度更快,成本便宜 80%,并且在编码任务方面比 O1-Preview 更具竞争力。(每周50条)我们来看看炸裂的使用效果,据说这个题目几乎没有一个大模型幸免,我们首先看看 GPT-4o 的效果:毫无疑问,回答错误了,我们再来看看 o1 的效果:首先让我非常震惊的就是有一个思考功能,思考了 61 秒给出了答案意味着之前 GPT4o 适合的一步步思考,以及思考链模式彻底无用了,而且还可能有副作用,因为现在 o1 完全会自己思考了,这样反而是越简洁的提示词,可能效果会更好。真的是所谓提示词的技巧会慢慢消失,Ai 会越来越大众化了,不需要学习那么多复杂的技能。初期版本大全验证还无法上传文件,以及没有联网能力,虽然存在一些功能缺失和推理时间过长的问题,但是我相信潘多拉盒子已经打开,未来以至。这次 o1 系列模型发布,标志着通向 AGI 的道路真的已经没有了“技术障碍”,大全真的对 AI 的未来充满了期待。6、结语:AI 进入新的纪元
o1 不仅是 OpenAI 一次产品迭代,更是 AI 行业一次重大飞跃,从快思考到慢思考,从简单推理到复杂推理,o1 开启了 AI 迈向 AGI 重要一步。“人类通向 AGI 的路上,真的已经没有任何阻碍了”
订阅下方公众号,回复 2 免费拉你进 AI 微信学习群,领取价值 999 的神秘 AI 大礼包大家好,我是大全,90 后宝爸,211 本科法学毕业,大一开始自学编程,北漂 10 年,从小白到架构师,全国最大 AI 俱乐部万人航海教练。当下是一名 AI 领域创业者,借势 AI 90 天击穿公域,全网涨粉 5万+,总阅读 500万+。大全的愿景是成为 AI 的布道者,带领 10 万小白入门 AI,让更多的人在大全这里掌握 AI (提示词)的能力,在已经到来的 AI 时代不掉队,不被 AI 淘汰。会分享很多 AI 学习干货,可领价值 1999 AI 学习福利我就知道你“在看”