OpenAI发布全新大模型 o1:拥有理科博士级推理力

文摘   2024-09-18 16:58   重庆  

点击蓝字 关注我们

1

2024 年 9 月 13 日,OpenAI 毫无预警地推出了新模型 ——OpenAI o1,这个被称为 “草莓” 的模型引发了广泛关注。OpenAI 的 CEO 萨姆・奥尔特曼称其为 “新范式的开始”。

 

o1 系列模型在通用复杂推理方面表现卓越。与 GPT - 4o 相比,o1 在数理化生、英语法律经济等各种科目都有显著成绩改进。在解决博士水平的物理问题时,GPT - 4o 仅得 59.5 分,而 o1 一跃来到 “优秀档”,获得 92.8 分。在刚刚结束的 2024 IOI 信息学奥赛题目中,o1 的微调版本在每题尝试 50 次条件下取得了 213 分,属于人类选手中前 49% 的成绩;若每道题尝试 10000 次,就能获得 362.14 分,高于金牌选手门槛。它还在竞争性编程问题 (Codeforces) 中排名前 89%,在美国数学奥林匹克 (AIME) 预选赛题目中跻身美国前 500 名学生之列。


图源:OpenAI

o1在解决博士水平的物理问题时,o1 则获得 92.8 分,远超GPT-4o。图源:OpenAI


o1 系列分为三个型号。o1 作为新的大模型天花板,过于强大目前暂不对外公开。o1 - preiview 是 o1 的早期版本,可立即提供给 ChatGPT 付费用户和 API 用户,在推理密集型任务中表现出色,但在某些自然语言任务上并非首选。o1 - mini 速度更快、性价比更高,适用于需要推理和无需广泛世界知识的任务。

 

o1 模型的强大之处在于它经过强化学习训练,在输出回答之前会产生一个很长的思维链,以此增强模型的能力。内部思维链越长,o1 思考得越久,在推理任务上的表现就越好。它会像人类一样将棘手的步骤分解为更简单的步骤、识别和纠正错误以及尝试不同的方法。例如在编写 Bash 脚本的编程任务中,GPT - 4o 会直接写代码但可能得到错误结果,而 o1 - preiview 会先复述要求、拆解要求、明确目标,再定义任务、分析限制条件、列出方法,最后才动手编写代码并保证一次性得到正确结果。

 

o1在高中AIME数学竞赛表现。图源:OpenAI

奥尔特曼也在X上分享了o1图源:OpenAI

 

目前,ChatGPT Plus 和 Team 用户最早可在几个小时内体验到 o1 系列模型。在发布时,o1 - preview 限制为每周 30 条消息,o1 - mini 每周 50 条。API 访问权限将首先给 Tier 5 级用户,即已在 OpenAI API 上花费超过 1000 美元的人。OpenAI 正在努力提高这些速率,并使 ChatGPT 能够针对给定的提示自动选择合适的模型。

 

然而,o1 作为早期模型,尚不具备 ChatGPT 的许多有用功能,如联网搜索以及上传文件和图像。但对于复杂的推理任务来说,这无疑是一个重大进步,代表了人工智能的最高水平。OpenAI 决定将计数器重置,并将该系列模型命名为 OpenAI o1。随着更多的强化学习和更多的思考时间,o1 的性能持续提高,新的 Scaling Law 诞生了,不过这种方法的 Scaling 受到的限制与普通预训练有很大不同,OpenAI 正在继续研究它们。

 

在解决大模型 “不会数数” 的难题上,OpenAI 采用了思维链技术。通过让模型在回答复杂问题时逐步解释每一步的推理过程,而不是直接给出答案,显著提升了 o1 的推理能力。强化学习成为思维链技术的实用替代方案,让模型通过实践和试错自己学习,自主探索多种可能的解决方案。

 

OpenAI 的 o1 模型无疑为人工智能领域带来了新的突破和希望,它的出现重新定义了游戏规则,让我们对未来的人工智能发展充满期待。



扫一扫

打开漫科学小程序

漫科学
生活科普专家,青年科创伙伴。
 最新文章