OpenAI o1 新模型在解决博士级别的科学问题上超越人类

科技   2024-09-13 09:10   上海  

一早起来,朋友圈被OpenAI凌晨发布的新模型o1-preview 模型刷屏了!
按照OpenAI CEO Sam Altman说法:你们耐心等待一年的时刻结束了!
的确,我们一直期盼GPT-5发布,整整一年多了,虽然期间OpenAI发布了GPT-4v、GPT-4o、Sora,带来一系列的震撼,但昨晚的发布不一样,是一次新的突破,计数器重置为 1o1 应该代表着 OpenAI 下一代大模型(Orion,猎户座), 能够进行高级推理的大语言模型诞生了!
这也意味着未来不会有 GPT-5 了,o1 将代表OpenAI新一代模型的开始。正如OpenAI 在其官方博客写道,新模型在推理能力上代表了人工智能能力的新水平!
OpenAI o1可以解决博士级别科学的科学问题。让我们先看一下 Sam Altman 在 X 上贴出了 o1 与 GPT-4o 在数学、编程和解决博士级别科学题目上的能力对比。

可以看到,在 2024 年美国数学邀请赛(AIME)的竞赛题和 Codeforces 算法竞赛题上,o1 preview版解决数学和编程问题的能力,比起 GPT-4o提升了 5-6 倍。而可怕的是,深橙色的柱形,代表真正的 o1,相比于 GPT-4o,提升了 8-9 倍!
最后一个图中,OpenAI 还列出了人类专家在解决博士级别科学题目的时的成功率,大约在 69.7%,而 o1 预览版和 o1,都已经超过了人类专家的水平,能达到78%,超过人类专家水平8%。是不是很可怕?
OpenAI 的技术博客提到了更具体的数字,目前 o1 模型的成绩,在美国数学邀请赛上,可以排名进入美国前 500 名。而物理、生物和化学问题上的准确度,超过了人类博士的水平。
在大模型技术进入公众视野的两年内,一个经常为人们所使用的比喻是,大模型像一个什么都懂一点的大学生,在知识专精方面远远不行,但是从天文到地理,最基础的知识都能懂一点点。OpenAI 的新模型,很有可能要刷新我们过去的认知了。
在官方博客中,OpenAI 简单解释了这一进步背后的原理。
我们训练这些模型在问题做出响应之前花更多时间思考问题,就像一个人一样。通过培训,他们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误
在我们的测试中,下一次模型更新的性能类似于博士生在物理、化学和生物学中具有挑战性的基准任务。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克竞赛 (IMO) 的资格考试中,GPT-4o 仅正确解决了 13% 的问题,而推理模型得分为 83%。他们的编码能力在比赛中得到了评估,并在 Codeforces 比赛中达到了第 89 个百分位。您可以在我们的技术研究帖子中阅读更多相关信息。
作为早期模型,它还不具备使 ChatGPT 有用的许多功能,例如浏览网页以获取信息以及上传文件和图像。对于许多常见情况,GPT-4o 在短期内会更有能力。
但对于复杂的推理任务来说,这是一个重大进步,代表了 AI 能力的新水平。鉴于此,我们将计数器重置回 1 并将此系列命名为 OpenAI o1。
在 这里提到“它在数学和编码方面表现出色”,让我们看一段视频,可以见识一下 OpenAI o1 preview模型的厉害,不需要引导,一次就成。
从视频中看到, OpenAI o1 回答问题前都会思考一下,然后再做推理,最后再生成结果,但速度依旧非常快。
在 OpenAI 给的案例中。GPT-4o 和 o1 模型同时回答同一个问题——读一段长文,然后做阅读理解。在 o1 模型中,会多一个选项叫做展开思维链如果不展开思维链,我们可以看到两个模型本身给出的答案是不同的。而打开思维链后,则会看到一段非常长的模型和自己的思维对话,解释为什么做出了不同的选择,很有意思,这也增加了大模型的可解释性。
而在另一个例子中,解决化学问题时,我们可以看到 o1 模型甚至自己在选择多种方案对比。在多次纠正自己之后得出了正确的答案。
之前的思维链靠我们人类在prompt中构建,我们在和模型对话时,不断引导模型进行一步一步的思考。今天,o1 模型将思维链放大到了完全不同的量级上,而且,通过不同的训练方式训练出来的 o1 模型,很有可能能够通过自己的推理,超越自身训练材料的限制,产出更高级和准确的答案。
推理能力的进步,如果能够进一步消除模型的幻觉,还可能对 AI 应用的建构产生间接的影响。对未来的AI安全也有积极的影响——之前的一些通过提示词工程误导模型进行错误输出的手段,可能会直接被模型通过更强的思考能力解决。
在复杂推理任务上的进步,可能对编程和科学研究两个方向产生直接的推动。
看到OpenAI这样的进步,我们更相信软件工程3.0 的到来。

软件工程3.0时代
由于大模型(LLM)正在改变着千行百业,软件工程(SE)更是首当其冲,迎来软件工程3.0新时代:模型驱动研发、模型驱动运维。本公众号将致力于研究SE3.0时代的软件研发新范式、理论与方法,介绍SE3.0时代的工具与实践。
 最新文章