OpenAI o1 新模型在解决博士级别的科学问题上超越人类

科技 2024-09-13 09:10 上海

一早起来，朋友圈被OpenAI凌晨发布的新模型o1-preview 模型刷屏了！

按照OpenAI CEO Sam Altman说法：你们耐心等待一年的时刻结束了！

的确，我们一直期盼GPT-5发布，整整一年多了，虽然期间OpenAI发布了GPT-4v、GPT-4o、Sora，带来一系列的震撼，但昨晚的发布不一样，是一次新的突破，计数器重置为 1，o1 应该代表着 OpenAI 下一代大模型（Orion，猎户座），能够进行高级推理的大语言模型诞生了！

这也意味着未来不会有 GPT-5 了，o1 将代表OpenAI新一代模型的开始。正如OpenAI 在其官方博客写道，新模型在推理能力上代表了人工智能能力的新水平！

OpenAI o1可以解决博士级别科学的科学问题。让我们先看一下 Sam Altman 在 X 上贴出了 o1 与 GPT-4o 在数学、编程和解决博士级别科学题目上的能力对比。

可以看到，在 2024 年美国数学邀请赛（AIME）的竞赛题和 Codeforces 算法竞赛题上，o1 preview版解决数学和编程问题的能力，比起 GPT-4o提升了 5-6 倍。而可怕的是，深橙色的柱形，代表真正的 o1，相比于 GPT-4o，提升了 8-9 倍！

最后一个图中，OpenAI 还列出了人类专家在解决博士级别科学题目的时的成功率，大约在 69.7%，而 o1 预览版和 o1，都已经超过了人类专家的水平，能达到78%，超过人类专家水平8%。是不是很可怕？

OpenAI 的技术博客提到了更具体的数字，目前 o1 模型的成绩，在美国数学邀请赛上，可以排名进入美国前 500 名。而物理、生物和化学问题上的准确度，超过了人类博士的水平。

在大模型技术进入公众视野的两年内，一个经常为人们所使用的比喻是，大模型像一个什么都懂一点的大学生，在知识专精方面远远不行，但是从天文到地理，最基础的知识都能懂一点点。OpenAI 的新模型，很有可能要刷新我们过去的认知了。

在官方博客中，OpenAI 简单解释了这一进步背后的原理。

我们训练这些模型在问题做出响应之前花更多时间思考问题，就像一个人一样。通过培训，他们学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误。

在我们的测试中，下一次模型更新的性能类似于博士生在物理、化学和生物学中具有挑战性的基准任务。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克竞赛（IMO）的资格考试中，GPT-4o 仅正确解决了 13% 的问题，而推理模型得分为 83%。他们的编码能力在比赛中得到了评估，并在 Codeforces 比赛中达到了第 89 个百分位。您可以在我们的技术研究帖子中阅读更多相关信息。

作为早期模型，它还不具备使 ChatGPT 有用的许多功能，例如浏览网页以获取信息以及上传文件和图像。对于许多常见情况，GPT-4o 在短期内会更有能力。

但对于复杂的推理任务来说，这是一个重大进步，代表了 AI 能力的新水平。鉴于此，我们将计数器重置回 1 并将此系列命名为 OpenAI o1。

在这里提到“它在数学和编码方面表现出色”，让我们看一段视频，可以见识一下 OpenAI o1 preview模型的厉害，不需要引导，一次就成。

从视频中看到， OpenAI o1 回答问题前都会思考一下，然后再做推理，最后再生成结果，但速度依旧非常快。

在 OpenAI 给的案例中。GPT-4o 和 o1 模型同时回答同一个问题——读一段长文，然后做阅读理解。在 o1 模型中，会多一个选项叫做展开思维链。如果不展开思维链，我们可以看到两个模型本身给出的答案是不同的。而打开思维链后，则会看到一段非常长的模型和自己的思维对话，解释为什么做出了不同的选择，很有意思，这也增加了大模型的可解释性。

而在另一个例子中，解决化学问题时，我们可以看到 o1 模型甚至自己在选择多种方案对比。在多次纠正自己之后得出了正确的答案。

之前的思维链靠我们人类在prompt中构建，我们在和模型对话时，不断引导模型进行一步一步的思考。今天，o1 模型将思维链放大到了完全不同的量级上，而且，通过不同的训练方式训练出来的 o1 模型，很有可能能够通过自己的推理，超越自身训练材料的限制，产出更高级和准确的答案。

推理能力的进步，如果能够进一步消除模型的幻觉，还可能对 AI 应用的建构产生间接的影响。对未来的AI安全也有积极的影响——之前的一些通过提示词工程误导模型进行错误输出的手段，可能会直接被模型通过更强的思考能力解决。

在复杂推理任务上的进步，可能对编程和科学研究两个方向产生直接的推动。

看到OpenAI这样的进步，我们更相信软件工程3.0 的到来。

软件工程3.0时代

由于大模型（LLM）正在改变着千行百业，软件工程（SE）更是首当其冲，迎来软件工程3.0新时代：模型驱动研发、模型驱动运维。本公众号将致力于研究SE3.0时代的软件研发新范式、理论与方法，介绍SE3.0时代的工具与实践。

最新文章

敏捷教练会悲伤吗？Agile Alliance已并入PMI

展望2025年智能软件工程

共促软件行业智能化转型，智能化软件开发产业图谱编制正式启动

2024年，大模型驱动的智能软件研发有哪些进展？

汽车将进化成为智能时代的空间机器人

大模型时代的软件工程教育，路在何方？

OpenAI 将一场发布会改为12天直播：Day 1发布了两大产品chatGPT pro和o1正式版

想了解智能化软件工程现状？快来参与 2024 年度调研吧！

做正确之事：软件研发的成功之道

2024 年 12 个最佳UI自动化测试工具推荐

大模型下半场：如何开发出杀手级的工具或应用？

从自动化软件测试到自主测试，还差几步？

错了，打开“深度思考”，的确做对了

让DeepSeek最新推理模型R1-lite做一道数学题，结果走进死胡同了！

重磅消息：Grok-3终结了黎曼猜想？而却因此被迫暂停训练

Tong test：AGI测试评级的标准与平台

“软件质量报道” 下决心迎接 “软件工程3.0时代”

大模型时代的软件研发：正确的打开方式

十大生成式 AI 趋势和20家有前途的初创公司

谷歌DORA：2024年加速DevOps状态报告

AiDD峰会的“AI+测试”议题全面亮相

神了：Claude 3.5能像人一样使用计算机，而且在编程、软件研发上进步显著

邀您共赴年末盛会｜QECon北京站议题出炉

深度剖析：字节跳动大模型训练被实习生“投毒”事件

当AI接连不断赢得诺贝尔奖：是人类的终点还是新的起点？

从木匠到AI教父：Geoffrey Hinton的传奇之路

历史性里程碑：诺贝尔物理学奖首次授予AI学者

两张架构图，让你感受一下大模型的惊艳

最新！明天上交所全网测试

A股沸腾，系统被买崩了？压力测试没做好？

Sam Altman昨天发文：AI 奇点近在咫尺，我们将进入“智能时代”

QECon主旨演讲之一：代码大模型改进的双引擎:数据增强和知识增强

强化学习中的自博弈（Self-play）会开启大模型的“后训练”时代？

chatGPT o1 preview用一个小时干完了博士一年写的代码

软件工程3.0的解释

OpenAI o1 新模型在解决博士级别的科学问题上超越人类

AI 大模型：软件研发的革新力量与未来展望

面向开发人员的 12款强大的 AI 工具（下）

面向开发人员的 12个款强大的 AI 工具（上）

再次扬帆起航：启动2024年「软件研发应用大模型」的调查

推荐一款强大的开源编程助手Cursor

AiDD2024 「AI+研发数字峰会」北京站圆满收官！

由一份财报解读，给您参加AiDD峰会的四大理由

AI代替了我的右手，而且我再也回不去了！

AI+人访谈录：半路入行找到“人生坐标”

刚刚，与GPT-4o相媲美的开源大模型Llama 3.1发布了！

万字长文技术分析：CrowdStrike导致大规模系统崩溃事件

测试三大难题之一 “测试有效性” 的应对策略

软银孙正义：10年内，超级智能ASI水平将是人类的10000倍

测试三大难题之一 “测试充分性” 的应对策略

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉