美国时间周四,OpenAI正式推出o1模型的完整版本,这一模型已从预览版本升级,正式成为ChatGPT的核心功能之一。新模型在推理能力方面实现了显著提升,并增加了图像分析功能,为多领域应用带来了重要突破。
o1模型现支持用户上传图片,AI可以根据图像提供详细反馈。例如,用户随手拍摄鸟舍的照片后,AI便能生成完整的建造方案。此外,o1还能通过草图为数据中心规划提供初期设计指导。
目前,o1模型已向ChatGPT Plus和Team的全球订阅用户开放,预计下周还将扩展至企业和教育用户。这次升级代表着推理模型能力的重大飞跃,特别是在处理复杂任务、图像推理以及整体准确性方面的显著进步。
与o1模型同步发布的还有全新高级订阅服务套餐——ChatGPT Pro,月费为200美元,专为需要研究级人工智能工具的专业人士和组织设计。ChatGPT Pro用户将获得对OpenAI最先进功能的无限制访问,包括o1模型的增强版本o1 Pro、GPT-4o以及高级语音功能。这些强化功能旨在为用户提供更强的计算能力和更高的精确性,以满足复杂应用场景的需求。
OpenAI联合创始人兼首席执行官萨姆·奥特曼(Sam Altman)于12月5日通过直播宣布了这一消息,这一发布活动是“OpenAI的12天”(12 Days of OpenAI)系列更新的一部分,也呼应了年末和冬季假期的庆祝氛围。
o1系列模型首次亮相于2024年9月,目标是凭借先进的推理、编码和数学能力,解决现实世界中的复杂问题。相比o1预览版,升级后的o1模型显著提高了响应速度,同时在处理复杂问题时将错误率降低了34%。尤其值得关注的是,新版增加了图像分析与解释功能,为在医疗、工程等领域的广泛应用开辟了新的可能性。
早期的基准测试显示,o1模型在竞争中具有明显优势。例如,在国际数学奥林匹克资格考试中,o1预览版成功解答了83%的题目,而GPT-4o的成功率仅为13%。此外,o1预览版在严格的安全测试中得分高达84分,相较前代模型的22分,取得了显著进步。
OpenAI计划继续扩展o1模型的功能,包括网页浏览、文件上传和更多的API集成,提升其在视觉内容处理、函数调用和结构化输出等领域的能力。通过这些改进,o1模型有望成为STEM(科学、技术、工程、数学)用户以及其他行业从业者的得力助手。
与o1和o1预览版两者相比,o1 pro版本在涉及数学、科学和编程的具有挑战性的机器学习基准测试中表现更佳。
为了凸显o1 pro版本(可靠性有所提升)的主要优势,OpenAI采用了一种更为严格的评估设置:只有当一个模型在四次尝试中有四次都答对答案(“4/4可靠性”)时,才会被视作解决了该问题,而不只是答对一次就算解决问题。
OpenAI研究员诺姆·布朗(Noam Brown)在社交媒体上确认,o1模型正是此前代号为“草莓”(Strawberry)的内部项目。他幽默地指出:“o1的能力远超计算‘草莓’这个词里有多少个‘r’。”布朗还分享了一张截图,展示o1模型在经过45秒“思考”后,通过ChatGPT生成了一篇关于草莓的三段文章,且全篇未使用字母“e”。
ChatGPT Pro的推出标志着OpenAI在满足高端用户需求方面迈出了重要一步。这一订阅服务解锁了高计算性能的o1版本,为用户提供额外的计算能力,专为处理复杂查询和优化解决方案而设计。此外,用户还可使用GPT-4o的先进自然语言生成能力以及高级语音交互功能。
相较于月费20美元的ChatGPT Plus和月费30美元的ChatGPT Team,ChatGPT Pro以专为复杂应用场景设计的顶级性能彰显了高端定位。为推动AI在社会福祉领域的应用,OpenAI还推出了“ChatGPT Pro赠款计划”,初期将向10位医学研究人员免费提供ChatGPT Pro订阅,以支持医学领域的研究与应用。
在人工智能行业竞争日益激烈的背景下,o1模型和ChatGPT Pro的发布成为OpenAI的重要战略举措。包括阿里巴巴和DeepSeek在内的中国竞争对手已推出了Marco-o1和R1-Lite-Preview等推理模型,凭借开源解决方案迅速抢占市场,不仅对OpenAI的领先地位发起了挑战,还在某些第三方基准测试中超过了o1预览版的表现。
这一动态反映了市场对大型推理模型(LRM)的强劲需求,这类模型以其出色的复杂问题解决能力,吸引了越来越多的关注。
尽管竞争激烈,OpenAI仍在不断优化其产品,o1模型和ChatGPT Pro的推出标志着在提供高性能且易用的AI工具方面迈出的重要一步。然而,OpenAI能否凭借这些进步在日益拥挤的市场中保持领导地位,还需时间的验证。
直播视频内容:
直播字幕:
**Sam Altman**:你好,欢迎来到OpenAI的12天活动。我们将尝试一些据我们所知没有科技公司做过的事,那就是在接下来的12天里,每个工作日我们都会发布或展示一些我们构建的新东西,并且我们认为从今天开始会有一些很棒的内容。
我们希望你会非常喜欢它。我们会尽量让这个过程既有趣又快速,不会花太长时间,但这也是展示我们一直在做的事情的一种方式,也是我们送给你的一个小小的节日礼物。
今天我们要发布两个更新。第一个更新是发布o1的完整版本。我们一直在非常努力地工作,并且听取了你的反馈。你喜欢o1预览版,但希望它更智能、更快速,支持多模态,并且在指令跟随方面表现更好,还有很多其他的改进。所以我们在这方面投入了很多精力。
对于科学家、工程师、程序员群体,我们认为他们会非常喜欢这个新模型。让我快速向你展示它的表现。这样你可以看到从GPT-4o到o1预览版在数学、编程竞赛、GPQA Diamond等方面的提升。你可以看到o1是一个相当大的进步。它在很多其他方面也有很大提升。但我们非常关心它的基础智能。写代码是人们大量使用的一个领域。
很快我的同事们将展示它的一些功能。他们将展示它的速度表现、它在非常难的问题上的表现、以及它在多模态方面的表现。
第二个更新是ChatGPT Pro。很多现在的ChatGPT高级用户,他们真的用它很多。他们想要比每月20美元能买到的更多计算能力。所以我们推出了ChatGPT Pro。Pro可以无限访问我们的模型,包括高级语音模式等功能。它还有一个新功能叫做o1 Pro模式。
o1现在是世界上最聪明的模型,除了在Pro模式中使用的o1。对于人们遇到的最难问题,o1 Pro模式会表现得更好一点。所以你可以看到它在数学竞赛、GPQA diamond中表现。这些提升可能看起来很小,但在复杂的工作流程中,当你真的在推动这些模型的极限时,它的效果是非常显著的。
让我介绍一些参与构建o1的团队成员。
**Hyung Won Chung**:嗨,我是Hyung Won。
**Jason Wei**:我是Jason。
**Max Schwarzer**:我是Max。
**Max Schwarzer**:我们都是研究科学家,致力于构建o1。o1非常独特,因为它是我们训练的第一个在回答之前会先思考的模型,这意味着它提供的回答更好、更详细且更正确,比你可能尝试过的其他模型更优秀。
今天开始将向所有Plus用户和即将成为Pro用户的ChatGPT订阅者推送o1,取代o1预览版。o1模型比我们在九月份推出的o1预览模型更快更智能。我们为这个模型进行了非常详细的人工评估。我们发现它犯严重错误的数量比o1预览减少了约34%,思考速度则提高了50%。我们认为这对大家来说会是一个非常显著的改变。
我很喜欢和这些模型交流。作为一名历史爱好者,我会快速展示一个例子。左边是o1,右边是o1预览。我问了一个非常简单的历史问题,列出第二世纪的罗马皇帝,讲一下他们的年代和事迹。这不难,但实际上GPT-4o常常在这个问题上出错。
同样的问题我离线测试了几次,发现o1平均比o1预览版快60%。这可能会有所变化,因为我们正在将所有GPU从o1预览版更换到o1。所以o1思考了约14秒,o1预览版思考了大约33秒。
**Hyung Won Chung**:是的,发布后,很多人询问多模态输入,所以我们添加了这个功能。所以现在的o1模型,从今天起,能够同时处理图像和文本进行推理。
我设计了这个测试问题,这是一个太空中的数据中心系统。太阳在这里,通过这个太阳能板获取能量。还有一个小型数据中心,GPU机架和泵。在太空中操作有趣的一点是在地球上,我们可以通过空气冷却或水冷却来降温GPU。但在太空中,没有什么介质,所以我们必须将热量散发到太空。这就是为什么我们需要这个巨大的散热器板。
这个问题是要找到下限估计所需的冷却板面积以运行一个一千兆瓦数据中心。模型识别出这是一个未说明但重要的参数,并且选取了正确的温度范围,大约是室温,然后继续进行分析。最后找出了面积是242万平方米,这大约是旧金山陆地面积的2%。
在标准基准如MMMU和MathVista上,o1实际上有顶尖的性能。
**Jason Wei**:我想简要演示一下ChatGPT-o1 Pro模式。对于难的数学、科学或编程问题,大家会发现o1 Pro模式非常有用。我这里有一个相当具有挑战性的化学问题,o1预览版通常会出错。
问题要求蛋白质符合一个非常具体的标准。共有六个标准,挑战在于每一个都要求非常特定的化学领域知识模型需要回忆的。这些标准都不会直接透露正确答案。因此,对于任何一个标准,可能有很多蛋白质符合该标准。所以模型需要评估所有候选项,然后检查它们是否满足所有标准。
这次模型在53秒内完成。你会看到它最初考虑了不同的候选项,比如最初考虑neuroligin,然后得出正确答案,即retinochistin,这很好。
总结来说,我们从Max那里了解到o1比o1 Preview更聪明且更快速。我们从Hyung Won那里看到o1现在能够同时处理文本和图像。最后,在ChatGPT Pro模式下,你可以用o1思考和推理最难的科学和数学问题。
ChatGPT Pro版本还有更多功能即将推出。我们正在开发更多计算密集型任务以支持更大型任务,为那些希望进一步挖掘模型潜力的人服务。我们仍在为o1模型添加工具,比如网页浏览、文件上传等。我们也在努力将o1引入API。我们将为开发人员添加一些新功能,包括结构化输出、函数调用、开发者消息和API图像理解。
**Sam Altman**:非常感谢大家。祝贺你和团队完成了这项工作。我们真的希望你喜欢o1和Pro模式,或者Pro订阅。目前我们还有很多内容要推出。明天我们会带来一些针对开发者的精彩内容,并继续前进。
在结束之前,我们能听听你的笑话吗?
**Jason Wei**:好吧,这是我今早想到的笑话。圣诞老人想让他的大语言模型解决一个数学问题,他努力尝试各种提示词,但没有成功。他最终是怎么解决的?
**Sam Altman**:不知道。
**Jason Wei**:他使用了"驯鹿强化学习(Reindeer enforcement learning)"。
**Sam Altman**:那真是太棒了。
(我为科技狂整理发布)