全程图文实况｜OpenAI 12天产品发布 - Day1：O1完整版/ChatGPT Pro

文摘 2024-12-06 07:04 浙江

👇关注公众号后设🌟标，掌握第一手AI新动态

本文内容整理自OpenAI12天产品发布-第一天，公开发表于2024年12月05日。原始内容参考：https://www.youtube.com/watch?v=iBfQTnA2n2s

内容提要：OpenAI 12天发布会 - Day1
O1完整版: 这是O1预览版的升级版，拥有更快的速度、更强的智能、多模态输入能力（支持图像和文本），以及更佳的指令遵循能力。在数学、竞赛编程、GPQA和钻石任务等方面都有显著提升，尤其在编码性能上表现出色。它能够“思考”后作答，提供更准确、详细的回应，并且解决了预览版速度慢的问题。
ChatGPT Pro推出: 这是一个针对高频用户的高级订阅服务，每月费用200美元。它提供对OpenAI最佳模型（包括O1、GPT-4.0和高级语音模式）的无限访问权限，以及一个名为“O1 Pro模式”的新功能。O1 Pro模式利用更多算力，能够更有效地解决复杂问题，并提升答案的可靠性。
O1的改进: 与O1预览版相比，O1完整版犯重大错误的频率降低了34%，思考速度提高了50%。
O1的多模态能力演示: 通过一个关于太空数据中心散热器面积计算的例子，演示了O1能够处理图像和文本信息，并进行多模态推理的能力。
O1 Pro模式的优势: 通过一个复杂的化学问题，演示了O1 Pro模式在解决极具挑战性的科学和数学问题上的优势，展现了其更强大的推理能力和更快的计算速度。
未来规划: OpenAI计划为O1添加更多功能，例如网页浏览、文件上传等；并将O1集成到API中，为开发者提供更多功能，例如结构化输出、函数调用等。 ChatGPT Pro也将持续更新，提供更强大的计算能力和更长的处理时间。

发布会图文实况

主持人Sam： 大家好，欢迎来到为期12天的OpenAI活动。我们将尝试一些据我们所知，之前没有任何科技公司做过的事情。在接下来的12个工作日里，我们将发布或演示一些我们新开发的产品。我们认为从今天开始，我们有一些很棒的东西要呈现给你们，希望你们会真正喜欢。我们会尽量让这个过程有趣且快速，不占用太多时间。这将是向你们展示我们一直在努力的方向，并献上我们的一份节日小礼。那么，让我们直接进入第一天。

今天，我们实际上要发布两款产品。第一个是O1的完整版。我们一直在努力工作，并倾听了你们的反馈。你们喜欢O1预览版，但希望它更智能、更快、多模态，并且在指令遵循等方面表现更好。因此，我们投入了大量工作，对于科学家、工程师和程序员来说，我们认为他们会真正喜欢这个新模型。我想快速向你们展示它的性能。你们可以看到从GPT-4.0到O1预览版在数学、竞赛编程、GPQA和钻石任务上的飞跃，并且会注意到O1代表着显著的进步。它在许多其他方面也更好，但我们关注的是原始智能。特别是编码性能，是人们广泛使用该模型的一个领域。稍后，团队将演示O1的一些功能，展示它如何快速执行、如何处理非常棘手的问题以及如何管理多模态。

在此之前，我想讨论一下今天要发布的第二个产品。许多ChatGPT的资深用户非常频繁地使用它，并且需要比每月20美元所能提供的更多算力。因此，我们正在推出一个名为ChatGPT Pro的新等级。Pro提供对我们模型的无限访问权限，以及高级语音模式等功能，以及一项名为O1 Pro模式的新功能。O1现在是世界上最智能的模型；然而，在Pro模式中使用的版本更好。对于最棘手的问题，O1 Pro模式允许用户获得更多成果。你们可以看到在竞赛数学和GPQA Diamond性能方面的比较。虽然这些提升看起来可能很小，但在用户真正将这些模型的能力推向极限的复杂工作流程中，它们意义重大。

我想强调一下关于Pro模式的另一件事。人们经常提到的一点是他们对可靠性的渴望。你们可以看到Pro模式的答案可靠性与O1相比的情况，并且性能差异更大。我们的Pro用户已经表达了他们对这种改进的渴望。ChatGPT Pro每月价格为200美元，今天正式推出。在这12天里，我们将添加更多你们会非常喜欢的功能，包括无限模型使用和新的O1 Pro模式。现在，让我们直接进入并展示我们刚才提到的那些演示。

这些是帮助构建O1的一些成员，团队还有许多其他成员在背后默默支持。

Hyeong-won： 谢谢，Sam。你好，我是Hyeong-won。

Jason： 我是Jason。我们都是从事O1构建的研究科学家。O1非常独特，因为它是我们训练的第一个在回应之前进行思考的模型，这意味着它比你们可能尝试过的其他模型提供更好、更详细和更正确的回应。O1今天将面向所有ChatGPT Plus用户以及即将推出的Pro用户推出，取代O1预览版。

Hyeong-won： O1模型比我们在9月份推出的O1预览版更快、更智能。发布后，许多人询问多模态输入，所以我们添加了这个功能。因此，今天上线的O1模型能够同时对图像和文本进行推理。

Max： 正如Sam提到的，今天我们还将推出一个名为ChatGPT Pro的ChatGPT新等级。ChatGPT Pro提供对我们最佳模型（如O1、4.0和高级语音）的无限访问权限。ChatGPT Pro还提供了一种特殊的使用O1的方式，称为O1 Pro模式。使用O1 Pro模式，您可以要求模型使用更多计算能力来更深入地思考一些最困难的问题。我们认为ChatGPT Pro的目标用户将是ChatGPT的资深用户，那些已经在数学、

主持人Sam： 编程和写作方面将模型能力推向极限的用户。看到人们对O1预览版的投入程度，以及全天从事技术工作的人们从中获得的益处，这令人惊叹。我们非常高兴让他们进一步提升其能力。

Jason： 是的，当然。我们也真的认为O1在日常使用场景中会更好，而不一定只是非常困难的数学和编程问题。特别是，我们收到的关于O1预览版的反馈经常提到它太慢了。如果你跟它说“你好”，它会思考10秒钟。我们已经解决了这个问题。这真的让人很烦。说实在的，这有点滑稽。它真的在思考。它很在意。它真的觉得很难回应你的问候。是的，所以我们解决了这个问题。

O1现在会更智能地思考。如果你问它一个简单的问题，它会很快回应。如果你问它一个非常困难的问题，它会思考很长时间。我们对这个模型进行了一套相当详细的人工评估。我们发现，**它犯重大错误的频率比O1预览版低34%，同时思考速度提高了50%**。我们认为这对你们所有人来说都会是一个非常显著的差异。

所以我真的很喜欢和这些模型对话。我是一个历史爱好者，我会向你们快速演示一下，例如，我可能会问这些模型的那种问题。所以在左边，我有O1。右边，我有O1预览版。我只是问它一个非常简单的问题：列出二世纪的罗马皇帝。告诉我他们的在位时间和他们做了什么。不难，但GPT-4o实际上相当一部分时间会答错。

我向O1和O1预览版都问了这个问题。我线下测试了几次，发现O1平均比O1预览版快约60%。这可能会有所波动，因为我们目前正在将所有GPU从O1预览版切换到O1。所以实际上，O1思考了大约14秒，而O1预览版仍在运行中。有很多罗马皇帝，GPT-4o实际上经常会答错。许多皇帝只统治了6天、12天或一个月，它有时会忘记.

Jason： 好的，我们开始了。O1思考了大约14秒。O1-preview思考了大约30秒。

主持人Sam： 一旦我们完成部署，这两个过程都应该会更快，但我们想让它现在就上线。

Jason： 没错。所以，我们认为您会非常喜欢与这个模型对话。我们发现它给出了很好的回应，思考速度也快得多，应该会为每个人带来更好的用户体验。所以，我们知道大家非常想要的一个，用于日常用例并被多次请求的功能是多模态输入和图像理解。现在，Hyongwon将对此进行讲解。

Hyeong-won： 是的，为了说明多模态输入和推理，我用一些手绘图等等创建了这个玩具问题。它在这里。很难看清，所以我已经拍了一张照片。所以让我们在笔记本电脑上看看这张照片。将图像上传到ChatGPT后，您可以单击它查看放大版本。这是一个太空数据中心的系统。也许将来我们想在这个空间训练AI模型。

主持人Sam： 我认为我们应该这样做，但是功率数值看起来有点低。1吉瓦。1吉瓦。好吧，但是总体思路，我认为…在这个行业里，这还是个新手数字。

Hyeong-won： 好的，是的，这里有一个太阳，它在这个太阳能电池板上接收能量，然后这里有一个小型数据中心……

是的。然后是一个不错的泵。在太空运行的一个有趣之处在于，在地球上，我们可以使用空气冷却或水冷却来冷却GPU。但在太空中，什么都没有，所以我们必须将热量辐射到深空。

这就是为什么我们需要这个巨大的散热器冷却面板。这个问题是关于寻找运行这个1吉瓦数据中心所需的冷却面板面积的下限估计。它可能会非常大。

是的，让我们看看它有多大。这就是问题所在。我将使用这个提示，是的，这实际上是在问这个。所以让我点击开始，模型将思考几秒钟。

Max： 顺便说一句，大多数人不知道。我和Hyongwon合作了很长时间。Hyongwon实际上拥有热力学博士学位，这与人工智能完全无关。你总是开玩笑说，直到今天你才能在工作中运用你的博士学位研究成果。所以你可以相信Hyongwon的分析。

Hyeong-won： 最后，感谢你们的邀请。我必须把这个做好。好的，所以模型在这个简单的问题上只思考了10秒钟。让我们看看模型是如何做的。

首先，功率输入（1吉瓦）只在图纸上标注，模型能够很好地捕捉到这一点。然后是辐射传热；这就是我提到的，所以在太空中，其他什么都不重要。当然，做了一些简化的选择。一个关键的方面是，我故意使这个问题信息不足，这意味着关键参数是冷却面板的温度。我把它留空，以便我们可以测试模型处理模糊性的能力。

模型能够识别出这是一个实际上未指定但很重要的参数，并且它选择了正确的温度范围，大约是室温。有了这个，它继续进行分析并做了一大堆事情。它最终找到了所需的面积，即242万平方米。为了了解这有多大，这大约是旧金山土地面积的2%。这太大了。不算太坏。

我将跳过其余的细节，但我认为模型在做出减少所需面积的一致假设方面做得很好。所以，这演示了模型的多模态推理能力。这是一个简单的问题，但O1实际上非常强大。在MMLU和Math Vista等标准基准测试中，O1具有最先进的性能。

现在，Jason将展示提升后的结果。

Max： 很好。我想简要演示一下ChatGPT O1专业模式。人们会发现O1专业模式最适合解决，比如说，复杂的数学、科学或编程问题。这里，我有一个相当具有挑战性的化学问题，O1预览通常会答错。我将让模型开始思考。我们从这些模型中学到的一件事是，对于非常具有挑战性的问题，模型可以思考长达几分钟。对于这个问题，模型通常会思考一到三分钟不等。模型思考时，我们需要为人们提供一些娱乐。我将稍微描述一下这个问题，然后如果模型在我说完后还在思考，我已经准备了一个冷笑话来填补剩下的时间。我希望它能思考很长时间。

您可以看到问题要求一种符合非常特定标准的蛋白质。共有六个标准，挑战在于每个标准都需要相当专业的化学领域知识，模型必须回忆起来。关于这个问题，另一个需要注意的是，这些标准实际上都没有揭示正确的答案。对于任何给定的标准，可能有数十种蛋白质可能符合。因此，模型必须考虑所有候选者，然后检查它们是否符合所有标准。

好的，所以您可以看到模型这次实际上更快；它在53秒内就完成了。您可以点击查看模型得出答案时所经历的一些思考过程。最初，它正在考虑不同的候选者，例如神经配体，然后它得到了正确的答案，即视黄醇。太棒了！

总而言之，我们从Max那里看到O1比O1预览更智能、更快。我们从Hyongwon那里看到O1现在可以对文本和图像进行推理。最后，我们通过ChatGPT专业模式看到，您可以使用O1来思考和推理最难的科学和数学问题。

Hyeong-won： 是的，ChatGPT Pro 版本还有更多功能即将推出。我们正在致力于支持更强大的计算密集型任务，为想要进一步挖掘模型潜力的用户提供更长、更复杂的处理能力。我们仍在努力为 O1 模型添加工具，例如网页浏览、文件上传等等。

Jason： 我们也正努力将 O1 集成到 API 中。我们将为开发者添加一些新功能，包括结构化输出、函数调用、开发者消息和 API 图像理解功能，我们相信你们会非常喜欢。我们预计这将成为开发者们非常棒的模型，真正开启你们可以构建的全新智能化应用领域。我们希望你们像我们一样喜欢它。

主持人Sam： 太棒了！非常感谢你们！祝贺你和团队完成这项工作。我们真的希望你们会喜欢 O1 和 Pro 模式（或 Pro 版本）。我们还有很多东西即将推出。明天我们将为开发者带来一些很棒的内容，然后继续努力。在我们结束之前，能听听你的笑话吗？

Max： 好的，这是我今天早上编的笑话。笑话是这样的：圣诞老人试图让他的大型语言模型解答一道数学题，他反复提示，但都不成功。他最终是怎么解决这个问题的？

他使用了驯鹿强化学习。

主持人Sam： 非常感谢。谢谢。

参考资料: https://www.youtube.com/watch?v=iBfQTnA2n2s，公开发表于2024-12-05

关注公众号后设🌟标，掌握第一手AI新动态

往期精选

瓜哥AI新知

紧追AI业界一手观点、访谈、动态，点滴构建AI底层认知

a16z合伙人艾琳谈人才需求新趋势：将AI应用到物理世界，软硬件全栈工程师缺口激增

全程图文实况｜OpenAI 12天产品发布 - Day8: ChatGPT搜索升级、地图、语音搜索

2万字全文｜陶哲轩和OpenAI对谈数学及科学研究中的AI应用、人脑更善于基于少量数据作出判断

深度｜谷歌Gemini研发VP维尼尔斯360度解读自主AI代理：模型训练/规模/工具/推理和规划/记忆和上下文

伊利亚在NeurIPS 2024演讲全文：预训练时代终结、因为存在数据墙、将出现不可预测的AI、从有限数据中理解事物

OpenAI非池中之物，迎着口水朝MAG-7夺命狂奔

OpenAI CFO弗赖尔作客方舟投资ARK，与木头姐对谈OpenAI的商业模式和AI未来发展走向

深度｜硅谷孵化器YC高管圆桌会议，复盘2024硅谷AI创业热潮

全程图文实况｜OpenAI 12天产品发布 - Day7: Projects-项目方式管理会话

2万字全文｜微软CEO纳德拉专访：奥特曼关注AGI和我想法不同、两家紧张关系显著、10倍速押注AI基建、不要与缩放定律为敌

Gemini 2.0是头猛兽，冲AI代理来的

全程图文实况｜OpenAI 12天产品发布 - Day6: 高级语音模式引入视频

Gemini 2.0产品负责人多希专访：新模型为AI代理而生，原生工具调用+多模态+自主性

全程图文实况｜OpenAI 12天产品发布 - Day5: 苹果智能集成ChatGPT

TED演讲图文｜源自DeepMind的AI药企CEO贾德伯格：AI是如何为人类节省十亿年的研究时间

图文｜DeepMind官方发布量子计算芯片Willow：5分钟计算顶经典计算1E25年、应对经典计算无法解决的问题

全程图文实况｜OpenAI 12天产品发布 - Day4: Canvas

Salesforce CEO贝尼奥夫：两周内将整个公司业务掉头转向AgentForce，不招程序员狂招销售

全程图文实况｜OpenAI 12天产品发布 - Day3: Sora

a16z合伙人伊默曼预言：2025年AI搜索将战火纷飞、谷歌垄断将被打破

深度｜纽约时报专访贝佐斯：AI像外星智能擅长多学科、太空愿景是把污染产业移出地球

深度｜纽约时报专访谷歌CEO皮查伊：AI下一步的突破点不在算力而在算法——规划和推理

AI规模法则撞墙怎么破？揭秘测试时计算——O1之父诺姆·布朗押注的AI精进新范式

深度｜Day1前专访O1之父诺姆：测试时间计算是突破模型能力瓶颈的钥匙、O1的意义被低估了、不要再炒作提示技术

全程图文实况｜OpenAI 12天产品发布 - Day2: 强化微调（RFT）

全程图文实况｜OpenAI 12天产品发布 - Day1：O1完整版/ChatGPT Pro

纽约时报专访奥特曼：如果时光倒流我会要OpenAI股份，马斯克的xAI是强大的对手

发布会图文实况｜AWS CEO加尔曼在re:Invent 2024大会主题演讲（AI产品部分节选）

AWS CEO加尔曼接受彭博社专访：10万Trainium2超级集群2025年初上线、信价比超GPU 30-40%

发布会图文｜直击亚马逊re:Invent 2024: 发布新一代T2 AI芯片、下一代Claude将在数十万片T2集群上训练

Perplexity CEO阿拉文德斯坦福专访：靠产品试用10分钟拿下杨立昆投资、构建体验超越谷歌的广告系统

硅谷IT老炮波贾尼：奥特曼和马斯克为了融资而鼓吹AGI，程序员和产品经理角色界限会变模糊

演讲图文｜资深IT评论员埃文斯：分析师研究视角谈AI的缩放定律、应用场景、部署落地

Databricks CEO阿里专访：AI杀手级应用出现需要时间、仍处于“创新消化阶段”、市场期待过高

Sierra CEO泰勒谈AI市场分层：创业者在工具和应用层有巨大机会、将出现AI对话设计师

图灵奖得主杨立昆分享AI前沿思考：AI领域工程实践领先于理论、5-7年内出现能推理和规划的世界模型

AI教父杨立昆分享自己从非顶尖院校迈向贝尔实验室的逆袭之路，阐述工业界为何是AI年轻科学家的成长沃土

Salesforce CEO贝尼奥夫：AI代理是拓展而非取代劳动力、炮轰微软Copilot只是套壳OpenAI而非真创新

2万字图文｜AI教父杨立昆深入浅出带你了解人工智能的前世今生

李开复谈如何应对AI浪潮：高同理心和高创意人士不容易被AI取代、孩子教育注重沟通说服协作能力

Fireworks CEO/前PyTorch主管林乔专访：开源模型阵列+复合AI将能战胜通用闭源模型

深度｜Databricks CEO阿里谈AI炒作：目前AI处于炒作周期的顶峰，客户更喜欢小模型

Replit CEO谈AI时代创始人和产品经理的三大能力：好的想法+AI提示技巧+调试技能，学编程的回报率六个月翻一番

全程图文｜诺奖得主哈萨比斯在梵蒂冈科学院演讲：AGI是人类理解宇宙的终极通用工具

硅谷孵化器YC圆桌讨论：为什么说垂直行业AI代理价值十倍于SaaS？硅谷落地进展如何？

思科CEO罗宾斯谈企业AI落地：CEO们的心态是兴奋+担忧+困惑，主要的担忧来自于未知安全风险

万字实录｜Anthropic掌门人阿莫迪专访：AI不仅是数学，风险应该慎重对待，能完成人类90%-99%的工作

黄仁勋在香港科技大学接受专访：年轻时向未来妻子许诺30岁成为CEO才抱得美人归、CEO要保持学习、自信和不确定

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉