👇关注公众号后设🌟标,掌握第一手AI新动态
本文内容整理自OpenAI12天产品发布-第一天,公开发表于2024年12月05日。原始内容参考:https://www.youtube.com/watch?v=iBfQTnA2n2s
内容提要:OpenAI 12天发布会 - Day1O1完整版: 这是O1预览版的升级版,拥有更快的速度、更强的智能、多模态输入能力(支持图像和文本),以及更佳的指令遵循能力。在数学、竞赛编程、GPQA和钻石任务等方面都有显著提升,尤其在编码性能上表现出色。 它能够“思考”后作答,提供更准确、详细的回应,并且解决了预览版速度慢的问题。 ChatGPT Pro推出: 这是一个针对高频用户的高级订阅服务,每月费用200美元。它提供对OpenAI最佳模型(包括O1、GPT-4.0和高级语音模式)的无限访问权限,以及一个名为“O1 Pro模式”的新功能。O1 Pro模式利用更多算力,能够更有效地解决复杂问题,并提升答案的可靠性。 O1的改进: 与O1预览版相比,O1完整版犯重大错误的频率降低了34%,思考速度提高了50%。 O1的多模态能力演示: 通过一个关于太空数据中心散热器面积计算的例子,演示了O1能够处理图像和文本信息,并进行多模态推理的能力。 O1 Pro模式的优势: 通过一个复杂的化学问题,演示了O1 Pro模式在解决极具挑战性的科学和数学问题上的优势,展现了其更强大的推理能力和更快的计算速度。 未来规划: OpenAI计划为O1添加更多功能,例如网页浏览、文件上传等;并将O1集成到API中,为开发者提供更多功能,例如结构化输出、函数调用等。 ChatGPT Pro也将持续更新,提供更强大的计算能力和更长的处理时间。
发布会图文实况
主持人Sam: 大家好,欢迎来到为期12天的OpenAI活动。我们将尝试一些据我们所知,之前没有任何科技公司做过的事情。在接下来的12个工作日里,我们将发布或演示一些我们新开发的产品。我们认为从今天开始,我们有一些很棒的东西要呈现给你们,希望你们会真正喜欢。我们会尽量让这个过程有趣且快速,不占用太多时间。这将是向你们展示我们一直在努力的方向,并献上我们的一份节日小礼。那么,让我们直接进入第一天。
今天,我们实际上要发布两款产品。第一个是O1的完整版。我们一直在努力工作,并倾听了你们的反馈。你们喜欢O1预览版,但希望它更智能、更快、多模态,并且在指令遵循等方面表现更好。因此,我们投入了大量工作,对于科学家、工程师和程序员来说,我们认为他们会真正喜欢这个新模型。我想快速向你们展示它的性能。你们可以看到从GPT-4.0到O1预览版在数学、竞赛编程、GPQA和钻石任务上的飞跃,并且会注意到O1代表着显著的进步。它在许多其他方面也更好,但我们关注的是原始智能。特别是编码性能,是人们广泛使用该模型的一个领域。稍后,团队将演示O1的一些功能,展示它如何快速执行、如何处理非常棘手的问题以及如何管理多模态。
在此之前,我想讨论一下今天要发布的第二个产品。许多ChatGPT的资深用户非常频繁地使用它,并且需要比每月20美元所能提供的更多算力。因此,我们正在推出一个名为ChatGPT Pro的新等级。Pro提供对我们模型的无限访问权限,以及高级语音模式等功能,以及一项名为O1 Pro模式的新功能。O1现在是世界上最智能的模型;然而,在Pro模式中使用的版本更好。对于最棘手的问题,O1 Pro模式允许用户获得更多成果。你们可以看到在竞赛数学和GPQA Diamond性能方面的比较。虽然这些提升看起来可能很小,但在用户真正将这些模型的能力推向极限的复杂工作流程中,它们意义重大。
我想强调一下关于Pro模式的另一件事。人们经常提到的一点是他们对可靠性的渴望。你们可以看到Pro模式的答案可靠性与O1相比的情况,并且性能差异更大。我们的Pro用户已经表达了他们对这种改进的渴望。ChatGPT Pro每月价格为200美元,今天正式推出。在这12天里,我们将添加更多你们会非常喜欢的功能,包括无限模型使用和新的O1 Pro模式。现在,让我们直接进入并展示我们刚才提到的那些演示。
这些是帮助构建O1的一些成员,团队还有许多其他成员在背后默默支持。
Hyeong-won: 谢谢,Sam。你好,我是Hyeong-won。
Jason: 我是Jason。我们都是从事O1构建的研究科学家。O1非常独特,因为它是我们训练的第一个在回应之前进行思考的模型,这意味着它比你们可能尝试过的其他模型提供更好、更详细和更正确的回应。O1今天将面向所有ChatGPT Plus用户以及即将推出的Pro用户推出,取代O1预览版。
Hyeong-won: O1模型比我们在9月份推出的O1预览版更快、更智能。发布后,许多人询问多模态输入,所以我们添加了这个功能。因此,今天上线的O1模型能够同时对图像和文本进行推理。
Max: 正如Sam提到的,今天我们还将推出一个名为ChatGPT Pro的ChatGPT新等级。ChatGPT Pro提供对我们最佳模型(如O1、4.0和高级语音)的无限访问权限。ChatGPT Pro还提供了一种特殊的使用O1的方式,称为O1 Pro模式。使用O1 Pro模式,您可以要求模型使用更多计算能力来更深入地思考一些最困难的问题。我们认为ChatGPT Pro的目标用户将是ChatGPT的资深用户,那些已经在数学、
主持人Sam: 编程和写作方面将模型能力推向极限的用户。看到人们对O1预览版的投入程度,以及全天从事技术工作的人们从中获得的益处,这令人惊叹。我们非常高兴让他们进一步提升其能力。
Jason: 是的,当然。我们也真的认为O1在日常使用场景中会更好,而不一定只是非常困难的数学和编程问题。特别是,我们收到的关于O1预览版的反馈经常提到它太慢了。如果你跟它说“你好”,它会思考10秒钟。我们已经解决了这个问题。这真的让人很烦。说实在的,这有点滑稽。它真的在思考。它很在意。它真的觉得很难回应你的问候。是的,所以我们解决了这个问题。
O1现在会更智能地思考。如果你问它一个简单的问题,它会很快回应。如果你问它一个非常困难的问题,它会思考很长时间。我们对这个模型进行了一套相当详细的人工评估。我们发现,**它犯重大错误的频率比O1预览版低34%,同时思考速度提高了50%**。我们认为这对你们所有人来说都会是一个非常显著的差异。
所以我真的很喜欢和这些模型对话。我是一个历史爱好者,我会向你们快速演示一下,例如,我可能会问这些模型的那种问题。所以在左边,我有O1。右边,我有O1预览版。我只是问它一个非常简单的问题:列出二世纪的罗马皇帝。告诉我他们的在位时间和他们做了什么。不难,但GPT-4o实际上相当一部分时间会答错。
我向O1和O1预览版都问了这个问题。我线下测试了几次,发现O1平均比O1预览版快约60%。这可能会有所波动,因为我们目前正在将所有GPU从O1预览版切换到O1。所以实际上,O1思考了大约14秒,而O1预览版仍在运行中。有很多罗马皇帝,GPT-4o实际上经常会答错。许多皇帝只统治了6天、12天或一个月,它有时会忘记.
Jason: 好的,我们开始了。O1思考了大约14秒。O1-preview思考了大约30秒。
主持人Sam: 一旦我们完成部署,这两个过程都应该会更快,但我们想让它现在就上线。
Jason: 没错。所以,我们认为您会非常喜欢与这个模型对话。我们发现它给出了很好的回应,思考速度也快得多,应该会为每个人带来更好的用户体验。所以,我们知道大家非常想要的一个,用于日常用例并被多次请求的功能是多模态输入和图像理解。现在,Hyongwon将对此进行讲解。
Hyeong-won: 是的,为了说明多模态输入和推理,我用一些手绘图等等创建了这个玩具问题。它在这里。很难看清,所以我已经拍了一张照片。所以让我们在笔记本电脑上看看这张照片。将图像上传到ChatGPT后,您可以单击它查看放大版本。这是一个太空数据中心的系统。也许将来我们想在这个空间训练AI模型。
主持人Sam: 我认为我们应该这样做,但是功率数值看起来有点低。1吉瓦。1吉瓦。好吧,但是总体思路,我认为…在这个行业里,这还是个新手数字。
Hyeong-won: 好的,是的,这里有一个太阳,它在这个太阳能电池板上接收能量,然后这里有一个小型数据中心……
是的。然后是一个不错的泵。在太空运行的一个有趣之处在于,在地球上,我们可以使用空气冷却或水冷却来冷却GPU。但在太空中,什么都没有,所以我们必须将热量辐射到深空。
这就是为什么我们需要这个巨大的散热器冷却面板。这个问题是关于寻找运行这个1吉瓦数据中心所需的冷却面板面积的下限估计。它可能会非常大。
是的,让我们看看它有多大。这就是问题所在。我将使用这个提示,是的,这实际上是在问这个。所以让我点击开始,模型将思考几秒钟。
Max: 顺便说一句,大多数人不知道。我和Hyongwon合作了很长时间。Hyongwon实际上拥有热力学博士学位,这与人工智能完全无关。你总是开玩笑说,直到今天你才能在工作中运用你的博士学位研究成果。所以你可以相信Hyongwon的分析。
Hyeong-won: 最后,感谢你们的邀请。我必须把这个做好。好的,所以模型在这个简单的问题上只思考了10秒钟。让我们看看模型是如何做的。
首先,功率输入(1吉瓦)只在图纸上标注,模型能够很好地捕捉到这一点。然后是辐射传热;这就是我提到的,所以在太空中,其他什么都不重要。当然,做了一些简化的选择。一个关键的方面是,我故意使这个问题信息不足,这意味着关键参数是冷却面板的温度。我把它留空,以便我们可以测试模型处理模糊性的能力。
模型能够识别出这是一个实际上未指定但很重要的参数,并且它选择了正确的温度范围,大约是室温。有了这个,它继续进行分析并做了一大堆事情。它最终找到了所需的面积,即242万平方米。为了了解这有多大,这大约是旧金山土地面积的2%。这太大了。不算太坏。
我将跳过其余的细节,但我认为模型在做出减少所需面积的一致假设方面做得很好。所以,这演示了模型的多模态推理能力。这是一个简单的问题,但O1实际上非常强大。在MMLU和Math Vista等标准基准测试中,O1具有最先进的性能。
现在,Jason将展示提升后的结果。
Max: 很好。我想简要演示一下ChatGPT O1专业模式。人们会发现O1专业模式最适合解决,比如说,复杂的数学、科学或编程问题。这里,我有一个相当具有挑战性的化学问题,O1预览通常会答错。我将让模型开始思考。我们从这些模型中学到的一件事是,对于非常具有挑战性的问题,模型可以思考长达几分钟。对于这个问题,模型通常会思考一到三分钟不等。模型思考时,我们需要为人们提供一些娱乐。我将稍微描述一下这个问题,然后如果模型在我说完后还在思考,我已经准备了一个冷笑话来填补剩下的时间。我希望它能思考很长时间。
您可以看到问题要求一种符合非常特定标准的蛋白质。共有六个标准,挑战在于每个标准都需要相当专业的化学领域知识,模型必须回忆起来。关于这个问题,另一个需要注意的是,这些标准实际上都没有揭示正确的答案。对于任何给定的标准,可能有数十种蛋白质可能符合。因此,模型必须考虑所有候选者,然后检查它们是否符合所有标准。
好的,所以您可以看到模型这次实际上更快;它在53秒内就完成了。您可以点击查看模型得出答案时所经历的一些思考过程。最初,它正在考虑不同的候选者,例如神经配体,然后它得到了正确的答案,即视黄醇。太棒了!
总而言之,我们从Max那里看到O1比O1预览更智能、更快。我们从Hyongwon那里看到O1现在可以对文本和图像进行推理。最后,我们通过ChatGPT专业模式看到,您可以使用O1来思考和推理最难的科学和数学问题。
Hyeong-won: 是的,ChatGPT Pro 版本还有更多功能即将推出。我们正在致力于支持更强大的计算密集型任务,为想要进一步挖掘模型潜力的用户提供更长、更复杂的处理能力。我们仍在努力为 O1 模型添加工具,例如网页浏览、文件上传等等。
Jason: 我们也正努力将 O1 集成到 API 中。我们将为开发者添加一些新功能,包括结构化输出、函数调用、开发者消息和 API 图像理解功能,我们相信你们会非常喜欢。我们预计这将成为开发者们非常棒的模型,真正开启你们可以构建的全新智能化应用领域。我们希望你们像我们一样喜欢它。
主持人Sam: 太棒了!非常感谢你们!祝贺你和团队完成这项工作。我们真的希望你们会喜欢 O1 和 Pro 模式(或 Pro 版本)。我们还有很多东西即将推出。明天我们将为开发者带来一些很棒的内容,然后继续努力。在我们结束之前,能听听你的笑话吗?
Max: 好的,这是我今天早上编的笑话。笑话是这样的:圣诞老人试图让他的大型语言模型解答一道数学题,他反复提示,但都不成功。他最终是怎么解决这个问题的?
他使用了驯鹿强化学习。
主持人Sam: 非常感谢。谢谢。
参考资料: https://www.youtube.com/watch?v=iBfQTnA2n2s,公开发表于2024-12-05
关注公众号后设🌟标,掌握第一手AI新动态