OpenAI深夜放大招,具备博士水平的o1模型上线,ChatGPT plus用户即日起可用。

文摘   2024-09-13 09:58   江苏  
据OpenAI官网消息:9月13日,北京凌晨三点,OpenAI发布了两款新模型,分别为o1-preview(预览版)和o1-mini。目前所有ChatGPT的plus用户,即日起就可以使用这两款新模型。另外,OpenAI计划在未来针对free用户也开放对o1-mini的访问权限。目前从官网消息可以看到,针对ChatGPT的plus和team用户,目前也仅能每周使用30次的o1-preview和50次的o1-mini。相比更高的使用权限,可能是留给网传的ChatGPT的Pro用户。此前听说,ChatGPT的Pro用户每月订阅费用高达200美元,是plus用户订阅费的十倍。

o1模型基础介绍

OpenAI的o1模型在问题做出响应之前会花更多时间去思考问题,就像一个人一样。通过培训,o1模型学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

在OpenAI的测试中,下一次模型更新的性能类似于博士生在物理、化学和生物学中具有挑战性的基准任务。OpenAI还发现它在数学和编码方面表现出色。在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o仅正确解决了13%的问题,而o1模型得分为83%。并且o1的编码能力在比赛中得到了评估,并在Codeforces比赛中达到了第89个百分位。该模型在美国数学奥林匹克竞赛(AIME)资格赛中跻身美国前500名学生之列,在物理、生物和化学问题的基准(GPQA)上超过了人类博士水平的准确性。

但是由于o1作为早期模型,它还不具备使 ChatGPT 有用的许多功能,例如浏览网页以获取信息以及上传文件和图像。对于许多常见情况,GPT-4o在短期内会更有能力。而于复杂的推理任务来说,这是一个重大进步,代表了AI 能力的新水平。鉴于此,我们将计数器重置回1并将此系列命名为 OpenAI o1。

o1模型性能评估

为了突出对 GPT-4o 的推理改进,OpenAI在各种检查和ML基准测试中测试了该模型。OpenAI表明:在绝大多数这些推理密集型任务中,o1的性能明显优于GPT-4o。

o1在具有挑战性的推理基准上比GPT-4o有了很大的改进。实线条显示pass@1准确率,阴影区域显示64个样本的多数投票(共识)的性能。

o1在广泛的基准测试中优于GPT-4o,包括54/57MMLU子类别。显示7个示例以进行说明。

在许多推理密集型基准测试中,o1的性能可与人类专家的性能相媲美。最近的Frontier模型1在MATH上做得很好2以及GSM8K,这些基准测试在区分模型方面不再有效。我们评估了AIME的数学成绩,AIME是一项旨在挑战美国最聪明的高中数学学生的考试。在2024年AIME考试中,GPT-4o平均只解决了12%(1.8/15)的问题。O1平均74%(11.1/15)每个问题只有一个样本,83%(12.5/15)在64个样本中达成一致,93%(13.9/15)在使用学习评分函数重新排名1000个样本时。13.9分的成绩跻身全国前500名学生之列,高于美国数学奥林匹克竞赛的分数线。

我们还在GPQA钻石上评估了o1,这是一个困难的智力基准,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,我们聘请了具有博士学位的专家来回答GPQA钻石问题。我们发现o1的性能超过了那些人类专家,成为第一个在此基准测试中做到这一点的模型。这些结果并不意味着o1在所有方面都比博士更有能力——只是说该模型更擅长解决一些博士应该解决的问题。在其他几个ML基准测试中,o1的改进超过了最先进的。开启视觉感知能力后,o1在 MMMU上的得分为78.2%,成为首个与人类专家竞争的模型。在57个MMLU子类别中,它还在54个子类别中的表现优于GPT-4o。

o1模型的适用对象
如果您各位正在处理科学、编码、数学和类似领域的复杂问题,这些增强的推理功能有可能特别有用。例如,医疗保健研究人员可以使用它来注释细胞测序数据,物理学家可以使用它来生成量子光学所需的复杂数学公式,所有领域的开发人员都可以使用它来构建和执行多步骤工作流程。

o1-preview与GPT-4o各场景对比
数学任务执行对比

医学诊断任务对比
化学实验任务对比

想要了解更多关于ChatGPT的应用,请持续关注我,并点击右下角的【在看】【转发】【点赞】以此表鼓励。由于现在推流机制的改变,所以这里作者劳烦各位点一下。如下图所示:

如果你需要使用官方ChatGPT,可以添加作者微信号:【gpt50000】或者扫描下面图片二维码添加,也可以点击下面图片跳转查看最新价格。

掌控AI
OpenAI旗下AI官方渠道及应用教学,分享国外最新AI咨询及使用路径。
 最新文章