o1模型基础介绍
OpenAI的o1模型在问题做出响应之前会花更多时间去思考问题,就像一个人一样。通过培训,o1模型学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。
在OpenAI的测试中,下一次模型更新的性能类似于博士生在物理、化学和生物学中具有挑战性的基准任务。OpenAI还发现它在数学和编码方面表现出色。在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o仅正确解决了13%的问题,而o1模型得分为83%。并且o1的编码能力在比赛中得到了评估,并在Codeforces比赛中达到了第89个百分位。该模型在美国数学奥林匹克竞赛(AIME)资格赛中跻身美国前500名学生之列,在物理、生物和化学问题的基准(GPQA)上超过了人类博士水平的准确性。
但是由于o1作为早期模型,它还不具备使 ChatGPT 有用的许多功能,例如浏览网页以获取信息以及上传文件和图像。对于许多常见情况,GPT-4o在短期内会更有能力。而对于复杂的推理任务来说,这是一个重大进步,代表了AI 能力的新水平。鉴于此,我们将计数器重置回1并将此系列命名为 OpenAI o1。
o1模型性能评估
为了突出对 GPT-4o 的推理改进,OpenAI在各种检查和ML基准测试中测试了该模型。OpenAI表明:在绝大多数这些推理密集型任务中,o1的性能明显优于GPT-4o。
o1在具有挑战性的推理基准上比GPT-4o有了很大的改进。实线条显示pass@1准确率,阴影区域显示64个样本的多数投票(共识)的性能。
o1在广泛的基准测试中优于GPT-4o,包括54/57MMLU子类别。显示7个示例以进行说明。
在许多推理密集型基准测试中,o1的性能可与人类专家的性能相媲美。最近的Frontier模型1在MATH上做得很好2以及GSM8K,这些基准测试在区分模型方面不再有效。我们评估了AIME的数学成绩,AIME是一项旨在挑战美国最聪明的高中数学学生的考试。在2024年AIME考试中,GPT-4o平均只解决了12%(1.8/15)的问题。O1平均74%(11.1/15)每个问题只有一个样本,83%(12.5/15)在64个样本中达成一致,93%(13.9/15)在使用学习评分函数重新排名1000个样本时。13.9分的成绩跻身全国前500名学生之列,高于美国数学奥林匹克竞赛的分数线。
我们还在GPQA钻石上评估了o1,这是一个困难的智力基准,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,我们聘请了具有博士学位的专家来回答GPQA钻石问题。我们发现o1的性能超过了那些人类专家,成为第一个在此基准测试中做到这一点的模型。这些结果并不意味着o1在所有方面都比博士更有能力——只是说该模型更擅长解决一些博士应该解决的问题。在其他几个ML基准测试中,o1的改进超过了最先进的。开启视觉感知能力后,o1在 MMMU上的得分为78.2%,成为首个与人类专家竞争的模型。在57个MMLU子类别中,它还在54个子类别中的表现优于GPT-4o。
o1模型的适用对象
如果您各位正在处理科学、编码、数学和类似领域的复杂问题,这些增强的推理功能有可能特别有用。例如,医疗保健研究人员可以使用它来注释细胞测序数据,物理学家可以使用它来生成量子光学所需的复杂数学公式,所有领域的开发人员都可以使用它来构建和执行多步骤工作流程。
数学任务执行对比
想要了解更多关于ChatGPT的应用,请持续关注我,并点击右下角的【在看】【转发】【点赞】以此表鼓励。由于现在推流机制的改变,所以这里作者劳烦各位点一下。如下图所示:
如果你需要使用官方ChatGPT,可以添加作者微信号:【gpt50000】或者扫描下面图片二维码添加,也可以点击下面图片跳转查看最新价格。