AppOS
#01
OpenAI o1 来了!
「o1」系列模型包含了 OpenAI o1、o1-preview 和 o1-mini 三种版本。现在,ChatGPT Plus 的付费用户可以抢先体验 o1-preview 和 o1-mini 模型,而 o1-mini 模型很快也会对免费用户开放使用。
OpenAI 采用了模仿人类思考过程的创新训练方法。新模型在生成回答前,会花费更多时间进行深度思考。这种训练方式让模型能够优化自身的思维流程,尝试不同的解题策略,并且具备识别和纠正错误的能力。
#02
OpenAI o1 表现如何?
在物理、化学和生物学等复杂学科的基准测试中,该模型展现出了接近于博士水平的性能。特别是在数学和编程领域,它的表现尤为出色。例如,在国际数学奥林匹克(IMO)的测试中,相比于GPT-4o模型的13%正确率,新模型的正确率高达83%。在编程领域,新模型在Codeforces编程竞赛中的表现也极为亮眼,排名进入了前11%。
AIME 是一项在挑战美国最聪明的高中数学学生的考试。在 2024 年 AIME 考试中,GPT-4o 平均只解决了 12% (1.8/15) 的问题。O1 平均 74% (11.1/15) 每个问题只有一个样本,83% (12.5/15) 在 64 个样本中达成一致,93% (13.9/15) 在使用学习评分函数重新排名 1000 个样本时。13.9 分的成绩跻身全国前 500 名学生之列,高于美国数学奥林匹克竞赛的分数线。
o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。实线条显示 pass@1 准确率,阴影区域显示 64 个样本的多数投票(共识)的性能。
o1 系列模型在生成和调试复杂代码方面表现出色。为了更好地满足开发者对高效解决方案的需求,这个优化后的推理模型不仅响应速度快,而且成本低,非常适合开发者在生成和调试复杂代码时使用,以提高工作效率。
#03
OpenAI o1还存在哪些问题?
在处理速度方面,与以前的模型相比,它在编写代码和解决多步骤问题方面做得更好。但它也比 GPT-4o 更昂贵且使用更慢。
o1有时需要超过10秒才能回答一个问题,这在某些需要快速响应的场景中可能会成为一个问题。
由于这种新的训练方法,OpenAI 表示:“我们注意到这种模型的幻觉较少,模型更加准确,但幻觉问题仍然存在,我们没有彻底解决幻觉。”幻觉指的是生成看似合理但实际上并不准确的信息。o1似乎不如GPT-4o那样经常承认自己不知道答案,这可能会在某些情况下导致误导性的输出。
#04
谁可以使用OpenAI o1?
自今日起,ChatGPT Plus 用户和团队用户将能够使用 o1-preview 和 o1-mini 模型,而企业版与教育版用户则需等到下周才能获得使用权限。OpenAI 还计划未来向所有 ChatGPT 的免费用户提供 o1-mini 的使用,尽管具体时间表尚未公布。
目前根据官网发布的消息,o1-preview的每周速率限制为30条消息,o1-mini的每周速率限制为50条。
价格方面。对于开发者而言,通过 API 访问 o1 模型的成本相对较高:o1-preview 模型的收费为每100万个输入令牌15美元,每100万个输出令牌60美元。作为对照,GPT-4o 模型的价格为每100万个输入令牌5美元,每100万个输出令牌15美元。这表明 o1 模型的使用成本是 GPT-4o 模型的三倍。
#05
o1-mini 有哪些特点?
优化的推理能力:o1-mini 经过特殊训练,能够进行更深层次的思考,尤其在科学、编程和数学等领域展现出更强的推理能力 。
快速响应:o1-mini 在处理编程任务时不仅表现出色,而且响应速度快,这对于需要快速迭代和调试的开发环境来说是一个显著优势 。
成本效益:相比于大型语言模型,o1-mini 成本更低,使用成本降低了80%,这使得它在预算有限的项目中更具吸引力 。
专注于STEM领域:o1-mini 在STEM(科学、技术、工程和数学)领域,尤其是数学和编程任务上,展现出几乎与o1相当的性能 。
强化学习训练:o1-mini 使用与o1相同的高计算强化学习管道进行训练,这使得它在许多有用的推理任务上实现了相媲美的性能,同时成本效率显著提高。
对于需要 AI 辅助进行复杂推理,特别是在编程领域,同时又希望降本增效的用户来说,o1-mini 是一个理想的选择。
标准o1-preview 每周5次,o1-mini 每周15次 专业o1-preview 每周15次,o1-mini 每周25次
点击公众号名片 关注 AppOS
更多精彩内容我们下期见~