再度进化!OpenAI推理大模型o1登场,认知提升至“理科博士生水平”

科技   2024-09-13 15:02   浙江  

AppOS

科技快讯:AppOS 的科技数码资讯专栏,旨在介绍科技圈公司的最新动态。汇总近期科技数码消费领域的新品新技术新爆料,给大家带来一份数码消费日报,欢迎持续关注。欢迎给我们提出宝贵的建议和意见~



#01

  OpenAI o1 来了! 

OpenAI在官网发布公告称,向全体订阅用户开始推送OpenAI o1预览模型——“草莓”大模型。OpenAI表示,对于复杂推理任务而言,新模型可以推理复杂的任务并解决比以前的科学、编码和数学模型更难的问题。

「o1」系列模型包含了 OpenAI o1、o1-preview 和 o1-mini 三种版本。现在,ChatGPT Plus 的付费用户可以抢先体验 o1-preview 和 o1-mini 模型,而 o1-mini 模型很快也会对免费用户开放使用。

OpenAI 采用了模仿人类思考过程的创新训练方法。新模型在生成回答前,会花费更多时间进行深度思考。这种训练方式让模型能够优化自身的思维流程,尝试不同的解题策略,并且具备识别和纠正错误的能力。


#02

  OpenAI o1 表现如何? 

在物理、化学和生物学等复杂学科的基准测试中,该模型展现出了接近于博士水平的性能。特别是在数学和编程领域,它的表现尤为出色。例如,在国际数学奥林匹克(IMO)的测试中,相比于GPT-4o模型的13%正确率,新模型的正确率高达83%。在编程领域,新模型在Codeforces编程竞赛中的表现也极为亮眼,排名进入了前11%。

AIME 是一项在挑战美国最聪明的高中数学学生的考试。在 2024 年 AIME 考试中,GPT-4o 平均只解决了 12% (1.8/15) 的问题。O1 平均 74% (11.1/15) 每个问题只有一个样本,83% (12.5/15) 在 64 个样本中达成一致,93% (13.9/15) 在使用学习评分函数重新排名 1000 个样本时。13.9 分的成绩跻身全国前 500 名学生之列,高于美国数学奥林匹克竞赛的分数线。

o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。实线条显示 pass@1 准确率,阴影区域显示 64 个样本的多数投票(共识)的性能。

o1 系列模型在生成和调试复杂代码方面表现出色。为了更好地满足开发者对高效解决方案的需求,这个优化后的推理模型不仅响应速度快,而且成本低,非常适合开发者在生成和调试复杂代码时使用,以提高工作效率。


#03

  OpenAI o1还存在哪些问题? 

在处理速度方面,与以前的模型相比,它在编写代码和解决多步骤问题方面做得更好。但它也比 GPT-4o 更昂贵且使用更慢。

o1有时需要超过10秒才能回答一个问题,这在某些需要快速响应的场景中可能会成为一个问题。

由于这种新的训练方法,OpenAI 表示:“我们注意到这种模型的幻觉较少,模型更加准确,但幻觉问题仍然存在,我们没有彻底解决幻觉。”幻觉指的是生成看似合理但实际上并不准确的信息。o1似乎不如GPT-4o那样经常承认自己不知道答案,这可能会在某些情况下导致误导性的输出。


#04

  谁可以使用OpenAI o1? 

自今日起,ChatGPT Plus 用户和团队用户将能够使用 o1-preview 和 o1-mini 模型,而企业版与教育版用户则需等到下周才能获得使用权限。OpenAI 还计划未来向所有 ChatGPT 的免费用户提供 o1-mini 的使用,尽管具体时间表尚未公布。

目前根据官网发布的消息,o1-preview的每周速率限制为30条消息,o1-mini的每周速率限制为50条。

价格方面。对于开发者而言,通过 API 访问 o1 模型的成本相对较高:o1-preview 模型的收费为每100万个输入令牌15美元,每100万个输出令牌60美元。作为对照,GPT-4o 模型的价格为每100万个输入令牌5美元,每100万个输出令牌15美元。这表明 o1 模型的使用成本是 GPT-4o 模型的三倍。


#05

  o1-mini 有哪些特点? 

优化的推理能力:o1-mini 经过特殊训练,能够进行更深层次的思考,尤其在科学、编程和数学等领域展现出更强的推理能力 。

快速响应:o1-mini 在处理编程任务时不仅表现出色,而且响应速度快,这对于需要快速迭代和调试的开发环境来说是一个显著优势 。

成本效益:相比于大型语言模型,o1-mini 成本更低,使用成本降低了80%,这使得它在预算有限的项目中更具吸引力 。

专注于STEM领域:o1-mini 在STEM(科学、技术、工程和数学)领域,尤其是数学和编程任务上,展现出几乎与o1相当的性能 。

强化学习训练:o1-mini 使用与o1相同的高计算强化学习管道进行训练,这使得它在许多有用的推理任务上实现了相媲美的性能,同时成本效率显著提高。

对于需要 AI 辅助进行复杂推理,特别是在编程领域,同时又希望降本增效的用户来说,o1-mini 是一个理想的选择。

若需购买ChatGPT Plus,抢先体验 o1 推荐复制下方链接或扫描二维码购买⬇️
在购买时优惠券框内输入 AppOS 会有93折优惠
推荐购买地址:https://nf.video/oVqi2

根据官网限制
  • 标准o1-preview 每周5次,o1-mini 每周15次
  • 专业o1-preview 每周15次,o1-mini 每周25次


——往期精彩内容——


点击公众号名片 关注 AppOS

更多精彩内容我们下期见~

AppOS
专注于推荐Mac上好玩、好用的App。
 最新文章