OpenAI深夜放大招，具备博士水平的o1模型上线，ChatGPT plus用户即日起可用。

文摘 2024-09-13 09:58 江苏

据OpenAI官网消息：9月13日，北京凌晨三点，OpenAI发布了两款新模型，分别为o1-preview(预览版)和o1-mini。目前所有ChatGPT的plus用户，即日起就可以使用这两款新模型。另外，OpenAI计划在未来针对free用户也开放对o1-mini的访问权限。目前从官网消息可以看到，针对ChatGPT的plus和team用户，目前也仅能每周使用30次的o1-preview和50次的o1-mini。相比更高的使用权限，可能是留给网传的ChatGPT的Pro用户。此前听说，ChatGPT的Pro用户每月订阅费用高达200美元，是plus用户订阅费的十倍。

o1模型基础介绍

OpenAI的o1模型在问题做出响应之前会花更多时间去思考问题，就像一个人一样。通过培训，o1模型学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误。

在OpenAI的测试中，下一次模型更新的性能类似于博士生在物理、化学和生物学中具有挑战性的基准任务。OpenAI还发现它在数学和编码方面表现出色。在国际数学奥林匹克竞赛(IMO)的资格考试中，GPT-4o仅正确解决了13%的问题，而o1模型得分为83%。并且o1的编码能力在比赛中得到了评估，并在Codeforces比赛中达到了第89个百分位。该模型在美国数学奥林匹克竞赛(AIME)资格赛中跻身美国前500名学生之列，在物理、生物和化学问题的基准(GPQA)上超过了人类博士水平的准确性。

但是由于o1作为早期模型，它还不具备使 ChatGPT 有用的许多功能，例如浏览网页以获取信息以及上传文件和图像。对于许多常见情况，GPT-4o在短期内会更有能力。而对于复杂的推理任务来说，这是一个重大进步，代表了AI 能力的新水平。鉴于此，我们将计数器重置回1并将此系列命名为 OpenAI o1。

o1模型性能评估

为了突出对 GPT-4o 的推理改进，OpenAI在各种检查和ML基准测试中测试了该模型。OpenAI表明：在绝大多数这些推理密集型任务中，o1的性能明显优于GPT-4o。

o1在具有挑战性的推理基准上比GPT-4o有了很大的改进。实线条显示pass@1准确率，阴影区域显示64个样本的多数投票（共识）的性能。

o1在广泛的基准测试中优于GPT-4o，包括54/57MMLU子类别。显示7个示例以进行说明。

在许多推理密集型基准测试中，o1的性能可与人类专家的性能相媲美。最近的Frontier模型1在MATH上做得很好2以及GSM8K，这些基准测试在区分模型方面不再有效。我们评估了AIME的数学成绩，AIME是一项旨在挑战美国最聪明的高中数学学生的考试。在2024年AIME考试中，GPT-4o平均只解决了12%(1.8/15)的问题。O1平均74%(11.1/15)每个问题只有一个样本，83%(12.5/15)在64个样本中达成一致，93%(13.9/15)在使用学习评分函数重新排名1000个样本时。13.9分的成绩跻身全国前500名学生之列，高于美国数学奥林匹克竞赛的分数线。

我们还在GPQA钻石上评估了o1，这是一个困难的智力基准，用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较，我们聘请了具有博士学位的专家来回答GPQA钻石问题。我们发现o1的性能超过了那些人类专家，成为第一个在此基准测试中做到这一点的模型。这些结果并不意味着o1在所有方面都比博士更有能力——只是说该模型更擅长解决一些博士应该解决的问题。在其他几个ML基准测试中，o1的改进超过了最先进的。开启视觉感知能力后，o1在 MMMU上的得分为78.2%，成为首个与人类专家竞争的模型。在57个MMLU子类别中，它还在54个子类别中的表现优于GPT-4o。

o1模型的适用对象
如果您各位正在处理科学、编码、数学和类似领域的复杂问题，这些增强的推理功能有可能特别有用。例如，医疗保健研究人员可以使用它来注释细胞测序数据，物理学家可以使用它来生成量子光学所需的复杂数学公式，所有领域的开发人员都可以使用它来构建和执行多步骤工作流程。

o1-preview与GPT-4o各场景对比
数学任务执行对比

医学诊断任务对比

化学实验任务对比

想要了解更多关于ChatGPT的应用，请持续关注我，并点击右下角的【在看】【转发】【点赞】以此表鼓励。由于现在推流机制的改变，所以这里作者劳烦各位点一下。如下图所示：

如果你需要使用官方ChatGPT，可以添加作者微信号：【gpt50000】或者扫描下面图片二维码添加，也可以点击下面图片跳转查看最新价格。

http://mp.weixin.qq.com/s?__biz=MzkyNjY4NjUxOA==&mid=2247484391&idx=1&sn=4d06529b3d35083fc8a74ba9e7a5c959

掌控AI

OpenAI旗下AI官方渠道及应用教学，分享国外最新AI咨询及使用路径。

最新文章

ChatGPT快速制作PPT，最详细的可行方案讲解【全程演示】

ChatGPT新功能Search GPT上线，让你检索的效率倍增，尤其数据查询和文献检索。

ChatGPT为你的观点或论文中的长短句，精准引用真实的学术文献，并给出学术规范的引用格式

ChatGPT-Canvas对我们的学术文章进行辅助审稿并自动修改，全流程演示

只需要这一个指令，让ChatGPT辅助你精细化阅读文献。

ChatGPT基于收集好的大量文献，来撰写文献综述论文的操作思路。【操作升级】

如何利用ChatGPT撰写出万字以上的文献综述类论文，全程演示附指令【03】

全面解析ChatGPT的Canvas写作有哪些具体的功能，全网最详细！

如何使ChatGPT给出真实文献？这期一次性讲明白

如何用ChatGPT为自己论文初稿快速引用真实文献，全程演示附指令【02】

OpenAI深夜放大招，具备博士水平的o1模型上线，ChatGPT plus用户即日起可用。

如何利用ChatGPT撰写出一篇完整论文的操作思路，全程演示附指令【01】

ChatGPT对你的数据一站式服务，从数据处理、分析、建模，再到绘图等等【附指令】

这款搞科研学术的ChatGPT子应用，99%的人都不知道

斯坦福医学战略研究院推荐关于ChatGPT撰写课题申报的指令提示词

不会编辑ChatGPT的指令提示词？这9种提示词框架拿来就用

顶刊《Nature》再次重磅推荐：ChatGPT在学术应用上的1条指令

ChatGPT对手中大量的文献进行高效综述并完成撰写，全流程演示【附指令】

ChatGPT的学术应用之挖掘研究热点与研究空白并完成选题，全面解析【附插件及指令】

ChatGPT的这个插件应用可成为你的学术论文导师

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉