再度进化！OpenAI推理大模型o1登场，认知提升至“理科博士生水平”

科技 2024-09-13 15:02 浙江

AppOS

科技快讯：是 AppOS 的科技数码资讯专栏，旨在介绍科技圈公司的最新动态。汇总近期科技数码消费领域的新品新技术新爆料，给大家带来一份数码消费日报，欢迎持续关注。欢迎给我们提出宝贵的建议和意见~

#01

 OpenAI o1 来了！

OpenAI在官网发布公告称，向全体订阅用户开始推送OpenAI o1预览模型——“草莓”大模型。OpenAI表示，对于复杂推理任务而言，新模型可以推理复杂的任务并解决比以前的科学、编码和数学模型更难的问题。

「o1」系列模型包含了 OpenAI o1、o1-preview 和 o1-mini 三种版本。现在，ChatGPT Plus 的付费用户可以抢先体验 o1-preview 和 o1-mini 模型，而 o1-mini 模型很快也会对免费用户开放使用。

OpenAI 采用了模仿人类思考过程的创新训练方法。新模型在生成回答前，会花费更多时间进行深度思考。这种训练方式让模型能够优化自身的思维流程，尝试不同的解题策略，并且具备识别和纠正错误的能力。

#02

 OpenAI o1 表现如何？

在物理、化学和生物学等复杂学科的基准测试中，该模型展现出了接近于博士水平的性能。特别是在数学和编程领域，它的表现尤为出色。例如，在国际数学奥林匹克（IMO）的测试中，相比于GPT-4o模型的13%正确率，新模型的正确率高达83%。在编程领域，新模型在Codeforces编程竞赛中的表现也极为亮眼，排名进入了前11%。

AIME 是一项在挑战美国最聪明的高中数学学生的考试。在 2024 年 AIME 考试中，GPT-4o 平均只解决了 12% （1.8/15）的问题。O1 平均 74% （11.1/15）每个问题只有一个样本，83% （12.5/15）在 64 个样本中达成一致，93% （13.9/15）在使用学习评分函数重新排名 1000 个样本时。13.9 分的成绩跻身全国前 500 名学生之列，高于美国数学奥林匹克竞赛的分数线。

o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。实线条显示 pass@1 准确率，阴影区域显示 64 个样本的多数投票（共识）的性能。

o1 系列模型在生成和调试复杂代码方面表现出色。为了更好地满足开发者对高效解决方案的需求，这个优化后的推理模型不仅响应速度快，而且成本低，非常适合开发者在生成和调试复杂代码时使用，以提高工作效率。

#03

 OpenAI o1还存在哪些问题？

在处理速度方面，与以前的模型相比，它在编写代码和解决多步骤问题方面做得更好。但它也比 GPT-4o 更昂贵且使用更慢。

o1有时需要超过10秒才能回答一个问题，这在某些需要快速响应的场景中可能会成为一个问题。

由于这种新的训练方法，OpenAI 表示：“我们注意到这种模型的幻觉较少，模型更加准确，但幻觉问题仍然存在，我们没有彻底解决幻觉。”幻觉指的是生成看似合理但实际上并不准确的信息。o1似乎不如GPT-4o那样经常承认自己不知道答案，这可能会在某些情况下导致误导性的输出。

#04

 谁可以使用OpenAI o1？

自今日起，ChatGPT Plus 用户和团队用户将能够使用 o1-preview 和 o1-mini 模型，而企业版与教育版用户则需等到下周才能获得使用权限。OpenAI 还计划未来向所有 ChatGPT 的免费用户提供 o1-mini 的使用，尽管具体时间表尚未公布。

目前根据官网发布的消息，o1-preview的每周速率限制为30条消息，o1-mini的每周速率限制为50条。

价格方面。对于开发者而言，通过 API 访问 o1 模型的成本相对较高：o1-preview 模型的收费为每100万个输入令牌15美元，每100万个输出令牌60美元。作为对照，GPT-4o 模型的价格为每100万个输入令牌5美元，每100万个输出令牌15美元。这表明 o1 模型的使用成本是 GPT-4o 模型的三倍。

#05

 o1-mini 有哪些特点？

优化的推理能力：o1-mini 经过特殊训练，能够进行更深层次的思考，尤其在科学、编程和数学等领域展现出更强的推理能力。

快速响应：o1-mini 在处理编程任务时不仅表现出色，而且响应速度快，这对于需要快速迭代和调试的开发环境来说是一个显著优势。

成本效益：相比于大型语言模型，o1-mini 成本更低，使用成本降低了80%，这使得它在预算有限的项目中更具吸引力。

专注于STEM领域：o1-mini 在STEM（科学、技术、工程和数学）领域，尤其是数学和编程任务上，展现出几乎与o1相当的性能。

强化学习训练：o1-mini 使用与o1相同的高计算强化学习管道进行训练，这使得它在许多有用的推理任务上实现了相媲美的性能，同时成本效率显著提高。

对于需要 AI 辅助进行复杂推理，特别是在编程领域，同时又希望降本增效的用户来说，o1-mini 是一个理想的选择。

若需购买ChatGPT Plus，抢先体验 o1 推荐复制下方链接或扫描二维码购买⬇️

在购买时优惠券框内输入 AppOS 会有93折优惠～

推荐购买地址：https://nf.video/oVqi2

根据官网限制

标准o1-preview 每周5次，o1-mini 每周15次
专业o1-preview 每周15次，o1-mini 每周25次

——往期精彩内容——

点击公众号名片关注 AppOS

AppOS

专注于推荐Mac上好玩、好用的App。

最新文章

M4 Mac mini 3D打印机壳，一秒变Mac mini Pro主机

苹果回应 M4 Mac mini 电源键为何在底部、新款 Mac Mini 的存储空间可以拆卸升级

下一代iPad Air有望采用90Hz LCD、网传 iPhone 17 全系标配 120Hz

Mac上的旅游搭子、健身教练，Kimi探索版

M4 MacBook Pro、Mac mini 与 iMac 实机抢先看！

MacBook Air 标配至 16GB RAM 起，苹果正式结束 8GB Mac 时代

M4 MacBook Pro 终于登场，标备Liquid视网膜XDR显示屏，Pro 果然有 Pro 的样子

M4 Mac mini 正式上架，真的变小了！而且加量不加价

M4 iMac 与 M1 iMac 相比有什么新功能和提升？

Mac上的旅游搭子、健身教练，我的好朋友Kimi探索版

而今迈步从头越华为原生鸿蒙 HarmonyOS NEXT（5.0）正式发布

双十一全网购买Mac最低价格指南 M3 Macbook Air 标准版到手仅需5472元

深圳政府送补贴福利！智能家居及手机平板纳入补贴范围

加州大学外科医生发现 Apple Vision Pro能够简化手术过程、高分辨率显示让手术更精准

macOS Sequoia 15.1公测版Beta 4发布，Apple Intelligence来了

iPad mini 7 突然发布！外型不变、采用A17 Pro芯片、支持Apple Pencil Pro

Mac如何正确充电，才能保护电池？

苹果将在本月底举办第二场2024 Apple秋季新品发布会，5款新iPad和Mac即将推出

来了！GPT4o接入个人微信！

快速在 macOS Sequoia 中使用窗口布局新功能，让工作空间，随手秩序井然。

苹果将于本月发布新款 Mac，未上市M4 MacBook Pro 开箱曝光

Mac上好用的App推荐丨第十二期

GameViewer远程：你的国庆假期免费娱乐和办公神器！

好用的文献论文管理软件 EndNote 21.4 Mac 正版激活版

来了！GPT4o接入个人微信！

Mac 上免费动态壁纸 Wallpaper Monster

让回忆动起来 —— 微信朋友圈支持实况照片啦！

MacOS 15 更新时间已确定！更新前你应该考虑哪些事？

再度进化！OpenAI推理大模型o1登场，认知提升至“理科博士生水平”

iPhone 16 全系列皆配备 8GB RAM，用来支持苹果AI；A18 Pro 芯片跑分超越 M1芯片

Apple 2024 秋季新品发布会总结，发布iPhone 16 系列等新品！

把拍立得贴在Mac的桌面上，让每一天的工作都充满乐趣！

政府送补贴福利！Mac入手最高优惠2000元~

《黑神话：悟空》壁纸

辟谣：iPhone 16系列不支持微信？不实信息！

网易 Filmly 超听劝！目标打造全终端私人影视库

iPhone 16 发布前调查丨你会考虑升级 iPhone16 系列吗？

在Mac上，免费畅玩《原神》

Apple 特别活动壁纸 iPhone/iPad/Mac

《黑神话：悟空》大火，Mac 上如何才能玩？从安装游戏到流畅启动教程

官网补偿，免费领取15天WPS会员

来了！GPT4o接入个人微信！

科技快讯丨网传苹果9 月 10 日举行秋季发布会

Apple Music 新用户免费三个月！赶快申请

科技快讯丨免费领取7天网易云音乐会员、Apple Watch 10 即将亮相、AirPods 4 今年可能会推出两种型号

iPhone NFC 即将开放给开发者？终于不用再羡慕安卓

超美Mac 壁纸，库卡蒙格牧场「暮光之城」

M4版本Mac mini 变小了？它可能成为史上最小的主机电脑

在Mac 电脑上如何畅玩手游？用它一键搞定～

一款开源简约的音乐播放器 SPlayer 支持音乐免费播放、下载

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉