首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

GPT系列已被终结？OpenAI发布最强「o1」大模型，我们迈向了AI行业的新纪元

文摘科技 2024-09-13 20:35 广东

前天刚说OpenAI将在未来两周内上线最新最强的草莓大模型。话音未落，OpenAI就发布了o1模型。根据官方说法，o1模型的推理能力代表了如今人工智能的最高水平。

而OpenAI的CEO 奥特曼（Sam Altman）更是公开表示：o1是一个新范式的开始：可以进行通用复杂推理的AI。

之前我们一直提到的草莓大模型，就是o1。这个名字的由来也很有意思。

对于复杂的推理任务，这是一个重大的进步，代表了人工智能能力的新水平。考虑到这一点，我们将计数器重置为1，并将本系列命名为OpenAI o1。

说一千道一万，不如数据来得直接。

以2024美国数学邀请赛为测试题，GPT-4o 解决了 13.4% 的问题，o1 preview版本的正确率为56.7%，o1正式版的正确率超过80%；

以CodeForces为测试题，GPT-4o 准确率为11%，o1 preview版本的正确率为62%，o1正式版的正确率为89%；

最后，以GPQA Diamond为测试题，GPT-4o 准确率为56.1%，o1 preview版本的正确率为78.3%，o1正式版的正确率为78%，后面是人类专家的正确率69.7%。

这次发布的o1有三个不同的版本，分别是o1、o1 preview以及o1 mini。上面测试的数据中没有o1 mini。现阶段除了o1外，另外两种模型已经开放给plus跟team会员使用，未来会考虑开放给所有免费用户。

以下是三种模型的介绍：

o1-新的大模型天花板，由于性能过于强大，还不方便对外公布；

o1 preview-o1的早期版本，现已开放给plus与team会员使用；

o1 mini-速度更快、性价比更高，适用于需要推理和无需广泛世界知识的任务；

如果看不懂o1 mini与preview，可以回看这篇草莓模型，看完你就会知道什么叫无需广泛世界知识任务。

针对o1模型，OpenAI员工一般都是【系统1】和【系统2】来区分o1与之前的模型。

o1通过Self play RL来学会思维链，并从中知道如何识别和纠正错误。以OpenAI这种用户的量级，o1每天进步的速度是很恐怖的。

我想象不到明年的这个时候，o1会有多强。

现阶段，普通用户的访问次数是：o1 preview是每周30条，o1 mini是每周50条。

开发者的访问次数是：每分钟20条，但仅对于等级5或以上开放（支付过超过1000美金）。

以周为计算单位，与之前3小时80条简直是天壤之别！！！

未来，应该会开设不同的订阅级别，以满足不同人群的访问需求。200美元只是起步，上不封顶可能没有，但2000美元应该不是空谈。

至于提示词书写格式，OpenAI给了个格式：

1.编写清晰的说明

2.提供参考文本

3.将复杂任务拆分成更简单的子任务

4.给模型时间“思考”

5.使用外部工具

6.系统地测试与优化更改

听起来有点拗口，所以我稍微简化了一下：

保持提示简单直接：模型擅长理解和响应简短、清晰的指令，不需要大量指导；

避免思路链提示：o1本身就采用了Self play RL，所以不需要再提示它们“逐步思考”或“解释你的推理”。比如过去我们常常用【请一步一步思考】等这样的提示词去让GPT更有条理地思考，从而输出更贴合我们需求的回答；

使用分隔符来提高清晰度：使用三重引号、XML 标签等分隔符来清楚地指示输入的不同部分，帮助模型适当地解释不同的部分。这部分还是跟之前的提示词格式一样；

限制检索增强生成 (RAG) 中的附加上下文：提供上下文或文档时，只包含最相关的信息，防止o1模型过度复杂化。

〔写在最后〕

o1最强大的地方在于它可以成为数据飞轮的一部分。它每给出一个正确的答案，其背后的整个路径就是一个包含正负奖励（也就是我们之前说的奖励模型）的训练数据集。

以OpenAI的用户量级，我们可以预见这种训练数据集会越来越精细，模型的性能说不定是以指数级暴增。

但说了o1这么多牛逼的地方，它也依旧有很多肉眼可见的问题。

比如，经典的【9.11和9.8，哪个数字比较大】。o1依旧是回答【9.11大】。

但我相信这个问题，它很快就能回答正确。

随着o1模型的发布，接下来应该就要迎来老对手的狙击。正如我们之前所说的：第二阶段的大模型爆发期即将来临！

之前英伟达的CEO黄仁勋曾预测：AGI或许在2029年出现。

现在我觉得，AGI的时代应该会更早一点到来。

你都看到这了，不如，随个赞、点个在看呗~

感谢你一路到看这。

点这里👇关注我，记得标星哦～

彼方学院（Animation Comics Games Academy 简称:ACG ）是一个拥有专业团队，面向全球动漫游戏数字媒体元宇宙的从业者及爱好者、高校、研发机构等相关行业，提供多样化、定制化服务的综合平台。

最新文章

活动回顾 | 彼方学院&广州华商学院人工智能学院线下「AI & Prompt」主题分享会

OpenAI「圣诞狂欢」第三天 | Sora正式上线，它没有辜负期待，但也没超越期待

OpenAI「圣诞狂欢」第一天 | 满血版o1正式上线，有点东西但不多

10秒直出一张海报 | 即梦全新绘画大模型让设计师又双叒叕「失业」了

Sora遭遇严重泄露！艺术家愤怒"复仇"OpenAI，测试通道全网疯传3小时后紧急关闭

AI视频生成迎来重大突破：国产Vidu模型实现多主体完美融合，30秒生成电影级画面

秘塔AI上线“知识库”功能，AI搜索领域再掀波澜

打败Stability，赶超Midjourney，险胜FLUX，这个AI绘画产品叫Recaft

字节新产品「炉米Lumi」即将上线，剑指Liblib

智谱AI发布AutoGLM，解锁了人机交互更多的可能性

这个自定义网页的AI插件，让你体验到AI时代的“外挂”是什么

AI全自动短视频来了 | Suno Scenes让你一张图、一个视频秒转歌曲大作（附全网最详细教程）

从符合物理学到不讲物理，Pika 1.5全新特效功能「Pikaffects」引发全网病毒式传播

招生简章 | AI商业绘画系统班

被版权折磨的新媒体人，最终选择了AI

澳门研学精彩回顾丨2024“艺起探澳门”粤港澳大湾区文化交流之旅圆满结束！

播客AI化？NotebookLM，一期从无到有的播客音频只需要不到5分钟

GPT系列已被终结？OpenAI发布最强「o1」大模型，我们迈向了AI行业的新纪元

OpenAI的「草莓」大模型打响头炮 | Self play RL成LLM新范式，第二阶段的大模型爆发期即将来临

招生简章 | 虚幻引擎交互开发工程师班

无缝双语体验，这个国产最强AI翻译插件叫沉浸式翻译（附全网最细教程）

一个几分钟就能完成海报设计、网页设计的AI，它叫Ideogram（附教程）

告别熬夜，这个AI让你一键生成PPT，它就叫Kimi

腾讯元宝再度发力，上线长文精读，解救了我那蹩脚的英语阅读

彼方学院师生代表参加香港中文大学黄锦辉教授新书发布会

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉