GPT系列已被终结?OpenAI发布最强「o1」大模型,我们迈向了AI行业的新纪元

文摘   科技   2024-09-13 20:35   广东  
前天刚说OpenAI将在未来两周内上线最新最强的草莓大模型。话音未落,OpenAI就发布了o1模型。根据官方说法,o1模型的推理能力代表了如今人工智能的最高水平。
而OpenAI的CEO 奥特曼(Sam Altman)更是公开表示:o1是一个新范式的开始:可以进行通用复杂推理的AI。
之前我们一直提到的草莓大模型,就是o1。这个名字的由来也很有意思。
对于复杂的推理任务,这是一个重大的进步,代表了人工智能能力的新水平。考虑到这一点,我们将计数器重置为1,并将本系列命名为OpenAI o1。
说一千道一万,不如数据来得直接。
以2024美国数学邀请赛为测试题,GPT-4o 解决了 13.4% 的问题,o1 preview版本的正确率为56.7%,o1正式版的正确率超过80%;

以CodeForces为测试题,GPT-4o 准确率为11%,o1 preview版本的正确率为62%,o1正式版的正确率为89%;

最后,以GPQA Diamond为测试题,GPT-4o 准确率为56.1%,o1 preview版本的正确率为78.3%,o1正式版的正确率为78%,后面是人类专家的正确率69.7%。

这次发布的o1有三个不同的版本,分别是o1、o1 preview以及o1 mini。上面测试的数据中没有o1 mini。现阶段除了o1外,另外两种模型已经开放给plus跟team会员使用,未来会考虑开放给所有免费用户。

以下是三种模型的介绍:

o1-新的大模型天花板,由于性能过于强大,还不方便对外公布;

o1 preview-o1的早期版本,现已开放给plus与team会员使用;

o1 mini-速度更快、性价比更高,适用于需要推理和无需广泛世界知识的任务;

如果看不懂o1 mini与preview,可以回看这篇草莓模型,看完你就会知道什么叫无需广泛世界知识任务。

针对o1模型,OpenAI员工一般都是【系统1】和【系统2】来区分o1与之前的模型。

o1通过Self play RL来学会思维链,并从中知道如何识别和纠正错误。以OpenAI这种用户的量级,o1每天进步的速度是很恐怖的。

我想象不到明年的这个时候,o1会有多强。

现阶段,普通用户的访问次数是:o1 preview是每周30条,o1 mini是每周50条。

开发者的访问次数是:每分钟20条,但仅对于等级5或以上开放(支付过超过1000美金)。

以周为计算单位,与之前3小时80条简直是天壤之别!!!

未来,应该会开设不同的订阅级别,以满足不同人群的访问需求。200美元只是起步,上不封顶可能没有,但2000美元应该不是空谈。

至于提示词书写格式,OpenAI给了个格式:

1.编写清晰的说明

2.提供参考文本

3.将复杂任务拆分成更简单的子任务

4.给模型时间“思考”

5.使用外部工具

6.系统地测试与优化更改

听起来有点拗口,所以我稍微简化了一下:

保持提示简单直接:模型擅长理解和响应简短、清晰的指令,不需要大量指导;

避免思路链提示:o1本身就采用了Self play RL,所以不需要再提示它们“逐步思考”或“解释你的推理”。比如过去我们常常用【请一步一步思考】等这样的提示词去让GPT更有条理地思考,从而输出更贴合我们需求的回答

使用分隔符来提高清晰度:使用三重引号、XML 标签等分隔符来清楚地指示输入的不同部分,帮助模型适当地解释不同的部分。这部分还是跟之前的提示词格式一样;

限制检索增强生成 (RAG) 中的附加上下文:提供上下文或文档时,只包含最相关的信息,防止o1模型过度复杂化。

〔写在最后〕

o1最强大的地方在于它可以成为数据飞轮的一部分。它每给出一个正确的答案,其背后的整个路径就是一个包含正负奖励(也就是我们之前说的奖励模型)的训练数据集。
以OpenAI的用户量级,我们可以预见这种训练数据集会越来越精细,模型的性能说不定是以指数级暴增。
但说了o1这么多牛逼的地方,它也依旧有很多肉眼可见的问题。
比如,经典的【9.11和9.8,哪个数字比较大】。o1依旧是回答【9.11大】。
但我相信这个问题,它很快就能回答正确。
随着o1模型的发布,接下来应该就要迎来老对手的狙击。正如我们之前所说的:第二阶段的大模型爆发期即将来临!
之前英伟达的CEO黄仁勋曾预测:AGI或许在2029年出现。
现在我觉得,AGI的时代应该会更早一点到来

你都看到这了,不如,随个赞、点个在看呗~
感谢你一路到看这。

点这里👇关注我,记得标星哦~



ACG彼方
彼方学院(Animation Comics Games Academy 简称:ACG )是一个拥有专业团队,面向全球动漫游戏数字媒体元宇宙的从业者及爱好者、高校、研发机构等相关行业,提供多样化、定制化服务的综合平台。
 最新文章