OpenAI草莓正式发布，命名o1，强化学习突破LLM推理极限， GPT-4o被碾压！

百科 2024-09-13 09:20 上海

北京时间 9 月 13 日午夜，OpenAI 正式公开一系列全新 AI 大模型，旨在专门解决难题。这是一个重大突破，新模型可以实现复杂推理，一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。

OpenAI 称，今天在 ChatGPT 和大模型 API 中新发布的是该系列中的第一款模型，而且还只是预览版 ——o1-preview。除了 o1，OpenAI 还展示了目前正在开发的下次更新的评估。

o1 模型一举创造了很多历史记录。

首先，o1 就是此前 OpenAI 从山姆・奥特曼到科学家们一直在「高调宣传」的草莓大模型。它拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力，相比 GPT-4o 有巨大提升，让大模型的上限从「没法看」直接上升到优秀水平，不专门训练直接数学奥赛金牌，甚至能在博士级别的科学问答环节上超越人类专家。

奥特曼表示，虽然 o1 的表现仍然存在缺陷，不过你在第一次使用它的时候仍然会感到震撼。

其次，o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年 AlphaGo 强化学习的成功 —— 给越多算力，就输出越多智能，一直到超越人类水平。

也就是从方法上，o1 大模型首次证明了语言模型可以进行真正的强化学习。

开发出首个 AI 软件工程师 Devin 的 Cognition AI 表示，过去几周一直与 OpenAI 密切合作，使用 Devin 评估 o1 的推理能力。结果发现，与 GPT-4o 相比，o1 系列模型对于处理代码的智能体系统来说是一个重大进步。

最后在实践中，o1 上线之后，现在 ChatGPT 可以在回答问题前先仔细思考，而不是立即脱口而出答案。就像人类大脑的系统 1 和系统 2，ChatGPT 已经从仅使用系统 1（快速、自动、直观、易出错）进化到了可使用系统 2 思维（缓慢、深思熟虑、有意识、可靠）。这让它能够解决以前无法解决的问题。

从今天 ChatGPT 的用户体验来看，这是向前迈进一小步。在简单的 Prompt 下，用户可能不会注意到太大的差异，但如果问一些棘手的数学或者代码问题，区别就开始明显了。更重要的是，未来发展的道路已经开始显现。

总而言之，今晚 OpenAI 丢出的这个重磅炸弹，已经让整个 AI 社区震撼，纷纷表示 tql、睡不着觉，深夜已经开始抓紧学习。接下来，就让我们看下 OpenAI o1 大模型的技术细节。

模型表现

首先，它在数学和编码方面表现非常出色。

在国际数学奥林匹克（IMO）资格考试中，GPT-4o 只正确解决了 13% 的问题，而o1的得分是83%。
编码方面，OpenAI o1 在竞争性编程问题 (Codeforces) 中排名第 89%，
在物理、化学、生物学科中的表现达到了博士生水平，78分超越了人类专家69.7分。

而且，在众多基准测试上均超过了GPT-4o。

效果好到把大家都常用来测试的MATH和GSM8K干崩了，因为表现太好，不得已只能用美国奥数的题目来评比。

背后的思维链，可自主思考纠错

回复速度慢，尤其擅长数学和编码，与先前对草莓模型的爆料完全对应的上。为什么回复变慢？

因为OpenAI通过大规模强化学习算法，o1在回答问题前会产生一个内部的复杂的思维链，这使得它能够进行更深入的推理，并且o1学会了如何高效地使用其思维链。

类似于人类在回答难题之前，可能会思考很长时间，o1 在尝试解决问题时也会使用一系列思维。通过强化学习，o1 学会磨练其思维链并完善其策略,能认识并纠正错误。它学会将棘手的步骤分解为更简单的步骤。当这个方法不起作用时，它会尝试另一种方法。这个过程极大地提高了模型的推理能力。

为了培养o1模型的链式思维能力，OpenAI大规模的使用强化学习算法训练模型。

而OpenAI也没想到的是，随着更多的强化学习投入和思考时间的延长，o1模型的性能在不断地提高，这与LLM预训练时提高性能的方法有很大不同。

通过强化学习，o1模型学会了使用思维链，分步骤回答问题。

也就是说，在回答困难问题前，o1模型就像人类一样，可以自我纠正学习。

令人惊艳的是，o1模型可以自己判断答案是否正确，如果这个答案错误，它会再重新想办法解决。以此，o1模型的推理能力得到超大量级的提高。

如何使用 OpenAI o1？

ChatGPT Plus 和 Team（个人付费版与团队版）用户马上就可以在该公司的聊天机器人产品 ChatGPT 中开始使用 o1 模型了。你可以手动选取使用 o1-preview 或 o1-mini。不过，用户的使用量有限。

可以联系我们，获得API调用资源，微信：shadowteamcn

目前，每位用户每周仅能给 o1-preview 发送 30 条消息，给 o1-mini 发送 50 条消息。

是的，很少！不过 OpenAI 表示正在努力提升用户的可使用次数，并让 ChatGPT 能自动针对给定提示词选择使用合适的模型。

至于企业版和教育版用户，要到下周才能开始使用这两个模型。

至于通过 API 访问的用户，OpenAI 表示达到了 5 级 API 使用量的开发者可以即刻开始使用这两个模型开始开发应用原型，但同样也被限了速：20 RPM。什么是 5 级 API 使用量？简单来说，就是已经消费了 1000 美元以上并且已经是超过 1 个月的付费用户。请看下图：

OpenAI 表示对这两个模型的 API 调用并不包含函数调用、流式传输（streaming）、系统支持消息等功能。同样，OpenAI 表示正在努力提升这些限制。

未来

OpenAI 表示，未来除了模型更新之外，还将增加网络浏览、文件和图像上传等功能，以让这些模型变得更加有用。

「除了新的 o1 系列模型，我们计划继续开发和发布我们的 GPT 系列模型。」

参考内容：

https://openai.com/index/introducing-openai-o1-preview/

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

https://openai.com/index/learning-to-reason-with-llms/

https://x.com/sama/status/1834283100639297910

http://mp.weixin.qq.com/s?__biz=MjM5NjkzNTUwMQ==&mid=2650072499&idx=1&sn=c5b02a7ed86f3abab8762bb5c2089949

AI实践派

算法备案，大模型备案，数据出境，AI合规

最新文章

清朗行动，综合治理互联网信息服务算法

算法备案：不可忽视的关键步骤

上海大模型登记集合（截至11月19日）

大模型与算法备案：人工智能安全的基石

Open AI支持成立“北美人工智能联盟”：与中国人工智能进行竞争

企业如何做到人工智能创新与合规并行

国家网信办正式发布第八批次算法备案（附完整名单链接）

X AI首款API正式上线，但这价格甚是高调

算法备案究竟是自己做还是找专业机构？

《人工智能能力建设普惠计划》公布

李强签署国务院令公布《网络数据安全管理条例》

没通过算法备案或许是这三点你没做好

《汽车数据出海合规技术规范》标准起草研讨会圆满落幕！

最高1000万各地模型和算法备案补贴政策一览

2027年生效美国禁止中国智能网联汽车软硬件

美国或将禁止本国汽车使用中俄软硬件

汽车出海！你准备好了吗？邀请函：《汽车数据出海合规技术规范》标准起草研讨会

米哈游Glossa大模型完成备案

英美欧盟签署全球首个人工智能法律公约全球AI监管进程逐渐加快

事关AI生成合成内容网信办新征求意见稿发布

OpenAI草莓正式发布，命名o1，强化学习突破LLM推理极限， GPT-4o被碾压！

197个大模型通过备案北京一地竟独占40%

上海徐汇区开启大模型备案奖励申报

上海34个大模型完成备案徐汇一区独占21个

重磅发布！《人工智能安全治理框架》1.0版来了

我国完成备案并为公众提供服务的AI大模型已超过180多个

全国教育大模型完成备案已达40个

工信部部长：构建算法安全治理体系，完善算法备案等监管制度

我司总经理张戈参加第十届中国车联网大会暨智慧交通博览会

数据安全这一块让总理费心了

中央网信办主任：优化大模型备案流程降低企业合规成本

免费分享！算法备案流程以及所需资料

这三种情形企业不需要办理大模型备案

有关于算法备案的五大误区你知道吗？

奖励100万！成都三家通过大模型备案获巨额奖金

马斯克的X’ Grok-1大模型预训练：在9个欧盟国家遭受举报！

最高200万！苏州成都杭州的这些AI政策补贴，你拿到了吗？

第七批算法备案公示！487个产品通过

欧盟人工智能法案现已生效：全球企业实用指南

最高5000万！深圳的这些AI政策补贴，你拿到了吗？

欧洲最严AI法案即将实施，国内出海企业该何去何从？

最高5000万！北京的这些AI政策补贴，你拿到了吗？

被罚19亿韩元！阿里再次在韩国被罚惨了

最高500万！上海的AI政策补贴你拿到了吗？

不备案的后果：违规提供AIGC服务遭处罚

必看！一文带你分清大模型备案和互联网算法备案的区别

大模型备案，这样操作就对了！全程指导助你成功备案

算法备案申请！这些条件你满足了吗？

揭秘！中国AI产业巨头背后的秘密，算法备案清单大揭秘！

为何要进行算法备案？保障数据安全不容小觑！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉