深夜空降！OpenAI草莓正式发布，命名o1， GPT-4o被碾压！

文摘 2024-09-13 09:22 江苏

夕小瑶科技说原创
作者 | 海野

今晚，OpenAI最新模型空降！先上张图，你就明白了。

GPT-4o竟然被碾压至此？

GPT-4o竟然被碾压至此？！

GPT-4o竟然被碾压至此！！

Altman说它是迄今为止最强大、最一致的模型，新模型的名字是——o1 。

为什么不是GPT-4.5、GPT-5呢，因为它代表一个新范式的开始：

可以进行通用复杂推理的人工智能。

所以OpenAI这次从1重新开始计数，命名为o1。用一句话概括就是，o1擅长解决复杂问题，尤其是编码、数学、科学远超GPT-4o。

打个比方，你可以认为o1是一个极度偏科的理工科天才。

但是它有个缺点，在开始回答之前，它会花更长时间 思考，因为内部会产生一个非常长的思维链，进行足够深入的思考，从而可以解决复杂的推理任务。

这个也不难理解，高考数学的最后一道大题，花多点时间想也很正常。

把GPT-4o按在地上摩擦的o1，具体表现怎么样呢，还是得用数据说话。

先看模型表现

首先，它在数学和编码方面表现非常出色。

在国际数学奥林匹克（IMO）资格考试中，GPT-4o 只正确解决了 13% 的问题，而o1的得分是83%。
编码方面，OpenAI o1 在竞争性编程问题 (Codeforces) 中排名第 89%，
在物理、化学、生物学科中的表现达到了博士生水平，78分超越了人类专家69.7分。

而且，在众多基准测试上均超过了GPT-4o。

效果好到把大家都常用来测试的MATH和GSM8K干崩了，因为表现太好，不得已只能用美国奥数的题目来评比。

背后的思维链，可自主思考纠错

回复速度慢，尤其擅长数学和编码，与先前对草莓模型的爆料完全对应的上。为什么回复变慢？

因为OpenAI通过大规模强化学习算法，o1在回答问题前会产生一个内部的复杂的思维链，这使得它能够进行更深入的推理，并且o1学会了如何高效地使用其思维链。

类似于人类在回答难题之前，可能会思考很长时间，o1 在尝试解决问题时也会使用一系列思维。通过强化学习，o1 学会磨练其思维链并完善其策略,能认识并纠正错误。它学会将棘手的步骤分解为更简单的步骤。当这个方法不起作用时，它会尝试另一种方法。这个过程极大地提高了模型的推理能力。

为了培养o1模型的链式思维能力，OpenAI大规模的使用强化学习算法训练模型。

而OpenAI也没想到的是，随着更多的强化学习投入和思考时间的延长，o1模型的性能在不断地提高，这与LLM预训练时提高性能的方法有很大不同。

通过强化学习，o1模型学会了使用思维链，分步骤回答问题。

也就是说，在回答困难问题前，o1模型就像人类一样，可以自我纠正学习。

令人惊艳的是，o1模型可以自己判断答案是否正确，如果这个答案错误，它会再重新想办法解决。以此，o1模型的推理能力得到超大量级的提高。给你举个例子你就明白了。

用户：oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step。
通过上面的例子解码下文:
oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

收到指令后，o1模型开始思考。

（看到o1的思维链，我的第一反应是：逻辑缜密到有些夸张了。废话真的非常非常多）

OpenAI o1-preview（以下为思考内容）：
首先，我们得到：
"oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step"
我们的任务是，使用上面的例子来解码：“oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz”。
所以第一部分是弄清楚“oyfjdnisdr rtqwainr acxz mynzbhhx”如何解码为“Think step by step”。
观察1：明文短语“Think step by step"”有15个字母（不包括空格），密文总字母有30个字母。
明文Think step by step第一个词5个字母，第二个词4个字母，第三个词2个字母，第四个词4个字母。
密文第一个词10个字母，第二个词8个字母，第三个词4个字母，第四个词8个字母。
选项1：尝试找到字母到字母的映射。有字母相匹配吗？
等一下。我想这里可能有一个字谜或替换密码。我认为我们可以注意到每组密文对应于一个明文单词。
检查一下字母数量……interesting.看来密文单词的长度是明文单词的两倍。
Idea：也许我们需要取出所有其他字母或相应地从密文中重建明文。如果我们从密文单词中取出所有其他字母，也许我们会得到明文。
选项1：采取奇数位置。从第一个单词开始，取密文的13579位，组成单词是ofdid。
Hmm，我们试一下映射字母：o f d i d --> Think。不太对。
选项2：假设每个明文字母对应于密文中的2个字母。拆分第一个密文字母就是：oy fj dn is dr，对应明文字母think。
oy->T，fj->h，dn->i，is->n，dr->k。
现在，从“oy”到“T”的映射是什么？有没有办法将“oy”映射到“T”？
选项1：字母之和。将字母转换为数字（A=1、B=2、...、Z=26）。
o=15，y=25，总和15+25=40。“T”是数字20。不太对。
或者，两个字母的平均值可能对应于“T”。(15+25)/2=20，即“T”。
等一下，这看起来很有希望。让我们用第二对来检查一下。字母“f”=6，“j”=10。
（6+10）/2=8，8对应于“h”，成功！
让我们用第三对来检查一下……（中略）
所以我们的代码是：对于每一对密文，字母对应数字值相加取平均值，得到对应的明文。
所以我们把明文放在一起就是：THERE ARE THREE RS IN STRAWBERRY。
我认为RS拼写应该是“R’s”，所以应该是：THERE ARE THREE R's IN STRAWBERRY（草莓单词里有3个R）。

当然，这种复杂推理非常消耗时间，而比较可惜的是，在文章写作和编辑方面，o1模型不仅会浪费很长时间来思考，得出的结果也并不尽人意。在评估中，o1模型处理自然语言任务的效果，还不如GPT-4o。

所以，o1 并不适合所有场景！

而且……OpenAI总会在给人希望的地方让人失望。

传OpenAI的原话：

权衡了用户体验、竞争优势、以及对思维链进行监控等多种因素后，我们决定不向用户展示原始思维链。

这一切都源于OpenAI的病态追求：安全！安全！安全！

OpenAI未雨绸缪：假设公开了思维链，会不会出现“模型思维链把用户思路带偏、甚至控制用户思维”的现象。

此外，为了保证模型的思维链足够“原生”、足够“自由”，OpenAI还不能将一些政策规范和用户偏好强加到思维链中，而正是因为“不够对齐”，让OpenAI感到深深的担忧。

好吧，在美国国家安全局监管下，我懂~

作为补偿，OpenAI正在努力调整o1模型，让它能在回答中展示思维链的摘要。

我只想问：思维链的摘要会占用输出tokens吗？会不会把我的钱包吃干抹净？

诶，说到钱的问题，OpenAI还一并出了一个OpenAI o1-mini模型。

关于o1和o1-mini，关系就像4o和4o-mini，mini模型是小模型，速率更快，延迟更低，更便宜，当然效果也会砍一些。

不过，在推理方面还是比4o要强不少。

怎么体验o1

o1和o1-mini这两个模型，今天会在ChatGPT中上线，Plus和Team订阅用户可以直接体验了。

开发者也能通过API访问使用，其中mini模型比原模型便宜80%。另外Enterprise和Edu用户也可以使用o1-mini模型。

但是但是，目前的请求频率有限制，o1-preview 的每周速率限制为 30 条消息，o1-mini 的每周速率限制为 50 条。（太少了）

没有waitlist，但也太少了，约等于没用。

尝鲜的小伙伴赶紧去试用，告诉我到底牛不牛！

槿墨AI

产品服务

结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识，深入业务场景，精确捕获用户意图，为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务

📞若您有相关需求，欢迎点击下方链接与我们沟通洽谈

🗨️也可以在公众号后台给我们留言

参考资料：
1.https://openai.com/index/introducing-openai-o1-preview/
2.https://openai.com/index/learning-to-reason-with-llms/
3.https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/#model-speed

http://mp.weixin.qq.com/s?__biz=MzkwMjY0ODMwNA==&mid=2247486666&idx=1&sn=5f9d23b06a3e7b0c795e18051f39dcc7

槿墨AI

开启探索人类未来命运的旅程，拥抱如槿似墨的无限可能。

最新文章

【文生智界】WonderWorld：一图在手，世界我有

【文生智界】介绍一下，Stable Diffusion！文生图的稳定之选

【文生智界】AI将3D建模带入大众视野，创意如何突破技术壁垒？

告别预设剧本，“人生”永无止境：Unbounded

国庆节火遍抖音的AI雷军从何而来——GPT-SoVits

ChatGPT终于变AI搜索引擎了！网页/手机/桌面版同时上线，即将人人可用

7天开发一个AI Agent应用！秘密武器：一体化数据库

苹果AI上线，ChatGPT免费用！首款M4 Mac诞生

大模型“投资热”降温，下半场转向“应用落地”

POINTS多模态大模型亮相：微信团队打造，高效简洁性能强

港大最新开源LightRAG：更快、更强、更经济的RAG系统

AIGC丨ChatGPT的流式输出技术SSE实践！

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

切，这玩意儿不就是一眼 AI …… 吧？

字节：不做眼镜做耳机，揭秘Ola Friend核心技术

YOLO11：重新定义性能极限！对比YOLO8如何？

H100价格大跌！GPU供需失衡，真过剩？

大语言模型垂直领域融合的最优解：微调or检索增强生成?

长文本、语音、视觉全覆盖，中国移动抬上大招：九天善智！

李飞飞「数字表兄弟」破解机器人训练难题！零样本sim2real成功率高达90%

LLM（大语言模型），我们距离应用还差什么？

特斯拉首款无人驾驶出租问世，马斯克掀翻全场！无方向盘、无踏板，3万美元26年量产

诺贝尔物理和化学奖都颁给了AI，意味着什么？

双向奔赴！什么是大模型和数据库的双向赋能？

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在手机上了

RT-DETRv3横空出世！探究实时目标检测的尽头

【一手实测】Tripo 2.0：AI 3D生成天花板再拉升！

聊聊3DGS，各应用方向的最新进展是？

李飞飞创业后的首个专访：空间智能是下一个“北极星”

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

用AI和宠物闲聊，解锁「毛孩子」语言，铲屎官心动！

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

【盘点】AI视觉算法主流部署方式，到底怎么选？

会领路、能聊天，现在的导航已经next level了

深夜空降！OpenAI草莓正式发布，命名o1， GPT-4o被碾压！

对话Qwen2-VL：多模态大模型背后的逻辑

上交大：让代码自动成长！培养你的专属宝可梦

PyTorch官宣去CUDA推理！Triton时代来了

FairMOT：解锁复杂环境下多目标跟踪的难题！

Cursor：开发者的新质生产力，人人都是程序员？

机器人身穿衣服做家务，逼真到被质疑是人类套壳

大模型应用新战场：揭秘终端侧AI竞争关键｜智在终端

全国首个上手机的AI视频通话来了！《黑神话：悟空》经文也能破译

【深度解读】政务大模型的产业图谱、企业布局与落地应用

又创新？U-KAN：专注图像边界细节优化的网络架构！

AI开启“城市漫步”，这Citywalk够不够贴心！

【梳理】主流推荐算法：如何让AI更精准地“猜你喜欢”？

Midjourney地位不稳？AI绘图又一黑马出现，附4款产品一手实测

实测！30秒即可生成工业级Mesh，媲美人工建模？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

深夜空降！OpenAI草莓正式发布，命名o1， GPT-4o被碾压！

先看模型表现

背后的思维链，可自主思考纠错

怎么体验o1

参考资料：1.https://openai.com/index/introducing-openai-o1-preview/ 2.https://openai.com/index/learning-to-reason-with-llms/ 3.https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/#model-speed

参考资料：
1.https://openai.com/index/introducing-openai-o1-preview/
2.https://openai.com/index/learning-to-reason-with-llms/
3.https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/#model-speed