OpenAI o1系列：AI时代的新里程碑

文摘 2024-09-13 11:37 新加坡

引言：AI领域的新变革

最近，Cursor AI编程工具的大火一直占据了我主要的精力。就在我考虑从OpenAI转向Claude 3.5 sonnet时，OpenAI适时发布了全新的o1系列模型，再次吸引了我的注意力。

北京时间9月13日，备受瞩目的o1系列正式亮相，不仅在推理能力上取得了重大突破，更为人工智能领域树立了新的技术里程碑。o1系列分为o1-preview和o1-mini两个版本，针对不同用户需求，开启了AI应用的新篇章。

AI推理能力的突破性进展

o1系列的核心亮点在于其强大的推理能力，尤其是在复杂问题处理方面表现突出。通过引入Self-play和RL（自我对弈强化学习）机制，o1学会了如何更好地思考、推理，并自主解决问题。

这一机制使得o1在科学、编程和数学等领域的表现远超预期。无论是处理繁复的逻辑推理，还是应对高难度的数学题目，o1都展现出了其技术前沿的实力。

实测对比：亮点与短板并存

为了全面评估o1-preview的表现，我们针对其进行了多项测试，在此列出四个具体测试问题及其对应的结果：

1. 数字大小比较：

问题：9.9和9.11，哪个数字更大？
结果：o1-preview错误地回答9.11更大。这一结果出乎意料，因为此前的GPT-4模型在类似任务中通过“Think in Step”提示能够正确作答。这反映出o1-preview在基础任务上仍有改进空间。

错误回答截图：

这是我问国产kimichat的截图：

2. 字符计数问题：

问题：Strawberry这个单词里有几个“r”？
结果：o1-preview准确回答了这个问题，指出了3个“r”。这个是相当不错的进步，之前的大模型在这个问题上都栽了，谷歌还专门出了一篇论文解释为什么大模型不会数r，原因是嵌入维度，不仅仅是分词器的问题。

3. 阿里巴巴数学竞赛题目：

问题：这是一道涉及空间几何推理的复杂问题，要求计算在特定条件下最多可能有多少名同学。

题目1：有一群学生去某个城市旅行，该城市有 6 座塔，分别位于 A、B、C、D、E 和 F。每位学生都能看到位于 A、B、C、D 的塔，但无法看到 E 和 F。假设这些塔的位置是固定的，学生最多能组成多大的团队？
选择答案：
(A) 3
(B) 4
(C) 6
(D) 12

结果：模型给出的答案是 D：12，但正确答案是 C：6。这个问题测试了学生们对空间几何的理解，然而在解题时，模型似乎误解了塔的排列规则。

4. 战机游戏数学问题：

问题：这是一个概率论和期望值计算的问题，涉及战机游戏的策略优化。

图片中包含的是关于一个战机游戏的数学问题，具体内容如下：

小明玩战机游戏。游戏开始时，他的初始积分为2分。在游戏中，积分会以每单位时间段减少1分的速度线性连续减少。每隔一个随机时间段，会有一架敌机出现，这个时间段的长度遵循参数为1的指数分布。每当敌机出现，小明可以选择击落敌机或者被敌机击落。如果小明被敌机击落，游戏结束。如果小明击落敌机，他将获得1.5分，并可以选择立即退出游戏或者继续游戏。如果选择继续，他必须等到下一架敌机出现，期间不能退出。随着游戏进行，敌机的难度递增，击落第n架敌机的概率为(0.85)^n，被击落的概率为1 - (0.85)^n，且每次击落敌机的事件是独立的。如果积分降到0分，游戏也会自动结束。

问题分为两部分：

(1) 如果游戏中，小明被击落后，其之前的积分保持不变。那么为了使得游戏结束时的累积积分的数学期望最大化，小明应该在其击落第几架敌机后主动结束游戏？
- (A) 1.
- (B) 2.
- (C) 3.
- (D) 4.

(2) 假设游戏中，小明被击落后，其之前积累的积分会清零。那么为了结束时的期望积分最大化，小明也会选择一个最优的时间主动结束游戏。请问在游戏结束时（小明主动结束、或积分减到0），下列哪一个选项最接近游戏结束时小明的期望积分？
- (A) 2.
- (B) 4.
- (C) 6.
- (D) 8.

结果：o1-preview成功给出了正确答案，展示了它在处理复杂概率问题时的强大推理能力。

剩下的五道预赛题，因为现在的大模型聊天框还不支持图片处理和数学公式的输入，我就没有测试，加上一周只能测试30次，还是要节约一点。不过假如以现在的o1模型的能力去参加今年的阿里巴巴数学竞赛，估计能超过34分，拿到AI赛道的第一名。

o1-mini：编程能力的显著提升

o1-preview和o1-mini是OpenAI推出的两个各具特色的大语言模型。

o1-preview在处理复杂推理任务时展现出了强大的能力，尤其是在科学研究和高级数学问题上。虽然在某些基础任务上仍有待改进，但其在处理需要深度思考的问题时表现出色。

与此同时，o1-mini专注于编程和实用数学领域，展现出了令人印象深刻的实力。作为专门为解决编程问题设计的版本，o1-mini在代码生成和分析能力上有了显著提升。其128k的上下文窗口和64k的最大输出，使其能够轻松应对大规模代码分析和复杂项目需求。对于开发者而言，o1-mini无疑是一个得力助手，能够快速高效地解决各种编程难题，大大提高工作效率。

使用限制与未来展望

尽管o1系列在推理和编程领域展现了强大的能力，但目前它的使用仍然存在一定的限制。现阶段，o1-preview每周的消息限额为30条，而o1-mini则为50条，这对于一些高频使用者来说可能稍显局限。

不过，OpenAI表示将逐步提升这些限额，并开发自动选择最适合用户需求的模型功能，以提升整体用户体验。我了解到对付费超过1000美元的用户，可以选择升级成GPT Pro账号，月费200美元，好像消息不受限制。

从更长远的角度来看，o1-preview和o1-mini的发布让我不禁开始猜测其潜在应用。如果将这些模型的推理成本进一步降低，结合multi-agent（多智能体）系统，打造出来地企业数字员工将能够达到一个全新的水平，替代初级文员的部分工作不再只是纸上谈兵。

不仅如此，这种技术的普及也将大幅提升现有员工的效率。面对这样的发展前景，我个人对正式版的发布充满期待，暂时不会急于切换到Claude 3.5 Sonnet上。

顶多可能再去订阅一个Claude的账号，去研究Cursor AI的各种潜力，我这两天发现用它来开发IOS应用好像也不是很难得事情，不过用代码编程的一个挑战就是它目前的水平也是会产生”屎山“代码，将来的维护会是一个大问题，而且开发中途出了bug，怎么去调试，还在研究中，特别是针对不熟悉的语言。

然而，裸推理的极限似乎已经逐渐显现，这次用到的self-play加上RL，似乎没有其他新的突破了，比如记忆模块就没有任何突破，未来AI技术的进展可能需要更多跨领域的创新与突破。

这也就能够理解近期这么多技术大牛离开OpenAI了。反向思考一下，假如通向AGI（通用人工智能）的路径真的已经明朗，OpenAI近期也许就不会有那么多技术牛人选择离开公司。毕竟，参与创造历史的平台是不会轻易让人离开的。因此，或许未来的突破需要从更多新方向去挖掘，而不仅仅局限于现有的推理能力。AI的前路依然充满未知，但这也是技术创新最让人期待的地方。

最后是我喜欢的Andrej Karpathy在twitter上的一个截图，反应了他对这个版本的态度。

http://mp.weixin.qq.com/s?__biz=Mzk0MTY4MjE4OA==&mid=2247484540&idx=1&sn=36fe5401a59abf5337da859d3cf359a1

蔡荔谈AI

AI科普 AI培训超级个体创业

最新文章

使用 Cursor 进行开发的7个技巧

海外独立开发者的成长之路：经验、挑战与启示

OpenAI o1系列：AI时代的新里程碑

用Cursor快速搭建网站，开启全球商机

不用写代码！教你如何用Cursor AI轻松开发2048游戏

一个让LLM更具创造力的"超级提示词"

Anthropic最新的AI提示词工程视频总结

重新评估生成式AI：挑战、机遇与社会影响

Cursor：开启AI产品经理新时代

国产大模型“六小虎”现状曝光，行业未来如何突围?

AI时代的"超级个体"：Pieter Levels的启示与挑战

创始人模式：硅谷热议的创业管理新思维

AI创业者的生存指南：价值10万美金的洞察与预测

使用AI工具进行企业级内容营销的简易指南

ChatGPT大师级速查表：从新手到专家的进阶之路

水二篇|Numpy速查表

10分钟掌握Gradio：轻松构建AI模型的交互式界面

AI发展趋势：解读李沐交大讲座的关键洞见

水一篇|Pandas速查图表

高位美股下的投资新视角：智慧与耐心的融合，AI赋能与人生哲学

推荐 | 通往AGI之路: 你的AI知识宝库与工具站

小白类|个人IP公众号写作两个月的复盘

谷歌前CEO在斯坦福公开课上的分享

DSPy：LLM应用开发的新范式

俄罗斯互联网巨头 Yandex 的变局对出海企业的启示

谷歌AI科学家用万字长文告诉你，如何用AI工具提升工作效率

6年机器学习学习之路总结(16分钟版)

现在是否还是一个学习人工智能机器学习的好时机？

AI时代的生存法则，打造超级个体！

从入门到精通：10门必学AI课程指南

AI时代家长必备指南：12项核心技能培养孩子未来竞争力

AI独角兽接连动荡，行业是否步入"泡沫期"？

简单介绍一下什么是大模型RAG技术

Suno音乐创作指南: 从菜鸟到高手的成长之路

2024年，普通人死磕四件事：写作、个人IP、英语和健康

2024年学习LLM的7大步骤，让你少走弯路

ChatGPT提示词的10个级别：从新手到专家

产品经理必须了解的五大经典提示词框架

简单易懂的提示词入门指南

AI爱好者必读：提升提示词工程技能的13个技巧

大语言模型中的两个核心概念：Token和Tokenizer

9.9比9.11小？哪些大模型的数学课是语文老师教的？

如何在一周内摸清一个行业：ChatGPT+冯氏关键词分析法

最近很火爆的AI让老照片动起来的流程：穿越时光的魔法

“萝卜快跑”动了谁的蛋糕：普通人如何在AI浪潮中立足？

《我们为什么要睡觉》:一本比尔·盖茨强烈推荐并让他重新审视睡眠的书

如何用AI让宠物听懂你的话？Traini有妙招

为什么大模型“开源”并不像你想的那么好？

有赞裁撤HRBP岗位，AI时代我们该如何应对？

用10分钟写出的董宇辉风格小作文，到底有多惊艳？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉