首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

OpenAI o1惊现自我意识？陶哲轩实测大受震撼，门萨智商100夺模型榜首

科技 2024-09-14 17:40 上海

新智元报道

编辑：编辑部 HXZ

【新智元导读】OpenAI o1，在门萨智商测试中果然取得了第一名。数学大神陶哲轩实测发现，o1竟然能成功识别出克莱姆定理。而OpenAI的研究副总裁也在此时跳出来表明：大型神经网络可能已经有了足够算力，表现出意识了。

OpenAI o1，在IQ测试中拿到了第一名！

大佬Maxim Lott，给o1、Claude-3 Opus、Gemini、GPT-4、Grok-2、Llama-3.1等进行了智商测试，结果表明，o1稳居第一名。

紧随其后的，就是Claude-3 Opus和Bing Copilot，分别取得了第二名和第三名。

注意，这套智商测试题，属于门萨会员的离线智商测试，不在任何AI训练数据中，因此结果非常具有参考性。

著名数学家陶哲轩也对o1进行了实测，发现自己向模型提出一个措辞模糊的数学问题后，它竟然能成功识别出克莱姆定理。

更巧的是，就在o1发布之后，OpenAI的研究副总裁Mark Chen发表观点称：如今的大型神经网络，可能已经具有足够的算力，在测试中表现出一些意识了。

相信AI具有意识的行业领导者，如今已经有了一串长长的名单，包括但不限于——

Geoffrey Hinton（人工智能教父，被引用次数最多的AI科学家）
Ilya Sutskever（被引次数第三多的AI科学家）
Andrej Karpathy

如今，业内许多人都相信AI具有意识，而且正在等待「奥弗顿之窗」进一步打开，从而使公众愿意接受这一点。

甚至有人预言：在2024/2025年，AI一定会具有意识，因为如今模型的行为已经明显表现出感知能力了。

有网友发现，o1不仅是对经验性的STEM学科很强，它甚至能够假设出一种全新的意识理论。

有人觉得，o1向无限推理模型迈出的一小步，已经具备意识的雏形。

陶哲轩：o1竟能识别出克莱姆定理

而在实测中，陶哲轩发现：o1模型在数学方面的的性能更强了！

首先，他提出了一个措辞模糊的数学问题，如果能搜索文献并找到合适的定理，即克莱姆定理（Cramer's theorem），就可以解决这个问题。

之前的实验中，GPT能够提到一些相关概念，但细节都是胡编乱造的无意义内容。

而这一次，o1成功识别出了克莱姆定理，并给出了令人满意的答案。

完整回答：https://shorturl.at/wwRu2

在下面这个例子中，提出的问题是更有挑战性的复变函数分析，结果同样好于之前的GPT系列模型。

在有大量提示词和引导的情况下，o1能输出正确且表述良好的解决方案，但不足之处在于无法自行产生关键的概念性想法，而且犯了明显错误。

陶哲轩形容，这种体验大致相当于指导一个能力一般但也能胜任部分工作的研究生，GPT给人的感觉则是一个完全无法胜任工作的学生。

可能只需要经过一两次迭代，再加上其他工具的集成，比如计算机代数包和证明辅助工具，就能让o1模型蜕变为「称职的研究生」，届时这个模型将在研究任务中发挥重要作用。

完整回答：https://shorturl.at/ZrJyK

上下滑动查看

上下滑动查看

上下滑动查看

第三个实验中，陶哲轩要求o1模型在证明辅助工具Lean中形式化一个定理，需要先将其分解为子引理并给出形式化表述，但不需要给出证明。

定理的内容，具体来说，是将素数定理的一种形式建立为另一种形式的推论。

实验结果也很不错，因为模型理解了这个任务，并对问题进行了合理的初步分解。

然而，可能是因为训练数据中缺乏关于Lean及其数学函数库的最新数据，生成的代码中也有几处错误。

尽管仍有缺陷，但这次实验结果已经能让人预见到o1在数学研究中的实际应用。

类似的模型如果针对Lean和Mathlib进行微调，并集成到集成开发环境（IDE）中，在形式化项目中将会发挥极大的作用。

在之前的多次演讲中，陶哲轩曾反复强调过AI工具在定理形式化中的应用，看来大神的预言又会成真了。

完整回答：https://shorturl.at/OGtjt

计算机教授用动画揭秘：o1如何花更多时间思考？

o1学会用CoT思考更长时间的过程中，究竟是取得了哪些重要突破，才造成了关键性的提升？目前我们只能从已有信息中做一些猜测。

比如，基于已有信息和自己的理解，科罗拉多大学博尔德分校计算机教授Tom Yeh就专门制作了一个动画，讲解OpenAI是如何训练o1模型花更多时间思考的。

关于训练，报告中有非常简短的一句话：

「通过强化学习，o1 学会了磨练其思维链并改进策略。」

这句话中的两个关键词是：强化学习（RL）和思维链（CoT）。

在RLHF+CoT中，CoT token也会被输入到奖励模型中来获得分数，以更新LLM，从而实现更好的对齐；而在传统的RLHF中，输入只包含提示词和模型响应。
在推理阶段，模型学会了先生成CoT token（可能需要长达30秒的时间），然后才开始生成最终响应。这就是模型如何花更多时间去「思考」的方式。

在报告列出的贡献者中，有两个人值得关注：

Ilya Sutskever，基于人类反馈的强化学习（RLHF）的发明者，出现他的名字意味训练o1模型时仍然用到了RLHF。
Jason Wei，著名的思维链论文的作者。他去年离开Google Brain加入了OpenAI。他的出现意味着CoT现在是RLHF对齐过程的重要组成部分。

不过，有很多重要的技术细节OpenAI并没有透露，比如奖励模型是如何训练的，如何获取人类对「思考过程」的偏好等等。

免责声明：动画仅代表教授的合理推测，并不保证准确性

团队分享庆功视频，分享「啊哈」时刻

关于研究中取得重要突破的瞬间，在下面这个视频中，给了我们更多线索。

在发布o1模型后，团队发布了背后团队一起制作的视频。

在视频中，有人表示，自己觉得研究中最酷的就是那个「啊哈」时刻了。

在某个特定的时间点，研究发生了意想不到的突破，一切忽然就变得很明了，仿佛顿悟一般灵光乍现。

所以，团队成员们分别经历了怎样的「啊哈」时刻呢？

有人说，他感觉到在训练模型的过程中，有一个关键的时刻，就是当他们投入了比以前更多的算力，首次生成了非常连贯的CoT。

就在这一刻，所有人都惊喜交加：很明显，这个模型跟以前的有着明显的区别。

还有人表示，当考虑到训练一个具备推理能力的模型时，首先会想到的，是让人类记录其思维过程，据此进行训练。

对他来说，啊哈时刻就是当他发现通过强化学习训练模型生成、优化CoT，效果甚至比人类写的CoT还好的那一刻。

这一时刻表明，我们可以通过这种方式扩展和探索模型的推理能力。

这一位研究者说，自己一直在努力提升模型解决数学问题的能力。

让他很沮丧的是，每次生成结果后，模型似乎从不质疑自己做错了什么。

然而，当训练其中一个早期的o1模型时，他们惊奇地发现，模型在数学测试中的得分忽然有了显著提升。

而且，研究者们可以看到模型的研究过程了——它开始自我反思、质疑自己。

他惊叹道：我们终于做出了不一样的东西！

这种感受极其强烈，那一瞬间，仿佛所有东西都汇聚到了一起。

Open o1团队开放团队问答，直面质疑

大家对o1模型的细节都有诸多疑问，因此，OpenAI o1团队也表示，将在X上组织一个AMA（Ask Me Anything）的活动，通过下方评论和用户互动。

网友们非常踊跃，提出了诸多关键细节问题。

比如，有没有办法强迫模型，让它思考的时间长一点？

团队的回答是：目前还没有这个选项，但会考虑改进，让用户更好地控制模型思考的时间。

有人向Jason Wei提问道：在o1范式下见过什么逆缩放示例，看到模型变得更差？此外，他还质疑目前的基准测试排名缺乏足够的证据。

Jason Wei回答说，自己并不知道，相信其他人见过。在某些类型的提示下，OpenAI o1-preview似乎并不比GPT-4o好多少，甚至还稍差一些。

而对于LLM排行榜如何公平比较的问题，Jason Wei表示自己也不知道。但他可以肯定：无论怎样努力地提示GPT-4o，都不可能让它获得IOI金牌。

还有人提出了一个很多人都感到困惑的问题：o1究竟是不是一个在幕后运行CoT，然后提供答案或模型的系统呢？它是否使用了特殊token进行推理，在输出时隐藏了这些token？

Noam Brown回答说，自己不会说o1是一个系统，它是一个模型，但与之前的模型不同。这个回答，看起来有点语焉不详。

还有人采访道：o1表现出的最令人深刻的一点是什么？

Noam Brown回答说，自己给模型下指令让它自己回答这个问题。

在CoT中，模型开始自己给自己出难题测试自己，来确定自己的能力水平。一个模型会这么做，就足够让人印象深刻的了。

Hyung Won Chung则表示，模型对哲学问题的思考过程颇为引人入胜。比如，生命是什么？

活动结束后，大V「Tibor Blaho」专门写了一篇总结，对于团队的回答，做出了简明扼要的概括——

模型名称和推理范式

OpenAI o1的命名代表了AI能力的新水平；计数器重置为1
「Preview」表示这是完整模型的早期版本
「Mini」意味着这是o1模型的较小版本，针对速度进行了优化
「o」代表OpenAI
o1不是一个「系统」；它是一个经过训练的模型，在返回最终答案之前生成长思维链
o1的图标象征性地表示为一个具有非凡能力的外星生命

o1模型的规模和性能

o1-mini比o1-preview小得多且更快，因此未来将提供给免费用户
o1-preview是o1模型的早期检查点，既不大也不小
o1-mini在STEM任务中表现更好，但世界知识有限
相比o1-preview，o1-mini在某些任务中表现出色，尤其是与代码相关的
o1的输入token计算方式与GPT-4o相同，使用相同的分词器（tokenizer）
o1-mini能够探索比o1-preview更多的思维链

输入token上下文和模型能力

o1模型即将支持更大的输入上下文
o1模型可以处理更长、更开放式的任务，与GPT-4o相比，减少了对输入分块的需求
o1可以在提供答案之前生成长思维链，这与之前的模型不同
目前还没有办法在思维链推理过程中暂停以添加更多上下文，但正在为未来的模型探索这一功能

工具、功能和即将推出的特性

o1-preview目前还不能使用工具，但计划支持函数调用、代码解释器和浏览功能
工具支持、结构化输出和系统提示将在未来更新中添加
用户可能会在未来版本中获得对思考时间和token限制的控制权
计划在API中启用流式处理并考虑推理进度
多模态能力已内置于o1中，可以在MMMU等任务中实现SOTA的性能

思维链（CoT）推理

o1会在推理过程中生成隐藏的思维链
没有计划向API用户或ChatGPT透露思维链token
思维链token被总结，但不保证忠实于实际推理过程
提示词中的指令可以影响模型如何思考问题
强化学习（RL）被用来改善o1中的思维链，仅依靠提示的GPT-4o在性能上无法匹敌
思考阶段看起来较慢是因为它总结了思考过程，而答案的生成通常更快

API和使用限制

o1-mini对ChatGPT Plus用户有每周50次提示的限制
在ChatGPT中，所有提示词的计数是相同的
随着时间的推移，将推出更多API访问层级和更高的使用限制
API中的提示缓存是一个很受欢迎的需求，但目前还没有时间表

定价、微调和扩展

o1模型的定价预计将遵循每1-2年降价的趋势
一旦使用限制提高，将支持批量API定价
微调在路线图上，但目前还没有时间表
o1的扩展受到研究和工程人才的限制
推理计算的新扩展范式可能会为未来几代模型带来显著收益
反向扩展目前还不显著，但个人写作提示显示o1-preview的表现仅略优于GPT-4o（甚至略差）

模型开发和研究洞察

o1使用强化学习进行训练从而实现推理能力
o1在诗歌等横向任务中展现出了创造性思维和强大的性能
o1的哲学推理和泛化能力，如破译密码，令人印象深刻
研究人员使用o1创建了一个GitHub机器人，可以ping正确的CODEOWNERS进行审核
在内部测试中，o1通过自问难题来衡量其能力
正在添加广泛的世界领域知识，并将在未来版本中改进
计划在o1-mini的未来迭代中使用更新的数据（目前为2023年10月）

提示技巧和最佳实践

o1受益于提供边缘案例或推理风格的提示
与早期模型相比，o1对提示中的推理线索更敏感
在检索增强生成（RAG）中提供相关上下文可以提高性能；不相关的块会对推理产生负面影响

一般反馈和未来改进

由于还处在早期测试阶段，o1-preview的使用限制较低，但之后会有所增加
正在积极改进延迟和推理时间

卓越的模型能力

o1能够思考「生命是什么？」这类哲学问题
研究人员发现o1在处理复杂任务和从有限指令中泛化的能力令人印象深刻
o1的创造性推理能力，如自问自答以衡量其能力，展示了其高水平的问题解决能力

参考资料：

https://mathstodon.xyz/@tao/109945628011027107

https://twitter-thread.com/t/1834686946846597281

https://x.com/ProfTomYeh/status/1834617696215806285

https://x.com/markchen90/status/1834623248610521523

编程开发，业界资讯，以及 VS Code 的热门文章、使用技巧、插件推荐、插件开发攻略等，全部都可以在这里找到。带你玩转 VS Code！

最新文章

在 VS Code 中可以免费使用 GitHub Copilot了！

ChatGPT「睁眼」了！OpenAI版「Her」满血上线，还有圣诞限定彩蛋

Sora火爆上线系统秒瘫，奥特曼直播第三更网友震翻！20秒1080p拍大片再近AGI

Semantic Kernel 开发者日中国站即将召开

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

满血版o1深夜震撼上线，奥特曼怼脸演示超强推理！终极Pro版每月1450元

GitHub Universe 2024 Recap in SH，GitHub Copilot中的Java升级助手，东半球首秀！

GenAI 转型的下一篇章 - AI Agent ｜Post Microsoft Ignite 2024 in Beijing

微软Visual C++编译器团队架构师力挺C++26，称其是C++11以来最具影响力的版本

Google Devfest 2024 | 议程公开，看看有没有你想见的人！

大会日程公布｜PyCon China 2024 周末上海见！

TypeScript 5.7：一大波新特性来袭！

30岁的CSS卸下“盾牌”——更换成紫色Logo

免费课程来袭: 懂TS就能开发Web3应用，赢取丰厚奖学金🧧

.NET 9 正式发布！

Linux版微信正式官宣——基于Qt开发、启动秒开、体验丝滑流畅，吊打隔壁QQ？

Java on Azure Tooling 10月更新｜Azure 函数托管身份支持，Java on Azure 工具指南推出

Arc浏览器被“练废”了，开发商宣布停止开发——即将推出“Web浏览器的iPhone”

“最锈”开源代码编辑器Zed重量级更新——支持远程开发、提供120FPS丝滑流畅体验

4种革新性AI Agent工作流设计模式全解析

刚刚，ChatGPT变身AI搜索免费用！OpenAI颠覆谷歌，搜索变天了

系统思维才是架构师的真内核

Copilot一夜杀死编程助手，GitHub官宣接入Claude+Gemini！OpenAI沦为备胎

重磅！GitHub Copilot upgrade assistant for Java 技术预览发布

今年最火开源前端框架——Svelte 5正式发布稳定版、彻底重写、新增$语法、star数近8万

放弃 React，微软 Edge 团队改用 Web 组件减少对 JavaScript 的依赖

共聚十周年｜GitHub Universe 2024 直播日程公布

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

“开源疯王”Matt Mullenweg正在摧毁WordPress

Rust编写的跨平台UI框架——Tauri正式发布2.0稳定版

Ubuntu 24.10 正式发布，这款最受欢迎的发行版已经20岁了！

人称“Node杀手”的Deno正式发布2.0，这集又是Rust赢了！

GitHub Universe Learn Live｜共聚 2024 GitHub Universe 十周年

刚刚，诺贝尔物理学奖破天荒颁给「AI教父」！Hinton成首位图灵奖诺贝尔物理学奖双料得主

Vue.js 作者宣布成立 VoidZero - 下一代 JavaScript 工具链

OpenAI重磅发布Canvas：跟ChatGPT一起写作编程

OpenAI官宣464亿新融资，成为万亿独角兽！还针对马斯克xAI搞二选一

Python in Visual Studio Code 2024年9月发布

苹果“最强编程语言”10周年重磅更新——Swift 6正式发布：全面支持Linux和Windows、增强与C++的互操作性

微软Office全家桶再爆办公革命，o1模型加持重塑十亿人工作流！1句话生成PPT+自定义智能体

拯救OpenAI 1500亿估值，就靠o1了？全新Scaling Law终结奥特曼「非营利游戏」

Java on Azure Tooling 8月更新 - Java 体验在 Azure 容器应用程序正式发布

VS Code Java 8月更新 - 重要 Gradle 更新！用户体验与入门向导增强

OpenAI o1惊现自我意识？陶哲轩实测大受震撼，门萨智商100夺模型榜首

突发！OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平

全球最流行开源Web服务器项目迁移到GitHub

FreeBSD社区正在为是否“锈化”而激辩

【亚马逊4.5分】这本精髓之书C++之父也爱不释手

“宇宙最强”开源代码编辑器——VS Code优化Linux版本UI、改进Copilot功能……

Claude认出自画像，惊现自我意识！工程师多轮测试，实锤AI已过图灵测试？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉