新智元报道
新智元报道
【新智元导读】OpenAI o1,在门萨智商测试中果然取得了第一名。数学大神陶哲轩实测发现,o1竟然能成功识别出克莱姆定理。而OpenAI的研究副总裁也在此时跳出来表明:大型神经网络可能已经有了足够算力,表现出意识了。
Geoffrey Hinton(人工智能教父,被引用次数最多的AI科学家)
Ilya Sutskever(被引次数第三多的AI科学家)
Andrej Karpathy
陶哲轩:o1竟能识别出克莱姆定理
完整回答:https://shorturl.at/wwRu2
完整回答:https://shorturl.at/ZrJyK
完整回答:https://shorturl.at/OGtjt
计算机教授用动画揭秘:o1如何花更多时间思考?
在RLHF+CoT中,CoT token也会被输入到奖励模型中来获得分数,以更新LLM,从而实现更好的对齐;而在传统的RLHF中,输入只包含提示词和模型响应。
在推理阶段,模型学会了先生成CoT token(可能需要长达30秒的时间),然后才开始生成最终响应。这就是模型如何花更多时间去「思考」的方式。
Ilya Sutskever,基于人类反馈的强化学习(RLHF)的发明者,出现他的名字意味训练o1模型时仍然用到了RLHF。
Jason Wei,著名的思维链论文的作者。他去年离开Google Brain加入了OpenAI。他的出现意味着CoT现在是RLHF对齐过程的重要组成部分。
团队分享庆功视频,分享「啊哈」时刻
在发布o1模型后,团队发布了背后团队一起制作的视频。
在视频中,有人表示,自己觉得研究中最酷的就是那个「啊哈」时刻了。
Open o1团队开放团队问答,直面质疑
模型名称和推理范式
OpenAI o1的命名代表了AI能力的新水平;计数器重置为1
「Preview」表示这是完整模型的早期版本
「Mini」意味着这是o1模型的较小版本,针对速度进行了优化
「o」代表OpenAI
o1不是一个「系统」;它是一个经过训练的模型,在返回最终答案之前生成长思维链
o1的图标象征性地表示为一个具有非凡能力的外星生命
o1模型的规模和性能
o1-mini比o1-preview小得多且更快,因此未来将提供给免费用户 o1-preview是o1模型的早期检查点,既不大也不小 o1-mini在STEM任务中表现更好,但世界知识有限 相比o1-preview,o1-mini在某些任务中表现出色,尤其是与代码相关的 o1的输入token计算方式与GPT-4o相同,使用相同的分词器(tokenizer) o1-mini能够探索比o1-preview更多的思维链
输入token上下文和模型能力
o1模型即将支持更大的输入上下文 o1模型可以处理更长、更开放式的任务,与GPT-4o相比,减少了对输入分块的需求 o1可以在提供答案之前生成长思维链,这与之前的模型不同 目前还没有办法在思维链推理过程中暂停以添加更多上下文,但正在为未来的模型探索这一功能
工具、功能和即将推出的特性
o1-preview目前还不能使用工具,但计划支持函数调用、代码解释器和浏览功能 工具支持、结构化输出和系统提示将在未来更新中添加 用户可能会在未来版本中获得对思考时间和token限制的控制权 计划在API中启用流式处理并考虑推理进度 多模态能力已内置于o1中,可以在MMMU等任务中实现SOTA的性能
思维链(CoT)推理
o1会在推理过程中生成隐藏的思维链 没有计划向API用户或ChatGPT透露思维链token 思维链token被总结,但不保证忠实于实际推理过程 提示词中的指令可以影响模型如何思考问题 强化学习(RL)被用来改善o1中的思维链,仅依靠提示的GPT-4o在性能上无法匹敌 思考阶段看起来较慢是因为它总结了思考过程,而答案的生成通常更快
API和使用限制
o1-mini对ChatGPT Plus用户有每周50次提示的限制 在ChatGPT中,所有提示词的计数是相同的 随着时间的推移,将推出更多API访问层级和更高的使用限制 API中的提示缓存是一个很受欢迎的需求,但目前还没有时间表
定价、微调和扩展
o1模型的定价预计将遵循每1-2年降价的趋势 一旦使用限制提高,将支持批量API定价 微调在路线图上,但目前还没有时间表 o1的扩展受到研究和工程人才的限制 推理计算的新扩展范式可能会为未来几代模型带来显著收益 反向扩展目前还不显著,但个人写作提示显示o1-preview的表现仅略优于GPT-4o(甚至略差)
模型开发和研究洞察
o1使用强化学习进行训练从而实现推理能力 o1在诗歌等横向任务中展现出了创造性思维和强大的性能 o1的哲学推理和泛化能力,如破译密码,令人印象深刻 研究人员使用o1创建了一个GitHub机器人,可以ping正确的CODEOWNERS进行审核 在内部测试中,o1通过自问难题来衡量其能力 正在添加广泛的世界领域知识,并将在未来版本中改进 计划在o1-mini的未来迭代中使用更新的数据(目前为2023年10月)
提示技巧和最佳实践
o1受益于提供边缘案例或推理风格的提示 与早期模型相比,o1对提示中的推理线索更敏感 在检索增强生成(RAG)中提供相关上下文可以提高性能;不相关的块会对推理产生负面影响
一般反馈和未来改进
由于还处在早期测试阶段,o1-preview的使用限制较低,但之后会有所增加 正在积极改进延迟和推理时间
卓越的模型能力
o1能够思考「生命是什么?」这类哲学问题 研究人员发现o1在处理复杂任务和从有限指令中泛化的能力令人印象深刻 o1的创造性推理能力,如自问自答以衡量其能力,展示了其高水平的问题解决能力
https://mathstodon.xyz/@tao/109945628011027107
https://twitter-thread.com/t/1834686946846597281
https://x.com/ProfTomYeh/status/1834617696215806285
https://x.com/markchen90/status/1834623248610521523