首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！

文摘 2024-09-13 09:05 北京

今天凌晨1点，OpenAI终于正式发布了传说中的“草莓”模型——o1。

除了名字不一样，功能、推理、性能等方面与之前泄漏的内容基本一致，o1的推理模式很特殊，在回答用户问题之前会进入拟人化思考模式，将问题分解成更小的步骤逐一解决，生成一个较长的内部思维链，回答的内容也更加准确。

这个技术谷歌DeepMind很早之前便进行过解读称为——训练时计算（Test-time computation）。其核心技术主要使用了密集型、流程导向的验证奖励模型搜索，以及自适应地更新模型对响应的概率分布两种方法。

根据OpenAI公布测试的数据显示，o1在美国数学奥林匹克预选赛中，排名美国前500 名学生之列，并且在物理、生物学、化学基准上，首次超过了人类博士。也就是说，o1超过了GPT-4o，是现役最强的超复杂推理大模型。

o1主要开发人员介绍该产品

已经使用上的用户表示，o1成功地写出了一首非常困难的藏头诗，以前的模型都无法写出来。它在生成答案的过程中疯狂反复推理、自我纠正，非常特别的推理模式。

已经尝试了o1 模型，进步非常大。推理能力更好，准确性和思维复杂性似乎也更好。

超过人类博士水平，这个结果太疯狂了！

期待已久的草莓模型终于来了。

太阳从西边出来了，这次居然没有候补名单？

感受一下AGI的震撼吧！

推理能力遥遥领先，这下能和Claude竞争了。

国际数学奥林匹克资格考试中，GPT-4o 只正确解决了 13% 的问题，而新模型的得分为 83%，编程竞赛中的表现更好，确实有点疯狂！

o1主要技术特点介绍

拟人化的推理模式是o1的主打功能之一，与传统模型不同，它在回答问题之前会进行深入的思考，生成一个较长的内部思维链。这种思维链的产生使得 o1 能够更好地理解问题的本质，分析问题的各个方面，从而给出更准确和合理的答案。

自适应强化学习、纠错则是其第二大技术特点，o1 通过大规模的强化学习算法进行训练，在训练过程中，模型学会了如何有效地利用其思维链来解决问题。

这种训练方法使得 o1 能够不断优化自己的策略，识别和纠正错误，学会将复杂的步骤分解为更简单的部分，并在当前方法不奏效时尝试不同的方法来解决。通过不断的学习和改进，o1 的推理能力得到了极大的提升，也就是说o1具备了智能体的功能。

o1使用了谷歌训练时计算类似的技术，OpenAI发现，随着训练时计算资源的增加和测试时思考时间的延长，o1 的性能会不断提升。这表明，通过增加计算资源的投入，可以进一步挖掘 o1 的潜力，使其在各种任务中表现得更加出色。

o1的其他主要特色应用功能包括，可以直接翻译一个不健全的句子，自动补全缺失内容；可根据提示自动编写复杂的视频小游戏；擅长解决超复杂、冗长的推理问题。

o1测试数据

OpenAI对o1进行了一系列的测试，以评估其在不同领域的性能。在竞争编程问题方面，o1 在 Codeforces 编程竞赛上的表现非常出色，超过83%的专业人员。

在数学竞赛中，以 AIME 2024 为例，GPT - 4o 平均只能解决 12% 的问题，而 o1 平均能解决74% 的问题，若采用 64 个样本的共识，解决率能达到83%。

使用学习到的评分函数重新排序 1000 个样本时，解决率更是高达 93%。这样的成绩使 o1 在该考试中的得分能够跻身美国前 500 名学生的行列，超过了美国数学奥林匹克的入选分数线。

在 PhD - Level Science Questions（GPQA Diamond）的测试中，o1 也展现出了优异的性能，超过了人类专家的表现。为了进行这项测试，研究人员招募了具有博士学位的专家来回答 GPQA - diamond 问题，结果发现 o1 的表现更为准确。

此外，o1 在 ML Benchmarks 的多个子类别中也有显著的改进。例如，在 MATH - 500、MathVista、MMMU、MMLU 等测试中，o1 的准确率均高于 GPT - 4o。

在其他考试方面，o1 在 APEnglish Lang、APEnglish Lit、APPhysics2、AP Calculus、AP Chemistry、LSAT、SATEBRW、SATMath 等考试中的成绩也显示出了巨大优势，整体比GPT-4o高出很多。

值得一提的是，这一次OpenAI没有再放鸽子，ChatGPT Plush和team用户已经可以使用该模型，同时开放了API，想体验的小伙伴们赶紧去试试吧！

本文素材来源OpenAI，如有侵权请联系删除

END

往期高赞文章

智普AIGC产品实习生上岸面经（已拿offer）

美团 AIGC产品经理面经（已拿 offer）

从碧桂园离职，这个转行，跨度蛮大的

面试9家，拿到5个offer，感觉最近招聘市场还不错

35岁+进央企做AIGC产品经理，可行否？

双非本科工程造价专业，转行AIGC产品经理，涨薪65%

百度&理想汽车&百川智能&OPPO四家公司AIGC产品经理面经分享

面试7家，拿到2个offer，薪资中上水平

太卷了，面试十几家，涨薪40%最终上岸

蚂蚁金服AIGC产品经理--上岸面经

求职AIGC，薪资翻倍了

这个offer选的很值

字节跳动等20家AIGC产品经理面经汇总

春节前，抓住了字节跳动offer

字节很好，但是我选了阿里

百度很卷，但是我拿到了

字节跳动真的很卷，但是我入职啦

6家大厂：字节&百度&腾讯&科大&商汤&蚂蚁AIGC产品面经大汇总（已offer）

6家大厂的AIGC产品经理面经

http://mp.weixin.qq.com/s?__biz=MzA4MDE2MTYyNw==&mid=2247494344&idx=1&sn=e9af94e87cc4c5c4f3edf0af99332437

薛老板AIGC和新能源求职

前百度、京东10年资深产品经理畅销书《产品经理求职面试笔记》作者，全网粉丝20W 助力转行年薪40W+新能源/人工智能/互联网产品已帮助5000+学员入职排名前10一线大厂......

最新文章

张一鸣从创业之初到现在的230句话，让人越想越后怕

真心建议大家冲一冲新兴领域，工资高前景好【AIGC篇】

面试40家，狂拿9个offer

裁员了，很严重，大家做好准备吧！

99个AIGC和大模型专业术语自查表，看到就是赚到！

【全网最全】AIGC产品经理面试高频100题答案解析

上海头部新能源企业汇总

【全网最全】AIGC产品经理面试高频100题答案解析

京东校招1.8万人背后：采销直播间、AI是重点发展方向

京东AIGC产品经理实习上岸面经（已拿offer）

【全网最全】AIGC产品经理面试高频100题答案解析

裸辞半年了，还没找到工作

很严重...建议大家年底极速存钱吧！

OpenAI科学家震惊TED大会：让AI模型思考20秒，提升10万倍性能！

今年的求职行情，比预想中的更严峻

面试40家，狂拿9个offer

手把手教学 | 如何在国内远程赚外国人的钱？

面试40家，狂拿9个offer

万字长文：一文读懂Agent，大模型的下一站（下）

年薪96w！产品经理新赛道，我决定入局！

面试40家，狂拿9个offer

真心建议大家冲一冲新兴领域，工资高前景好【AIGC篇】

爆了！年薪96w！想入局AIGC产品经理的恭喜了！

今年的求职行情，比预想中的更严峻

太难太难了...秋招前上岸淘宝

【全网最全】AIGC产品经理面试高频100题答案解析

AIGC公司，排雷

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！

大厂开始“捡漏”35+的人员

国内197个AI大模型，哪个最有前途？

AIGC出海，也许是2025年最大新机会

【全网最全】AIGC产品经理面试高频100题答案解析

取代产品岗，国内又一新兴岗位在崛起！这才是产品经理未来5年最好的就业方向！

33周岁，竟然进了网易

AI 大模型，中美双强争霸格局

【全网最全】AIGC产品经理面试高频100题答案解析

今年的求职行情，比预想中的更严峻

上岸！携程AIGC产品实习有多难？

急招！！腾讯、百度、字节、美团、滴滴、小米等实地实习

急招！！腾讯、字节、阿里、谷歌、微软、华为远程实习汇总

商汤&英语流利说&满帮等6家AIGC产品经理面经分享

欣旺达2025届校园招聘正式启动！

经过5家面试，拿到3个offer！建筑转行新能源

万字长文：一文读懂Agent，大模型的下一站（上）

百度AIGC产品运营实习上岸面经（已入职一周）

【全网最全】AIGC产品经理面试高频100题答案解析

【包入职】平安银行股份有限公司深圳分行-管培生

年薪90w！AI新赛道，产品人的机会来了！

滴滴AIGC产品经理上岸面经（已拿offer）

新能源技术类岗位+英语=高薪王炸工作

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉