刚刚,OpenAI发布史上最强模型-o1,推理能力超人类博士!

文摘   2024-09-13 09:05   北京  
今天凌晨1点,OpenAI终于正式发布了传说中的“草莓”模型——o1。

除了名字不一样,功能、推理、性能等方面与之前泄漏的内容基本一致,o1的推理模式很特殊,在回答用户问题之前会进入拟人化思考模式,将问题分解成更小的步骤逐一解决,生成一个较长的内部思维链,回答的内容也更加准确。

这个技术谷歌DeepMind很早之前便进行过解读称为——训练时计算(Test-time computation)。其核心技术主要使用了密集型、流程导向的验证奖励模型搜索,以及自适应地更新模型对响应的概率分布两种方法。

根据OpenAI公布测试的数据显示,o1在美国数学奥林匹克预选赛中,排名美国前500 名学生之列,并且在物理、生物学、化学基准上,首次超过了人类博士。也就是说,o1超过了GPT-4o,是现役最强的超复杂推理大模型。

o1主要开发人员介绍该产品

已经使用上的用户表示,o1成功地写出了一首非常困难的藏头诗,以前的模型都无法写出来。它在生成答案的过程中疯狂反复推理、自我纠正,非常特别的推理模式。

已经尝试了o1 模型,进步非常大。推理能力更好,准确性和思维复杂性似乎也更好。

超过人类博士水平,这个结果太疯狂了!

期待已久的草莓模型终于来了。

太阳从西边出来了,这次居然没有候补名单?

感受一下AGI的震撼吧!

推理能力遥遥领先,这下能和Claude竞争了。

国际数学奥林匹克资格考试中,GPT-4o 只正确解决了 13% 的问题,而新模型的得分为 83%,编程竞赛中的表现更好,确实有点疯狂!

o1主要技术特点介绍

拟人化的推理模式是o1的主打功能之一,与传统模型不同,它在回答问题之前会进行深入的思考,生成一个较长的内部思维链。这种思维链的产生使得 o1 能够更好地理解问题的本质,分析问题的各个方面,从而给出更准确和合理的答案。

自适应强化学习、纠错则是其第二大技术特点,o1 通过大规模的强化学习算法进行训练,在训练过程中,模型学会了如何有效地利用其思维链来解决问题。

这种训练方法使得 o1 能够不断优化自己的策略,识别和纠正错误,学会将复杂的步骤分解为更简单的部分,并在当前方法不奏效时尝试不同的方法来解决。通过不断的学习和改进,o1 的推理能力得到了极大的提升,也就是说o1具备了智能体的功能。

o1使用了谷歌训练时计算类似的技术,OpenAI发现,随着训练时计算资源的增加和测试时思考时间的延长,o1 的性能会不断提升。这表明,通过增加计算资源的投入,可以进一步挖掘 o1 的潜力,使其在各种任务中表现得更加出色。

o1的其他主要特色应用功能包括,可以直接翻译一个不健全的句子,自动补全缺失内容;可根据提示自动编写复杂的视频小游戏;擅长解决超复杂、冗长的推理问题。

o1测试数据

OpenAI对o1进行了一系列的测试,以评估其在不同领域的性能。在竞争编程问题方面,o1 在 Codeforces 编程竞赛上的表现非常出色,超过83%的专业人员。

在数学竞赛中,以 AIME 2024 为例,GPT - 4o 平均只能解决 12% 的问题,而 o1 平均能解决74% 的问题,若采用 64 个样本的共识,解决率能达到83%。

使用学习到的评分函数重新排序 1000 个样本时,解决率更是高达 93%。这样的成绩使 o1 在该考试中的得分能够跻身美国前 500 名学生的行列,超过了美国数学奥林匹克的入选分数线。

在 PhD - Level Science Questions(GPQA Diamond)的测试中,o1 也展现出了优异的性能,超过了人类专家的表现。为了进行这项测试,研究人员招募了具有博士学位的专家来回答 GPQA - diamond 问题,结果发现 o1 的表现更为准确

此外,o1 在 ML Benchmarks 的多个子类别中也有显著的改进。例如,在 MATH - 500、MathVista、MMMU、MMLU 等测试中,o1 的准确率均高于 GPT - 4o。

在其他考试方面,o1 在 APEnglish Lang、APEnglish Lit、APPhysics2、AP Calculus、AP Chemistry、LSAT、SATEBRW、SATMath 等考试中的成绩也显示出了巨大优势,整体比GPT-4o高出很多。

值得一提的是,这一次OpenAI没有再放鸽子,ChatGPT Plush和team用户已经可以使用该模型,同时开放了API,想体验的小伙伴们赶紧去试试吧!

本文素材来源OpenAI,如有侵权请联系删除

END


往期高赞文章



智普AIGC产品实习生上岸面经(已拿offer)

美团 AIGC产品经理面经(已拿 offer)

从碧桂园离职,这个转行,跨度蛮大的

面试9家,拿到5个offer,感觉最近招聘市场还不错

35岁+进央企做AIGC产品经理,可行否?

双非本科工程造价专业,转行AIGC产品经理,涨薪65%

百度&理想汽车&百川智能&OPPO四家公司AIGC产品经理面经分享

面试7家,拿到2个offer,薪资中上水平

太卷了,面试十几家,涨薪40%最终上岸

蚂蚁金服AIGC产品经理--上岸面经

求职AIGC,薪资翻倍了

这个offer选的很值

字节跳动等20家AIGC产品经理面经汇总

春节前,抓住了字节跳动offer

字节很好,但是我选了阿里

百度很卷,但是我拿到了

字节跳动真的很卷,但是我入职啦

6家大厂:字节&百度&腾讯&科大&商汤&蚂蚁AIGC产品面经大汇总(已offer)

6家大厂的AIGC产品经理面经

薛老板AIGC和新能源求职
前百度、京东10年资深产品经理 畅销书《产品经理求职面试笔记》作者,全网粉丝20W 助力转行年薪40W+新能源/人工智能/互联网产品 已帮助5000+学员入职排名前10一线大厂......
 最新文章