OpenAI全新发布o1模型,AGI的时代是不是很快就到来?

文摘   2024-09-13 11:26   湖南  


兄弟们,炸裂了,openAI又整新活出来了。

就在昨天,openAI推出了最新版的OpenAI o1,这是一种新的大型语言模型,经过强化学习训练可以执行复杂的推理。o1 在回答之前会思考——它可以在回应用户之前产生一个长长的内部思路链。

它到底有哪些能力呢?比4O的版本又强在哪里呢?下面我我从几个不同的方面说一说哈。

首先看看openAI的官方介绍哈,

OpenAI o1 在竞争性编程问题(Codeforces)中排名第 89 位,在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准测试中超越人类博士级准确度。


ChatGPT o1-preview很重要一个特点就是它的强化学习算法带来的推理能力的显著提升。相比于GPT-4o,o1-preview采用了强化学习的方法来帮助模型在做出回答前进行更深入的思考,这种思路链(Chain of Thought)推理能力能够让模型在处理复杂问题时更具灵活性和准确性。下面我们上官方给出来的图片。

看上图中的第一张图,在AIME 2024(美国数学奥林匹克预选赛)中,chatGPT-4o的准确率仅为13.4%,而这次的chatgpt-o1 预览版,达到了56.7%,还未发布的o1正式版,已经达到了惊人的83.3%!

看上图中的第二张图,在代码竞赛中,chatGPT-4o准确率仅为11.0%,而chatgpt-o1 预览版达到了62%,更猛的是o1正式版,达到了89%这个高度!

我们再来看上图中最后一张图,这是最牛逼的博士级科学问题 (GPQA Diamond),GPT4o是56.1,人类专家水平是69.7,o1达到了恐怖的78%!

从三张图片中我们看到了什么?什么叫全面碾压,这就是!

我们再来看一张图,

这张图是在gpt4o与o1的比较中,o1全现碾压gpt4o。

另外在测试测试化学、物理和生物学专业知识的基准GPQA-diamond上,o1 的表现更是全面超过了人类博士专家,这也是有史以来,第一个获得此成就的模型。

通过Self-play RL,o1学会了磨练其思维链并完善所使用的策略。它学会了识别和纠正自己的错误。

它也学会了将复杂的步骤分解为更简单的步骤。

而且当当前的方法不起作用时,它也学会了尝试不同的方法。


他学会的这些,就是我们人类,最核心的思考方式:慢思考。

我们人类的大脑是很消耗能量物体,因此在进化过程中,人类具备了两种思考的能力,第一种是节能模式,感性思考,是根据以往的经验来进行快速反应和判断,比如1+1=2,这种就是。然而人类还有一种是理性思考,这种是人类在长时间进化过程中形成的特殊能力,面对不确定的事情,需要进行深度思考再做决策,而这种思考也被很多科学家定为慢思考。

诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》这本著作中就详细阐述了人类的两种思考方式。如果没有看过的,建议看一下。

现在,o1拥有了人类慢思考的特质,它在回答前,会反复的思考、拆解、理解、推理,然后给出最终答案。

说实话,这些增强的推理能力在处理科学、编码、数学及类似领域的复杂问题时绝对极度有用。

例如o1可以被医疗研究人员用来注释细胞测序数据,被物理学家用来生成量子光学所需的复杂数学公式,以及被各个领域的开发人员用来构建和执行多步骤工作流,等等等等。


o1有这些能力也算是实现了不少的跨越。现在想想,人工智能的发展可能说是越来越快了。

而且和正式版的o1比起来。我感觉自己在它们面前可能已经是个废物了。

这也说明AGI真的快来了。

说了这么多,我们一起来体验下o1吧。


这个o1回答农夫需要把狼、羊和白菜都带过河的经典问题。

它把每一个角题的步骤都清楚的列出来了。

而且可以看出,现在的o1对于数学问题已经进步了非常大了。

现在的AI已经越来越强大。我们不得不感叹,科技的力量滚滚向前,如果我们不做出改变,不拥抱变化,那只能被 时代所抛弃。

拥抱AI是未来必经之路。

而且就如openAI之前说过的“我们通往AGI的路上,已经没有任何阻碍。



今天的分享就到这里,如果觉得不错,随手点个赞、在看、转发三连吧。如果想第一时间收到推送,也可以给我个星标⭐~感谢您看我的文章,我们,下次再见。



AI科普小站
AI知识分享,AI工具分享,AI+行业应用讲解,帮助深度理解AI,提升AI的应用能力。
 最新文章