WXRedian | AI科普小站 | OpenAI全新发布o1模型，AGI的时代是不是很快就到来？

OpenAI全新发布o1模型，AGI的时代是不是很快就到来？

文摘 2024-09-13 11:26 湖南

兄弟们，炸裂了，openAI又整新活出来了。

就在昨天，openAI推出了最新版的OpenAI o1，这是一种新的大型语言模型，经过强化学习训练可以执行复杂的推理。o1 在回答之前会思考——它可以在回应用户之前产生一个长长的内部思路链。

它到底有哪些能力呢？比4O的版本又强在哪里呢？下面我我从几个不同的方面说一说哈。

首先看看openAI的官方介绍哈，

OpenAI o1 在竞争性编程问题（Codeforces）中排名第 89 位，在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列，并在物理、生物和化学问题 (GPQA) 基准测试中超越人类博士级准确度。

ChatGPT o1-preview很重要一个特点就是它的强化学习算法带来的推理能力的显著提升。相比于GPT-4o，o1-preview采用了强化学习的方法来帮助模型在做出回答前进行更深入的思考，这种思路链（Chain of Thought）推理能力能够让模型在处理复杂问题时更具灵活性和准确性。下面我们上官方给出来的图片。

看上图中的第一张图，在AIME 2024（美国数学奥林匹克预选赛）中，chatGPT-4o的准确率仅为13.4%，而这次的chatgpt-o1 预览版，达到了56.7%，还未发布的o1正式版，已经达到了惊人的83.3%！

看上图中的第二张图，在代码竞赛中，chatGPT-4o准确率仅为11.0%，而chatgpt-o1 预览版达到了62%，更猛的是o1正式版，达到了89%这个高度！

我们再来看上图中最后一张图，这是最牛逼的博士级科学问题 (GPQA Diamond)，GPT4o是56.1，人类专家水平是69.7，o1达到了恐怖的78%！

从三张图片中我们看到了什么？什么叫全面碾压，这就是！

我们再来看一张图，

这张图是在gpt4o与o1的比较中，o1全现碾压gpt4o。

另外在测试测试化学、物理和生物学专业知识的基准GPQA-diamond上，o1 的表现更是全面超过了人类博士专家，这也是有史以来，第一个获得此成就的模型。

通过Self-play RL，o1学会了磨练其思维链并完善所使用的策略。它学会了识别和纠正自己的错误。

它也学会了将复杂的步骤分解为更简单的步骤。

而且当当前的方法不起作用时，它也学会了尝试不同的方法。

他学会的这些，就是我们人类，最核心的思考方式：慢思考。

我们人类的大脑是很消耗能量物体，因此在进化过程中，人类具备了两种思考的能力，第一种是节能模式，感性思考，是根据以往的经验来进行快速反应和判断，比如1+1=2，这种就是。然而人类还有一种是理性思考，这种是人类在长时间进化过程中形成的特殊能力，面对不确定的事情，需要进行深度思考再做决策，而这种思考也被很多科学家定为慢思考。

诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考，快与慢》这本著作中就详细阐述了人类的两种思考方式。如果没有看过的，建议看一下。

现在，o1拥有了人类慢思考的特质，它在回答前，会反复的思考、拆解、理解、推理，然后给出最终答案。

说实话，这些增强的推理能力在处理科学、编码、数学及类似领域的复杂问题时绝对极度有用。

例如o1可以被医疗研究人员用来注释细胞测序数据，被物理学家用来生成量子光学所需的复杂数学公式，以及被各个领域的开发人员用来构建和执行多步骤工作流，等等等等。

o1有这些能力也算是实现了不少的跨越。现在想想，人工智能的发展可能说是越来越快了。

而且和正式版的o1比起来。我感觉自己在它们面前可能已经是个废物了。

这也说明AGI真的快来了。

说了这么多，我们一起来体验下o1吧。

这个o1回答农夫需要把狼、羊和白菜都带过河的经典问题。

它把每一个角题的步骤都清楚的列出来了。

而且可以看出，现在的o1对于数学问题已经进步了非常大了。

现在的AI已经越来越强大。我们不得不感叹，科技的力量滚滚向前，如果我们不做出改变，不拥抱变化，那只能被时代所抛弃。

拥抱AI是未来必经之路。

而且就如openAI之前说过的“我们通往AGI的路上，已经没有任何阻碍。”

今天的分享就到这里，如果觉得不错，随手点个赞、在看、转发三连吧。如果想第一时间收到推送，也可以给我个星标⭐～感谢您看我的文章，我们，下次再见。