OpenAI 团队和 CEO Sam Altman 透露了全新 AI 模型 O1 的构建历程、独特之处和未来展望。O1 作为主打推理能力的全新模型系列,标志着 AI 发展迈入新阶段,将为解决复杂问题和任务提供更优解决方案,并在未来几年内带来革命性的变化。
Sam Altman:O1 将引领 AI 进入代理时代
OpenAI CEO Sam Altman 对 O1 模型寄予厚望,将其视为 AI 发展的重要里程碑,并相信 O1 将在未来几年内带来革命性的变化。他认为 O1 模型是 "我们这个时代最具变革性的技术",它将 "让人们的生活更美好,让商业成果更出色"。
Sam Altman 对 O1 模型的评价充满激情,他表示:"当你第一次坐下来讨论潜在的重大合作关系时,你可以在最初的几分钟内感觉到你是否真的想做这件事,我当时就感觉到了。" 他认为 O1 模型的推理能力 "将解锁大量新的、非常有价值的用例"。
他特别强调了 O1 模型在 "个性化" 和 "整合" 方面的潜力:"我们对新一代模型最兴奋的事情之一是它们在个性化方面可以做什么,以及它们在整合方面可以做什么。这些模型能够查看大量数据,使用大量工具,访问大量系统,并提供希望是相当神奇的体验。" 他相信,O1 模型将 "为每个用户或客户提供个性化体验",并将 "彻底改变客户支持的工作方式"。
Sam Altman 对 O1 模型的未来发展充满期待,认为 O1 只是 "这些新型推理模型的 GPT-2 阶段",并且 "在未来几年内,它将发展到与 GPT-4 相当的水平"。他相信,即使在接下来的几个月里,O1 也会变得更好,并指出 "从 O1 预览版到 O1,这是一个非常重要的进步"。
他认为,O1 模型最令人兴奋的一点是它 "开启了第三级(代理)"。他将 AI 的发展分为五个级别:
1. 聊天机器人
2. 推理器 (O1 模型)
3. 代理
4. 创新者
5. 完整的组织
他相信,"从第一级到第二级花费了一些时间,但我认为第二级最令人兴奋的一点是,它使得第三级相对快速地实现"。他预测,"我们期望这项技术最终能够实现的代理体验将非常有影响力"。
除了 O1 模型,Sam Altman 还对 AI 在加速科学发现方面的潜力感到兴奋:"我个人非常期待 AI 帮助我们加速科学发现,我认为这仍然是未来的事情,但我们现在可以看到它的曙光。我相信,世界上大多数真正的、可持续的经济增长,让我们所有人的生活变得更好,都来自于科学进步和技术进步。如果 AI 能够加速这一进程,如果它能够帮助我们发明新东西,治愈疾病,提出更好的能源,等等,那将是一个巨大的胜利。"
Sam Altman 认为, AI 研究人员的工作是 "找到一种方法来投入更多的计算能力",并指出 "硬件人员一直做得很好,成本已经指数级下降了很长时间,我们没有多少时间找到另一种方法来投入更多的计算能力"。他将此视为 "肩上的重担",并表示 "这种新的范式真的找到了一种方法,可以将这种负担卸载很长一段时间"。
O1 诞生:告别 GPT,迎接推理新时代
为了构建更强大的 AI, OpenAI 团队一直致力于探索新的技术路径。在发布了 GPT 系列模型之后,他们并没有停下脚步,而是将目光投向了推理能力更强的全新模型—— O 系列。
"我们正在启动一系列新模型,并使用新的名称 O。这是为了突出这样一个事实:与之前的模型(如 GPT-3.5 和 GPT-4)相比,您在使用 O 时可能会感到不同",OpenAI 的研究团队负责人 Bob McGrew 说道, "O1 是一个推理模型,它会在回答您的问题之前进行更多思考"。
目前,O1 Preview 和 O1 Mini 两个版本已经发布。O1 Preview 作为 O1 的预览版,让用户率先体验到 O 系列模型的强大功能,而 O1 Mini 则是一个更小、更快的模型,采用了与 O1 相似的框架进行训练,方便更多用户体验。未来,O 系列模型将持续迭代,为用户带来更强大的推理能力,彻底改变我们与 AI 交互的方式。
什么是推理能力?
OpenAI 研究人员将推理能力定义为 "模型能够将思考时间转化为更好的结果"。对于简单的问题,AI 模型可以直接给出答案,例如 "意大利的首都是什么?",模型可以立刻回答 "罗马"。但对于复杂的问题或任务,例如解决复杂的谜题、制定商业计划、创作小说等,AI 模型需要进行更长时间的思考,才能生成更优的输出。O 系列模型正是为了解决这类需要深度思考的问题而设计的。
一个典型的例子是计算Strawberry中有多少个r时。这个问题看似简单,但实际上需要进行多步推理,例如将草莓的重量转换为时间单位。之前的 GPT 模型无法可靠地解决这个问题,而 O1 模型经过 "一年半的努力",终于能够可靠地计算出草莓中有多少个r时。研究人员甚至开玩笑说:"我们应该直接硬编码答案!"
O1 的 "Aha" 时刻:思维链的突破,深度强化学习的回归
O1 模型强大的推理能力是如何构建的呢?OpenAI 的研究人员分享了 O1 模型背后的技术细节,其中两个关键要素是深度强化学习和思维链,以及一个重要的技术路线转变。
早期的探索:从深度强化学习到监督学习的转变:
最初, OpenAI 研究团队深受 AlphaGo 的启发,对深度强化学习抱有很大的期望,并在数据和机器人领域观察到其良好的扩展性。他们希望通过在通用领域应用强化学习来构建更加强大的 AI。然而,在 GPT 模型取得成功之后,他们看到了监督学习在大型语言模型训练方面的巨大潜力,于是开始思考如何将这两种不同的范式结合起来。
思维链的突破:
在 O1 的训练过程中,研究人员观察到一个重要的现象:当模型使用强化学习来生成和优化自己的思维链时,其表现甚至比人类为其编写思维链时更好。这一发现让他们意识到,可以通过这种方式扩展和探索模型的推理能力。思维链是指 AI 模型在解决问题时所遵循的一系列逻辑步骤。例如,在解决一个数学问题时,模型可能会先进行一些简单的计算,然后根据计算结果进行下一步的推理,最终得出答案。O1 模型能够自主生成和优化自己的思维链,这意味着它能够以更灵活、更有效的方式进行推理和思考,从而解决更复杂的问题。
在探索 O1 模型的过程中,OpenAI 团队经历了许多 "Aha" 时刻,即那些突然的顿悟和突破。例如,当他们发现使用强化学习训练模型可以生成比人类编写的更好的思维链时,他们意识到自己正在开辟一条全新的道路。另一个 "Aha" 时刻是,他们发现 O1 模型可以质疑自身错误并进行自我修正,这表明 O1 具有更强的推理和反思能力。
O1 的独特个性:每个模型都是独一无二的艺术品
O1 模型不仅拥有强大的推理能力,还展现出独特的个性化和反思能力。与传统认知中 AI 模型追求的标准化和一致性不同,每个 O1 模型在不同任务上的表现略有不同,如同拥有独特的“个性”。这种“个性化”并非人为设计,而是模型在训练过程中自然形成的,可能源于模型训练数据的差异、模型结构的细微差别等因素。虽然“个性化”可能会导致模型在某些任务上的表现不一致,但同时也为模型带来了更高的灵活性和适应性,使其能够更好地应对各种不同的应用场景。
更令人惊叹的是,O1 模型在解决数学问题时展现出反思和自我修正能力。研究人员发现,O1 模型在解决数学问题时,"能够质疑自身错误并进行自我修正",这种能力在之前的模型中并不常见。研究人员表示,在阅读 O1 模型的 "思考过程" 时,他们会产生一种 "奇妙的体验" ,仿佛在观察一个 "人类" 而不是 "机器人" 在思考问题。O1 甚至会在时间限制内努力完成推理,并给出答案,就像参加数学竞赛的学生一样。这种行为与许多参加过数学竞赛的研究人员产生了共鸣,他们将 O1 的推理过程视为 "完整的循环时刻"。这种反思能力的出现,意味着 AI 模型正在朝着更智能、更自主的方向发展。
研究人员甚至发现,当 O1 在有限的思考时间内即将超时时,它会像人类一样 "匆忙给出答案",并说:"我必须现在就完成它,答案是......" 这种拟人化的行为让研究人员感到惊奇,也让他们对 O1 的推理能力更加充满信心。
O1 的应用:无限可能,未来可期
O1 模型的强大功能和独特优势使其在众多领域拥有广泛的应用场景。研究人员分享了他们使用 O1 模型的经验,例如利用 O1 进行代码编写、调试、学习复杂技术主题、头脑风暴、创意文本生成等场景。研究人员发现,O1 模型在处理这些任务时表现出色,例如在代码编写方面,O1 可以帮助用户快速生成代码,并进行代码调试;在头脑风暴方面,O1 可以提供新的思路和想法,帮助用户突破思维瓶颈。一些研究人员甚至表示,O1 帮助他们实现了一些 "内部秘密想法"。
更重要的是,O1 模型的推理能力有望在工程和科学领域取得突破,并为科学发展做出贡献。研究人员认为,O1 模型"在某些领域(例如数学和编码)超越人类",这意味着 O1 模型可以帮助人类解决更复杂、更困难的科学问题,推动科学的进步。例如,O1 模型可以帮助科学家分析海量数据,发现新的科学规律;O1 模型还可以帮助工程师设计更复杂的系统,提高工程效率。
O1 模型的发布激发了人们对 AI 未来发展的无限遐想。例如,有人用 O1 模型来尝试验证在 Twitter 上看到的关于 "大型语言模型无法做到的事情" 。研究人员也相信,O1 模型的推理能力可以应用于 "科学发现" ,并最终成为 "自身发展的贡献者" 。
O1 Mini:轻量级推理引擎,触手可及
除了强大的 O1 模型之外, 还发布了 O1 Mini,一个更轻量级的推理引擎。O1 Mini 旨在以更低的成本和更快的速度将 O 系列模型推广到更广泛的用户群体。它专注于推理能力,但在知识储备方面可能不如 O1 丰富。O1 Mini 的发布,让更多用户能够体验到 O 系列模型带来的推理革命,并将其应用于自己的工作和生活中。
O1 模型研发背后的故事:挑战、经验与团队文化
在 O1 模型的研发过程中, OpenAI 团队也遇到了许多挑战。例如,训练大型模型需要大量的计算资源和数据,模型的调试和评估也十分困难。
模型训练的挑战:
训练大型模型是一项非常复杂的任务,需要克服各种算法和基础设施方面的挑战。研究人员表示,"训练大型模型本质上是一件非常困难的事情","成千上万的事情都可能出错"。为了解决这些问题,他们不得不 "投入比以往更多的计算资源",并 "找到一种方法将两种不同的范式 (深度强化学习和监督学习) 结合起来"。团队付出了大量的努力,才最终成功训练出了 O1 模型。
模型评估的挑战:
随着模型规模的不断增大,模型的评估也变得越来越困难。研究人员表示,"随着模型的扩展,我们正在耗尽所有行业级的评估标准,我们不知道接下来要寻找什么"。他们正在努力寻找新的方法来评估 O1 模型的性能,以确保模型的可靠性和安全性。
团队合作的重要性:
研究人员强调了团队合作在 O1 模型研发过程中的重要性。他们表示,"O1 模型的成功离不开团队成员之间的紧密合作和互相支持"。团队成员来自不同的学科背景,他们互相学习,互相帮助,共同克服了研发过程中的种种挑战。就像 研究人员所说的,"你能有绝妙的想法,但大多数时间你都花在运行它们,或者运行它们并失败"。在这种情况下,团队合作显得尤为重要。
这种团队文化也体现在 OpenAI 的办公环境中。研究人员描述了他们在办公室里互相 "祝福" 的场景,当有人遇到问题时,他们会向其他人寻求帮助,并称之为 "W 的祝福"。这种互相支持和鼓励的氛围,是 OpenAI 团队取得成功的关键因素之一。
从失败中学习:
O1 模型的研发过程并非一帆风顺, 团队也经历了许多失败。但是,他们并没有放弃,而是从失败中吸取教训,不断改进模型。正如 研究人员所说,"每次我们扩大一个新的规模,我们都会看到一系列新的问题,无论是算法上的还是基础设施上的"。他们相信,"最终的模型就像一件精美的艺术品,为了让它发挥作用,你必须确保每一步都正确"。
这种从失败中学习的精神,也是 OpenAI 团队取得成功的关键因素之一。他们不断尝试新的想法,并从失败中吸取教训,最终找到了构建 O1 模型的最佳方法。
相关链接
• 官方网站: https://openai.com/