OpenAI o1到底有多弱?

科技   2024-09-17 09:59   上海  

https://arcprize.org/blog/openai-o1-results-arc-prize


ARC-AGI-Pub 上的 OpenAI o1 结果

OpenAI 新 o1 模型的 ARC 奖测试和说明

在过去的 24 小时内,我们获得了 OpenAI 新发布的o1-previewo1-mini模型,这些模型经过专门训练来模拟推理。在给出最终答案之前,这些模型有额外的时间来生成和完善推理标记。

数百人询问 o1 在 ARC 奖上的表现如何。因此,我们使用与评估 Claude 3.5 Sonnet、GPT-4o 和 Gemini 1.5 相同的基线测试工具对其进行测试。结果如下:

o1 是 AGI 的新范式吗?规模会扩大吗?与 ARC-AGI 上的中等得分相比,o1 在 IOI、AIME 和许多其他令人印象深刻的基准测试得分上的表现之间存在巨大差异,如何解释?

有很多话要谈。

 思想链

o1 通过将其应用于训练时测试时推理,完全实现了“让我们一步一步思考”的思想链(CoT)范式。

资料来源:OpenAI“与LLMs学习推理”。

实际上,当中间步骤序列在合成 CoT 训练数据中得到很好的体现时,o1 在执行任务时犯错误的可能性要小得多。

在训练时,OpenAI 表示他们已经构建了一种新的强化学习 (RL) 算法和一个利用 CoT 的高数据效率流程。

这意味着o1训练的基础来源仍然是一组固定的预训练数据。但 OpenAI 还能够生成大量模拟人类推理的合成 CoT,以通过 RL 进一步训练模型。一个悬而未决的问题是 OpenAI 如何选择生成的 CoT 进行训练?

虽然我们掌握的细节很少,但强化学习的奖励信号很可能是通过验证(在数学和代码等正式领域)和人工标记(在任务分解和规划等非正式领域)来实现的。

在推理时,OpenAI 表示他们正在使用 RL 来让 o1 磨练其 CoT 并完善其使用的策略。我们可以推测这里的奖励信号是某种演员+评论家系统,类似于 OpenAI之前发布的系统。他们在推理时对生成的推理标记应用搜索或回溯。


测试时计算

o1 最重要的方面是,它展示了将 CoT 推理搜索应用于非正式语言而不是数学、代码或精益等正式语言的工作示例。

虽然使用 CoT 增加训练时间扩展是值得注意的,但最重要的新故事是测试时间扩展。

我们相信迭代的 CoT 确实可以实现更大的泛化。自动迭代重新提示使模型能够更好地适应新颖性,其方式类似于 MindsAI 团队利用的测试时微调。

如果我们只进行一次推理,我们就只能重新应用记忆的程序。但通过为每个任务生成中间输出 CoT 或程序,我们解锁了组合学习程序组件的能力,从而实现适应。
这项技术是克服大型语言模型泛化的第一个问题的一种方法:适应新颖性的能力。尽管像测试时微调一样,它最终仍然是有限的。

当人工智能系统被允许进行可变数量的测试时计算(例如,推理标记的数量或搜索时间)时,没有客观的方法来报告单个基准分数,因为它是相对于允许的计算而言的。这就是这张图表所显示的内容。

更多的计算意味着更高的准确性。

当 OpenAI 发布 o1 时,他们可以允许开发人员指定在测试时优化 CoT 的计算量或时间。相反,他们在测试时计算连续体中“硬编码”了一个点,并向开发人员隐藏了该实现细节。

通过不同的测试时间计算,我们不能再仅仅比较两个不同人工智能系统之间的输出来评估相对智能。我们还需要比较计算效率

虽然 OpenAI 的公告没有分享效率数据,但令人兴奋的是,我们现在正在进入一个以效率为焦点的时期。效率对于AGI 的定义至关重要,这就是 ARC 奖对获奖解决方案实施效率限制的原因。

我们的预测:预计未来会看到更多比较准确性与测试时计算的基准图表。


ARC-AGI-Pub 模型基线

OpenAI o1-previewo1-mini在 ARC-AGI 公共评估数据集上均优于GPT-4o 。 o1-preview在准确性方面与 Anthropic 的 Claude 3.5 Sonnet 相当,但需要大约 10 倍的时间才能达到与 Sonnet 相似的结果。


为了获得 ARC-AGI-Pub 排行榜上的基线模型分数,我们使用与测试GPT-4o相同的基线提示。当我们在像 o1 这样的纯模型上测试和报告结果时,我们的目的是尽可能多地测量基本模型的性能,而不进行任何优化。

其他人将来可能会发现更好的方法来促进 CoT 式模型,如果得到验证,我们很高兴将它们添加到排行榜中。

o1 的性能提升确实伴随着时间成本。400 项公共任务花费了 70 个小时,而GPT-4o和 Claude 3.5 Sonnet 仅花费了 30 分钟。

您可以使用我们的开源 Kaggle 笔记本作为基线测试工具或您自己的方法的起点。公共排行榜上的 SOTA 提交是巧妙技术和尖端模型的结果。

也许您可以弄清楚如何利用 o1 作为基础组件以类似的方式获得更高的分数!



Code:最有前途的ARC-AGI比赛方法:关系分解,关系型表示胜过函数型表示

CreateAMind
ALLinCreateAMind.AGI.top , 前沿AGI技术探索,论文跟进,复现验证,落地实验。 鼓励新思想的探讨及验证等。 探索比大模型更优的智能模型。
 最新文章