首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

OpenAI o1到底有多弱？

科技 2024-09-17 09:59 上海

https://arcprize.org/blog/openai-o1-results-arc-prize

ARC-AGI-Pub 上的 OpenAI o1 结果

OpenAI 新 o1 模型的 ARC 奖测试和说明

在过去的 24 小时内，我们获得了 OpenAI 新发布的o1-preview和o1-mini模型，这些模型经过专门训练来模拟推理。在给出最终答案之前，这些模型有额外的时间来生成和完善推理标记。

数百人询问 o1 在 ARC 奖上的表现如何。因此，我们使用与评估 Claude 3.5 Sonnet、GPT-4o 和 Gemini 1.5 相同的基线测试工具对其进行测试。结果如下：

o1 是 AGI 的新范式吗？规模会扩大吗？与 ARC-AGI 上的中等得分相比，o1 在 IOI、AIME 和许多其他令人印象深刻的基准测试得分上的表现之间存在巨大差异，如何解释？

有很多话要谈。

思想链

o1 通过将其应用于训练时和测试时推理，完全实现了“让我们一步一步思考”的思想链（CoT）范式。

资料来源：OpenAI“与LLMs学习推理”。

实际上，当中间步骤序列在合成 CoT 训练数据中得到很好的体现时，o1 在执行任务时犯错误的可能性要小得多。

在训练时，OpenAI 表示他们已经构建了一种新的强化学习 (RL) 算法和一个利用 CoT 的高数据效率流程。

这意味着o1训练的基础来源仍然是一组固定的预训练数据。但 OpenAI 还能够生成大量模拟人类推理的合成 CoT，以通过 RL 进一步训练模型。一个悬而未决的问题是 OpenAI 如何选择生成的 CoT 进行训练？

虽然我们掌握的细节很少，但强化学习的奖励信号很可能是通过验证（在数学和代码等正式领域）和人工标记（在任务分解和规划等非正式领域）来实现的。

在推理时，OpenAI 表示他们正在使用 RL 来让 o1 磨练其 CoT 并完善其使用的策略。我们可以推测这里的奖励信号是某种演员+评论家系统，类似于 OpenAI之前发布的系统。他们在推理时对生成的推理标记应用搜索或回溯。

测试时计算

o1 最重要的方面是，它展示了将 CoT 推理搜索应用于非正式语言而不是数学、代码或精益等正式语言的工作示例。

虽然使用 CoT 增加训练时间扩展是值得注意的，但最重要的新故事是测试时间扩展。

我们相信迭代的 CoT 确实可以实现更大的泛化。自动迭代重新提示使模型能够更好地适应新颖性，其方式类似于 MindsAI 团队利用的测试时微调。

如果我们只进行一次推理，我们就只能重新应用记忆的程序。但通过为每个任务生成中间输出 CoT 或程序，我们解锁了组合学习程序组件的能力，从而实现适应。
这项技术是克服大型语言模型泛化的第一个问题的一种方法：适应新颖性的能力。尽管像测试时微调一样，它最终仍然是有限的。

当人工智能系统被允许进行可变数量的测试时计算（例如，推理标记的数量或搜索时间）时，没有客观的方法来报告单个基准分数，因为它是相对于允许的计算而言的。这就是这张图表所显示的内容。

更多的计算意味着更高的准确性。

当 OpenAI 发布 o1 时，他们可以允许开发人员指定在测试时优化 CoT 的计算量或时间。相反，他们在测试时计算连续体中“硬编码”了一个点，并向开发人员隐藏了该实现细节。

通过不同的测试时间计算，我们不能再仅仅比较两个不同人工智能系统之间的输出来评估相对智能。我们还需要比较计算效率。

虽然 OpenAI 的公告没有分享效率数据，但令人兴奋的是，我们现在正在进入一个以效率为焦点的时期。效率对于AGI 的定义至关重要，这就是 ARC 奖对获奖解决方案实施效率限制的原因。

我们的预测：预计未来会看到更多比较准确性与测试时计算的基准图表。

ARC-AGI-Pub 模型基线

OpenAI o1-preview和o1-mini在 ARC-AGI 公共评估数据集上均优于GPT-4o 。 o1-preview在准确性方面与 Anthropic 的 Claude 3.5 Sonnet 相当，但需要大约 10 倍的时间才能达到与 Sonnet 相似的结果。

为了获得 ARC-AGI-Pub 排行榜上的基线模型分数，我们使用与测试GPT-4o相同的基线提示。当我们在像 o1 这样的纯模型上测试和报告结果时，我们的目的是尽可能多地测量基本模型的性能，而不进行任何优化。

其他人将来可能会发现更好的方法来促进 CoT 式模型，如果得到验证，我们很高兴将它们添加到排行榜中。

o1 的性能提升确实伴随着时间成本。400 项公共任务花费了 70 个小时，而GPT-4o和 Claude 3.5 Sonnet 仅花费了 30 分钟。

您可以使用我们的开源 Kaggle 笔记本作为基线测试工具或您自己的方法的起点。公共排行榜上的 SOTA 提交是巧妙技术和尖端模型的结果。

也许您可以弄清楚如何利用 o1 作为基础组件以类似的方式获得更高的分数！

Code：最有前途的ARC-AGI比赛方法：关系分解，关系型表示胜过函数型表示

http://mp.weixin.qq.com/s?__biz=MzA5MDMwMTIyNQ==&mid=2649401319&idx=1&sn=b78a9a846444cde1546e1741628e0523

ALLinCreateAMind.AGI.top ，前沿AGI技术探索，论文跟进，复现验证，落地实验。鼓励新思想的探讨及验证等。探索比大模型更优的智能模型。

最新文章

RC2：高效 MaxSAT 求解器 2018

机器人自监督NeSy神经符号框架，5大应用落地无人驾驶

基于数值推理的关系程序综合

LogiCity：用抽象城市模拟推进NeSy人工智能，首个可定制一阶逻辑（FOL）的模拟器

重磅：比较 NeSy和StarAI系统的7个维度

OpenAI o1到底有多弱？

Code 机器人自主的自监督神经符号框架sairlab系列论文代码落地无人驾驶应用

Code：用神经符号AI解决机器人强化学习等问题，sairlab系列论文代码

反统一与泛化:综述

1000万美元AIMO挑战的启发：有趣的符号计算

寻找最小不可满足子程序学习逻辑程序，学习时间减少99%

Code：从提出假设、验证假设、假设失败中学习最优方案

高阶相互作用在超图和单纯复形中以不同的方式塑造集体动力学

高阶网络的简单性（度量标准）

通过连接小规则来学习大逻辑规则AI程序

ULLER：神经符号AI，学习和推理的统一语言

统一的代数视角看待概率逻辑编程

AI雏形,系统1+系统2，Scallop2：神经符号编程语言: 符号、概率、可解释等强化学习等

Scallop1：从概率演绎数据库到可扩展的可微分推理

如何训练你的HiPPO：具有广义正交基投影的状态空间模型

AI集大成！Scallop：神经符号编程语言: 符号、概率、可解释等强化学习等

王培教授AGI相关论文列表

重磅！感觉的含义：形式化了'“理解”感觉数据流的含义'(意识)

超图挖掘综述:模式、工具和生成器

简单逻辑Prolog--智能推理例子(在线互动版）

第一个自动发现跨领域泛化的高阶抽象,在程序合成领域发现抽象map、filter和fold，并在国际象棋领域使用它们

一个高效的精确算法，用于执行涉及3个和4个节点的高阶模体分析

在网络微观尺度上提取超图中的高阶指纹方法

第一个展示自动发现跨领域泛化的高阶抽象

从失败中学习高阶逻辑程序

自下而上的IDG模型更好地解释了人类的推理 2018

复杂超图上相位振荡器的同步化，复杂系统中最具标志性的问题之一，它在生物学、物理学和工程学等领域都有应用

ILP Code：指数级降低搜索空间：通过组合程序来学习逻辑程序

ILP Code：从假设、验证、失败中学习

Code：ARC_AGI比赛的图形、约束和搜索 V2 超图表示及代码展示一点

儿童黑客：构建更多具有人类特征的学习模型 1 理论(1-2章两万字)

Code：儿童黑客：构建更多具有人类特征的学习模型 2 实现（metaprimitives）

解决终身学习迁移学习：30年ILP介绍，四万字

Code：最有前途的ARC-AGI比赛方法：关系分解，关系型表示胜过函数型表示

重磅：人类大脑进化和认知的协同核心：大脑组织如何产生人类独特的认知能力

Code：最有前途的ARC-AGI比赛方法：关系分解，关系型表示胜过函数型表示

地球是模拟的？如何逃脱，存在的目的？

重磅理论基础：贝叶斯力学的几何和分析，自由能的复杂系统理论四万字

超维计算(向量符号体系结构)综述，第一部分:模型和数据转换

Code：Reticula: 原生处理有向和无向静态网络、时间网络、超图和时间超图的软件库

分割-对齐-征服策略之程序合成for ARC-AGI

EasyGraph：多功能、跨平台、高效的跨学科网络分析库

概率分布通用逼近器 universal distribution approximation v3

Code：关系型表示胜过函数型表示，程序合成中的关系分解

ARC挑战指南2023：由于ARC训练集的规模非常小，需要强烈的归纳偏差和先验知识

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉