OpenAI o1模型的规划能力评估：可行性、最优性与普遍性

文摘 2024-10-03 08:03 美国

大型语言模型（LLMs）近年来在人工智能领域取得了显著进展，展示了其在各种语言相关任务中的强大能力。这些模型不仅在自然语言处理、对话系统、数学推理和代码生成等方面表现出色，特别是OpenAI的o1模型还在复杂推理任务中展现了卓越的性能。尽管LLMs在这些领域取得了成功，其在规划任务中的有效性仍未得到充分探索。规划任务涉及在给定约束和目标下生成一系列步骤，以实现特定的目标，这对许多实际应用至关重要，如机器人操作、物流管理和自动驾驶等。

来自于德克萨斯大学的团队为此专门研究和评估OpenAI的o1模型在规划任务中的能力，特别是从可行性、最优性和普遍性三个关键方面进行分析。通过对多种基准任务的实证评估，研究团队希望揭示o1模型在规划任务中的优势和局限性，并为未来的改进方向提供指导。研究将重点考察o1模型在生成可行计划、优化资源使用以及在不同场景中的泛化能力。他们的研究论文《On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability》 10 月 1 日发表于arXiv学术交流平台。

本研究由德克萨斯大学奥斯汀分校的Kevin Wang、Junbo Li、Neel P. Bhatt、Yihan Xi、Qiang Liu、Ufuk Topcu和Zhangyang Wang团队共同完成。该团队在人工智能和机器学习领域具有深厚的研究背景和丰富的技术经验，致力于推动LLMs在复杂任务中的应用和发展。

研究背景

OpenAI的o1模型在语言相关任务中取得了显著成功，特别是在数学推理和代码生成等领域。通过思维链（Chain-of-Thought）推理技术，o1模型能够在复杂的推理任务中表现出色。然而o1模型在规划任务中的有效性尚未得到充分探索。规划任务涉及在给定约束和目标下生成一系列步骤，以实现特定的目标，这对许多实际应用至关重要，如机器人操作、物流管理和自动驾驶等。现有的研究表明，尽管o1模型具备先进的推理能力，但在生成成功的规划方案时仍然依赖外部工具，如PDDL规划器。

研究团队的动机在于通过对多种基准任务的实证评估，深入分析OpenAI的o1模型在规划任务中的能力。他们希望通过评估o1模型在不同任务中的表现，揭示其在规划任务中的优势和局限性，并为未来的改进方向提供指导。研究将重点考察o1模型在生成可行计划、优化资源使用以及在不同场景中的泛化能力。通过系统地评估o1模型的可行性、最优性和普遍性，研究团队旨在提供对LLMs在规划任务中表现的全面理解，并提出改进内存管理、决策和泛化能力的未来研究方向。

研究方法

研究从可行性、最优性和普遍性三个关键角度对OpenAI的o1模型进行了详细分析，以全面评估其在规划任务中的表现。

可行性评估主要关注模型生成可行计划的能力，即模型是否能够在给定约束和目标下生成一个可执行的计划。具体来说，这包括模型是否能够遵循任务的规则和限制，确保每一步操作都是有效的，并最终实现目标。研究通过对多个基准任务的实证评估，分析了o1模型在不同复杂度任务中的可行性表现。例如，在Barman任务中，机器人需要按照严格的顺序操作饮料分配器和摇酒器，任何违反规则的操作都会导致任务失败。通过这些评估，研究团队能够识别出模型在生成可行计划时的优势和不足。

最优性评估研究的是模型生成最优计划的能力，即模型是否能够在实现目标的同时，最小化资源的使用和操作的冗余。一个最优的计划不仅需要可行，还需要在时间、成本和步骤数量上达到最优。研究通过分析模型在不同任务中的表现，评估其在生成最优计划方面的能力。例如，在Blocksworld任务中，模型需要通过最少的操作将积木从初始状态移动到目标状态。研究发现，尽管o1-preview模型在生成可行计划方面表现出色，但在最优性上仍存在显著差距，常常生成包含冗余步骤的次优解。

普遍性评估则关注模型在不同场景中的泛化能力，即模型是否能够在未明确遇到的任务中生成有效的计划。研究通过在多种基准任务中测试模型的表现，评估其在不同环境和任务中的适应能力。例如，在Tyreworld任务中，模型需要在不同的工具和动作符号下完成轮胎更换任务。研究发现，尽管o1-preview在熟悉符号下表现出色，但在抽象和复杂的任务中，其泛化能力显著下降。这表明，尽管模型在特定任务中能够有效遵循规则，但在更广泛的应用场景中仍需进一步改进。

图1：GPT-4、o1mini和o1review在我们定义的关键规划视角上的总体比较。

实验任务与分析

图2:6个任务和3个模型的可行性误差和成功率。总体而言，o1提高了某些任务的成功率，但许多问题仍然存在。不同错误类型的示例在后面的图中详细说明：IR:5、6a、8、9、10；IP:8；MG:7a。

图3：Blocksworld和夹持器的成功率和最优性。与GPT-4相比，o1可以提供更优的计划。图6b和7b提供了次优解决方案的示例。

Barman任务

在Barman任务中，机器人调酒师需要通过操作饮料分配器、酒杯和摇酒器来准备饮品。每个动作都有严格的前提条件，例如只有一只手空闲时才能抓取容器，摇酒器必须包含两种成分才能摇动。研究团队发现，模型在遵循这些规则方面存在显著问题，常常忽略关键约束。即使是高级模型o1-preview也常常违反这些操作规则，导致任务失败。这表明，尽管模型能够生成看似合理的动作序列，但在实际操作中仍然难以完全遵循任务的具体约束。

图4：泛化设置的成功率。GPT-4在具有挑战性的通用任务上完全失败，而o1能够解决其中的一些任务。随机化域的示例如图11所示。

图5:Barman的失败示例。左侧包含问题陈述，右侧显示GPT-4和o1-mini提供的解决方案的第一行。GPT-4解决方案失败是因为规则要求一只手必须是空的才能“填充”，而o1-mini解决方案失败则是因为规则规定“填充”仅适用于空的酒杯。

Blocksworld任务

Blocksworld任务要求机器人手臂通过一系列动作将积木从初始配置移动到目标配置。挑战在于确定正确的动作顺序，同时遵守操作约束。研究显示，o1-preview模型在此任务中的成功率最高，达到了100%。然而，尽管o1-preview成功完成了所有任务，但有时会生成次优解，包含不必要的步骤，降低了整体效率。这表明，模型在生成可行计划方面表现出色，但在优化资源使用和减少冗余动作方面仍有改进空间。

图6:Blocksworld规划问题中的失败和次优情况示例。（a） o1-mini生成的计划图展示了步骤7中的IR错误。（b）通过o1预览生成的次优计划的图示，展示了步骤4中的LO错误。

Grippers任务

在Grippers任务中，机器人团队需要在房间之间移动并操作物体。每个动作都受限于机器人的当前位置和夹持器的状态。经研究发现，o1-preview在成功率和最优性上表现优异，成功率达到了90%，但在某些情况下会误解目标状态。例如，当机器人初始状态已经满足目标要求时，o1-preview仍然会执行不必要的动作。这表明，尽管模型在大多数情况下能够有效规划，但在处理某些特殊情况时仍存在不足。

图7：夹具中的故障示例。（a）展示o1预览MG错误：o1预览假设目标状态是房间2而不是房间1中的两个球；（b）突出了GPT4的次优性：完成目标需要额外的一步，而o1-mini可以返回最佳计划。

Floortile任务

Floortile任务要求机器人团队将地板瓷砖涂成黑白两色。机器人只能在未涂色的瓷砖上移动，并且只能涂色前后相邻的瓷砖。他们发现所有模型均未能成功解决测试案例，主要问题是无法遵守规则。GPT-4和o1-mini常常违反任务规则，而o1-preview虽然在规则遵循方面有所改善，但仍存在规则混淆等问题。这表明，模型在处理复杂约束和多步骤操作时仍需进一步改进。

Termes任务

Termes任务要求机器人通过移动和操作积木来构建结构。机器人可以水平、垂直移动，并在相邻位置放置或移除积木。研究团队发现，所有模型在此任务中均未能成功完成，主要原因是未能考虑高度约束和操作规则。模型生成的动作虽然在自然语言上下文中看似合理，但常常忽略关键的操作细节，导致执行失败。这表明，模型在处理复杂空间关系和任务规则时存在显著挑战。

图8：我们展示了o1-mini的IR错误（右上）和o1预览的IP错误（左下）。o1-mini错误地认为“向下绘制”会绘制机器人下方的网格。与此同时，o1预览在整个计划中都遵守了限制，但最终未能完成。

图9:Termes的失败示例。GPT-4解决方案失败，因为块只能放置在相邻位置，而o1-mini解决方案失败了，因为块必须放置在相同的高度。

Tyreworld任务

Tyreworld任务涉及用完好的轮胎替换车辆轮毂上的破胎。任务需要使用扳手、千斤顶和打气筒等工具，并按特定顺序执行一系列动作。经研究发现，o1-preview模型在所有测试问题中生成了正确的计划，显著优于GPT-4和o1-mini。然而，在泛化能力测试中，当动作和工具被替换为随机符号时，o1-preview的成功率显著下降，从100%降至20%。这表明，尽管o1-preview在熟悉符号下表现出色，但在抽象和复杂的任务中，其泛化能力仍需进一步提升。

讨论

在约束遵循和状态管理方面，o1-preview模型展示了显著的优势。其自我评估机制使其能够在生成计划时检查并纠正动作，特别是在Blocksworld和Tyreworld任务中表现出色。在这些任务中，o1-preview能够更好地遵循复杂的规则，如使用扳手或千斤顶的前提条件，避免了GPT-4和o1-mini常见的规则违反问题。然而，当任务环境变得更加复杂，如在Termes任务中，模型在处理精确的空间推理和多步骤操作时，遵循约束的能力有所下降。这表明，尽管o1-preview在较简单的任务中表现优异，但在处理更抽象和复杂的任务时，其状态管理能力仍需提升。

图10：Tyreworld的故障示例。GPT-4失败是因为“松开”必须在“顶起”之前发生，o1-mini失败是因为在“顶下”之后必须发生“拧紧”。

图11：随机轮胎世界的一个例子：中心面板显示O-1的原始解决方案，而右侧面板将随机符号翻译回其原始术语。在这里，O-1未能遵守螺母必须松开才能松开的约束。

在最优性和冗余方面，o1-preview模型虽然能够生成可行的计划，但常常无法生成最优解，导致冗余动作和效率低下。例如，在Blocksworld任务中，o1-preview生成的计划中包含了不必要的步骤，尽管最终达到了目标状态。这表明，模型在资源最小化和动作优化方面的决策能力仍需改进。最优性对于实际应用至关重要，因为在许多现实场景中，减少步骤和资源的使用与实现正确的结果同样重要。未来的研究可以通过引入更先进的成本敏感决策框架来增强模型的最优性推理能力。

在泛化和适应性方面，o1-preview在具有一致规则结构的任务中表现出色，如Grippers任务中，能够有效适应新环境。然而，在更抽象和复杂的任务中，如Termes任务，模型的泛化能力显著下降。研究发现，o1-preview在处理抽象符号和复杂规则集时表现不佳，尽管在熟悉的符号下表现出色。这表明，尽管o1-preview在结构化、低维度任务中的泛化能力优于GPT-4，但在更动态、高维度和抽象的问题空间中仍有很大改进空间。

o1-preview在规划任务中的表现展示了其在遵循约束和管理状态方面的优势，但在最优性和泛化能力上仍存在显著挑战。未来的研究应致力于改进模型的决策和内存管理能力，特别是在处理复杂空间任务时，以提高其最优性和泛化能力。通过这些改进，LLMs在复杂任务中的应用和发展将得到进一步推动。

图12：我们基于两个复杂性维度对这些问题进行了实证评估：动作复杂性和空间复杂性。颜色编码表示o1预览模型的成功率：绿色表示高成功率，黄色表示中等成功，红色表示完全失败。

未来研究方向

在处理动态和不可预测的环境方面，未来的研究应着重于在更具变化性和不确定性的环境中测试o1模型，以评估其鲁棒性和适应性。许多现实世界的规划问题涉及动态环境，其中规则或约束可能在执行过程中发生变化。通过在这些环境中进行测试，可以更好地了解模型在面对不可预测元素时的表现，从而提升其在实际应用中的可靠性。

为了改进约束遵循，研究可以引入更强大的自我评估机制，帮助LLMs在最终决策前更好地验证其输出。这种机制可以通过多阶段验证或符号验证等技术来实现，模型在生成计划时可以交叉检查其动作是否符合任务约束，从而减少违反规则的错误。这将显著提高模型在复杂任务中的准确性和可靠性。

利用多模态输入也是一个重要的研究方向。通过整合视觉数据、3D环境或传感器信息等多模态输入，模型可以增强对空间和物理推理任务的理解。这对于处理复杂的机器人操作或导航任务尤为重要，因为纯文本推理可能会遗漏关键的空间关系或物理约束。多模态输入可以提供更丰富的信息，帮助模型更准确地理解和执行任务。

扩展到复杂的多代理规划也是未来研究的一个重要方向。许多规划任务，特别是在机器人和物流领域，需要多个代理之间的协调。开发有效处理多代理系统的策略，可以显著提升LLMs在这些任务中的应用能力。这可能涉及开发分散式规划策略，每个代理基于本地知识生成自己的计划，同时协作实现共同目标。

结合人类反馈进行持续学习也是提升模型性能的关键途径之一。通过人类反馈的互动循环，模型可以在执行过程中获得纠正信号或建议，帮助其改进决策并更好地适应新情况或任务。这种持续学习机制可以使模型不断优化其规划能力，提升在实际应用中的表现。

总的来说，尽管o1-preview在LLM规划方面取得了显著进展，但在优化计划、泛化到更抽象的任务和管理状态复杂性方面仍存在重大挑战。未来的研究应致力于创建更鲁棒、高效和适应性强的规划代理，以应对现实世界中的各种挑战。通过这些改进，LLMs在复杂任务中的应用和发展将得到进一步推动。（END）

参考资料：https://arxiv.org/pdf/2409.19924

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

加入AI交流群请扫码加微信

http://mp.weixin.qq.com/s?__biz=MzA3NTY1MDY4MA==&mid=2247486609&idx=1&sn=80632c859457c5fc30980327c7d3cd40

大噬元兽

噬元兽FlerkenS 是一个去中心化的AI数字价值容器，捕捉数字时代新型资产，用数据飞轮把你的数据和内容转化成为你的财富，带你走进下一个智能互联网。

心理测量与语言学数据集PhDGPT：大模型的情感与认知分析

解密心智理论：从人类社会到人工智能的集体智慧提升之路

多智能体系统的金融交易,详解FinVision框架如何革新股票市场预测

智能调度新探索，多智能体强化学习在无关平行机调度中的应用

《自然》科学报告：大模型在社会情境判断方面可以胜过人类

微软研究院成果：用于解决复杂任务的Magentic-One通用多智能体系统

多智能体的文明之路，数字人类与AI社会的崛起

揭秘大模型中的神经网络，从ANs到类脑功能组织

中国科学院、上海人工智能实验室等联合团队重新定义语言模型发展，利用语言不平衡实现多语言自我改进

智能体协作进化论，从心智理论到逆向注意力

加州大学伯克利分校团队提出类脑推理的规范理论，泊松分布下的尖峰神经网络创新

谷歌与学术界联手，研究突破多智能体合作瓶颈的新算法

阿里巴巴“通义实验室”突破大模型推理瓶颈，MCoT框架展开在数学推理中的应用

亚马逊、微软、谷歌DeepMind 联合团队的杰作，POLYMATH 引领MLLMs多模态推理新基准

简洁胜于复杂，亚马逊研究团队提出基于LLM的Web代理AGENTOCCAM的研究与应用

从NLP到多智能体系统，通过BERTeam实现多智能体对抗中的最优组合

阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联合团队提升AI多步推理能力的新方法

人工智能与人类情感的交汇点：一致性评估方法的探索

斯坦福大学和伦敦大学学院联合打造多智能体系统中的安全防线，应对大模型即时感染

中科院、阿里巴巴、澳门科技大学联合团队提出微调LLM的新思路，探索顺序协作多智能体强化学习在LLM微调中的应用

从物理学到人工智能：用哈密顿力学提升AI推理能力

国家人机混合增强智能重点实验室项目：利用生成世界模型优化多智能体系统决策

香港科技大学、阿里巴巴集团和东南大学联合团队优化智能体协作系统，多智能体系统中代理导向规划的设计原则

OpenAI o1模型的规划能力评估：可行性、最优性与普遍性

《自然》Scientific Data：从数据到发现，AI在材料科学中的颠覆性应用

《自然》期刊：上海交通大学与上海人工智能研究所联合推出医学多语言模型

从 ASI到 AHI，人类与AI共生的发展之路

Google Research Scholar和DeepMind奖学金支持项目：多智能体系统中的合作弹性

自然（Nature）科学数据子刊：用于对话情境中情绪识别的 EEG-音频-视频数据集的创新应用

从CoT到ToT，多智能体与思维树结合突破复杂推理瓶颈

智能体在连续环境中的路径优化与冲突解决

基础模型重塑情感计算

从第二届MER2024-SEMI挑战赛看多模态情感识别的最新进展

智能体能自发形成社会吗？昆明理工大团队引入一种用于引发社会出现的生成式多智能体新架构

麻省理工研究团队革新科学研究方式,通过多智能体智能图推理实现科学发现自动化

从大脑到代码，神经科学启发的多智能体CortexCompile利用脑启发架构提升代码生成

自然（Nature）机器智能子刊：多智能体系统中的高效决策与去中心化强化学习的应用

2024人工智能峰会成功召开，华智未来强势发布20余项应用场景

多智能体路径规划新突破：AA-CCBS算法详解

人工智能应用场景高峰论坛暨成果发布会即将启幕，华智未来邀您共创新世界

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义

从噪声中提取情感：中山大学与腾讯AI实验室基于元学习的多模态情感分析新方法

微软研究院发布无代码开发工具 AUTOGEN STUDIO，简化多智能体系统的构建与调试

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

多模态多智能体心智理论MuMA-ToM：推动AI理解复杂社会互动的前沿基准

情感与情绪在决策中的力量，多准则模糊群体决策系统的应用

多智能体系统中基于策略的资源交换逻辑

《自然》期刊发布最新科学报告：人工智能技术在个性化医疗中的创新与挑战

多智能体大模型协作中的角色不一致性：一致性、虚构性和模仿性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉