论文题目:Agent Planning with World Knowledge Model
本文作者:乔硕斐(浙江大学)、方润楠(浙江大学)、张宁豫(浙江大学)、朱雨琦(浙江大学)、陈想(浙江大学)、邓淑敏(新加坡国立大学)、蒋勇(阿里巴巴)、谢朋峻(阿里巴巴)、黄非(阿里巴巴)、陈华钧(浙江大学)
发表会议:NeurIPS 2024
论文链接:https://arxiv.org/abs/2405.14205
代码链接:https://github.com/zjunlp/WKM
欢迎转载,转载请注明出处
一、引言
一、引言
现阶段,大模型智能体的规划能力已取得了较大发展,近日上线的Claude新模型在一定程度上甚至可以像人类一样使用计算机。然而,由于大模型缺乏对真实物理世界的理解,大模型智能体仍然存在盲目试错和幻觉生成问题。人类在处理规划任务时往往会借鉴历史经验(知识模型),在任务开始前会根据先验知识在脑中预演整个流程,在任务过程中会根据环境的动态变化判断环境的具体状态 。
类比人类认知世界的过程,我们提出参数化的世界知识模型(World Knowledge Model,WKM),在全局规划上为智能体提供先验任务知识,在局部规划上为智能体提供动态状态知识。
二、方法
二、方法
人类通常通过向专家学习和具体实践来获取知识,我们基于专家经验和探索轨迹来构建WKM:
2)我们提示它从专家轨迹中总结每个规划步骤的状态知识(state knowledge),并将前一个和下一个动作结合起来构建状态知识库。
3) 最后,我们将生成的知识整合到专家轨迹中,并训练一个知识模型来生成这些知识。同时智能体需要重新训练以适应任务知识。
在规划阶段,我们使用WKM为智能体提供全局先验任务知识,并维护局部动态状态知识。任务知识将以自然语言形式与特定任务相结合,以指导智能体的试错过程。在每个规划步骤中,为了防止幻觉行为的发生,我们利用生成的状态知识作为query,从预先构建的状态知识库中进行检索。然后我们使用前一个动作的约束、检索到的下一个动作的概率以及代理模型的概率来对下一个动作进行加权预测。
三、主要实验
三、主要实验
WKM在不同模型和数据集上相对于各种baseline都有相对更好的表现,特别是在ALFWorld和WebShop上能够超过GPT-4。
在消融研究中,我们分别分析了任务知识和状态知识的有效性。我们发现,通过任务知识带来的改进比通过状态知识更为显著。此外,状态知识对seen任务的影响比对unseen任务更为重要,而任务知识的影响则在seen任务和unseen任务中都是影响一致的。此外,我们对仅通过专家轨迹总结任务知识(w/o rejected)、将智能体和知识模型训练为同一个模型(merge)和通过prompt提供知识(prompt)三种特殊场景进行了评估。
四、分析
四、分析
我们在平均规划步骤数和幻觉动作率上进一步将WKM与多种基线进行了比较。WKM能够减轻盲目试错并减少幻觉动作。并且它能够在unseen任务上保持稳定性,甚至降低比例。
我们还进行了一些其他有趣的实验,包括使用Mistral-7B知识模型来生成任务知识,并指导像gpt-3.5-turbo和gpt-4这样的强大模型。我们发现,由较弱的Mistral-7B生成的知识可以有效地指导强大的GPT-3.5/4的规划。
五、总结
五、总结