本文提出了一种参数化的世界知识模型(WKM),以增强语言代理模型的全局和局部规划能力。通过生成先验和动态状态知识,WKM显著减少了试错和幻觉动作,提升了对未见任务的适应性,并实现了弱模型对强模型的指导。实验表明,WKM在GPT-4及顶尖开源模型中优于多种基线。未来研究方向包括构建统一的知识模型、预测环境变化以及支持多模态智能体的复杂规划。
本文提出了一种参数化的世界知识模型(WKM),以增强语言代理模型的全局和局部规划能力。通过生成先验和动态状态知识,WKM显著减少了试错和幻觉动作,提升了对未见任务的适应性,并实现了弱模型对强模型的指导。实验表明,WKM在GPT-4及顶尖开源模型中优于多种基线。未来研究方向包括构建统一的知识模型、预测环境变化以及支持多模态智能体的复杂规划。
论文题目:
Agent Planning with World Knowledge Model
论文链接:
https://arxiv.org/abs/2405.14205
代码链接:
https://github.com/zjunlp/WKM
一、引言
现阶段,大模型智能体的规划能力已取得了较大发展,近日上线的Claude新模型在一定程度上甚至可以像人类一样使用计算机。然而,由于大模型缺乏对真实物理世界的理解,大模型智能体仍然存在盲目试错和幻觉生成问题。人类在处理规划任务时往往会借鉴历史经验(知识模型),在任务开始前会根据先验知识在脑中预演整个流程,在任务过程中会根据环境的动态变化判断环境的具体状态 。
类比人类认知世界的过程,我们提出参数化的世界知识模型(World Knowledge Model,WKM),在全局规划上为智能体提供先验任务知识,在局部规划上为智能体提供动态状态知识。
二、方法
人类通常通过向专家学习和具体实践来获取知识,我们基于专家经验和探索轨迹来构建WKM:
1)首先引导智能体从专家和采样轨迹之间的比较中总结任务知识(task knowledge)。
2)我们提示它从专家轨迹中总结每个规划步骤的状态知识(state knowledge),并将前一个和下一个动作结合起来构建状态知识库。
3) 最后,我们将生成的知识整合到专家轨迹中,并训练一个知识模型来生成这些知识。同时智能体需要重新训练以适应任务知识。
注意我们的代理和知识模型都是使用LoRA共享相同的主干进行训练的。
在规划阶段,我们使用WKM为智能体提供全局先验任务知识,并维护局部动态状态知识。任务知识将以自然语言形式与特定任务相结合,以指导智能体的试错过程。在每个规划步骤中,为了防止幻觉行为的发生,我们利用生成的状态知识作为query,从预先构建的状态知识库中进行检索。然后我们使用前一个动作的约束、检索到的下一个动作的概率以及代理模型的概率来对下一个动作进行加权预测。
三、主要实验
四、分析
我们还进行了一些其他有趣的实验,包括使用Mistral-7B知识模型来生成任务知识,并指导像gpt-3.5-turbo和gpt-4这样的强大模型。我们发现,由较弱的Mistral-7B生成的知识可以有效地指导强大的GPT-3.5/4的规划。
此外,我们将三个数据集整合在一起,训练了一个统一的WKM。通过多任务联合训练的统一参数化知识模型比单任务训练表现得更好。
五、总结
作者:乔硕斐 来源:公众号【ZJUKG】
-The End-
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。