NeurIPS 2024 | WKM：增强智能体规划的世界知识模型

创业 2024-11-26 08:22 北京

本文提出了一种参数化的世界知识模型（WKM），以增强语言代理模型的全局和局部规划能力。通过生成先验和动态状态知识，WKM显著减少了试错和幻觉动作，提升了对未见任务的适应性，并实现了弱模型对强模型的指导。实验表明，WKM在GPT-4及顶尖开源模型中优于多种基线。未来研究方向包括构建统一的知识模型、预测环境变化以及支持多模态智能体的复杂规划。

论文题目：
Agent Planning with World Knowledge Model
论文链接：
https://arxiv.org/abs/2405.14205
代码链接：
https://github.com/zjunlp/WKM

一、引言

现阶段，大模型智能体的规划能力已取得了较大发展，近日上线的Claude新模型在一定程度上甚至可以像人类一样使用计算机。然而，由于大模型缺乏对真实物理世界的理解，大模型智能体仍然存在盲目试错和幻觉生成问题。人类在处理规划任务时往往会借鉴历史经验（知识模型），在任务开始前会根据先验知识在脑中预演整个流程，在任务过程中会根据环境的动态变化判断环境的具体状态 。

类比人类认知世界的过程，我们提出参数化的世界知识模型（World Knowledge Model，WKM），在全局规划上为智能体提供先验任务知识，在局部规划上为智能体提供动态状态知识。

在三个复杂的真实世界模拟数据集（ALFWorld、WebShop、ScienceWorld）和三种SOTA开源模型（Mistral-7B、Gemma-7B和Llama-3-8B）上的实验结果表明，世界知识模型增强的智能体可以实现更好的性能。此外，我们分析了知识模型能够有效缓解智能体盲目试错和幻觉行为问题。其他有趣的发现包括：1）我们的实例级任务知识能够更好地泛化到未见过的任务；2）小的世界知识模型可以有效地指导更强大的智能体进行规划；3）统一的世界知识模型训练具有进一步发展的潜力。

二、方法

人类通常通过向专家学习和具体实践来获取知识，我们基于专家经验和探索轨迹来构建WKM:

1）首先引导智能体从专家和采样轨迹之间的比较中总结任务知识（task knowledge）。

2）我们提示它从专家轨迹中总结每个规划步骤的状态知识（state knowledge），并将前一个和下一个动作结合起来构建状态知识库。

3) 最后，我们将生成的知识整合到专家轨迹中，并训练一个知识模型来生成这些知识。同时智能体需要重新训练以适应任务知识。

注意我们的代理和知识模型都是使用LoRA共享相同的主干进行训练的。

在规划阶段，我们使用WKM为智能体提供全局先验任务知识，并维护局部动态状态知识。任务知识将以自然语言形式与特定任务相结合，以指导智能体的试错过程。在每个规划步骤中，为了防止幻觉行为的发生，我们利用生成的状态知识作为query，从预先构建的状态知识库中进行检索。然后我们使用前一个动作的约束、检索到的下一个动作的概率以及代理模型的概率来对下一个动作进行加权预测。

三、主要实验

WKM在不同模型和数据集上相对于各种baseline都有相对更好的表现，特别是在ALFWorld和WebShop上能够超过GPT-4。

在消融研究中，我们分别分析了任务知识和状态知识的有效性。我们发现，通过任务知识带来的改进比通过状态知识更为显著。此外，状态知识对seen任务的影响比对unseen任务更为重要，而任务知识的影响则在seen任务和unseen任务中都是影响一致的。此外，我们对仅通过专家轨迹总结任务知识（w/o rejected）、将智能体和知识模型训练为同一个模型（merge）和通过prompt提供知识（prompt）三种特殊场景进行了评估。

四、分析

我们在平均规划步骤数和幻觉动作率上进一步将WKM与多种基线进行了比较。WKM能够减轻盲目试错并减少幻觉动作。并且它能够在unseen任务上保持稳定性，甚至降低比例。

我们还进行了一些其他有趣的实验，包括使用Mistral-7B知识模型来生成任务知识，并指导像gpt-3.5-turbo和gpt-4这样的强大模型。我们发现，由较弱的Mistral-7B生成的知识可以有效地指导强大的GPT-3.5/4的规划。

此外，我们将三个数据集整合在一起，训练了一个统一的WKM。通过多任务联合训练的统一参数化知识模型比单任务训练表现得更好。

五、总结

在这篇论文中，我们致力于开发一个参数化的世界知识模型（WKM）来增强语言代理模型的规划能力。我们的WKM能够生成先验任务知识来指导全局规划，以及动态状态知识来调节局部规划。实验结果表明，我们的知识可以在GPT-4和最先进的开源模型上工作，并与各种强大的基线相比实现更优越的性能。分析实验验证了我们的WKM可以：1) 减少无脑试错和幻觉动作，2) 更好地泛化到未见任务，3) 实现弱模型指导强模型，4) 有效地扩展到统一的世界知识训练。潜在的未来方向包括：1) 构建统一的世界知识模型，2) 学习像世界模型一样预测世界，3) 应用于多模态智能体规划等。

作者：乔硕斐
来源：公众号【ZJUKG】

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650515799&idx=2&sn=bb312900f714f890d3beaa642858d251

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

Talk预告｜卡内基梅隆大学刘士弘：LOV - 如何无参数有效优化视觉语言模型

AgentSense：基于多样化交互场景的智能体社交智能评测基准

Talk预告｜MBZUAI曾聪：DALD-无需黑盒信息增强LLM检测器

NeurIPS 2024 | WKM：增强智能体规划的世界知识模型

将门创新伙伴 | 2024 Honda Digital Day圆满落幕：深化创新合作，共塑智能未来

活动报名 | 第五届数据智能与知识服务研讨会（DIKS2024）：人工智能促进科研创新和产业变革

ECCV 2024 | 扩散模型持续跨界，UC伯克利等单位提出基于扩散模型的新数据挖掘工具

NeurIPS 2024 | 浸大、CMU提出全新框架COAT，用LLM探寻隐秘的因果世界

Talk预告｜NUS余昭辰&PKU张子翔：大模型推理与多模态扩散模型的协同作用

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉