NeurIPS 2024 | WKM: 增强智能体规划的世界知识模型

学术 2024-11-14 00:02 韩国

论文题目：Agent Planning with World Knowledge Model

本文作者：乔硕斐（浙江大学）、方润楠（浙江大学）、张宁豫（浙江大学）、朱雨琦（浙江大学）、陈想（浙江大学）、邓淑敏（新加坡国立大学）、蒋勇（阿里巴巴）、谢朋峻（阿里巴巴）、黄非（阿里巴巴）、陈华钧（浙江大学）

发表会议：NeurIPS 2024

论文链接：https://arxiv.org/abs/2405.14205

代码链接：https://github.com/zjunlp/WKM

欢迎转载，转载请注明出处

一、引言

现阶段，大模型智能体的规划能力已取得了较大发展，近日上线的Claude新模型在一定程度上甚至可以像人类一样使用计算机。然而，由于大模型缺乏对真实物理世界的理解，大模型智能体仍然存在盲目试错和幻觉生成问题。人类在处理规划任务时往往会借鉴历史经验（知识模型），在任务开始前会根据先验知识在脑中预演整个流程，在任务过程中会根据环境的动态变化判断环境的具体状态 。

类比人类认知世界的过程，我们提出参数化的世界知识模型（World Knowledge Model，WKM），在全局规划上为智能体提供先验任务知识，在局部规划上为智能体提供动态状态知识。

‍

在三个复杂的真实世界模拟数据集（ALFWorld、WebShop、ScienceWorld）和三种SOTA开源模型（Mistral-7B、Gemma-7B和Llama-3-8B）上的实验结果表明，世界知识模型增强的智能体可以实现更好的性能。此外，我们分析了知识模型能够有效缓解智能体盲目试错和幻觉行为问题。其他有趣的发现包括：1）我们的实例级任务知识能够更好地泛化到未见过的任务；2）小的世界知识模型可以有效地指导更强大的智能体进行规划；3）统一的世界知识模型训练具有进一步发展的潜力。

二、方法

人类通常通过向专家学习和具体实践来获取知识，我们基于专家经验和探索轨迹来构建WKM:

1）首先引导智能体从专家和采样轨迹之间的比较中总结任务知识（task knowledge）。

2）我们提示它从专家轨迹中总结每个规划步骤的状态知识（state knowledge），并将前一个和下一个动作结合起来构建状态知识库。

3) 最后，我们将生成的知识整合到专家轨迹中，并训练一个知识模型来生成这些知识。同时智能体需要重新训练以适应任务知识。

注意我们的代理和知识模型都是使用LoRA共享相同的主干进行训练的。

在规划阶段，我们使用WKM为智能体提供全局先验任务知识，并维护局部动态状态知识。任务知识将以自然语言形式与特定任务相结合，以指导智能体的试错过程。在每个规划步骤中，为了防止幻觉行为的发生，我们利用生成的状态知识作为query，从预先构建的状态知识库中进行检索。然后我们使用前一个动作的约束、检索到的下一个动作的概率以及代理模型的概率来对下一个动作进行加权预测。

三、主要实验

WKM在不同模型和数据集上相对于各种baseline都有相对更好的表现，特别是在ALFWorld和WebShop上能够超过GPT-4。

在消融研究中，我们分别分析了任务知识和状态知识的有效性。我们发现，通过任务知识带来的改进比通过状态知识更为显著。此外，状态知识对seen任务的影响比对unseen任务更为重要，而任务知识的影响则在seen任务和unseen任务中都是影响一致的。此外，我们对仅通过专家轨迹总结任务知识（w/o rejected）、将智能体和知识模型训练为同一个模型（merge）和通过prompt提供知识（prompt）三种特殊场景进行了评估。

四、分析

我们在平均规划步骤数和幻觉动作率上进一步将WKM与多种基线进行了比较。WKM能够减轻盲目试错并减少幻觉动作。并且它能够在unseen任务上保持稳定性，甚至降低比例。

我们还进行了一些其他有趣的实验，包括使用Mistral-7B知识模型来生成任务知识，并指导像gpt-3.5-turbo和gpt-4这样的强大模型。我们发现，由较弱的Mistral-7B生成的知识可以有效地指导强大的GPT-3.5/4的规划。

此外，我们将三个数据集整合在一起，训练了一个统一的WKM。通过多任务联合训练的统一参数化知识模型比单任务训练表现得更好。

五、总结

在这篇论文中，我们致力于开发一个参数化的世界知识模型（WKM）来增强语言代理模型的规划能力。我们的WKM能够生成先验任务知识来指导全局规划，以及动态状态知识来调节局部规划。实验结果表明，我们的知识可以在GPT-4和最先进的开源模型上工作，并与各种强大的基线相比实现更优越的性能。分析实验验证了我们的WKM可以：1) 减少无脑试错和幻觉动作，2) 更好地泛化到未见任务，3) 实现弱模型指导强模型，4) 有效地扩展到统一的世界知识训练。潜在的未来方向包括：1) 构建统一的世界知识模型，2) 学习像世界模型一样预测世界，3) 应用于多模态智能体规划等。

http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247507450&idx=2&sn=b1ce6cbfe234b7d123530603d12ad5a8

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

Cell Systems | Genesis探索“暗物质“蛋白折叠，折叠蛋白成功率结果鼓舞人心

Trends Pharmacol Sci. | 计算策略的集成与联用推动抗菌肽智能研发

Nat. Commun. | 使用CADD针对AcpS设计全新抗生素家族，实验效果显著！

美国佛罗里达大学计算机系/药物化学系AI制药课题组诚招全奖博士

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

《卫生健康行业人工智能应用场景参考指引》发布，推动“人工智能+”在卫生健康领域创新发展

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

J. Chem. Inf. Model. | 基于MoE的解离动力学模型助力设计“长效药”

NeurIPS 2024 | WKM: 增强智能体规划的世界知识模型

Protenix: AlphaFold3的再现 – ByteDance AML AI4Science团队

Google DeepMind 开源 AlphaFold 3

世界糖尿病日特别直播：后司美时代“减脂增肌”前沿靶点与药物研究

Equitorch: 基于pyg的模块化等变图神经网络包

Nat. Commun. | 迈向医学大语言模型！上海交通大学团队构建数据集与评估基准

Science | 通过结构域分类探究蛋白质宇宙的结构多样性

NCS+NC｜湖南大学DrugAI实验室同一天发表两项重要成果

PNAS | 在AlphaFold 2上升级，佐治亚理工学院团队预测SARS-CoV-2刺突蛋白RBD的抗体表现

首个！四大高校联合推出药物研发大语言模型Y-Mol，性能全面领先LLaMA2

BMC biology | 多源提示的大语言模型药物重定位框架DrugReAlign

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

Nat. Comput. Sci. | 单步训练2个分子，主动深度学习远超传统筛选

Nat. Biotechnol. | 戴上启动帽，MIT王潇团队提出LEGO增强翻译能力

2024年上海交通大学溥渊国际青年科学家论坛

J. Chem. Inf. Model.｜利用化学语言模型导航超大虚拟化学空间

J. Pharm. Anal. | 化学自然语言引导基于扩散的生成式类药分子编辑

Nat. Mach. Intell. | CGN+CAN=CGN！Frad大尺度扰动分子提升属性预测

Nat. Commun. | 或为多领域带来启发？SymProFold准确预测对称蛋白质组装体

Nature | 蛋白质遗传结构很复杂？Ben Lehner使用加性能量模型得出相反结论！

Nat. Mach. Intell. | 宋江宁团队合作开发CD8+ T细胞受体识别抗原表位的预测新方法

礼来“三顾”口服小分子IL-17a抑制剂，DC-853成临床独苗，DC-806完成使命，退出舞台

全球首款间充质基质细胞药物获FDA批准开展临床试验

TPAMI | MVNA：自适应邻域感知的图卷积网络

Nat. Microbiol. | 加速版RoseTTAFold来了！RF2-Lite快速识别蛋白质-蛋白质相互作用

Nat. Genet. | 寻找基因-表型新关联！MILTON精准预测多种疾病

Angew. Chem. Int. Ed. | 通过荧光偏振和原位合成筛选抑制剂：加速药物发现的有效方法

Nat. Med. | 治疗罕见疾病，哈佛医学院提出TxGNN用于药物再利用

TPAMI | MVNA：自适应邻域感知的图卷积网络

Bioinf. | 双视图联合学习实现个性化药物协同预测性能的突破

J. Med. Chem. | 小分子药物研发的计算方法现状

J. Med. Chem. | DEL+AI，探索多样性“化学空间”

Cell |中山大学联手阿里云，LucaProt记录隐藏的RNA病毒圈

Nat. Biotechnol. | David Baker又一力作！ProteinGenerator蛋白序列、结构共设计

就在本周，10月27日第三届中国生物计算大会即将开幕！

Nat. Mach. Intell. | 基于提示学习的多性质分子优化方法

【Angew】来鲁华/张长胜团队在全原子蛋白质序列设计中取得新进展

Nat. Commun. | 开发深度学习联结自编码器实现多模态单细胞数据整合与插补工具

JCIM综述｜知识图谱嵌入技术在化学领域中的研究进展与应用

Nat. Methods | SCUBA-D无需预训练结构模型也能做好蛋白设计！秘诀是对抗性损失与序列扩散

MDGen：分子动力学轨迹的生成式建模

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉