成果｜多智能体经验迭代精炼框架——实现多智能体经验动态积累以增强任务解决能力

学术 2024-06-03 17:07 北京

随着大模型和智能体的发展，最近的一个重大突破是使智能体从先前的任务中积累经验。代表性方法通过对历史任务重演，从中提取经验并进行记忆，以此在未见任务中通过经验样本检索来高效解决任务。这些智能体通过积累经验，有效避免了重复错误和不必要的试错过程，减少了额外人工参与的需要。然而，现有技术的经验往往是使用启发式规则一次性生成的。这种方法限制了智能体动态适应软件开发等复杂任务的能力，同时存在部分经验质量不高，不能显著提升智能体完成任务的能力。

针对该问题，我组研究人员提出了经验迭代精炼（Iterative Experience Refinement）框架。该方法使智能体能够通过在不同批次的任务集上持续地获取、利用和淘汰经验来不断适应未见任务，且仅利用11.54%的经验子集实现更好的任务解决能力。

论文信息

➤ 论文地址

🔗https://arxiv.org/abs/2405.04219

➤ 开源链接

🔗https://github.com/OpenBMB/ChatDev

系统架构

具体而言，可以将 “经验迭代精炼” 的实现概括为三个部分：经验获取、经验传递、经验淘汰。

经验迭代精炼核心模块

➤ 经验获取

经验获取模块中，从各批次任务集中抽取经验，来构建经验池指导智能体完成后续未见任务。在每一批任务集合中，每个任务的执行过程都对应驱动了指导智能体和响应智能体之间的交互作用，将这种动态的交互过程构建成任务执行链，并将其中的指导指令和响应抽取成经验。

➤ 经验传递

经验传递模块中，提出了两种经验传递范式：连续模式和累积模式。连续模式积累连续任务批次上相继“遗传”的经验，累积模式则是探跨代积累的经验是否可以提升任务解决能力。

➤ 经验淘汰

经验淘汰模块中，考虑到积累经验的过程中可能导致经验空间预期外的扩展，包含大量低质量或极少使用的经验。为了应对这一问题，提出了一种基于信息密度和经验使用频率的启发式经验淘汰机制，优先考虑任务执行中经常使用的经验，同时丢弃被识别的低质量经验，从而简化经验池向更高效率演化。

实验评估

与“经验式共同学习” (Experiential Co-Learning) 中的工作相同，考虑到先前对于代码的评估大多是函数级别（如 pass@k），但此种指标并无法直接迁移到综合性软件评估上。为了对软件完成综合评价，实验评估中考虑了以下三个维度并实现了其自动化评估：

➤ 完成性（Completeness）

软件代码是否全部完成，无 “TODO” 等未填充标识。

➤ 可执行性（Executability）

软件代码是否可通过编译器检查并成功运行。

➤ 一致性（Consistency）

软件代码实现是否和自然语言表述的任务需求一致。

在以上三个维度基础上，进一步得到了软件评价的综合质量指标：软件质量（Quality）。

由此，我们通过完成性、可执行性和一致性等三个维度，实现了对软件的综合自动化评估。与先前最优效果ECL相比，两种经验迭代方式均展现出明显的提升，实现利用 11.54% 的经验子集实现更好的任务解决能力。

客观软件质量评估结果

在经验传递于不同批次任务集合的过程中，各项指标均表现出显著提升的趋势。

不同任务批次在各项指标上的平均性能表现

对累积模式中的经验是使用情况进行统计，得到结论如下：

1）从过往批次获得的经验被所有后续批次任务所利用，而不仅仅是邻近的下一批次。

2）纵向上，各列从上到下呈下降趋势，表明远亲经验的利用频率降低。

3）横向来看，后代获得的经验并非主要源自其最近的前辈，而是大致均匀分布。

累积模式中经验使用分布

总结

本研究成果在大模型智能体群体协作中首次提出经验的迭代精炼 (Iterative Experience Refinement) 机制，使智能体能够通过不断获取、利用和淘汰经验来自适应地解决新任务。并且提出了一种启发式的经验淘汰机制，优先考虑高质量和经常使用的经验，从而减轻因经验空间的潜在扩展而产生的低效率问题。

关于我们

清华大学自然语言处理与社会人文计算实验室（TsinghuaNLP）成立于 20 世纪七十年代末，是国内开展自然语言处理研究最早、深具影响力的科研单位，也是中国中文信息学会计算语言学专业委员会及中国人工智能学会因果与不确定性人工智能专业委员会的挂靠单位。实验室在学术总体带头人孙茂松教授及学术方向带头人刘洋教授、刘知远副教授的带领下，围绕以中文为核心的自然语言处理，在语言大模型、跨模态大模型、中文信息处理、机器翻译、知识图谱、智慧教育、社会人文和艺术计算等方面开展系统深入的研究，在国内外具有较大的学术影响。近年来，实验室承担了国家 973 项目、国家重点研发项目、国家社会科学基金重大项目等多项重要研究任务，并与腾讯、华为、搜狗等企业建立密切的学术合作关系。

Website：http://nlp.csai.tsinghua.edu.cn/

Email：thunlp@163.com

GitHub：https://github.com/thunlp

https://github.com/OpenBMB

Twitter：https://twitter.com/TsinghuaNLP

THUNLP 长期开放招聘

清华大学自然语言处理与社会人文计算实验室，是中国中文信息学会计算语言专业委员会和中国人工智能学会不确定性专业委员会的挂靠单位。负责人为清华大学计算机科学与技术系孙茂松教授，核心骨干为刘洋教授，刘知远副教授。

最新文章

招聘｜个性化学生成长助手“清小搭”团队实习生招募

新闻｜我组5篇论文成果被 COLING 2025 收录

新闻｜清华本科生习作集结成书《AI群星闪耀时》正式出版

成果｜打破传统轮次规则，MiniCPM-duplex双工模型助力即时交互

获奖｜我组博士毕业生陈驰学位论文入选2024年度中国中文信息学会“博士学位论文激励计划”

获奖｜我组与幂律智能、清华大学法学院联合研究成果荣获2024“钱伟长中文信息处理科学技术奖”一等奖

新闻｜我组博士后研究员李霜洁顺利出站

《语言战略研究》多人谈：学术的激烈交锋会促进科技的深入发展

获奖｜我组教师刘知远获2024年北京市高校青年教学名师奖

成果｜RAGEval：实现实际场景检索增强生成系统（RAG）的“精准诊断”

招聘｜清华NLP实验室博士后招聘

招聘｜清华NLP实验室招聘工具学习与自主智能体方向科研实习生

新闻｜我组7篇论文成果被NeurIPS 2024录用

新闻｜我组7篇论文成果被 EMNLP 2024 录用

预告｜CNCC 2024技术论坛：端侧大模型

新闻｜我组师生参加 ACL 2024 学术会议

获奖｜我组荣获英特尔中国学术成就奖

成果｜LEGENT：具身智能体开放平台

新闻｜我组6篇论文成果被 COLM 2024 录用

获奖｜我组多名毕业生顺利毕业，并获多项荣誉

经典大模型公开课第二季，梦幻回归

成果｜基于深度学习的多策略增强对联自动生成方法

成果 | 智能体互联网（IoA）：编织异构智能体的协同智能网络

获奖｜我组毕业生丁宁、姚远获2024世界人工智能大会云帆奖

招聘｜清华NLP实验室诚聘大模型英才

OpenBMB × Hugging Face × THUNLP，联袂献上经典大模型课

讲座预告｜夏梦舟：训练与对齐语言模型：目标与数据管理的算法进展

成果｜Seq1F1B：节省50%显存的长文本模型流水线并行训练技术

成果｜大模型驱动的多智能体协作网络 MacNet，探究多智能体协作的Scaling Law

招聘｜清华NLP实验室招聘法律智能方向博士后及科研实习生

新闻｜我组2篇论文成果被 ACL 2024 Demo 录用

成果｜多智能体经验迭代精炼框架——实现多智能体经验动态积累以增强任务解决能力

StableToolBench：稳定的工具学习评测数据集

MiniCPM-V 2.5：登顶HuggingFace和GitHub Trending榜双榜首

成果 | CODIS：评估多模态大模型结合上下文理解图像的能力

新闻｜我组多篇论文成果被 ACL 2024 收录

预告｜CCF ADL第146期讲习班周五开讲，欢迎广大学者报名

新闻｜我组师生参加ICLR 2024学术会议

新闻｜我组6篇论文成果被 ICML 2024 收录

获奖 | 我组师生参加“吴文俊人工智能科学技术奖”颁奖典礼

清华NLP实验室招聘大模型方向博士后及研究员

预告｜CCF ADL讲习班第146期 “大模型自主智能体与群体智能”

成果 | 大模型驱动的自主智能体与群体智能

成果｜ProSparse：打造更加稀疏高效的大模型

成果 | MatPlotAgent：大模型驱动的数据可视化智能体

新闻｜我组三篇论文成果被 CVPR 2024 收录

成果｜大语言模型只懂自然语言？AutoForm通过非自然语言形式提升智能体推理与沟通效率

获奖 | 我组博士生姚远获2023年度吴文俊人工智能科学技术奖优秀博士学位论文奖

成果｜OlympiadBench: Olympiad-level 的双语、多模态的科学评测集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉