ACL 2024 | 基于自我规划的自动化问答智能体学习

创业 2024-08-08 08:22 北京

基于大语言模型（LLM）的代理已经被广泛应用于不同任务，如个人助手或活动规划。目前大多数的研究集中在代理间的合作与协作上，对竞争这一促进社会和经济发展的重要机制的关注较少。本文提出了一个适用于LLM代理的竞争框架 CompeteAI，并深入探讨了LLM代理之间的竞争动态；以此为窗口，探索智能体如何帮助社会科学研究。本文被ICML 2024录用被选为Oral进行口头汇报。

论文题目：
AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning
论文链接：
https://arxiv.org/abs/2401.05268
代码链接：
https://github.com/zjunlp/AutoAct

一、引言

现如今的大模型智能体尽管已经取得了一定的成就，但仍然存在两大问题：一方面，训练开源模型需要大量的带注释的问答数据对，并且仍然依赖闭源模型来合成规划轨迹。然而，在许多现实场景中，如私人个人机器人或敏感的公司业务中，满足这些要求往往会面临困难。另一方面，从智能体框架的角度来看，基于微调的方法迫使一个单一的语言智能体学习所有的能力，给它们带来了更大的压力。这与西蒙的有界理性原则（Simon’s principle of bounded rationality）相矛盾，该原则认为"明确的社会分工和清晰的个体任务可以弥补个体处理和利用信息的能力的有限性"。

基于此，我们提出AutoAct，一个用于问答的自动化智能体学习框架，它不依赖于大规模带注释的数据和闭源模型生成的合成轨迹，同时引入了精确的个体任务分工。

二、方法

开始阶段，AutoAct包含三个重要的组件：

1）Meta-Agent。Meta-Agent负责自我分化之前的所有准备工作，并且作为分化后各个子智能体的底座模型。给定少量任务信息和一个工具库，Meta-Agent可以分化成一个agent团队来协作完成任务。

2）目标任务信息。目标任务信息更像是一个任务的名片，主要包含任务名称、任务描述和任务的极少量数据样例（满足from scratch）。

3）工具集。工具集包含解决所有常见问答任务所需要的外部工具，每条工具包含具体地工具名称、工具描述以及工具使用方法。

有了三个组件后，AutoAct首先根据极少的数据样例进行数据增强，具体让Meta-Agent通过self-instruct的方式合成QA对，以达到足够训练的标准。随后给定目标任务信息，Meta-Agent被指使从工具集中选择适合完成目标任务的工具集合，并使用这些工具在之前合成的QA数据上合成规划轨迹，最后通过答案是否正确过滤掉低质量的轨迹数据。

在分化阶段，AutoAct根据预先定义的分工，将原始的合成轨迹数据重组为各个子智能体需要的输入输出，并以LoRA的方式以Meta-Agent为底座训练出各个子智能体，完成类似细胞分化的过程。这里我们的子智能体包含三类：

1）规划智能体：负责任务的拆解和决定调用哪种工具。

2）工具库智能体：决定具体调用工具的参数，即如何调用工具。

3）反思智能体：根据答案的正确性对历史轨迹进行反思。

推理阶段，各个子智能体根据自己的职责协作完成任务。

三、主要实验

我们在两个复杂QA数据集上以及Mistral-7B、Llama-{7,13,70}B模型上进行了实验。如上表所示，AutoAct相比于各种baseline都取得了较好的效果。特别是相比于FireAct（训练数据基于GPT-4模拟），AutoAct在不基于大量标注数据的前提下，也能表现出色。另外，AutoAct的多智能体分工架构也是取得较好效果的关键因素。

如上表所示，进一步的消融实验也可以说明多智能体分工架构和微调的重要性。此外，一个有意思的发现是在数据合成阶段，基于问题答案的正确性进行数据过滤也是AutoAct取得不错效果的重要因素，可以发现在未经过滤的数据上进行训练，模型的表现甚至不如不微调的表现。

四、分析

我们针对训练阶段的合成数据数量进行了探究，发现训练数据越多并不一定能带来更好的效果。如上图（a-c）所示，不同规模的Llama-2模型几乎都在200条训练数据时性能达到最好，超过200条数据模型的表现几乎不变甚至下降。我们推测这是由于self-instruct阶段的数据多样性造成的。另外我们让更大模型合成的数据在更小模型上进行训练（d-f），发现性能可以有进一步提升，这也印证了模型规模越大。合成数据的质量一般越高。

针对不同细粒度分工，我们也发现适当的分工才有利于规划的表现。我们进一步将工具智能体进行细分，根据工具的不同将每一种工具对应一个智能体进行训练，实验结果如上图所示，在所有模型上，AutoAct的分工方式都取得了最好的效果。反而更精确的分工（Tool-Specified）效果不如三个子智能体的协作表现。

对于AutoAct和其他baseline生成的轨迹我们也进行了全方位的人工评估。发现AutoAct尤其在工具调用的种类和参数的准确度上有更好的表现，在总体质量上AutoAct生成的轨迹也好于FireAct等。然而AutoAct倾向于生成更多轮数的规划轨迹来完成任务，进一步的Case分析发现，这一特性是一把双刃剑，可以使AutoAct对自己生成的答案借助工具进行校准，但也会生成长文本导致轨迹跑偏。

五、总结

在本论文中，我们提出了AutoAct，一个自动代理学习框架，用于问答任务，它不依赖于大规模带注释的数据和闭源模型生成的合成轨迹，并通过明确分工来减轻个体代理的压力。有趣的未来方向包括：i）将AutoAct扩展到更加逼真的任务场景；ii）通过自我指导来增加更多的知识；iii）通过自我改进迭代地提升合成轨迹的质量。

作者：乔硕斐
来源：公众号【ZJUKG】

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650513016&idx=2&sn=a188156a788b4e66d0351aaeec71953d

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

Talk预告｜中国人民大学徐晨：推荐系统中供应商公平性的算法与理论研究

ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

ECCV 2024 | UCF联合亚马逊提出X-Former框架，显著提升MLLM细粒度理解能力

8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

将门投资企业 | 阿里云「开学季 Ai 第一课」采用「MyTwins.ai」数字分身，为直播行业带来新场景

Talk预告｜香港大学杨丽鹤：Depth Anything V2 - 更精细更鲁棒的单目深度估计基础模型

如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

可远程！将门创投招聘实习生！

Talk预告｜清华大学诸子钰：面向具身智能的通用3D视觉语言理解

21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门月报 | 智谱发布新一代基座模型、文远知行无人驾驶扫路机S1驶入广东汕头、杉数科技携手南京鼓楼管养集团打造智能化环卫系统

IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

ECCV 2024 Oral | SPLAM：基于子路径线性近似的扩散模型加速方法

Talk预告｜香港大学戚张扬：物体级别3D点云多模态大模型

ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

Talk预告｜浙江大学&西湖大学曹淼：视频单曝光压缩成像重建算法探索

ACM MM 2024 Oral | 突破传统方法局限！用语义正确性评估视觉问答生成结果

8.27 直播预告 | 科研的使命：学术界 vs 工业界

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

Talk预告｜香港大学李卓凌：统一多场景的单目3D目标检测

同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

Talk预告｜波形智能CTO周王春澍：可自主进化的AI智能体系统

ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

近100页的LLaMA 3技术报告：模型结构及影响解析

ICML 2024 | 维度坍塌视角下的大规模推荐系统

Talk预告｜香港大学陈汐：零样本图像编辑中ID一致性与生成多样性的平衡

TKDE 2024 | 彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

Talk预告｜伊利诺伊大学香槟分校张凯风：AdaptiGraph - 材料自适应的图神经动力学模型

ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

调研近400篇文献，鹏城实验室、中山大学深度解析具身智能

ACM MM 2024 | 多模态不可学习样本：保护数据免受多模态对比学习的威胁

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

ACL 2024 | 基于自我规划的自动化问答智能体学习

IEEE RAL 2024 | CDM-MPC：解决人形机器人的连续跳跃难题

ECCV 2024 | 视觉优先&文本偏好？BPO缓解MLLMs幻觉，提升视觉理解力

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

Talk预告｜普林斯顿大学魏博逸：通过剪枝&低秩改造揭示LLMs安全对齐的脆弱性

ICML 2024 Oral | CompeteAI：从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ECCV 2024 | 哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

8.6 直播预告 | 论文背后的故事：梦“想”何时成“真” - 图形渲染 vs 图像生成

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

TPAMI 2024 | ProCo：无限contrastive pairs的长尾对比学习

将门月报 | 文远知行开启东莞首个无人环卫商业项目、伟景智能推出全球首款智能人形采摘机器人、墨芯荣登Silicon 100榜单

Talk预告｜北京大学于博涵：EventPS - 基于事件相机的实时光度立体视觉

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉