科学家提出基于大语言模型的智能体系统框架，促进对不同框架的统一理解

科技 2024-11-14 19:26 北京

近日，澳大利亚迪肯大学博士生李昕哲通过识别常见的工作流和语言模型角色设定（LMPR，LLM-Profiled Roles），促进了对不同框架的统一理解。

其目标是提出一个统一的易于比较的框架，以便更高效地实现和扩展大模型基础的智能代理（LLM Agents，Large Language Model Agents）。

图丨李昕哲（来源：该团队）

那么，为什么现在的框架之间很难实现扩展呢？

一个是因为，相似的 LMPRs 用不同的术语表达；另外，许多复杂的框架在不同的任务和应用上存在不一致性，这可能是人为设计，也可能是应用本身带来的。

比如，传统面向智能体的任务都存在外部环境提供的反馈，而问答任务则没有这种反馈。

这项研究很好地改善了第一个问题。具体地说，作为综述论文，它在术语上围绕着模型角色的设定进行统一定义，然后在同一些维度下区分具体实现方面的异同。

比如，有些框架需要评估类别的角色给出语言表达，而有些框架则需要数值评估，这体现了输出形式上的差异（见下文表格）。

图丨在不同维度下（输入端的任务设计和输出端的反馈类型）构建语言模型评估角色以适用于不同的工作流（来源：arXiv）

对于第二个问题，论文归纳了面向任务时的具体人为设计，并指明一些之前被忽视的不合理之处。例如，将问答系统中的真实的回答类比为外部反馈进行反馈学习。

“尽管现有的设计框架还存在改进的空间，但我相信，随着未来几年研究的不断涌现，有望能极大地促进基于大模型的智能代理在多个领域得到发展和应用。”李昕哲说。

首先，在具身智能领域（比如家居机器人），大模型能更好地促进智能体在复杂环境下对复杂问题的规划能力。

使得开发高效的家庭服务机器人变得更加容易，它们能够提供做家务、陪伴等多种服务。在这方面已有很多相关进展，尤其是在基于搜索算法的工作流上。

它极大地改善了简单策略模型角色在工作流中的不足，比如解决了处理长期规划的难题，以及避免了不合理的环节导致的崩盘。

其次，在自然语言处理和对话系统方面，基于工具和反馈的工作流能够大大提升虚拟助手的交互和提供正确信息的能力，为用户提供更准确和高效的服务。

以上提到的三个工作流（搜索、工具和反馈）都在论文中被系统地总结与分析，并作为切入点系统地比较各个工作流下不同的具体框架。

李昕哲认为，这种基于统一模块化角色的系统能促进智能代理系统的开发和优化，从而促进业内广泛的应用落地。

近日，相关论文以《基于大模型代理的突出范例回顾：工具使用（包括检索增强生成）、规划和反馈学习》（A Review of Prominent Paradigms for LLM-Based Agents: Tool Use (Including RAG), Planning, and Feedback Learning）为题发在 arXiv 上 [1]。

李昕哲是论文唯一作者。

图丨相关论文（来源：arXiv）

实践出真知，探索开新局

李昕哲对智能代理的研究兴趣来自于他在澳大利亚 Aurecon 公司实习期间参与的两个项目，那时，他对智能代理还没有明确的概念。

第一个项目是基于 ChatGPT 的检索增强生成（RAG，Retrieval-Augmented Generation）的对话系统。

这个项目旨在通过结合检索和生成，来提高项目团队对内部数据库和文档的利用效率，主要应用于项目招标和报告撰写。

简单来说，RAG 系统首先根据用户的提问进行检索，然后将检索到的文本与查询一同输入大模型生成回答。

然而，该团队发现这种模式有时存在缺陷，例如大模型本身可能已经具备足够的知识，无需检索文本即可回答问题。

此外，检索的稳定性问题也可能导致无法保证总是提供正确答案，即使查询文档中具备相关知识。关于这一点，李昕哲在他的另外一篇论文中 [2] 进行了详细评估。

因此，研究人员开始思考如何让大模型有意识地使用检索工具，这属于该论文提到的智能代理中基于工具调用的自主工作流设计。其中，包括美国普林斯顿大学姚顺雨等研究者提出的 ReAct。

第二个项目是用户反馈的分类。在这个项目中，他们需要将用户反馈进行分类，如建设性反馈、无关紧要的小问题、不相关的反馈和不合规的要求。

他们最初直接询问大模型进行分类，即论文中提到的基本工作流。但是，在某些类别上的表现较差。

于是，该团队思考：能否对生成的结果和思维链进行反馈，并根据反馈结果再次分类，从而纠正思维链中的错误逻辑。

研究组采用了 Reflexion 框架，一个基于反馈的工作流让 ChatGPT 提供反馈，但效果并不显著。当他们具体化反馈标准后，在某些难分类别上准确率提升超过 40%。

这两个项目让李昕哲认识到，为了充分探索大模型的能力，构建拥有复杂工作流的智能体是必要的。

除了在以上两个工作中关注到的 ReAct 和 Reflexion 的智能体框架，他还研究了其他多个框架。并在此基础上，总结出 LMPRs 和工作流。

通用的工作流包括：基于工具调用、基于反馈和基于搜索的工作流。尽管相关研究不断涌现，但从协调大模型能力的角度来看，主要工作流可以归纳为上述三种。提取这些通用工作流，是当前这份研究的重要贡献之一。

在这个系统化的基于工作流的框架下，该课题组梳理出近期各种复杂框架的特点，主要体现在以下四个方面：

其一是引入额外模块，在下游任务中引入如 verbalizer 和 parser 等模块，特别是在具身智能场景下。

其二是相同工作流设计方案的差异。例如，是否有必要在蒙特卡洛树搜索中加入模拟器的问题。这在传统该算法应用的任务中并现实，但在基于大模型的任务中，尤其是在文本类这种可回撤的任务中是可行。

其三是工作流实现的差异，如在思维链中使用特殊符号触发工具调用、通过解耦思维链和工具调用来明确生成内容，或生成用于工具应用程序编程接口（API，Application Programming Interface）调用的 JSON 格式。

最后是工作流的组合形式，特别是工具调用和基于反馈的工作流的多种组合形式。

通过对这些框架的分析和总结，该课题组对大模型智能体的工作流设计有了更深入的理解，为后续的研究和应用提供了指导，尤其是系统地重构相关的代码。

科研路漫漫，上下而求索

李昕哲本科就读于上海师范大学酒店管理专业，起步较晚，相比同期的研究者，他的专业转变过程更为独特。

转向技术领域的契机是在滴滴实习期间，由于厌倦重复性的工作，他学习用编程自动化日常报表和数据分析流程。在此期间，还自学了大量编程和数据处理的知识。

另一个转折点是 2018 年，在朋友的带动下，李昕哲决定转专业到澳大利亚莫纳什大学就读信息技术专业。虽然课程主要集中在开发上，但他更喜欢数学和机器学习相关的课程。

2020 年，李昕哲在莫纳什大学杜兰教授的推荐下，开始在迪肯大学刘铭教授的指导下读博，研究方向为自然语言处理。

当时，虽然深度学习在自然语言处理领域已是主流，但框架还未像现在这样统一，神经网络结构和训练方式也多种多样，而不是现在统一用 Transformers 的网络结构端对端地训练生成模型。

在刘铭教授、复旦大学马兴军副教授以及山东省计算中心高龙翔教授的指导下，李昕哲的早期研究主要有以下三方面：

• 总结各类不同任务下的模型无法泛化情况，相关论文发表在国际人工智能联合会议（IJCAI，International Joint Conference on Artificial Intelligence）2023 上。

• 研究不同神经网络结构和泛化表示的鲁棒性，相关论文发表在澳大利亚语言技术协会年会（ALTA，Australasian Language Technology Association Conference）2021 上。

• 探讨分词方法对噪音下生成泛化表示的影响，相关论文发表在计算语言学协会年度会议与词汇与计算语义联合会议（ACL-SEM，Annual Meeting of the Association for Computational Linguistics - The Joint Conference on Lexical and Computational Semantics）2023 上。

通过这些研究，李昕哲意识到，特定任务训练方式存在缺陷，因而他对这种模式持保留态度，并转向研究基于提示的通用生成式语言模型，探索其表达能力、鲁棒性以及主流的部署方式（如 RAG 和智能代理）。

目前，基于大模型的智能体虽然在蓬勃发展，但很多方向还在探索中。

在后续的研究中：

其一，他计划进一步研究如何利用这些工具来优化智能代理行为，特别是在处理复杂任务时，不仅将大模型用作策略模型的角色，还有基于评估角色、世界模型或模拟器角色下的各种工作流。

其二，他想构建高效的、自主切换工作流的智能体。

目前，智能代理在处理多步推理时，通常需要固定的复杂工作流进行多步的大模型推断。

然而，对于许多简单问题，这种多步推理并不是必要的。例如，像“法国的首都是哪个城市”这样的问题，大模型可直接回答，而不需要复杂的工作流。

李昕哲希望未来能够构建一种高效的智能体，可根据任务的复杂性自主地切换工作流。这不仅可以提高响应速度，还可以节省计算资源。

其三，希望统一智能代理在不同任务上的工作流。

如何在代码实现上统一智能代理在不同任务上的工作流，是一个经常被忽视，但对通用人工智能的落地至关重要。

尽管许多研究者在发表论文时会为所开发的框架命名，并阐述如何将其应用于多种任务，但实际上，在该框架下，不同任务的具体设计和代码实现也存在差异。

所以李昕哲希望，未来能与更多具有相同想法的研究人员或团队进一步交流，从而共同推动这一领域的发展与落地。

参考资料：

1.https://arxiv.org/pdf/2406.05804

2.https://arxiv.org/abs/2404.19232

运营/排版：何晨龙

01/ 科学家开发新型点击化学反应，突破二硫键高效合成技术瓶颈，正探索将其用于骨修复和脊髓修复

02/ 科学家打造无浮栅型光电闪存器件，动静态手写识别准确率均超90%，可用于红外机器视觉领域

03/ 电子废弃物关键金属回收纯度达到95%，清华学者打造新型电热方案，已开始推进中试开发

04/ 卤化物体系迎重要进展：科学家研发软硬双极性捕获剂，促进卤化物水系液流电池应用落地

05/ 打开胶体纳米材料高温合成新大门：科学家研发砷化镓量子点，熔融盐体系也能合成多纳米晶体

http://mp.weixin.qq.com/s?__biz=MzA3NTIyODUzNA==&mid=2649760141&idx=4&sn=84b1f56411f30e147a66bf28f190ebf3

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

澳洲昆大团队研发新型聚合物吸附剂，短时间内实现超99%氟化污染物去除

蛋白质设计再突破！麻省理工团队利用人工智能与梯度优化开发新策略

在家就能查血：MIT开发微型硅光芯片血液检测系统

科学家研发“仿心脏”电极材料，促进离子流传输，解决钠离子电池离子传输动力学缓慢问题

亚马逊向Anthropic追投40亿美元，Anthropic将使用前者芯片训练AI模型

还原真实世界：MIT用“AI+物理模拟”为机器人打造虚拟训练场

诺奖得主联合创办，初创融资3000万美元，开发新型糖免疫疗法

打破传统蛋白质进化方法局限性：MIT团队设计新型蛋白质大模型，发现比自然界高效百倍的突变体

寻找定义未来的科技先锋丨2024年度“35岁以下科技创新35人”中国报名中

被迫剥离Chrome和安卓？谷歌或将迎来“至暗时刻”

初创公司Teleo完成千万美元融资，欲打造机器人行业“ChatGPT时刻”

艾伦研究所与华盛顿大学团队推出开源科研大模型OpenScholar，用小参数超越GPT-4o

北大校友发现新型神经元，能通过靶向激活快速抑制食欲，或促进司美格鲁肽类药物新发展

背靠英伟达的初创公司Enfabrica推出全球最快GPU网络接口控制器芯片，再获1.15亿美元融资

英国核聚变初创公司完成1.25亿美元融资，致力于开发新型反应堆

运动即药物：MIT揭示神经修复新机制

科学家提出“一锅法微流体制造”系统，制备多种复杂陶瓷微粒，能作为微机电系统的精密零件

成立仅半年，印度首家核聚变公司获种子前投资

北航团队提出全新偏好数据构建框架，助力大模型实现更全面的对齐效果

药物研发新突破！中国科大、哈佛等联合开发PocketGen模型，可高效生成蛋白质口袋

AI和量子：谁将主宰未来计算？

内部短路起火时间不到3秒，王朝阳院士团队揭示全固态金属锂电池安全隐患

斯坦福团队发现新型代谢化合物，可抑制食欲、减轻体重

科学家以树蛙皮肤为灵感研制大气水收集装置，每平方米产能超过60升/天，有望满足工业级用水需求

研究人员打造即插即用型框架，将多智能体强化学习引入大语言模型

哈工大团队开发高灵敏度检测设备，可同时实现多种疾病诊断

科学家从小行星挖掘出外太阳系的起源密码

人类首次月球原位资源利用测试项目定档，美国企业计划明年执行首次任务

孙学良院士团队开发双阴离子基钠超离子导体，打破传统固态电解质局限，为开发高性能全固态钠离子电池开辟新途径

这家公司打造1.25万电池充电站，可在地震或台风时提供备用发电

MIT绘制迄今为止最全面大脑皮层功能图

1人完全缓解，斯坦福团队利用CAR-T治疗胶质瘤，突破实体肿瘤限制

结合有机半导体薄膜与细菌人工光合作用，科学家制备人工生物叶片，具备自支撑与能量自给特性

清华校友研发分子编辑工具，为药物分子和材料分子的合成提供新策略

微软联手NASA开发“地球Copilot”，让浩瀚太空数据触手可及

AI导航测试：纽约街道闭路实验揭示生成式模型的薄弱点

生成式AI或在5年内产生数百万吨电子垃圾？科学家提出算力物质流方法，为AI可持续发展提供新视角

四成AI数据中心或陷入“用电荒”，全球能源格局面临重大挑战

首个机械量子比特问世，量子计算迎来“蒸汽朋克”时代

MIT科学家开发新模型能让疫苗更有效

科学家用AI打造离子电路，将成为电子电路的有力补充，可被用于人机交互领域

专访澳大姜颖：开发“BIND通用接口”技术，让柔性生物电子器件实现模块化组合，正联合企业落地转化

超越硅极限：纳米3D晶体管或成AI低功耗未来之钥

科学家提出基于大语言模型的智能体系统框架，促进对不同框架的统一理解

Cursor母公司Anysphere收购Supermaven，计划打造完全整合的AI开发平台

科学家开发新型点击化学反应，突破二硫键高效合成技术瓶颈，正探索将其用于骨修复和脊髓修复

用“飞轮效应”开启智能科学时代新篇章，火山引擎AI for Science研讨会与Bio-OS大赛圆满收官

CFS公司获美国能源部250万美元资助，即将公布首座核聚变发电站选址

天津大学开发类器官-脑机接口技术，为脑损伤修复带来新希望

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉