NeurIPS 2024 | 智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

科技 2024-12-12 13:05 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：机器之心

此项研究成果已被 NeurIPS 2024 录用。该论文的第一作者是清华大学计算机系博士生关健（导师：黄民烈教授），目前任蚂蚁研究院副研究员，其主要研究领域为文本生成、复杂推理和偏好对齐。

随着 ChatGPT 掀起的 AI 浪潮进入第三年，人工智能体（AI Agent）作为大语言模型（LLM）落地应用的关键载体，正受到学术界和产业界的持续关注。实际上，早在 5-6 年前，预训练技术就已经在许多实际任务中取得了显著成果。但 AI Agent 之所以在当下备受瞩目，更多地源于其在自动解决复杂任务方面展现出的巨大潜力，而这种潜力的核心基石正是智能体的复杂推理能力。

与当下广受关注的 OpenAI-o1 及其追随者略有不同，大多数实用的 AI Agent 往往需要在特定场景下发挥作用。这种情况类似于普通人类：虽然不是每个人都需要具备获得 IMO 金牌的数学素养，但在具体场景下利用特定知识和工具完成复杂任务（例如使用搜索引擎、处理私有文档等）的能力却是不可或缺的。这一特点也意味着 AI Agent 的开发者们需要一套既通用又高效的 Agent 构建方法论。

更具挑战性的是，作为面向实际应用的产品，AI Agent 在部署后还需要能够随着应用场景的演进和用户需求的变化而不断更新优化。这些实际问题都表明，构建一个真正实用的 AI Agent 绝非简单的提示工程（Prompt Engineering）或模型微调（Fine-tuning）所能解决，而是需要更系统化的方法。

在 NeurIPS 2024 上，来自清华大学和蚂蚁集团的研究者针对人工智能体构建方法的通用性和适应性提出了一个新方案。这个被命名为 AMOR（Adaptable MOdulaR knowledge agent）的系统，不仅能低成本地调用专业工具和知识库，更重要的是，它能像人类一样持续学习和成长。

论文标题：AMOR: A Recipe for Building Adaptable Modular Knowledge Agents Through Process Feedback
论文地址：https://arxiv.org/abs/2402.01469
作者主页：https://jianguanthu.github.io/

AI Agent 的「三大短板」：为什么它们还不够「聪明」？

想让 AI Agent 真正胜任助手角色，仅有海量知识是远远不够的。研究团队通过深入分析发现，当前 AI Agent 普遍存在三大短板：

「黑盒思维」：与优秀人类助手能清晰展示解题思路不同，AI Agent 的推理过程往往是个黑箱，我们根本无从得知它是如何得出结论的。
「固步自封」：AI Agent 就像被困在训练时刻的「永恒现在」，无法像人类那样与时俱进，持续获取新能力、更新认知。
「粗放纠错」：当 AI Agent 犯错时，我们只能笼统地说「答案不对」，而无法像指导学生那样，精确指出「这一步推理有问题」。

更令人困扰的是，目前业界主流方案都未能同时解决这三大难题。作者对比了当前最具代表性的 AI Agent 框架，它们要么推理过程不可控，要么知识固化，要么反馈机制过于粗糙。这一困境在开源模型中表现得尤为明显。

AMOR 和已有构建智能体的代表性方法的比较

AMOR：基于有限状态机的模块化推理方案

如何让 AI Agent 既能像专家一样严谨思考，又能像学徒一样持续成长？AMOR 框架给出了一个优雅的答案：将复杂的 AI 推理过程拆解成可控的「专家模块」，通过有限状态机（FSM）编排它们的协作规则，就像精密的齿轮系统一样，每个部件都完美啮合。

AMOR 的状态转移图

这种设计带来三大关键优势：

1. 结构化推理框架

FSM 使得定义步骤间的依赖关系（例如，执行顺序、分支选择）非常方便，因此能够容易地对错误的路径进行剪枝，从而缩小探索空间，也有潜力更高效地构建类 OpenAI-O1 的长推理链。

2. 「双阶段」训练策略

通过将复杂任务解耦为独立模块，AMOR 能够独立训练每个模块，从而可以充分利用开源数据集。具体而言，AMOR 采用「预热 + 适应」两阶段训练模式：

快速起步 - 预热阶段：就像新员工入职培训，AMOR 通过在 5 万个自动构建的样本上训练掌握基础技能。这些样本被巧妙地分解到各个模块，使得即便是开源语言模型也能快速达到专业水准。
持续进化 - 适应阶段：像经验丰富的职场人一样，AMOR 在实际工作中不断成长。每解决一个问题，它就能积累一分经验，逐步适应特定领域的专业需求。

3. 过程反馈机制

传统 AI 训练就像只告诉学生「考试及格 / 不及格」，而不指出具体错在哪里。这种粗糙的反馈机制常常导致 AI 像「黑盒」一样难以诊断问题，训练效果事倍功半。而 AMOR 引入「过程反馈」机制，在适应训练阶段中，其结构化的推理过程使用户能够轻松诊断智能体的错误，并提供过程反馈以提高智能体的推理能力。

4. 框架通用性

AMOR 框架的设计充分考虑了通用性和可扩展性。虽然论文主要以文本知识库为例进行验证，但其基于 FSM 的模块化设计天然支持多种应用场景的迁移和扩展：

知识类型扩展：通过定制 FSM 框架内的模块和依赖关系，AMOR 可以灵活支持不同类型的知识库，如结构化数据库、多模态知识等。
任务类型扩展：除了问答任务外，通过重新设计状态转移图，AMOR 还可以支持其他知识密集型任务，如文档摘要、知识推理等。
工具集成扩展：得益于模块化设计，AMOR 可以方便地集成各类专业工具。只需将新工具封装为对应的工具模块，并在 FSM 中定义其调用规则即可。

这种可扩展的架构设计使得 AMOR 不仅能够解决当前的知识推理任务，更为未来接入新的知识源、任务类型和工具能力预留了充足的扩展空间。正如论文所述，AMOR 提供了一个构建知识智能体的通用框架，其核心思想是基于 FSM 的推理逻辑和过程反馈机制，这使得它能够适应各种不同的应用场景需求。

AMOR 实现：模型结构和训练过程

AMOR 采用了一种巧妙的「专家混合」架构（Module-Aware Mixture-of-Experts，简称 MA-MoE）。这种设计灵感来自人类的专业分工：就像一个人可以是优秀的医生，同时在其他领域保持基本能力。具体来说，MA-MoE 为每个功能模块配备了独特的 FFN 参数，并用原始模型的 FFN 参数进行初始化。这就像是在 AI 的「大脑」中划分了专门的「思维区域」。

在预热阶段，AMOR 用标准的 MLE Loss 在 5 万个样本上对 MA-MoE 进行微调。
在适应阶段，AMOR 的训练过程分为三个关键步骤：探索、反馈和利用。

探索（Exploration）：就像学徒需要亲自动手实践，AMOR 会直接处理用户的实际问题。在这个过程中，AMOR 在知识库中搜索相关信息，进行思考和推理，并推断答案。
反馈（Feedback Collection）：这个阶段就像师傅在旁边观察学徒的工作，并给出具体指导，可以直接说「对」或「错」，也可以具体指出正确答案，并且 AMOR 的每个推理步骤都能得到反馈。
利用（Exploitation）：每处理一定数量的问题后，AMOR 会根据收集到的反馈进行「复盘」，使用 KTO Loss 将 MA-MoE 和人类偏好对齐。和预热阶段类似，AMOR 的每个模块在优化时只调整自己的「专业参数」。

AMOR 实验：成本更低，效果更好

在 HotpotQA（百科知识问答）、PubMedQA（医学文献问答）和 QASPER（论文长文本问答）三个基准测试中，AMOR 展现出优秀的性能：

AMOR 的 FSM 框架让 AI 的推理过程更加清晰可控，比传统方法提升 30%~40%；
通过在多个开源数据集上预热，AMOR 甚至超越了用 GPT-4 生成训练数据的智能体；
使用过程反馈比结果反馈进行适应更高效：仅需 800 次互动就能达到稳定效果，并且证据收集能力和推理正确率显著提升。

AMOR 及基线方法在微调或不微调时的实验结果

实例展示

下图比较了 AMOR 和传统的 ReAct 框架（基于 GPT-3.5）分别回答同一问题的推理过程：

AMOR（上）和 ReAct（下）回答同一输入问题的样例

如图所示，没有明确推理逻辑约束的 ReAct 未能成功分解问题，并在「Thought/Action 5」中过早地终止检索。此外，ReAct 在「Thought 2/4/5」中也混合了正确和错误的步骤，这使得用户难以针对性地批评和改进智能体。相比之下，AMOR 则如同经验丰富的专家，每一步推理都清晰可控，不仅能准确找到答案，还能接受精确的过程指导，持续提升自己的能力。

成本分析

在 AI 领域，性能提升往往意味着更高的成本。然而，如下图所示，AMOR 打破了这个「魔咒」。

不同智能体的平均步骤数 /token 数对比

为什么 AMOR 如此高效？想象一个团队会议：传统方法（如 ReAct）像是每个人发言都要重复之前所有人说过的话；AMOR 则像是精心设计的会议流程：每个环节只传递必要信息。按照目前 API 调用成本计算，使用 GPT-4o 处理 1 万个问题，AMOR 比 ReAct 节省数百美元；当使用开源模型时，成本可以进一步降低 90% 以上。这意味着 AMOR 不仅在性能上领先，在商业落地时也具有显著的成本优势。尤其适合大规模文档处理、客服智能问答、专业领域咨询等高频场景的应用。

结语

本文介绍了 AMOR—— 一个为知识密集型任务设计的模块化智能体框架。它通过 FSM 推理系统和过程反馈机制，让 AI 展现出前所未有的推理能力和学习潜力。AMOR 的成功为 AI 助手的发展开辟了新路径。作者表示，接下来，他们将拓展到更多知识类型（如结构化知识库）、探索更广泛的应用场景、研究 AI 自主设计推理逻辑的可能性。这些工作预示着我们正在接近真正的「AI 专家」：既有清晰的推理能力，又能在实践中持续成长。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

租GPU算力又一轮价格暴跌，对高校和企业意味着什么？

李飞飞团队新作！统一动作与语言，全新多模态模型不仅超懂指令，还能读懂隐含情绪

ICML 2025、IJCAI 2025顶会投稿微信群成立！

浙江大学发布情况通报

CVPR今年这情况，很严重，大家做好准备吧

顶刊TPAMI 2024！北大提出实用、紧致的智能图像压缩感知技术

ECCV 2024 | 迈向通用激光雷达语义分割！取代Transformer的新架构SFPNet

IJCAI 2025、ICML 2025 顶会投稿微信群成立！

最大的Mamba和遥感微信群成立！

突发：中科院二区TOP期刊被剔除SCI！

一文看尽2024年11种主流注意力机制

大模型助力分割，刷新10项SOTA！清华和美团提出HyperSeg：通用分割框架

复旦&微软提出StableAnimator：首个端到端的高质量ID一致性人类视频生成新框架！

ICLR 2025 快开奖啦！IJCAI 2025、ICML 2025投稿微信群成立！

扩散模型和多模态微信群来了！

颜宁团队，最新成果！

Kaggle大神自述：炼丹经验总结

NeurIPS神仙打架：李飞飞180页PPT谈视觉智能，何恺明谈AI宿命论，Bengio同OpenAI员工吵架。。。

收录顶会！elaTCSF：用于闪烁检测和建模可变刷新率闪烁的时间对比敏感度函数

26岁OpenAI举报人疑自杀！死前揭ChatGPT训练黑幕

ICLR 2025 即将开奖！IJCAI 2025 投稿微信群成立！

第一单位！科技大学，发Nature！

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

愤怒！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

天津大学提出iLLaVA：你的大模型仅需处理33%输入

ReID和目标跟踪微信群来了！

拆分！河南，拟建2所新大学

AAAI 2025 开会群成立！转投 IJCAI 2025 投稿微信群来了！

2026届大厂校招群成立！

悼念！清华大学计算机教授、《数据结构》编著者严蔚敏去世，享年 86 岁

NVIDIA自动驾驶技术：从训练到推理

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

AAAI 2025 | CALF：用于长期时间序列预测的高效跨模态LLM微调框架

AAAI收了一篇论文：没算法没实验，全靠idea思路好...

Sora之后，Apple发布视频生成大模型STIV：87亿参数大一统T2V、TI2V任务

NeurIPS 2024 | GarmentLab：衣物与柔体操作的物理仿真环境与基准测试

IJCAI 2025 投稿微信群成立！

扩散模型和多模态微信群来了！

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

AAAI 2025接收结果出炉！Mamba再次爆发

谷歌狙击OpenAI，突发Gemini 2.0新一代大模型！主打多模态和Agent

NeurIPS 2024 | 智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

2026届AI校招群成立！

ReID和目标跟踪微信群来了！

985教授已发表1226篇论文引争议，本人回应！

只要敢捞偏门，篇篇都是顶会顶刊！

AAAI 2025 | 从架构角度重新审视3D异常检测的多模态融合

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

NeurIPS 2024 | 智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：机器之心

何恺明在MIT授课的课件PPT下载

ECCV 2024 论文和代码下载

CVPR 2024 论文和代码下载

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！