点击下方卡片,关注“CVer”公众号
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
转载自:机器之心
此项研究成果已被 NeurIPS 2024 录用。该论文的第一作者是清华大学计算机系博士生关健(导师:黄民烈教授),目前任蚂蚁研究院副研究员,其主要研究领域为文本生成、复杂推理和偏好对齐。
随着 ChatGPT 掀起的 AI 浪潮进入第三年,人工智能体(AI Agent)作为大语言模型(LLM)落地应用的关键载体,正受到学术界和产业界的持续关注。实际上,早在 5-6 年前,预训练技术就已经在许多实际任务中取得了显著成果。但 AI Agent 之所以在当下备受瞩目,更多地源于其在自动解决复杂任务方面展现出的巨大潜力,而这种潜力的核心基石正是智能体的复杂推理能力。
与当下广受关注的 OpenAI-o1 及其追随者略有不同,大多数实用的 AI Agent 往往需要在特定场景下发挥作用。这种情况类似于普通人类:虽然不是每个人都需要具备获得 IMO 金牌的数学素养,但在具体场景下利用特定知识和工具完成复杂任务(例如使用搜索引擎、处理私有文档等)的能力却是不可或缺的。这一特点也意味着 AI Agent 的开发者们需要一套既通用又高效的 Agent 构建方法论。
更具挑战性的是,作为面向实际应用的产品,AI Agent 在部署后还需要能够随着应用场景的演进和用户需求的变化而不断更新优化。这些实际问题都表明,构建一个真正实用的 AI Agent 绝非简单的提示工程(Prompt Engineering)或模型微调(Fine-tuning)所能解决,而是需要更系统化的方法。
在 NeurIPS 2024 上,来自清华大学和蚂蚁集团的研究者针对人工智能体构建方法的通用性和适应性提出了一个新方案。这个被命名为 AMOR(Adaptable MOdulaR knowledge agent)的系统,不仅能低成本地调用专业工具和知识库,更重要的是,它能像人类一样持续学习和成长。
论文标题:AMOR: A Recipe for Building Adaptable Modular Knowledge Agents Through Process Feedback 论文地址:https://arxiv.org/abs/2402.01469 作者主页:https://jianguanthu.github.io/
AI Agent 的「三大短板」:为什么它们还不够「聪明」?
「黑盒思维」:与优秀人类助手能清晰展示解题思路不同,AI Agent 的推理过程往往是个黑箱,我们根本无从得知它是如何得出结论的。 「固步自封」:AI Agent 就像被困在训练时刻的「永恒现在」,无法像人类那样与时俱进,持续获取新能力、更新认知。 「粗放纠错」:当 AI Agent 犯错时,我们只能笼统地说「答案不对」,而无法像指导学生那样,精确指出「这一步推理有问题」。
更令人困扰的是,目前业界主流方案都未能同时解决这三大难题。作者对比了当前最具代表性的 AI Agent 框架,它们要么推理过程不可控,要么知识固化,要么反馈机制过于粗糙。这一困境在开源模型中表现得尤为明显。
快速起步 - 预热阶段:就像新员工入职培训,AMOR 通过在 5 万个自动构建的样本上训练掌握基础技能。这些样本被巧妙地分解到各个模块,使得即便是开源语言模型也能快速达到专业水准。 持续进化 - 适应阶段:像经验丰富的职场人一样,AMOR 在实际工作中不断成长。每解决一个问题,它就能积累一分经验,逐步适应特定领域的专业需求。
3. 过程反馈机制
知识类型扩展:通过定制 FSM 框架内的模块和依赖关系,AMOR 可以灵活支持不同类型的知识库,如结构化数据库、多模态知识等。 任务类型扩展:除了问答任务外,通过重新设计状态转移图,AMOR 还可以支持其他知识密集型任务,如文档摘要、知识推理等。 工具集成扩展:得益于模块化设计,AMOR 可以方便地集成各类专业工具。只需将新工具封装为对应的工具模块,并在 FSM 中定义其调用规则即可。
这种可扩展的架构设计使得 AMOR 不仅能够解决当前的知识推理任务,更为未来接入新的知识源、任务类型和工具能力预留了充足的扩展空间。正如论文所述,AMOR 提供了一个构建知识智能体的通用框架,其核心思想是基于 FSM 的推理逻辑和过程反馈机制,这使得它能够适应各种不同的应用场景需求。
在预热阶段,AMOR 用标准的 MLE Loss 在 5 万个样本上对 MA-MoE 进行微调。 在适应阶段,AMOR 的训练过程分为三个关键步骤:探索、反馈和利用。
探索(Exploration):就像学徒需要亲自动手实践,AMOR 会直接处理用户的实际问题。在这个过程中,AMOR 在知识库中搜索相关信息,进行思考和推理,并推断答案。 反馈(Feedback Collection):这个阶段就像师傅在旁边观察学徒的工作,并给出具体指导,可以直接说「对」或「错」,也可以具体指出正确答案,并且 AMOR 的每个推理步骤都能得到反馈。 利用(Exploitation):每处理一定数量的问题后,AMOR 会根据收集到的反馈进行「复盘」,使用 KTO Loss 将 MA-MoE 和人类偏好对齐。和预热阶段类似,AMOR 的每个模块在优化时只调整自己的「专业参数」。
AMOR 的 FSM 框架让 AI 的推理过程更加清晰可控,比传统方法提升 30%~40%; 通过在多个开源数据集上预热,AMOR 甚至超越了用 GPT-4 生成训练数据的智能体; 使用过程反馈比结果反馈进行适应更高效:仅需 800 次互动就能达到稳定效果,并且证据收集能力和推理正确率显著提升。
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ECCV 2024 论文和代码下载
在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba、多模态和扩散模型交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看