研究人员用AI自动设计智能体系统,数学任务分数提升25.9%

科技   2024-11-05 16:50   北京  


目前,人工智能领域正在投入大量精力开发通用智能体系统。这些智能体利用大模型作为它们的“大脑”来进行推理和规划。

比如,利用规划推理、记忆结构、工具使用等模块来解决复杂任务,并已在游戏、科研、软工等领域取得巨大成功。

对于目前的智能体系统来说,它们中的绝大部分都是依靠专家经验和领域知识,通过花费大量时间和计算资源,在不断试错之后被设计而来。

但是,从机器学习的历史可知,手工设计的解决方案最终往往会被机器学习习得的解决方案所取代。

基于这一背景,一支科研团队提出一种名为智能体系统的自动化设计(ADAS,Automated Design of Agentic Systems)的新方法,旨在解决当前智能体系统开发中存在的几个问题:

(来源:arXiv

问题一:在以手工方式设计智能体系统的时候,需要投入大量的人力和时间。

即研究人员需要不断尝试各种新的构建模块和组合方式。

问题二:随着应用场景的逐渐增多,使用手工方式来为每个特定任务设计智能体正在变得愈发不切实际。

因此,人们需要一种自动化的方法,来针对不同任务快速生成智能体系统,并能在相关应用场景的反馈中不断实现自我进化

对于 ADAS 算法来说,它基于元智能体搜索打造而来,能够利用 AI 智能体来发现新的 AI 智能体。

当通过使用编程语言来定义智能体的时候,元智能体可以通过编程来自动地发现更好的智能体。

而在此前的传统方法之中,人们仅仅聚焦于智能体中某个部件例如提示词的优化。

但是,ADAS 算法理论上能够发现任何可能的智能体系统,包括发现全新的模块、控制流程和工具使用方式等。

同时,作为一种自我指涉式的 AI 算法,它还展示了 AI 的自我提升能力。

实验证明,ADAS 算法在多个测试任务上均已大幅击败了其他手工设计智能体。

比如,在一些阅读任务和数学任务上,ADAS 算法分别能将性能分数提高 13.6/100(F1)和 25.9%。

同时,通过 ADAS 算法自动发现的智能体系统,还可以在不同任务和不同模型之间实现泛化,因此具备一定的鲁棒性和泛用性,能够助力于开发更强大、更通用的人工智能系统。

日前,相关论文以《智能体系统的自动设计》(Automated Design of Agentic Systems)为题发在 arXiv[1]。

图 | 相关论文(来源:arXiv

南方科技大学本科校友、加拿大不列颠哥伦比亚大学博士胡圣然是第一作者。

图 | 胡圣然(来源:胡圣然)

研究人员表示,论文发表之后已经有很多开发者尝试将本次方法用于项目开发之中。

有开发者表示:“作者的方法简洁有效,我们花了一个小时就将算法用在了系统里。”

整体来看,ADAS 算法将能发挥三方面的功效:

首先,开发者利用 ADAS 算法能够快速地开发和优化针对特定领域的智能体助手。

其次,ADAS 算法甚至可以帮助用户在不使用任何专业开发技术的情况下,为其独特的应用场景自动设计智能体,从而让每个用户在每个独特的使用场景之中,都能拥有自己的专属智能体。

再次,ADAS 算法还为智能体上线之后的持续进化提供了可能性。

智能体在投入应用之后,往往会收到海量的反馈数据。此前,开发者很难利用这些数据为每个独特的应用场景进行迭代,而 ADAS 算法则能让智能体的持续进化成为可能。

课题组表示,ADAS 算法属于一种开放式(Open-ended)算法,因此并不局限于一些提前设计好的目标和模式。

在开展算法运行实验的时候,该团队无法针对算法行为做出过多预测,也因此常常会对算法所涌现的行为感到惊讶。

比如,他们其中的一个测试任务叫抽象和推理语料库(ARC,Abstraction and Reasoning Corpus)测试,这是目前检测 AI 系统通用智能能力的标准检测任务。

测试中该团队发现:ADAS 算法大幅超越了前沿水平的手工设计智能体。

而在 ADAS 算法所设计的最好的自动设计智能体里,还涌现出了非常复杂的设计结构。

在以往的手工设计智能体系统里,这种复杂结构从未出现过,所以研究人员非常好奇 AI 是如何通过自我进化打造出复杂结构的。

仔细观察之后他们发现:这种结构并不是凭空出现的,而是通过继承先前演化过程中的数个设计方案融合而来。

这让课题组感到到非常惊喜,因为 AI 展现出了与人类相似的创造力。

而在被融合的设计方案里,多数智能体在被设计出来的时候,并没有获得性能上的提升。然而,AI 却注意到了它们的潜力,并能提出新的设计方案。

基于这种令人印象深刻的发现,该团队期待本次算法能在不同领域之中探索 AI 的更多创新能力。

(来源:arXiv

目前,该团队通过使用一个元智能体来设计其他智能体。但是,既然元智能体本身也是一个智能体,因此理论上他们可以不断地向上堆叠这个过程。

这样一来,不仅可以创造元-元智能体,甚至可以创造元-元-元智能体。通过使用上述方法,可能会让课题组发现更强大、更通用的智能体设计策略。

想象一下,如能开发一个可以不断自我改进的元智能体系统,它可能会以人类难以预料的方式推动人工智能的发展。

当然,这也会带来一些哲学问题和伦理问题,比如当这样的系统最终是会收敛到某个稳定状态,还是会无限制地发展下去?这些都是研究人员急切希望探索的问题。

与此同时,他们还打算计划研究多目标 ADAS。在实际应用中,人们通常需要在多个目标之间进行权衡,比如权衡性能、效率、成本和安全性等。

因此,该团队希望能够一款能够同时优化多个目标的 ADAS 算法,让开发者能够实现智能体的灵活应用。

另外,他们也在考虑如何在 ADAS 算法中整合多个不同模型。目前,他们主要使用单一的大模型来作为研究基础。

但是,在不同的任务上,不同的大模型往往也是表现各异。而假如能让元智能体灵活地选择和组合多个大模型,将有希望打造更强大、更通用的智能体系统。

参考资料:

1.https://arxiv.org/pdf/2408.08435


运营/排版:何晨龙





01/ 与人脑静息态信号相似度达93%,科学家研发数字孪生脑平台,实现对人脑结构和功能的模拟


02/  水也能用来造芯片?科学家用液态水分子制备神经网络计算芯片,或为AI计算提供新方向


03/ 哈佛团队开发类ChatGPT的AI病理模型,诊断19种类型癌症准确率近94%,为癌症诊疗提供新工具


04/动物模型血糖被控长达一天,浙大团队制备口服胰岛素制剂,小鼠连续给药7天未出现低血糖


05/可同时用于塑料降解与绿色制氢?科学家制备单原子铁催化剂,有望减少依赖传统化石燃料


DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
 最新文章