微软开源5级Agent框架,复杂任务就这么被解决了~

科技   2024-11-11 00:02   北京  
微软又来卷Agent,开源了解决复杂任务的通用Multi-Agent框架Magentic-One,它旨在解决开放性的网络和基于文件的任务,跨越各种领域,如操作网络浏览器、导航本地文件、编写和执行Python代码、做市场调研、写论文等等。
Magentic-One由5个智能体组成,Orchestrator 总指挥,WebSurfer 网络助手,FileSurfer 文件助手、Coder 编程助手、ComputerTerminal 终端助手,主智能体Orchestrator规划、跟踪进度,并在出现错误时重新规划,指导专业智能体执行任务。
Magentic-One工作原理
Magentic-One的特点是一个Orchestrator智能体,它实现了两个循环:外循环和内循环。外循环(浅背景与实箭头)管理任务账本(包含事实、猜测和计划),内循环(深背景与虚箭头)管理进度账本(包含当前进度、任务分配给智能体)。

  • Orchestrator:主智能体,负责任务分解和规划,指导其他智能体执行子任务,跟踪整体进度,并在需要时采取纠正措施。

  • WebSurfer:这是一个基于LLM的智能体,擅长命令和管理基于Chromium的网络浏览器的状态。每次收到请求,WebSurfer都会在浏览器上执行一个操作,然后报告网页的新状态。WebSurfer的动作空间包括导航(例如访问URL,执行网络搜索);网页动作(例如点击和输入);以及阅读动作(例如总结或回答问题)。WebSurfer依赖于浏览器的可访问性树和一组标记提示来执行其动作。

  • FileSurfer:这是一个基于LLM的智能体,命令一个基于Markdown的文件预览应用程序来读取大多数类型的本地文件。FileSurfer还可以执行常见的导航任务,例如列出目录的内容和导航文件夹结构。

  • Coder:这是一个通过其系统提示专门化的LLM智能体,用于编写代码、分析从其他智能体收集的信息或创建新工件。

  • ComputerTerminal:最后,ComputerTerminal为团队提供了访问控制台外壳的权限,Coder的程序可以在这里执行,也可以在这里安装新的编程库

Magentic-One(GPT-4o,o1)在GAIA和AssistantBench上实现了与以前SOTA方法统计上相当的性能,并在WebArena上实现了竞争性能。

Magentic-One的5个智能体协同解决复杂任务的一个示例

https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/https://github.com/microsoft/autogen/tree/main/python/packages/autogen-magentic-one

来源 | PaperAgent

深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
 最新文章