Orchestrator:主智能体,负责任务分解和规划,指导其他智能体执行子任务,跟踪整体进度,并在需要时采取纠正措施。
WebSurfer:这是一个基于LLM的智能体,擅长命令和管理基于Chromium的网络浏览器的状态。每次收到请求,WebSurfer都会在浏览器上执行一个操作,然后报告网页的新状态。WebSurfer的动作空间包括导航(例如访问URL,执行网络搜索);网页动作(例如点击和输入);以及阅读动作(例如总结或回答问题)。WebSurfer依赖于浏览器的可访问性树和一组标记提示来执行其动作。
FileSurfer:这是一个基于LLM的智能体,命令一个基于Markdown的文件预览应用程序来读取大多数类型的本地文件。FileSurfer还可以执行常见的导航任务,例如列出目录的内容和导航文件夹结构。
Coder:这是一个通过其系统提示专门化的LLM智能体,用于编写代码、分析从其他智能体收集的信息或创建新工件。
ComputerTerminal:最后,ComputerTerminal为团队提供了访问控制台外壳的权限,Coder的程序可以在这里执行,也可以在这里安装新的编程库
Magentic-One的5个智能体协同解决复杂任务的一个示例
https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/
https://github.com/microsoft/autogen/tree/main/python/packages/autogen-magentic-one
来源 | PaperAgent