深入浅出 OpenAI Swarm 源码一：多 Agent 调度框架概念抽象

文摘 2024-10-30 16:15 北京

作者陈迪豪——顺丰科技AI技术平台高级工程师
负责顺丰集团AI和大模型基础架构功能，曾任第四范式平台架构师和OpenMLDB项目PMC，过去在小米担心云深度学习平台架构师以及优思德云计算公司存储和容器团队负责人。活跃于分布式系统、机器学习相关的开源社区，也是HBase、OpenStack、TensorFlow、TVM等开源项目贡献者。

▼

简介

OpenAI Swarm 是 OpenAI 开源的多 Agent 调度框架，全部实现逻辑仅用不到500行 Python 代码，就能实现多 Agent 的调度和交互式多轮对话等功能。

本文将从源码角度，深度剖析 OpenAI Swarm 的概念抽象和实现原理，从最底层的代码视角了解多 Agent 间的交互流程，以及从调度框架本身去拓展更多更高级的功能。

用户接口

OpenAI Swarm 项目提供了多个 examples 使用案例，主要包括单轮对话和交互式多轮对话的功能。单轮对话中，提出了 Swarm 和 Agent 的代码抽象，请看下面的代码例子。

from swarm import Swarm, Agent

client = Swarm()

def transfer_to_agent_b():
    return agent_b


agent_a = Agent(
    name="Agent A",
    instructions="You are a helpful agent.",
    functions=[transfer_to_agent_b],
)

agent_b = Agent(
    name="Agent B",
    instructions="Only speak in Haikus.",
)

response = client.run(
    agent=agent_a,
    messages=[{"role": "user", "content": "I want to talk to agent B."}],
)

print(response.messages[-1]["content"])

执行上面的代码可以得到一个大模型的文本输出，打开 debug 日志可以看出实际代码会调用多次 OpenAI API 并且经过多个 Agent 的调度返回最终结果，后面会详细介绍 Swarm 和 Agent 的代码逻辑。

交互式多轮对接接口是一个 Python 函数封装，大部分 examples 中都提供了类似下面的入口函数。

from swarm.repl import run_demo_loop
from agents import triage_agent

if __name__ == "__main__":
    run_demo_loop(triage_agent)

执行上面的代码，首先会等待用户输入，然后经过多轮 Agent 计算，得到结果后，继续等待用户输入。其中 run_demo_loop 函数实现逻辑比较简单可以提前介绍。

交互式多轮对话实现原理

OpenAI Swarm 提供了一个简单的 run_demo_loop 函数，提供一个命令行交互的接口，可以方便用户多次输入与多 Agent 进行交互。函数实现也非常简单，代码如下。

def run_demo_loop(
    starting_agent, context_variables=None, stream=False, debug=False
) -> None:
    client = Swarm()
    print("Starting Swarm CLI  ")

    messages = []
    agent = starting_agent

    while True:
        user_input = input("\033[90mUser\033[0m: ")
        messages.append({"role": "user", "content": user_input})

        response = client.run(
            agent=agent,
            messages=messages,
            context_variables=context_variables or {},
            stream=stream,
            debug=debug,
        )

        if stream:
            response = process_and_print_streaming_response(response)
        else:
            pretty_print_messages(response.messages)

        messages.extend(response.messages)
        agent = response.agent

首先进入一个 while True 的死循环，通过 Python input 函数获取用户的命令行输入，然后使用 Swarm 对象的接口来启动第一个 Agent，并且输入的内容为前面用户在命令行输入的字符串，对于流式和非流式的参数都提供一个 print 函数，可以打印最终返回的 Agent 名以及 Agent 输出。注意，这里一个用户提问可能涉及到多个 Agent 的多次函数调用或者多个 Agent 输出，这里只会输出最终的 Agent 信息，然后进入下一次用户输入和返回的循环。

为了了解其中更底层的实现细节，下面进入 Swarm 和 Agent 接口的底层实现。

Swarm 的领域抽象

前面无论是单轮对话还是交互式多轮对话，所有 Agent 调度的入口都是 Swarm 类以及 run 函数，因此我们首先看一下 Swarm 类的定义，简化一下具体实现得到下面的类定义。

class Swarm:
    def __init__(self, client=None):
        self.client = client

    def run() -> Response

    def get_chat_completion() -> ChatCompletionMessage

    def handle_function_result() -> Result

    def handle_tool_calls() -> Response

    def run_and_stream() -> None

首先 Swarm 是一个工具类，只有一个成员变量就是访问 OpenAI API 大模型的客户端，然后提供了 run 函数来运行各个 Agent ，其他都是 run 函数使用的内部工具函数。由于 run 的具体逻辑涉及 Agent 对象的内部函数，这里先关注和 Agent 无关的抽象。

首先是 run 函数返回的 Response 对象，其实流式的 run 也会 yield Response 对象，这个对象的定义如下。

class Response(BaseModel):
    messages: List = []
    agent: Optional[Agent] = None
    context_variables: dict = {}

这个就是用户使用 Swarm 框架可以得到的返回结果，其中第一个对象 messages 对象是历史所有 Agent 的输出历史，其中一个示例如下，不仅包含大模型的输出，还有是否调用 function 和 tools 等信息。

[{'content': '中国的首都是北京。', 'refusal': None, 'role': 'assistant', 'audio': None, 'function_call': None, 'tool_calls': None, 'sender': 'agent'}]

第二个对象是 agent ，如果为空说明不需要继续调用其他 Agent，如果不为空，那么在 run 函数里有这样一个逻辑，判断存在需要继续调用的 Agent 则会继续循环调用。

while len(history) - init_len < max_turns and active_agent:
  ......
  partial_response = self.handle_tool_calls(
      message.tool_calls, active_agent.functions, context_variables, debug
  )
  ......
  if partial_response.agent:
      active_agent = partial_response.agent
  ......

第三个对象是全局的 context_variables，这个对象会传递给每一个 Agent 和 Agent 的 functions，用户可以增加任意元素到这个全局 map 中方便 function 得到更多全局信息，这个会在后面 Agent 部分详细展开。

Agent 的领域抽象

在了解 Swarm 的 run 函数逻辑之前，首先介绍 Agent 的概念抽象。Agent 类的定义也比较简单，代码如下。

class Agent(BaseModel):
    name: str = "Agent"
    model: str = "gpt-4o"
    instructions: Union[str, Callable[[], str]] = "You are a helpful agent."
    functions: List[AgentFunction] = []
    tool_choice: str = None
    parallel_tool_calls: bool = True

首先每个 Agent 有一个字符串的名字，这个名字主要是为了在调用 OpenAI API 大模型时，可以配置 sender 参数，并且后期可以通过打印 sender 名来了解输出是来自哪个 Agent，而实际 Agent 间的依赖关系其实是通过 Python 的 Agent 类对象来关联的，与是否配置 name 关系不大。

第二个参数是使用的大模型，在 Swarm 对象中规定了使用的 OpenAI API 服务，因此所有的 Agent 目前只能使用同一个大模型服务，但不同 Agent 可以在 model 属性中定义使用的大模型，处理不同复杂度任务的 Agent 需要用到的模型参数也不同，在 Agent 级别选择模型也是非常合理的。

第三个参数是 instructions ，理论上可以改名为 system prompt，因此这个参数就是为了生成大模型请求时的 system prompt 参数。这里支持的参数除了可以是 string 类型外，还支持传入 Python 函数，这个函数可以从前面提到的 context_variables 来获取信息，从而生成一个较为复杂的 system prompt，用法如下。

def instructions(context_variables):
   user_name = context_variables["user_name"]
   return f"Help the user, {user_name}, do whatever they want."

agent = Agent(
   instructions=instructions
)

显然 Agent 类的 instructions 变量的类型定义有 bug，应该修改为下面的代码，社区还没有接受这个 PR 的修复 https://github.com/openai/swarm/pull/44/files 。

instructions: Union[str, Callable[[dict[str, Any]], str]] = "You are a helpful agent."

第四个参数是 functions，也就是一组 AgentFunction 对象，AgentFunction 类型定义如下。

AgentFunction = Callable[[], Union[str, "Agent", dict]]

这个其实就是一个标准的 Python 函数，也就是 OpenAI Swarm 框架要求的传给 Agent 的函数类型，实际上这里要求返回的字符串、“Agent” 或者字典对象也是一个 bug，因为处理 Agent 函数的结果是用下面的模式匹配。

    def handle_function_result(self, result, debug) -> Result:
        match result:
            case Result() as result:
                return result

            case Agent() as agent:
                return Result(
                    value=json.dumps({"assistant": agent.name}),
                    agent=agent,
                )
            case _:
                try:
                    return Result(value=str(result))
                except Exception as e:
                    error_message = f"Failed to cast response to string: {result}. Make sure agent functions return a string or Result object. Error: {str(e)}"
                    debug_print(debug, error_message)
                    raise TypeError(error_message)

在下面的处理逻辑中，如果用户函数返回 str 或者 “Agent” 或者 “dict”，都会被简单认为字符串处理，在大部分 examples 代码中 Agent 函数都是直接返回 Agent 对象。由于 OpenAI Swarm 官方项目关闭了 Issue 和 PR 评论，因此这部分代码修改计划在 orchard-swarm 中维护 https://github.com/OrchardUniverse/orchard-swarm 。

最后第五第六个参数 tool_choice 和 parallel_tool_calls 是 OpenAI Chat Completions API 的参数，可以控制工具的调用，但目前 OpenAI Swarm 项目不会用到和修改这个参数，因此可以直接忽略。

总结

目前我们已经深度解读了 OpenAI Swarm 项目对于 Swarm 工具类和 Agent 抽象类的定义，在此基础上我们要理解 Agent 的调度以及大模型的调用逻辑就非常简单了。

想要了解更多Agent应用落地情况，就来11月8-9日，在深圳举办的“AI+研发数字峰会（AiDD）吧，我将带来《改造 Dify 实现生产可用的 AI Agent 应用落地》主题演讲，将会介绍顺丰科技内部对 Dify 的改造，以及实际的应用落地案例。

我所在的“AI Agents研发落地实践”论坛还邀请了腾讯云资深技术产品专家汪晟杰、未来智能CTO王松、腾讯云高级工程师赵兵与大家共同探讨AI Agent在软件工程中的落地试点和无限可能，聚焦于智能体如何模拟人类认知理解任务要求，实现大模型与传统软件工程工具链的有力结合。欢迎扫码报名现场交流！

推荐活动

由AiDD组委会联合多个社区发起的「2024软件研发应用大模型」调查结束了，报告将在11月8日AiDD峰会深圳站主会场Keynote重磅发布。想要线上下载的同学，可以关注「中智凯灵」公众号，输入“AiDD2024调查”即可免费预约下载。

http://mp.weixin.qq.com/s?__biz=MzA5NzE4NDkxMg==&mid=2652107429&idx=1&sn=e6441c42abb07284aba4e735c78e549f

中智凯灵

中智凯灵（KeyLink）是国内领先的专业数字人才发展平台，面向科技研发型企业和组织提供数字化人才培养的专属成长地图，数字化转型的方法 + 智库。

最新文章

2024AI+研发数字（AiDD）峰会深圳站圆满收官！

参会指南来啦！AiDD峰会深圳站倒计时3天，期待您的到来！

深入浅出 OpenAI Swarm 源码二：多 Agent 框架调度流程

深入浅出 OpenAI Swarm 源码一：多 Agent 调度框架概念抽象

“AI+工程”线 | AI+研发数字峰会（AiDD）深圳站五大条线陆续揭晓

“AI+领域”线 | AI+研发数字峰会（AiDD）深圳站五大条线陆续揭晓

高通骁龙峰会AI又是主角，或将开启终端侧生成式AI新时代

“AI+测试”线 | AI+研发数字峰会（AiDD）深圳站五大条线陆续揭晓

“AI+开发”线揭晓| AI+研发数字峰会（AiDD）深圳站携60+前沿实践案例重磅来袭！

从木匠到AI教父：Geoffrey Hinton的传奇之路

恭喜KeyLink嘉宾智库成员陶建辉、朱思语获得2024年“CCF杰出工程师奖”

突发！OpenAI CTO离职，同日奥特曼被曝将获得股权

为什么AI不会夺去软件工程师的工作？

华为云联合中国信通院发布国内首部《智能化软件开发落地实践指南》，引领AI驱动开发新时代

用AI五分钟就能生成一档播客？感觉降维打击了

OpenAI o1 强化学习背后的自博弈（Self-play）方法介绍

OpenAI o1模型凌晨震撼发布，AI界迎来革命性变革

上6休3上3休2……这烧脑的调休安排，国内外AI都算不明白，集体大“翻车”！

大模型如何改变软件开发的游戏规则？

AI重塑软件行业，个人和组织如何实现弯道超车？| AiDD

开发者噩梦！69% 的程序员每周浪费 8+ 小时，技术债是最大“时间黑洞”

再次扬帆起航：启动2024年「软件研发应用大模型」的调查

何小鹏的Model 2，爆单了

“蓝色巨人”在中国的下线，是否标志着科技鸿沟转折点的到来？

李沐：创业一年，人间三年！

AiDD峰会北京站TOP10议题新鲜出炉，快看看有没有你喜欢的议题上榜！

2024AI+研发数字（AiDD）峰会北京站圆满收官！

参会指南来啦！AiDD峰会北京站倒计时3天，期待您的到来！

首位获得IEEE TCSE新星奖的中国学者黎立，将受邀出席AiDD峰会发表主旨演讲

上海交大AI研究院沈为：我相信奇点将至，但更信脚踏实地

GPT-4o的语音模式终于来了！电影《Her》变成现实...

2024“人工智能+”行动第2弹——AiDD峰会北京站即将发射！

AiDD对话马永亮：大模型应用规模化落地的核心是降低定制和优化的门槛

谈一谈LLM在推荐域的一些理解

对话数据科学家巴川：创新勿忘初心，未来属于有温度的AI

院士领衔推出大模型的第3种记忆：比参数存储和RAG都便宜，2.4B模型越级打13B

大语言模型在金融领域的应用:进展、前景与挑战

麦肯锡报告：2030年，哪些行业会衰落？AI首先会取代哪些工作？

AI驱动研发变革，促进企业降本增效！AI+研发数字峰会北京站议题火热征集中

K+峰会上海站TOP10议题新鲜出炉，快看看有没有你喜欢的议题上榜！

来自大厂优秀课代表的学习笔记-AiDD峰会上海站

2024K+全球软件研发行业创新峰会上海站圆满收官！

来啦来啦~K+峰会上海站即将发车，请再次确认您手中的“车票”

‘AI+人’访谈录 | 四秩编程路，爱折腾的匠人梦

大模型编码目前最有效的模式

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉