Letta联合创始人兼CEO Charles Packer,曾是Berkeley人工智能研究院(BAIR)研究生研究员,曾是加州大学伯克利分校研究人员,也曾在加州大学圣地亚哥分校担任CSE课程的辅导员和系统管理员。他还曾是华盛顿州立大学NSF REU研究员。Charles在加州大学伯克利分校获得计算机科学博士学位,并在加州大学圣地亚哥分校获得计算机科学学士学位,毕业时获得最高荣誉。
最近Latta公布2024年最新的“代理栈”(Agent Stack),将 AI 代理堆栈分为三个关键层:代理托管/服务(agent hosting/serving)、代理框架(agent frameworks)以及LLM模型和存储(LLM models & storage)。
这套代理栈来源于其过去一年多在开源AI领域的实践,以及过去7年以上在AI研究中的积累。它不仅试图更真实地反映开发者的实际需求与行为,也开发者群体提供一个实用的参考框架。
难能可贵的是,Letta推出的代理栈与一般AI代理研究报告不一样,并不仅仅是对现有工具的整理,更关注它们在实际应用中的价值与协作方式。
一、从大语言模型(LLMs)到LLM代理(LLM Agents)
在2022年和2023年,我们见证了LLM框架与SDK的崛起,例如LangChain(2022年10月发布)和LlamaIndex(2022年11月发布)。与此同时,也有多种“标准”平台被广泛采用,用于通过API消费LLM或进行自部署的LLM推理,例如vLLM和Ollama。
进入2024年,AI“代理”(Agents)以及更广义上的复合系统(Compound Systems)成为了行业关注的核心。这种转变令人瞩目。尽管“代理”一词在人工智能领域已有数十年的历史(尤其是在强化学习领域),但在后ChatGPT时代,它的定义变得更加宽泛。如今,“代理”通常指大语言模型(LLMs)在自主环境中执行任务,具体表现为生成动作(如工具调用)并结合工具的使用进行自动化运行。
从LLMs向代理系统的转变,意味着需要整合工具使用、自主执行和记忆管理这三大关键能力。实现这一转变的需求催生了全新的代理技术栈。这套栈不仅满足了对复杂操作的需求,也推动了AI代理生态系统的快速发展。
这种进化表明,AI技术正在从单一的语言生成能力,向更复杂、更动态、更智能的任务执行框架迈进,为开发者和用户带来了前所未有的可能性。
二、AI代理栈(Agent Stack)有和独特之处?
与基础的LLM聊天机器人相比,AI代理的开发在工程上复杂得多。原因在于代理面临以下两大核心挑战:
状态管理(state management)
需要保留消息/事件的历史记录,支持上下文的持久性。
存储长期记忆,以便在未来的任务中参考。
在代理循环中执行多次LLM调用,保持逻辑连贯性和目标驱动性。
工具执行(tool execution)
安全地执行由LLM生成的动作(如调用工具、API请求等)。
返回执行结果并将其融入到后续任务中,确保可靠性和高效性。
正因为如此,AI代理栈的结构与传统的LLM栈有着显著差异。下文是Charles Packer对当前AI代理栈的关键组成部分的逐层解析:
1、模型服务(Model Serving)
AI代理的核心是大语言模型(LLM)。为了让代理能够使用这些模型,模型需要通过推理引擎提供服务,通常是通过付费API服务运行。主流模型服务选项包括以下4大类:
1)基于封闭API的推理服务
OpenAI 和 Anthropic 是目前封闭式API推理服务的领先提供商,它们提供高性能的专属前沿模型。这些服务通常适合需要高质量输出和强大支持的商业级应用。
2)开放权重模型的API服务
Together.AI、Fireworks 和 Groq 提供基于开放权重模型(例如Llama 3)的付费API服务。这些平台的优势在于结合了开放模型的灵活性和付费服务的便利性。
3)本地化模型推理服务(Local Model Inference)
对于需要在本地部署模型的用户,以下解决方案最受欢迎:
vLLM 是生产级GPU推理的领先工具,广泛应用于企业环境中。
SGLang 是一个新兴项目,吸引了类似的开发者群体,其目标是在本地推理服务中占据一席之地。
4)AI爱好者的选择(AI Enthusiasts)
在个人电脑上运行模型的用户(如Apple MacBook的M系列芯片)中,以下选项很受欢迎:
Ollama 提供了直观的用户界面和高效的推理性能。
LM Studio 则是另一个受到欢迎的工具,适合希望快速启动本地模型的用户。
2、存储(Storage)
存储是状态化代理(stateful agents)的核心构件之一,支持代理的持续状态管理,如对话历史、记忆以及用于检索增强生成(RAG)的外部数据源。对于代理来说,存储解决方案的选择直接影响其处理复杂任务的能力和效率。主流存储工具包括以下两类:
1)向量数据库
向量数据库是代理存储的核心,特别适用于存储和检索大规模嵌入数据。以下是一些常见的选择:
Chroma:专为AI应用优化,便于集成。
Weaviate:提供丰富的内置特性,如图谱查询和嵌入存储。
Pinecone:以高性能向量检索为核心,适合生产环境。
Qdrant:开源解决方案,具有强大的定制能力和易用性。
Milvus:开源项目,支持分布式存储和高性能检索。
2) PostgreSQL(传统数据库的新生)
尽管PostgreSQL是一种传统的关系型数据库,它通过pgvector扩展实现了向量搜索功能,使其在现代AI代理应用中焕发新生:
Neon:无服务器(Serverless)的PostgreSQL版本,支持动态扩展。
Supabase:集成了嵌入存储和向量搜索,适合快速构建代理应用。
3、工具库(Tools & Libraries)
AI代理与传统AI聊天机器人的主要区别之一在于代理可以调用“工具”(或称“函数”)。这种能力使代理能够执行超出文本生成范围的任务,从而显著提升其功能性和适应性。代理工具执行不是由LLM提供商本身完成的 - LLM仅选择要调用的工具以及要提供的参数。支持任意工具或工具中的任意参数的代理服务必须使用沙箱(例如Modal 、 E2B )来确保安全执行。
标准化的JSON Schema
OpenAI定义了一种JSON模式,成为代理调用工具的通用接口标准。由于这一标准化,工具可以在不同框架中实现互操作性。例如,Letta代理可以调用LangChain、CrewAI或Composio提供的工具。
跨平台工具生态
这一互操作性推动了通用工具生态的形成,一些常用工具提供了特定功能:
Composio:一个通用工具库,管理授权与工具调用,广泛应用于各种场景。
Browserbase:专注于网页浏览的工具,用于爬取和解析网页内容。
Exa:提供网页搜索功能的专用工具。
4、代理框架(Agent Frameworks)
代理框架是AI代理栈的核心,负责协调LLM调用并管理代理的状态。不同框架在状态管理、上下文窗口的构建、多代理通信、记忆处理,以及对开放模型的支持等方面有各自的设计特点。代理框架包括5大核心功能:
1)状态管理
状态序列化(Serialization)
大多数框架支持将代理的状态(如对话历史、代理记忆、执行阶段)序列化为文件(JSON、字节流等),以便稍后加载。例如,Letta使用数据库(如消息表、代理状态表、记忆块表)来持久化状态,无需显式序列化。这种方法使得状态查询(如按日期查找过去消息)更加便捷。
可扩展性与灵活性
状态管理的设计直接影响代理系统的扩展能力(例如处理更长的对话历史或更多代理实例)以及状态访问和修改的灵活性。
2) 上下文窗口的构建
每次调用LLM时,框架会将代理的状态“编译”进上下文窗口,包括指令、消息缓冲区等。
透明性是一个重要考虑因素:框架是否允许开发者清晰了解哪些数据被传入上下文窗口?透明的设计让开发者更容易优化代理的行为和性能。
3)多代理通信(Cross-Agent Communication)
不同框架支持多代理协作的方式各有不同:
Llama Index:通过消息队列实现代理间通信。
CrewAI 和 AutoGen:使用显式的抽象器进行多代理协作。
Letta 和 LangGraph:支持代理之间直接调用,既可以集中式(通过监督代理)也可以分布式地进行代理通信。
此外,大多数框架支持单代理和多代理的灵活转换,使跨代理协作易于实现。
4) 记忆处理(Memory Management)
LLM的上下文窗口限制对记忆管理提出了要求,框架通常采用不同的技术应对:
基于RAG的记忆,CrewAI和AutoGen依赖检索增强生成(RAG)技术,通过从外部数据源检索相关信息扩展上下文。
高级记忆技术。一些框架(如phidata和Letta)还采用了更复杂的方法,如MemGPT的自编辑记忆和递归摘要。Letta 内置了一套强大的记忆管理工具,支持文本搜索、记忆存储和编辑上下文窗口等功能。
5) 对开源模型的支持
挑战:开源模型需要额外的处理,比如在输出格式不符合要求时重新采样,或者通过提示词(prompt engineering)微调输出(如“请输出JSON格式”)。
并非所有框架都支持开放模型,一些框架专注于主流模型提供商的集成。
5、代理托管与服务(Agent Hosting and Serving)
目前,大多数代理框架的设计局限于Python脚本或Jupyter Notebook环境,代理在这些环境中运行,但无法超越其所在的开发上下文。然而,随着代理技术的不断发展,代理服务化(Agent-as-a-Service)的未来趋势愈发明确:将代理部署到本地或云端基础设施,通过REST API提供访问服务。
类似于OpenAI的ChatCompletion API成为LLM服务的行业标准,预计未来会出现一个统一的Agents API标准。
三、附录
硅谷科技评论(SVTR),在ChatGPT问世之际,创立于美国硅谷,是一家数据驱动的AI孵化器。依托AI创投库、AI创投社和风险投资,为创始人提供人才、资金和咨询服务,打造全球前沿科技(AI)创新生态系统。目前覆盖全球10W+ AI从业者,包括AI创始人和AI投资人。最近孵化案例包括:AI超级工程师模本科技;AI教育咨询公司高考纸鸢。
联系凯瑞(pkcapital2023),加入我们创业工作室,成为导师、顾问、创业合伙人等。更多内容,文末阅读原文访问AI创投库(svtr.ai)。
AI周报:
AI创投
+
AI行业
+
全球 Gen AI 独角兽大盘点,中国4家大模型上榜 | |
大模型系列:海外 | 数学 | 性价比 | 编程 | 医疗 | 评估 | 训练成本 | 小模型 | |
AI 公司创始人 | 华裔创始人 | 北美科技人才中心地图丨职业经历丨教育背景 | |
AI 公司地理和行业分布 | 以色列 | 德国 | 旧金山湾区 | 欧洲 | |
福布斯AI 50 | 斯坦福AI指数 | 企业科技AI 30 | 高增长AI 50 | C端AI 50 | 工具AI 50 | SVTR AI 100 | 自力更生AI 25 | |
AI+编程 | 医疗 | 企服 | 电商 | 设计 | 勘探 | 教育 | 写作 | 客服 | 法律 | 视频 | 3D | 音乐 | 搜索 | 心理精神 | 消费者科技 | 安全 | 生产力工具 | 浏览器 | 游戏 | 会计 | 数据分析 | 销售 | Scribe | 金融投资 | |
人工智能能做什么? | LLMOps |
AI是否会被垄断 | AI未解之谜 |
开源AI,开发者工具 | AI域名 |
生成式 AI 六大趋势 | 巨头的AI战争 |
AI Agent,自动化 | 具身智能 |
AI专利 | 2023年AI总结和展望 |
AI公司
+