Letta:AI代理技术栈市场地图

文摘   2024-11-19 15:30   美国  

根据硅谷科技评论数据库(svtr.ai),在AI代理领域全球有50多家高潜初创企业获得知名机构投资(见附录),其中Letta是最近备受关注的一家AI代理框架企业。

Letta,2024年成立于美国加州伯克利,帮助人工智能模型记住用户和对话。完成1000万美元融资,投资方为Felicis的Astasia Myers、Google的Jeff Dean、Hugging Face的Clem Delangue、Runway的Cristóbal Valenzuela、Anyscale的Robert Nishihara等。本轮估值为7000万美元,累计融资1000万美元。

Letta是伯克利天空计算实验室(Sky Lab)的孵化项目,也是流行的 MemGPT 开源项目的商业实体。伯克利的 Sky 计算实验室由著名教授、Databricks 联合创始人 Ion Stoica 领导,是 RISELab 和 AMPLab 的后代,这两个实验室催生了 Anyscale、Databricks 和 SiFive 等公司,这里也诞生了许多流行的开源大语言模型( LLM )项目,例如Gorilla LLM 、vLLM和LLM结构化语言SGLang。



Letta联合创始人兼CEO Charles Packer,曾是Berkeley人工智能研究院(BAIR)研究生研究员,曾是加州大学伯克利分校研究人员,也曾在加州大学圣地亚哥分校担任CSE课程的辅导员和系统管理员。他还曾是华盛顿州立大学NSF REU研究员。Charles在加州大学伯克利分校获得计算机科学博士学位,并在加州大学圣地亚哥分校获得计算机科学学士学位,毕业时获得最高荣誉。



最近Latta公布2024年最新的“代理栈”(Agent Stack),将 AI 代理堆栈分为三个关键层:代理托管/服务(agent hosting/serving)、代理框架(agent frameworks)以及LLM模型和存储(LLM models & storage)。


这套代理栈来源于其过去一年多在开源AI领域的实践,以及过去7年以上在AI研究中的积累。它不仅试图更真实地反映开发者的实际需求与行为,也开发者群体提供一个实用的参考框架。


难能可贵的是,Letta推出的代理栈与一般AI代理研究报告不一样,并不仅仅是对现有工具的整理,更关注它们在实际应用中的价值与协作方式。


一、从大语言模型(LLMs)到LLM代理(LLM Agents)


在2022年和2023年,我们见证了LLM框架与SDK的崛起,例如LangChain(2022年10月发布)和LlamaIndex(2022年11月发布)。与此同时,也有多种“标准”平台被广泛采用,用于通过API消费LLM或进行自部署的LLM推理,例如vLLM和Ollama。


进入2024年,AI“代理”(Agents)以及更广义上的复合系统(Compound Systems)成为了行业关注的核心。这种转变令人瞩目。尽管“代理”一词在人工智能领域已有数十年的历史(尤其是在强化学习领域),但在后ChatGPT时代,它的定义变得更加宽泛。如今,“代理”通常指大语言模型(LLMs)在自主环境中执行任务,具体表现为生成动作(如工具调用)并结合工具的使用进行自动化运行。


从LLMs向代理系统的转变,意味着需要整合工具使用、自主执行和记忆管理这三大关键能力。实现这一转变的需求催生了全新的代理技术栈。这套栈不仅满足了对复杂操作的需求,也推动了AI代理生态系统的快速发展。


这种进化表明,AI技术正在从单一的语言生成能力,向更复杂、更动态、更智能的任务执行框架迈进,为开发者和用户带来了前所未有的可能性。


二、AI代理栈(Agent Stack)有和独特之处?


与基础的LLM聊天机器人相比,AI代理的开发在工程上复杂得多。原因在于代理面临以下两大核心挑战:


  • 状态管理(state management)

    1. 需要保留消息/事件的历史记录,支持上下文的持久性。

    2. 存储长期记忆,以便在未来的任务中参考。

    3. 在代理循环中执行多次LLM调用,保持逻辑连贯性和目标驱动性。


  • 工具执行(tool execution)

    1. 安全地执行由LLM生成的动作(如调用工具、API请求等)。

    2. 返回执行结果并将其融入到后续任务中,确保可靠性和高效性。


正因为如此,AI代理栈的结构与传统的LLM栈有着显著差异。下文是Charles Packer对当前AI代理栈的关键组成部分的逐层解析:


1、模型服务(Model Serving)



AI代理的核心是大语言模型(LLM。为了让代理能够使用这些模型,模型需要通过推理引擎提供服务,通常是通过付费API服务运行。主流模型服务选项包括以下4大类:


1)基于封闭API的推理服务


OpenAIAnthropic 是目前封闭式API推理服务的领先提供商,它们提供高性能的专属前沿模型。这些服务通常适合需要高质量输出和强大支持的商业级应用。


2)开放权重模型的API服务


Together.AIFireworksGroq 提供基于开放权重模型(例如Llama 3)的付费API服务。这些平台的优势在于结合了开放模型的灵活性和付费服务的便利性。


3)本地化模型推理服务(Local Model Inference)


对于需要在本地部署模型的用户,以下解决方案最受欢迎:

    • vLLM 是生产级GPU推理的领先工具,广泛应用于企业环境中。

    • SGLang 是一个新兴项目,吸引了类似的开发者群体,其目标是在本地推理服务中占据一席之地。


    4)AI爱好者的选择(AI Enthusiasts)


     在个人电脑上运行模型的用户(如Apple MacBook的M系列芯片)中,以下选项很受欢迎:

      • Ollama 提供了直观的用户界面和高效的推理性能。

      • LM Studio 则是另一个受到欢迎的工具,适合希望快速启动本地模型的用户。


      2、存储(Storage)



      存储是状态化代理(stateful agents)的核心构件之一,支持代理的持续状态管理,如对话历史、记忆以及用于检索增强生成(RAG)的外部数据源。对于代理来说,存储解决方案的选择直接影响其处理复杂任务的能力和效率。主流存储工具包括以下两类:


      1)向量数据库


      向量数据库是代理存储的核心,特别适用于存储和检索大规模嵌入数据。以下是一些常见的选择:

      • Chroma:专为AI应用优化,便于集成。

      • Weaviate:提供丰富的内置特性,如图谱查询和嵌入存储。

      • Pinecone:以高性能向量检索为核心,适合生产环境。

      • Qdrant:开源解决方案,具有强大的定制能力和易用性。

      • Milvus:开源项目,支持分布式存储和高性能检索。

      2) PostgreSQL(传统数据库的新生)


      尽管PostgreSQL是一种传统的关系型数据库,它通过pgvector扩展实现了向量搜索功能,使其在现代AI代理应用中焕发新生:

      • Neon:无服务器(Serverless)的PostgreSQL版本,支持动态扩展。

      • Supabase:集成了嵌入存储和向量搜索,适合快速构建代理应用。

      3、工具库(Tools & Libraries)



      AI代理与传统AI聊天机器人的主要区别之一在于代理可以调用“工具”(或称“函数”)。这种能力使代理能够执行超出文本生成范围的任务,从而显著提升其功能性和适应性。代理工具执行不是由LLM提供商本身完成的 - LLM仅选择要调用的工具以及要提供的参数。支持任意工具或工具中的任意参数的代理服务必须使用沙箱(例如ModalE2B )来确保安全执行。


      • 标准化的JSON Schema

        OpenAI定义了一种JSON模式,成为代理调用工具的通用接口标准。由于这一标准化,工具可以在不同框架中实现互操作性。例如,Letta代理可以调用LangChain、CrewAI或Composio提供的工具。

      • 跨平台工具生态

         这一互操作性推动了通用工具生态的形成,一些常用工具提供了特定功能:

        • Composio:一个通用工具库,管理授权与工具调用,广泛应用于各种场景。

        • Browserbase:专注于网页浏览的工具,用于爬取和解析网页内容。

        • Exa:提供网页搜索功能的专用工具。

        •  

      4、代理框架(Agent Frameworks)



      代理框架是AI代理栈的核心,负责协调LLM调用并管理代理的状态。不同框架在状态管理、上下文窗口的构建、多代理通信、记忆处理,以及对开放模型的支持等方面有各自的设计特点。代理框架包括5大核心功能:


      1)状态管理


      • 状态序列化(Serialization

        大多数框架支持将代理的状态(如对话历史、代理记忆、执行阶段)序列化为文件(JSON、字节流等),以便稍后加载。例如,Letta使用数据库(如消息表、代理状态表、记忆块表)来持久化状态,无需显式序列化。这种方法使得状态查询(如按日期查找过去消息)更加便捷。

      • 可扩展性与灵活性

        •   状态管理的设计直接影响代理系统的扩展能力(例如处理更长的对话历史或更多代理实例)以及状态访问和修改的灵活性。


      2) 上下文窗口的构建


      • 每次调用LLM时,框架会将代理的状态“编译”进上下文窗口,包括指令、消息缓冲区等。

      • 透明性是一个重要考虑因素:框架是否允许开发者清晰了解哪些数据被传入上下文窗口?透明的设计让开发者更容易优化代理的行为和性能。

      3)多代理通信(Cross-Agent Communication)


      不同框架支持多代理协作的方式各有不同:

        • Llama Index:通过消息队列实现代理间通信。

        • CrewAI 和 AutoGen:使用显式的抽象器进行多代理协作。

        • Letta 和 LangGraph:支持代理之间直接调用,既可以集中式(通过监督代理)也可以分布式地进行代理通信。

        此外,大多数框架支持单代理和多代理的灵活转换,使跨代理协作易于实现。


      4) 记忆处理(Memory Management)


      LLM的上下文窗口限制对记忆管理提出了要求,框架通常采用不同的技术应对:

        • 基于RAG的记忆,CrewAI和AutoGen依赖检索增强生成(RAG)技术,通过从外部数据源检索相关信息扩展上下文。

        • 高级记忆技术。一些框架(如phidata和Letta)还采用了更复杂的方法,如MemGPT的自编辑记忆和递归摘要。Letta 内置了一套强大的记忆管理工具,支持文本搜索、记忆存储和编辑上下文窗口等功能。

      5) 对开源模型的支持


      • 挑战:开源模型需要额外的处理,比如在输出格式不符合要求时重新采样,或者通过提示词(prompt engineering)微调输出(如“请输出JSON格式”)。

      • 并非所有框架都支持开放模型,一些框架专注于主流模型提供商的集成。

      5、代理托管与服务(Agent Hosting and Serving)



      目前,大多数代理框架的设计局限于Python脚本或Jupyter Notebook环境,代理在这些环境中运行,但无法超越其所在的开发上下文。然而,随着代理技术的不断发展,代理服务化(Agent-as-a-Service)的未来趋势愈发明确:将代理部署到本地或云端基础设施,通过REST API提供访问服务。


      类似于OpenAI的ChatCompletion API成为LLM服务的行业标准,预计未来会出现一个统一的Agents API标准。


      三、附录




      硅谷科技评论(SVTR),在ChatGPT问世之际,创立于美国硅谷,是一家数据驱动的AI孵化器。依托AI创投库、AI创投社和风险投资,为创始人提供人才、资金和咨询服务,打造全球前沿科技(AI)创新生态系统。目前覆盖全球10W+ AI从业者,包括AI创始人和AI投资人。最近孵化案例包括:AI超级工程师模本科技;AI教育咨询公司高考纸鸢


      联系凯瑞(pkcapital2023),加入我们创业工作室,成为导师、顾问创业合伙人。更多内容,文末阅读原文访问AI创投库(svtr.ai)

      AI周报:


      001002003004005006007008009010
      011012013014015016017018019020
      021022023024025026027028029030
      031032033034035036037038039040
      041042043044045046047048
      049
      050 
      051052 
      053
      054 
      055
      056
      057
      058
      059
      060
      061
      062 
      063 
      064
      065066
      067
      068
      069
      070
      071 
      072073
      074075076077078079


      AI创投



      +



      AI工程师有多强?3天上线全球首个AI数库
      “AI张雪峰”诞生,北大团队用 AI 重塑教育咨询
      1人团队,百万营收的AI套壳
      独立创始人的崛起:如何独自创办公司
      全球七大科技巨头的 4000 亿美元 AI 战略布局
      性格决定创业成败顶尖VC投的AI公司
      如何寻找创业方向中美AI创投异同
      如何聘请CEO
      应该关注哪些AI公司
      如何确定CEO的薪水如何评估AI初创公司
      如何分配股权和头衔海外投资人谈AI新趋势
      如何组建和召开董事会做通才还是专才风投人
      如何写商业计划书红杉资本如何做投资
      初创公司估值如何及早识别独角兽
      如何找到创业合伙人如何避免7大投资陷阱
      AI初创公司商业模式合伙人是怎么炼成的
      选择自己的创业导师 
      Souring的艺术
      创始人如何做电梯演讲

      精品基金VS超级基金

      YC给年轻创始人建议

      初创工作室

      如何成为亿万富翁
      颜值如何影响VC决策
      如何做出困难的决定
      如何快速解读对方性格
      如何在海外启动新产品
      硅谷投资人的武器库
      如何确认真实投资意愿
      VC改变世界
      找这种人实现快速裂变
      AI 创投七大新趋势
      AI原生公司定价策略
      全球AI创投生态
      GTM指南谁是全球创业之都
      如何选择VCCowboy:AI大势所趋
      YC:如何独立思考
      全球AI投资机构Top10
      如何打造AI驱动的公司
      风投界的水晶球
      不要像投资人那样思考Coatue:AI革命
      创始人与市场契合度
      Altimeter:谁是AI C端赢家
      为什么初创公司会失败
      ICONIQ小扎的朋友圈
      初创公司如何聘请CEO
      彼得·泰尔
      什么决定创业成败
      General Catalyst
      AI驱动VCSOSV: 从草根到帝国
      AI创业如何选赛道
      YC
      创始人的年龄有多重要
      丹尼尔·格罗斯
      如何建立社交媒体形象
      微软(M12)
      AI公司要不要融资?
      谷歌战投
      PMF如何决定初创的未来
      山姆·奥特曼
      如何打造AI软件产品?
      Founders Fund


      AI行业



      +



      全球 Gen AI 独角兽大盘点,中国4家大模型上榜
      大模型系列:海外 数学 性价比 编程 医疗 评估 训练成本 | 小模型
      AI 公司创始人 华裔创始人 北美科技人才中心地图职业经历教育背景
      AI 公司地理和行业分布 以色列 德国 旧金山湾区 欧洲
      福布斯AI 50 斯坦福AI指数 企业科技AI 30 高增长AI 50 C端AI 50 | 工具AI 50 | SVTR AI 100 | 自力更生AI 25
      AI+编程 医疗 企服 电商 设计 勘探 教育 写作 客服 法律 视频 3D | 音乐 | 搜索 | 心理精神 | 消费者科技 | 安全 | 生产力工具 | 浏览器 | 游戏 | 会计 | 数据分析 | 销售 | Scribe | 金融投资
      人工智能能做什么?
      LLMOps
      AI是否会被垄断AI未解之谜
      开源AI开发者工具AI域名
      生成式 AI 六大趋势
      巨头的AI战争
      AI Agent自动化具身智能
      AI专利2023年AI总结和展望


      AI公司



      +



      11x.ai:AI虚拟销售员,半年内突破200万美元
      Adobe:从Adobe、Figma、Canva 到 OpenAI
      AlphaSense,金融界的“谷歌”
      Amazon:人工智能战略
      Anduril Industries:AI 重新定义现代战争与和平
      Anthropic:OpenAI"宫斗"背后的公司
      Apple:产品收入变迁 AI 并购之王
      Bardeen:让AI代理更稳更快
      Brightwave,AI驱动的投研助手

      Calendly:日程安排助手,AI效率工具鼻祖

      Canva:从Adobe、Figma、Canva 到 OpenAI

      Carta:想要取代纽交所的股权管理工具
      Cerebras,打造世界最大芯片挑战AI霸主英伟达

      Cohere:为企业提供大模型

      Consensus:用AI解锁学术

      CoreWeave:GPU租赁独角兽,英伟达的好盟友

      Databricks:从数据湖到大模型
      DeepL:从机器翻译到AI写作的语言沟通利器
      Discord:腾讯多次押注,打造属于你自己的线上互动社区
      DoNotPay:世界首款AI机器人律师

      Duolingo:如何改写语言学习

      E2B:为 AI 代理构建自动化云平台
      Figma从Adobe、Figma、Canva 到 OpenAI

      Glean:重塑知识工作的未来

      Google:谷歌人工智能战略
      Grammarly:从论文查重到AI写作的沟通利器
      Helion,AI的终极能源梦想
      Hugging Face:开源AI的未来
      Jenni AI:如何通过AI写作实现年入千万
      Marblism:一句AI提示词自动生成各类软件
      Microsoft:收入拆解M12
      Midjourney:0融资,11人,$1亿收入
      Mistral,欧洲大模型,性价比之王
      MultiOn,用人工智能代理给软件装上大脑
      Neuralink:让失明者重见光明,让瘫患者再次行走,让人类与AI融合永生
      NVIDIA:收入按产品线拆解AI投资策略
      OpenAI:人工智能突破的前沿员工董事会营销GPT Store奥特曼马斯克地产生意微软投资婚礼产品生态Thrive Capital
      Pika:AI视频的未来
      Rad AI:如何用 AI 改变医疗保健?
      Reddit:奥特曼押注基于兴趣社交的美版“贴吧”
      Replicate:1人AI公司背后的幕后英雄
      Replite:教马斯克的儿子如何写代码
      Perplexity:挑战谷歌,站在AI搜索最前沿
      RunwayAI视频的未来
      Scale AI:如何成为数字世界的“水源”
      Shein:打造下一个“中国首富”

      SpaceX:梦想照进现实,人类星际生命的曙光

      Stability AI:SD 背后的公司和创始人
      Stripe:马斯克和奥特曼押注的支付王者
      Substack:美版公众号,为价值付费

      Superhuman:邮件超人,拥抱 AI

      Telegram,俄罗斯兄弟的密聊纸飞机
      Vannevar Labs:AI+国防,军事人工智能掘金者
      Vercel,如何用AI引领技术开发?
      Zapier:ChatGPT最受欢迎插件的过去和未来

      硅谷科技评论
      全球前沿科技,创业投资孵化
       最新文章