本文是我们在RLChina2024现场报告《AI Agent业界进展和发展趋势》的文字整理版。
本文是我们对于对AI Agent的业界进展和发趋势的洞察,这份报告分为五个主要部分:
第一部分是AI Agent技术发展的简史,包括它的概念定义、发展历史,以及落地时技术栈的构成。
第二部分是我们对AI Agent业界进展的洞察,涵盖了主要Agent厂商如OpenAI、谷歌等的重要技术发布、关键时间和发展趋势的洞察
第三部分是我们对一些重要或是有趣的AI Agent的解读。
第四部分聚焦于AI Agent落地时遇到的难题,我们对此进行了总结和思考。
第五部分是我们对AI Agent发展趋势的预测,包括Agent能力的分级和未来发展趋势的预估。
一、AI Agent 技术简史
首先,让我们从AI Agent技术发展的简史开始。
1、Agent概念定义
从2003年出版的经典人工智能书籍《Artificial Intelligence: A Modern Approach》中,我们可以看到AI被定义为研究从环境中接收感知并执行行动的智能体。智能体并不是一个全新的概念,而是自AI诞生以来就存在的理念。智能体的发展贯穿了AI的始终,并非突然冒出的能力。
2、Agent发展阶段
我们可以将智能体的发展分为几个阶段。
第一个阶段是规则Agent,基于特定条件触发动作的系统,如看到美女推荐口红,这类系统也被称为专家系统。尽管听起来简单,但专家系统在AI发展的关键阶段发挥了重要作用。然而,这类Agent严重依赖人工,智能主要来源于人输入的信息,扩展性差,通用性也较差。
第二个阶段是强化学习Agent,它们通过不断的自我实验和环境反馈来调整和优化智能体的能力。DeepMind 发布的能打游戏的智能体在 Atari 游戏中水平超过人类,惊艳了业界。但这种智能体难以训练,因为强化学习本身难以收敛,通用性也较差,比如打游戏的智能体难以给人做学习辅导。
第三个阶段是基于大语言模型的智能体,它们基于知识基础能力,让我们看到了具有通用能力的智能体的曙光。但这些智能体并非万能,它们在推理规划能力上较弱,可靠性差,且难以服务专业领域的任务。OpenAI 的 CEO 奥特曼和盖茨访谈时提到 GPT4 的推理能力非常有限。
3、Agent技术栈
在落地技术栈方面,智能体主要由四个层次构成:硬件层、模型层、系统层和应用层。硬件层包括GPU、TPU、NPU等运行智能体所需的硬件。模型层涵盖了语言模型、多模态模型、信息检索模型等。系统层包括开发框架,如LangChain和Dify,它们支撑着智能体的开发。最上层是AI Agent应用,呈现出多样化的发展趋势。
二、AI Agent 大厂进展
接下来,我们将探讨AI Agent业界的主要进展。我们会简要回顾主要Agent厂商,如OpenAI、谷歌、微软、苹果等,他们的重要技术发布时间节点和技术发展的脉络,从而总结出趋势,并对我们认为有趣的Agent进行解读。
1、热门AI产品
我们首先看一下AI产品的榜单,这里有两个榜单:AI应用排行榜和AI网站排行榜。主要火热的AI产品可以分为三种:对话助手类应用、AI搜索类应用和AI图像处理生成类应用。这些主要是面向消费者的应用,而面向企业的应用程序可能没有被覆盖在这些榜单中。
2、OpenAI Agent进展
接下来,我们简要回顾大语言模型发展的一个非常重要的厂商——OpenAI的智能技术进展。从2022年年底发布的ChatGPT开始,它惊艳了世界,能够与人进行流畅的对话。ChatGPT的发布是许多关注的起点,它的表现非常出色。从ChatGPT发布后,OpenAI的演进有几个路线。首先是基础模型的演进,如GPT-4的发布,它提升了基础语言模型的能力。此外,语言模型的发展趋势还包括图像处理能力和实时处理声音、图像、文字的能力。
OpenAI不断丰富其生态,建立了插件系统,用户可以自定义智能体的商店,并开发了检索增强生成引擎。最近,OpenAI发布了O1技术,它能够在运行时增强模型和智能体的推理能力。
OpenAI AI Agent进展总结为:实时多模态、工具生态、运行时推理优化。。
3、Google Agent进展
谷歌的Agent技术进展也值得关注。从23年初发布的Bard对话助手,到PaLM2语言模型,谷歌在多语言能力上进行了增强。真正的突破是谷歌发布的Gemini模型及其Agent系统,这是第一次实现原生多模态的大模型。原生多模态大模型的优势在于,它将各种模态的信息平等地输入到基底模型中,提供了更大的优化空间。此外,谷歌还发布了CircleToSearch、搜索Overview和视频搜索能力,以及24年5月份发布的Project Astra人工智能助手。
Google AI Agent进展总结为:实时多模态、长上下文、AI搜索。
4、微软Agent进展
微软的Agent技术发展脉络也颇具看点。微软的Agent技术发展比ChatGPT还要早,主要体现在2022年年终发布的Github Copilot产品上,这是一个编程开发的助手,显著提升了程序员的编程效率。微软还发布了NewBing搜索,它是一个检索增强生成的搜索能力,能够直接给出答案而非提供大量相关信息。微软还发布了多个编程开发大模型智能体开发的框架,如SemeticKernel和AutoGen,以及Copilot,这是一个类似于ChatGPT的大模型对话平台。微软也在构建自己的生态,发布了Copilot agents,增强了办公效率,并推出了Microsoft 365 Copilot办公助手智能体。
Microsoft AI Agent进展总结为:生产力助手,开发框架,AIPC。
5、苹果Agent进展
苹果的Agent技术进展同样不容忽视。苹果早在2010年就发布了智能语音助手Siri,虽然在很长一段时间内没有特别惊艳的进展,但苹果最近发布了Apple Intelligence,这是一个端云协同的助手系统。苹果还发布了自己的语言模型,包括小的语言模型和隐私计算量大的语言模型。苹果的进展可以总结为端云协同、大小模型以及端侧模型构建的发力。
Apple AI Agent进展总结为:端云协同,大小模型,端侧模型。
三、AI Agent 案例解读
最后,我们想介绍一些我们认为有趣或代表性的Agent,以及我们从中得到的启发。
1、微软NewBing(检索增强生成搜索)
首先是微软发布的NewBing,这是一个检索增强生成的搜索引擎。它的背景是大语言模型的出现可能颠覆搜索产品形态,因为传统的搜索产品需要用户浏览大量内容来找到所需信息,而大语言模型可能直接给出答案。NewBing的出现正是为了尝试这一思路,它试图通过检索生成的搜索引擎直接给出用户答案,而非一堆候选,从而颠覆搜索形态,提升产品力,并潜在地抢占谷歌的业务份额。
这里给我们的启发是:大语言模型仍需检索能力增强对实时信息和事件真实性及外部知识的控制能力。
2、MetaGPT(SOP增强智能体)
另一个我们想谈的智能体是MetaGPT,它的背景是我们在应用大模型进行智能体开发时发现,对于多步骤任务,成功率较低。MetaGPT提出了使用标准工作流(SOP)来增强大模型智能体的能力。具体来说,它通过定义软件开发的SOP流程,让大模型只负责每个步骤的具体工作,如代码生成或生成系统设计文档,而系统的框架则负责提供每个步骤所需的必要信息,减少干扰,提升成功率。此外,还有验证能力,能够实际运行和验证大模型生成的程序,如有错误则提供反馈以进行迭代和修改。这种方法在软件开发任务上的通过率相对于GPT-4本身提升了10%以上。
这里给我们的启发是:对于复杂的专业性任务,大语言模型需要借助领域的流程、消息分发机制以及验证反馈来保证和提升成功率。
3、苹果Apple Intelligence(端云智能系统)
苹果最近推出的Apple Intelligence也是一个有趣的智能体系统,它是一个智能端云系统。这个系统的背景是,用户在手机上有很多智能应用需求,但手机上的信息往往涉及隐私,不适合全部透露给外部服务商或云侧处理。因此,端侧处理用户隐私信息的能力变得重要。苹果作为领先的手机制造商,推出了Apple Intelligence这套端云系统。该系统在端侧具有模型推理能力,并能与云侧协同。端侧不仅有基础的大模型,还有通过动态卸载更换不同模块的附加模型,以充分利用端侧有限的内存并提升任务的精度和准确率。
这里给我们的启发是:端侧的大语言模型、多模态模型以及端云协同系统,包括检索能力,是端侧AI智能体非常核心的关键技术。
4、谷歌FunSearch(学习增强智能体)
谷歌最新推出的FunSearch也是一个有趣的智能体应用,这是谷歌发表在Nature上的一篇文章,属于AI for Science的应用之一。它面临的问题是解决数学上限集发现的问题,即产生一个程序去发现更多的解。这个系统利用大模型通过温度设置产生不同答案的能力,对候选解题程序进行变异,然后通过评估筛选出好的变种,再通过聚类和进一步的变异、评估优化,实际上采用了遗传算法。这个系统确实在数极值组合的上限集问题上发现了一些人类未曾发现的结果,超过了人类最好的结果。
这里给我们的启发是:学习增强的能力虽然现在大多数智能体不具备,但未来很可能成为智能体系非常核心且重要的能力。
5、Tavus(数字孪生视频交互智能体)
另一个有趣的智能体是Tavus,它是一个实时数字孪生视频交互智能体。这个智能体的背景是我们一直希望智能体有自己的形象,并能自然地进行视频交流。Tavus通过构建专有的Phoenix 2模型,使用音频和文本驱动3D模型和2D GANs的组合进行整体生成。它包含四个关键组件:文本到声音的生成、头部和肩部3D重建、面部动画生成和高保真渲染。Tavus实现了小于一秒的实时视频反馈,能够理解对话人背景视频里的内容。
这里给我们的启发是:实时数字孪生视频交互智能体可能是未来对话类智能体的技术和体验的终极形态,因为很多任务可以附加到这个智能体上。
四、AI Agent 落地难题
1、Agent落地难题
在讨论了这些有趣的Agent之后,我们来探讨一下Agent落地时遇到的一些难题和问题,以及我们的一些思考。Agent落地难题可以总结为四个主要问题:复杂任务成功率低、应用阶段能力难以互通、模型的实时反馈性差、以及大模型智能体的部署成本高且商业化能力弱。
以银行类智能体为例,我们发现对接真实银行接口时,输入非常复杂,有多达十八九个输入,每个输入的名称也不易理解,且有很多默认值。更难的是,银行流程可能需要十来步才能完成,每一步可能又有多个分支。每一步的函数参数可能来源于其他步骤的输出,这些都不是常识,而是人工设定的流程间参数转接形式。这就意味着,很多复杂场景的需求超出了大模型规划和参数填充的能力,大模型只能退化为插件优选器,连基本的参数抽取能力都不再可用,我们不得不进行大量的上层系统建设来弥补大模型的不足。
第二个问题是应用阶段能力难以互通。我们想象中的Agent能够调动所有应用资源,但实际上,由于生态配合问题,这种设想很难落地。国内的许多应用认为自己是平台,而非服务或组件提供方,因此不愿意提供细腻度的服务能力。这导致我们想象中的Agent很难实现,我们可能只能通过模拟手机操作等技术手段来实现,但这使得落地和大范围可用的时间更加久远。
第三个问题是模型的实时反馈性差。大多数智能体应用都专注于用户对话场景,因为用户能容忍较长的响应时间。但在其他场景,如信息流推荐文章,用户无法忍受超过几百毫秒的延迟。因此,大模型智能体难以满足高实时、高反馈场景的要求。
第四个问题是大模型智能体的部署成本高,商业化能力弱。以谷歌搜索引擎为例,大模型处理搜索Query的成本远高于原来的信息检索系统,可能高出一个数量级。此外,大模型还影响了商业化能力,因为如果只给用户一个结果,广告投放的机会就会减少,广告相关性的要求也会提高。
综上所述,Agent落地面临的难题包括成功率低、难互通、成本高和实时性差。
2、好的Agent系统设计
让我们来探讨一下,经过一些智能体(Agent)的实现之后,我个人的感受是,除了生态互通的难题之外,有一个潜在的方法可以缓解其他三个难题。这个方法就是在设计智能体系统时,最好能实现规则知识和大模型自适应的协同工作。它不应该是非黑即白的,比如一个纯规则知识的系统,就是一个专家系统,这是我们之前提到的智能体发展的第一代。或者是一个完全依赖大模型智能体自主规划的全自动化系统,没有规则知识的参与。这两种极端可能都有局限性。
我们认为,如果能够实现从专家系统到大模型智能体之间的平滑过渡,这种系统设计是比较好的。如果我们的大模型能力很强,能够规划很多事情,参数填充和流程协调能力也很好,那么大模型在这个系统中的作用就越大。如果大模型能力较弱,那么我们可能需要让规则知识发挥更大的作用。如果能够适当做到这一点,我们就能很好地补充当前大模型能力的范畴以及未来规则知识能力的范畴,并且实践系统能够具有稳定性和确定性的上线能力。
当然,我们所说的系统是自适应的,这意味着规则和知识能够填补大模型的不足。但在很多系统设计中,规则知识和大模型的协同是固定的,比如这一步是规则的,下一步是大模型的,这样的设计是静态的。随着大模型能力的提升,系统不能自适应地提升整个系统的灵活性和智能度。因此,系统应该是可以自适应的,能够识别大模型能力的边界,并随着边界的扩展而不断拓展,而不是将大模型的能力限制在一个很小的范围内。
我们认为,设计智能体系统时,最好能够实现规则知识与大模型自适应的协同,而不是非黑即白的极端。如果大模型能力很强,我们可以让它承担更多责任;如果能力较弱,规则知识可以起更大的作用。这样的系统设计能够兼顾落地和大模型的迭代演进。
五、AI Agent 发展趋势
接下来,我们讨论一下智能体发展的趋势。
1、Agent能力分级
首先,类似于自动驾驶的等级划分,我们对智能体能力进行定义和分级,我们这里定义AI Agent能力从L0到L5的分级。
L0级是没有人工智能,只能感知,没有人工智能的基础技术。
L1级是规则符号智能,L0基础上增加行动能力,基础技术是规则符号AI和信息检索技术。
L2级是推理决策智能,L1基础上增加推理决策能力,基础技术是模仿学习或强化学习加上信息检索技术。
L3级是记忆反思智能,L2基础上增加记忆反思能力,基础技术包括大语言模型或大多模态模型加上信息检索技术。
L4级是自主学习智能,L3基础上增加自主学习能力并能将知识泛化,基础技术包括大语言模型或大多模态模型加上信息检索技术。
L5级是个性群体智能,L4基础上增加情感性格,并能实现多智能体协作的社群性行为,基础技术包括大语言模型或大多模态模型加上信息检索技术。
按照这个定义,我们可以看到,现有大多数智能体目前还停留在L3级,未来还有很大的发展空间。
2、Agent发展趋势
最后,我对未来智能体的发展趋势做一个个人预测。有很多趋势已经被以前的专家提到过,比如多模态能力的发展,从单模态文本向多模态大模型的转变。从单模态文本向多模态大模型发展,形态从外挂式多模态模型向原生多模态模型演变,各模态平等化为一样的token输入基底模型。
以前我们有一段时间专注于Prompt Engineering,但现在我们发现,单纯的模板设计可能不够,还需要辅助流程,比如SOP或领域流程。未来,大模型智能体的发展可能从单纯的提示工程转变为提示工程加上流程工程的优化方向。
另一个趋势是系统优化。以前的Agent系统中,各个组件如大模型、检索的Embedding模型、排序模型等都是独立优化的,但现在有工作在探索如何进行系统整体优化。例如,TextGrad框架就是尝试将整体优化问题转化为文本,通过大模型生成的文字梯度进行优化。
还有一个趋势是端云多智能体的协同,以及中小模型的发展。以前大家认为大模型非常重要,但现在发现大模型并不能解决所有问题,中小模型可以帮助解决大模型不能解决的问题。这很有意思,为什么大模型需要中小模型来解决问题,而不是自己解决。这有很多维度可以探讨,比如小模型的运行效率高,大模型相对较低。对于简单的问题,使用小模型可以节省大量计算资源并加速响应。
最后,学习增强的能力也是一个趋势。通过学习增强,智能体甚至能发现一些人类都不能发现的知识,这是未来智能体需要发展的核心技术。虽然这一代智能体还基本上不存在这个能力,但它是未来智能体发展的一个重要方向。