API难以解决AI智能体执行能力问题，AI Agent深度落地锁定RPA

科技科技 2024-01-13 13:34 山东

论文、项目、产品不断涌现，AI Agent工具使用瞄准RPA
越来越多的AI Agent项目正在融合RPA，背后的逻辑是什么？
被遗忘在角落的RPA，成了提升AI Agent执行能力的天选神器
由RPA厂商推出的RPA Agent，与市面上的Agent有什么不同？
源自API的实验性AI智能体越来越多，基于RPA的实用性AI Agent稳扎稳打
API难以解决AI智能体执行能力问题，AI Agent深度落地锁定RPA

全文约5800字，阅读时间10分钟
文/王吉伟

LLM（Large Language Models）刚爆发之时，很多人认为RPA要完了，自然语言交互+API操作足以干掉任何UI自动化工具。

然而，大语言模型应用发展到AI Agent这一步，大家才发现API并不是万能的。Agent平台雨后春笋一般出现，但所构建的大多Agent只能在问答与订餐、买机票之间徘徊。

不能参与复杂业务流程的Agent，也就无法帮助企业更好地增效降本。

为了让Agent深度参与到ERP、CRM等企业管理软件的自动化操作中，除了构建与生成更多的API及相关函数，UI自动化也再度成为解决问题的关键，成为Agent架构工具使用模块的首选。

面向庞大而复杂的企业管理系统，企业级Agent的工具模块解决方案就变成API与UI兼顾，API用以直接调用插件与工具，UI用于解决非接口软件的连接。

由此，探索Agent与RPA的厂商越来越多。

OpenAI投资了一家主打“RPA 3.0”的初创企业Induced AI，面壁智能联合清华等机构发布了“APA”推出了ProAgent，清华&智谱AI团队发布了专注于GUI图形交互界面的理解和导航的CogAgent，腾讯推出了用于移动端的AppAgent。

这些相关项目，本质上都是Agent与RPA的结合。

其实先一步对“API+UI”类型Agent解决方案进行探索的，是RPA\超自动化厂商。从最开始接入LLM到现在推出Agent产品与解决方案，厂商们一直都在积极探索与跟进LLM的应用。

并且早在大语言模型之前，RPA\超自动化厂商就已经实现了兼容API与UI。

Gartner曾在2022年RPA魔力象限报告中预测，到2024年，95%的RPA供应商将通过API与UI集成提供自动化。当前融合RPA的超自动化厂商，基本实现了兼顾API与UI。

说到这里，有人可能会问，如果把功能强大的企业级RPA平台作为工具融入Agent架构，这样的Agent产品是不是就能深度参与到企业运营的复杂业务流程？由RPA厂商打造的Agent产品又与其他厂商的产品有什么不同？

本文，王吉伟频道就跟大家聊聊这些。

AI Agent瞄准RPA

今年10月份，OpenAI投资了的一家RPA初创公司Induced AI。在Induced AI，用户只需用简单的英语输入工作流程和录屏视频，Induced AI就能将其实时转换为伪代码，并调取多种相关工具，来执行大量重复性任务。

从产品描述中可以看到，Induced AI的“RPA 3.0”形态产品是一款基于大语言模型的智能体。

开始很多人并不知道OpenAI为何要投资一个RPA公司，但随着AI Agent越来越热，在大家意识到其落地方面存在执行能力不足的问题后，瞬间就想明白了OpenAI的“用意”。

把RPA当作工具去操作API无法触达的企业管理软件，自然就能大幅提升Agent的能力，且只有这样的才有可能打造出企业级Agent。

自此开始，关于Agent与RPA的研究越来越多。

11月份，面壁智能联合清华自然语言处理实验等机构共同发布了新一代流程自动化范式 Agentic Process Automation（APA，相关项目为ProAgent），该范式实现了工作流构建的自动化，以及工作流执行时动态决策的自动化，并通过实验揭示了大模型智能体在自动化中的可行性与潜力。

项目地址：https://github.com/THUDM/CogVLM

而该项研究的主要目的，就是将Agent技术的灵活性引入RPA（或者说将RPA作为工具引入Agent架构，也是成立的）。

而在此之前，为了解决LLM面对用户指令使用外部工具（API）处理高级任务时的不足问题，面壁智能联合来自TsinghuaNLP、耶鲁、人大、腾讯、知乎的研究人员推出 ToolLLM 工具学习框架中的ToolBench数据集，已经囊括16464个真实世界API。

由此，UI自动化对于Agent在真实世界应用重要性不言而喻。

12月15日，清华&智谱AI团队发布了最新研究成果CogAgent-Chat。CogAgent是一个基于180亿参数规模的视觉语言模型（VLM）的图形用户界面（GUI）智能体，专注于GUI图形交互界面的理解和导航。

项目地址：https://github.com/THUDM/CogVLM

CogAgent使用屏幕截图作为输入，在PC和Android GUI导航任务上超越了基于语言模型的方法，如Mind2Web和AITW，引领了GUI理解领域的最新技术发展。

这个技术理念，与实在智能推出的RPA Agent使用屏幕语义理解技术通过识别屏幕构建UI自动化非常相似，同样属于Agent与RPA技术的结合。

除了创业公司，科技大厂也在关注这个领域。最近腾讯和德州大学达拉斯分校的研究团队合作开发了一个名为AppAgent的项目，该项目可以通过自主学习和模仿人类的点击和滑动手势，在手机上执行各种任务。

项目地址：https://github.com/mnotgod96/AppAgent

这包括在社交媒体上发帖、帮助用户撰写和发送邮件、使用地图、在线购物，甚至进行复杂的图像编辑。AppAgent已在50个任务上进行了广泛测试，涵盖了10种不同的应用程序。

这个项目，可以看作Agent与RPA结合在手机端的应用。

（注：回复 APA，获取项目相关论文。）

除了上述项目，王吉伟频道也接触过几个智能体创业项目，都采用了Agent+RPA这个模式。

LLM厂商、科研机构以及科技大厂对于Agent和RPA的探索与研究，进一步验证了当前阶段RPA对于AI Agent在各领域落地应用的重要性。

背后的逻辑

相较于直接使用LLM，目前的AI Agent产品在体验上的优势尽显：

首先，智能程度和普适性高，能较好的理解和推理复杂的任务并且做出规划；

其次，能高效判断并使用外部工具，整个过程的衔接非常流畅。

但随着更多的使用，大家发现当前Agent的实验性强于实用性，存在两个影响应用的重要问题：

一是效果不稳定，多步推理能力不够。大部分产品demo看上去效果惊艳，但对于抽象复杂的问题，能有效解决的比例不到 10%，只适合解决一些中等难度的问题。

二是外部生态融合度不高。第三方API支持的数量和生态不多（基本以搜索和文件读取功能为主），API覆盖范围不够广，很难做到比较完整的跨应用生态。

大家知道，目前最流行的也是最理想的AI Agent框架是由OpenAI提出的“LLM+记忆+规划+工具使用”四件套。

对于一款AI Agent来说，LLM、记忆和规划担当了任务的分析、拆解与规划，工具使用则关系着执行任务的能力。任务规划得再好，没有执行能力也无法完成任务。

上面第一个问题关联的是用户体验与实际效果，当然还要看Agent面向什么应用场景。

如果是2C场景比如购物分析等效果不稳定或者等待太长时间，大概率会让很多用户放弃使用。

但若是2B场景比如用于程序构建，其自动化生成应用及业务流程的能力，远比之前手动输入代码或者拖拽式的无代码操作的效率要高得多。

而第二个问题则是企业应用Agent的关键，Agent主要通过API来调用各种插件工具去执行各种任务，工具越强大执行能力也越强。

相关研究数据统计，目前公共和私人API的应用数量已接近2亿。在国内，仅2022年就有6700多万个API被创建。

但对于大型企业异构且复杂的信息化环境来说，这些API仍然无法满足其个性化、安全性等方面的需求。

加上很多企业软件系统缺少API以及开发成本过高等因素，使得Agent无法操作更多的企业管理软件，阻碍了AI Agent的跨部门、跨领域应用，执行能力大打折扣。

这种情况下，在工具调用上，如果想打造一款能够参与复杂业务流程的企业级Agent，不只需要通过API调用工具，更需要通过UI自动化实现各种软件连接。

RPA和AI Agent有着很强的关系。接口的设计原则是“高内聚、低耦合”，实际上很多软件很难有接口，这时候RPA的作用就尤为重要。把API和RPA封装起来作为“手和脚”，结合大语言模型“大脑”，Agent才能真正实现无所不能的智能自动化。

由此，一些组织重新把目光重新聚焦到RPA身上。

使用RPA通过基于LLM的AI Agent自动执行业务流程任务企业级应用，并构建自动化流程的长期维护机制，也成为更多组织在智能自动化方面新的研究课题。

同时，Agent的执行能力落点到RPA，也使得已经积累大量数据、经验、技术以及生态能力的RPA厂商所推出的Agent产品，受到更多关注。

尤其是发布相关领域模型的厂商，更是广大企业与投资机构关注的重点。

RPA Agent的优势

由RPA\超自动化厂商推出的基于RPA构建的AI Agent，或者将RPA作为工具的Agent，这里将其称之为RPA Agent。

目前已经出现很多Agent构建平台，也出现了大量Agent产品。但如果仔细观察这些产品，会发现大多数产品还只是知识问答类的对话机器人，少部分可以通过API操作部分工具或者适用于Agent平台的内部生态，与OpenAI推出的“准Agent”产品GPTs相似。

这些封装了大语言模型产品能力的类智能体产品，或者说是智能体的早期产品，跟欧美技术圈所定义的智能体还有一些差距，在能力上缺少了调用API的灵活性，也缺少了用RPA去连接更多管理软件的通用性。

类似的智能体能够胜任内容生成、推理分析及反馈等，对于一些不需要太多企业管理系统的中小微企业大部分业务运营都能胜任。

但在执行层面就要差很多，不能在生成内容后执行其他业务流程的任务自动化，缺少了对长流程的支持，无法调用工具去完成复杂业务流程的自动化执行。

与这类Agent相比，RPA Agent恰好可以解决上述Agent难以解决的问题。

RPA本身就是为解决UI自动化而生，用于弥补API自动化覆盖范围小、开发难度大等的不足。

为了保证RPA运行的稳定性，厂商们在技术及产品上面下了很大的功夫，比如屏幕语义识别、IPA模式等，这样的产品作为Agent的调用工具，具备操作大型企业复杂业务流程的天然属性。

在上一轮业务数字化改造中，大量企业在业务流程自动化上都引入了性价比很高的RPA\超自动化解决方案。LLM爆发后，超自动化厂商都在积极融合LLM，并且现在开始陆续推出Agent解决方案。

其实对于已经引入RPA\超自动化解决方案的企业来说，想要享受Agent红利很简单。如果RPA服务商已经推出Agent解决方案，只需要将原有解决方案中使用的产品或者技术升级成为Agent解决方案即可，一般而言厂商可以提供技术平移及迭代的服务。

这样企业就不用再去了解和引入新的Agent解决方案，避免更多的投资与开销，这在当前经济下行的形势下是蛮重要的。

Agent厂商在为广大企业提供个性化服务及部署时，也会基于原有企业的RPA系统去做相应的解决方案，这使得大量企业的Agent解决方案实则都是在工具应用上调用RPA去执行各种企业管理软件的操作。

显然在这个部署的过程中，先一步推出基于RPA的Agent解决方案的厂商将会更具优势，因为他们对RPA以及超自动化有着更深的理解，也能让其Agent解决方案能够触达企业运营的更深层。

从目前市面上大多AI Agent以及用户反馈来看，AI智能体想要真正在B端实现量级业务场景的落地及更好地商用，需要综合考量其本身的安全性、技术发展周期是否成熟以及To B端的场景是否密切贴合，更需要考虑接口成本、隐私、管理、授权等诸多因素。

从具体需求来看，比如金融领域大B客户对于查询和拆解指标、项目数据查看分析、推送报表/报告等需求，看起来简单却不是简单的GPTs或者知识内容类Agent能够实现的。

其中的业务流程涉及到了深入企业管理系统的复杂流程自动化构建，更涉及到了数据库读取、API管理及UI自动化连接等。

目前仅是基于API接口读取数据及调用工具插件的Agent，难以实现这样的流程应用，而基于LLM并同时兼顾API与UI自动化的RPA Agent是不错的解决方案。

在广大企业关注的数据安全方面，相较于API模式，RPA模式的优势在于对系统的无侵入。通过结合ISSUT（智能屏幕语义理解）等技术，RPA能够对人类操作系统的行为进行模仿，并通过识别屏幕上的软件进行操作，全流程不会对系统和数据造成任何损害。

此外对于系统设计而言，对外暴露的API越多，安全风险越高。在实在智能CEO孙林君看来，系统的设计原则是“高内聚，低耦合”，即用大模型去构建Agent时，软件暴露的API越少越好。

所以，RPA Agent不只是一种行之有效的Agent解决方案，更是当下LLM时代企业应用Agent的新范式。

RPA Agent实例解读

下面，我们来看两个已经发布的RPA Agent产品案例。

案例1：实在智能TARS-RPA-Agent

上个月完成近2亿元C轮融资的实在智能在8月份所推出的实在Agent智能体，是一个典型的企业级Agent智能体产品。

  实在Agent智能体，既可以支持私有化部署，又支持无需部署就可以方便用户使用的大语言模型的超自动化智能体，它基于“自研垂直大语言模型TARS和ISSUT（智能屏幕语义理解）双模引擎打造。

该产品实现了全行业首个“你说PC做，所说即所得”，能够自主拆解任务、感知当前环境、执行并且反馈、记忆历史经验。  

 实在智能自研的基座大语言模型TARS，最大特点是被投喂了大量的行业知识，KNOW-HOW和自动化流程数据，有利于TARS对客户业务流程的理解和拆解，使得实在Agent智能体能够更好的规划与执行复杂的业务流程。

  实在Agent智能体能够听懂业务用户的所有指令，更能准确把指令任务自主拆解成方便后续自动化流程去执行的“生成式，懂业务的智能数字员工”。

只需简单说一句话，实在Agent智能体就能帮用户操作电脑软件完成各种工作和任务，每个流程中的步骤百分百可视，用户可以边查看执行的每一个步骤，边判断整个自动化流程是否准确，并可以随时进行调整。

  使用智能体可以替代手工作业，实现至少300%效率提升，保证数据处理准确无误，防止人为因素风险，将个人智慧转化为企业组织智慧，沉淀人机协同经验。  

作为一款企业级AI Agent平台，实在Agent智能体具备识别与理解、系统方案、深入匹配、专有部署、更加可信、自主可控、持续迭代等多种特性，可以为企业打造无需额外配置、开箱即用且效果立竿见影的智能体助理，帮助员工提升工作效率和创造力，赋能企业增效降本。

案例2：壹沓科技CubeAgent

CubeAgent是壹沓科技推出的基于大模型的数字员工平台，为企业提供基于大模型技术驱动的数字员工聚合及训练平台，帮助企业轻松构建专有的“数字员工团队”，为白领员工配备具备多种能力的“办公小助手”，一站式帮助企业员工完成所有的日常工作。

在供应链领域，运小沓数字员工平台是全球首款供应链大模型产品，能够为供应链企业量身打造虚拟数字员工专家团队，资深供应链运价经理、物流可视追踪经理、供应链新人成长师、行业案例专家行业翻译大师、行政问答助理等，提供高效所答即所问的供应链领域准确知识。实现这一切，只需像跟同事聊天一样。

作为供应链企业更加智能的业务自动化解决方案，运小沓数字员工平台可以助力企业实现产品智能调用和办公系统智连：一句话查运价、发舱单、物流追踪，智能运行FMS、OA、CRM，提升组织敏捷性，开启全新智能办公时代。

借助一系列虚拟办公助手，运小沓数字员工平台也将为供应链企业提供更加智能的业务自动化解决方案、「白领员工+CubeAgent数字员工」的人机协作智能办公新模式，提升组织人才密度、敏捷性，帮助供应链企业重构生产关系，推动企业生产力跃迁。

据悉在商业拓展方面，运小沓数字员工平台已经跟供应链Top企业在大模型方面达成战略合作，并宣布成立了Next Club。

Induced AI已经在前面介绍过，这里不再作为案例赘述。

后记：RPA Agent的“iPhone时刻”

把时间轴放大去看，在API一统数字化江湖之前，RPA会一直拥有存在的价值。只要仍旧存在UI操作的业务流程，只要API无法解决所有软件的联通问题，RPA或者类RPA工具就会一直充当UI自动化的连接器。

欧美日韩等地域的RPA\超自动化应用普及率已经很高，意味着API+UI的Agent解决方案更容易得到推广。

而国内市场尤其是制造业等信息化相对滞后的领域，目前刚进入RPA2.0\3.0的时代。对于引入AI+RPA解决方案的企业，传统AI技术早晚会变成LLM技术，而Agent解决方案也将是最佳的LLM应用方案。届时，大部分厂商都将是RPA Agent解决方案。

由此来看，至少未来5-10年，RPA Agent或者以类RPA产品为工具的AI Agent会成为企业数字化运营的主流模式。

所以，“RPA Agent”这个词组，除了表达它是一种“以RPA为工具的Agent”之外，更意味着Agent+RPA管理企业数字化运营的模式即将流行起来。

表面上看，RPA成了AI Agent执行层面的超级工具。反过来看，AI Agent也在借助RPA落地。

在最新的埃森哲最新发布的《2024年技术展望》趋势报告中，将“智能体-AI互联网的生态系统“列入第二趋势，再次证明AI Agent将在组织运营中扮演的重要角色。

同时该报告调查数据显示，96%的高管认为，在未来3年内充分利用AI Agent生态系统将成为其组织的重要机遇。AI Agent生态系统的崛起正在改变企业智能和自动化战略的思考方式，将带来巨大的机遇和挑战。

这意味着，AI Agent会带来组织的深度变革与企业数字化运营范式的转变，也将带来广阔的市场空间。

▲ 图源：埃森哲中国官微

对于智能体早期企业可以做什么，埃森哲也提到越早为智能体准备好相关的基础设施和信息，智能体就能越早发挥潜力。并建议重新考虑某些数据管理实践，比如数据库的向量化处理、提供用于访问数据的新API以及扩展与公司系统进行接口交互的工具等。

而当前与系统进行接口交互的主流自动化工具，正是能够通过UI连接不同系统以补充API生态不足的RPA。

由此，作为能够深扎复杂业务流程且执行能力更强的AI智能体，RPA Agent的“iPhone时刻”已然到来。

全文完

【文末福利】：后台发消息格局，获取本文提及的所有大图和两篇相关论文。

RECOMMEND