AI Agent：从学术概念到增长驱动工具

科技 2024-11-14 09:53 北京

作者｜PRO
邮箱｜pro@pingwest.com

在硅星人首届AI创造者大会（ACC 2024）上，五位AI Agent领域的先行者展开了一场关于技术落地与商业化的深度对话。来也科技联合创始人胡一川、实在智能创始人&CEO孙林君、汇智智能创始人&CEO孙志明、澜码科技创始人&CEO周健，以及主持人、AI创业者李博杰共同探讨了一个核心问题：AI Agent如何从学术概念真正转变为驱动企业增长的工具？从Agent的本质定义，到大模型带来的新机遇，再到To B与To C的商业化路径，五位嘉宾用一个个鲜活的案例，为我们揭示了AI Agent的发展现状与未来可能。(文章约15000字，阅读时长约30分钟）

目录：

AI Agent 到底是什么？

大模型能力对AI Agent 的助力

针对金融、HR等垂直领域的Agent应用

AI Agent， To B还是ToC

Agent应用是否能形成微信式网络效应

以下为对话实录：

李博杰：大家下午好。我是今天的主持人李博杰，曾是华为天才少年，现在是一名AI创业者。

周健：我是周健，澜码科技创始人。我们公司专注于AI Agent平台的开发。

孙志明：我是孙志明，来自江苏汇智智能，我们致力于打造Agent创业平台。

孙林君：我是实在智能的孙林君，我们创业已有几年时间，一直在流程智能体领域探索。

胡一川：我是来也科技的联合创始人和CTO胡一川，我们的理念是"AI Agent for everyone"。

AI Agent 到底是什么？

李博杰：AI Agent是什么？有人觉得是有趣的，有人说是有用的，各位老师有什么看法？

周健：这个概念本身已经很久了。有一本教科书讲过AI Agent，之前更多的是讨论它如何下围棋或打游戏。本质上，AI能够感知环境、改变环境并做出决策。现在，我认为ChatGPT给大家带来了许多新的东西，但现状与理想之间仍存在较大差距。最近，Gartner发布了新的趋势报告Agentic AI , 认为AI Agent 的发展似乎是从0到1的过程。我们最好采取一种渐进的策略。我认为这是一个逐步进化的过程。或者说，在某种程度上,它应该拥有自己的领域和记忆。

孙志明：每个人心中都有对AI Agent的定义。在我眼中，未来的AGI时代将是Agent的天下，RPA等都是Agent的早期阶段。Agent时代究竟什么时候会到来？我们这些创业者把Agent作为当前的哪个阶段， AI Agent到底是什么？我认为它是未来的一个形态，当下我们处在一个什么样环境中的一个思考。

孙林君：我们官网上有一段话，我们产品经理刚开始自己写了一个Agent的定义，很晦涩。后来就问GPT4：“你用通俗的语言给我解释一下什么是智能体。”它的说法是，智能体——你可以把它理解成人类的助手，它可以按照你的意图，帮你完成特定的工作和任务。Agent从现在来看，它是人工智能角度的一个术语，一个代理，代表你完成任务的一个东西。

实在智能创立以后，我们进入到数字员工这个赛道，我们当时给客户讲，未来咱们会有很多数字的员工，帮我们去完成很多工作和任务。最开始我们从RPA（机器人流程自动化）切入，RPA做规则化任务，是以机器人的形式出现的。机器人智能化的属性加得越来越多，它就越来越智能，比如说我们加OCR（光学字符识别），加自然语言理解，你发现它的基础形态不变，智能化属性在变，到现在大模型发展到非常火热的今天，它进入到智能体的阶段。反过来我们看，数字员工对于企业和客户来讲很容易理解的概念，低阶形态是RPA，高阶形态是智能体，而智能体从人工智能角度来看的术语，我大致是这么理解的。

胡一川：从通俗易懂的角度来讲，有一个定义非常恰当：AI Agent，是一种能够端到端帮助用户完成复杂任务的形态。它与今天我们所见的ChatGPT等大模型产品最大的区别在于，AI Agent真正能够端到端地完成复杂任务。今天我们利用大模型已经可以进行出色的文案撰写。例如，如果我是一名市场营销人员，我可以利用这些工具撰写出高质量的触达客户邮件。从市场营销的角度来看，端到端的流程是从最初的客户获取、客户分析、客户触达，到客户沟通，这一系列流程是今天没有任何单一产品能够实现的。因为这一流程是端到端的，而且非常复杂。我们看到虽然管像ChatGPT这样的产品拥有庞大的用户群体，但它们很难在企业中被应用于端到端的复杂流程。

大模型能力对AI Agent 的助力

李博杰：最近一个月有很多大模型领域最新的进展。OpenAI o1提高了推理能力，GPT4o支持实时语音通话，各位老师认为，最新的大模型能力，会对AI Agent有怎样的帮助呢？

周健：在我看来，今天的大型模型从输入输出的角度来讲，它们大致可以分为几个维度：纯文本处理、多模态处理，无论是图片输入还是生成图片和视频都还是off line 的。目前，在我看来，除了纯文本处理之外的其他两类模型在实际应用中还不太成熟。因为我们的服务流程是在企业环境中，对准确率有很高的要求。现在的问题仍然是，AI必须达到一个阈值，通用性AI如果没有达到那个阈值，就无法在实际中使用。当然，作为娱乐是可以的，但如果想要在端到端的流程中使用很难。我们目前只采用了纯文本模型，客户一定会要求我们支持，我们会支持一下。但对于主流产品，我们完全不接触，我们心中有一个标准，我们认为在某个点上，这个模型可能对我们有用，我们有相应的数据集。如果真的发展到那个水平，我们就会开始研发，但在那之前，我们不会进行研发投入。

李博杰：您觉得到什么时候到真人的水平，还远吗？

周健：我认为这个问题本身可能不值得去解决。看看Adept AI已经融资3.5亿美元，从商业角度来说，如果投资1亿美元就能做出来，那自然可行。但如果需要投入10亿美元，我们为什么还要去解决这个问题呢？特别是当我们预见GUI界面可能会消失的情况下。这是一个过渡性的问题。实际上，我更看好的是另一个方向：到明年年底，端侧模型很可能达到GPT-4的水平。届时，手机APP的形态会发生融合，这才是我愿意押注的方向。

李博杰：您说端侧3B的模型。

周健：现在是通义千问的72B，在中文上已经有4的水平了，再隔12个月，7B也不奇怪。

孙志明：我们做Agent平台，并持续关注前沿技术。技术发展日新月异，我们每天都能在行业中感受到变化。这些技术在实际场景中的应用，尤其是在特定环境下，面临许多挑战和技术上的限制，这些问题也困扰着AI Agent领域。随着端侧模型的出现，我认为在AI Agent市场中，这可能是一个类似于iPhone时刻的转折点。

目前，我们为企业提供定制化需求，从创业者的角度来看，项目的推进速度相当缓慢。早期的RPA技术追求的是什么样进步？三个月前我们能感知到什么？我们现在更多地专注于开发自己的垂直模型。此外，还有模型的训练，这些模型的训练效果并不逊色于大型模型供应商提供的产品。在特定的环境下，客户更倾向于选择我们的解决方案。大型模型厂商发布的新闻，在实际场景中，从商业化的角度来看，和技术如何结合？

针对金融、HR等垂直领域的Agent应用

李博杰：您觉得现在RPA工具，您公司的两个产品，能做到比70%以上的真人还准确的操作率吗？

孙志明：在特定任务领域，我们确实已经能达到这个水平。但对于复杂任务，还存在挑战。我们面临的一个主要问题是训练成本过高，即便我们想大规模采购GPU芯片来提升算力，在当前环境下也是力不从心。

孙林君：最新成果肯定是有促进作用。首先，大型模型被视为智能大脑，它们非常强大，知道如何执行任务。但当你要求它们执行时，它们可能会告诉你需要分成十二步来完成，但实际上它们并不能直接操作。对于人类的要求来讲，我们希望更进一步，只需下达一个指令或说一句话，事情就能完成。

接下来该如何行动？我们看到OpenAI的发布会上，有令人印象深刻的演示，展示了大型模型如何调用接口来完成任务。这种效果非常好，但在真实场景中，开发接口的成本非常高，有时接口甚至不存在。例如，如果是一个人，看到界面就知道如何操作，只需使用鼠标和键盘就能完成任务，无需调用接口。如果将Agent视为一个人，是否可以相似的方式直接操作电脑来完成任务？

我们注意到Claude 3.5的成果，每个动作都会截取一张图，分析图像上的内容，决定下一步动作，然后输入并点击以完成动作。实际上，我们的产品在去年8月份就已经具备了这种能力。当然OpenAI的影响力非常大，它使用纯粹的大型模型能力，速度可能会偏慢，有时会出现卡顿，但证明了大型模型具备了这种能力，即能力涌现。这包括任务分解能力、自动生成代码能力和推理能力。随着多模态技术的发展越来越成熟，你会发现它们能轻松完成每个页面上当前的动作，并导致下一个结果。基于此，这项技术在人机交互上将是一个巨大的突破。

大型模型不是一种产品，客户购买了大型模型后发现，在实际使用时需要许多外围功能的配合，才能真正发挥产品的作用。这些外围功能的配合需要许多能力的开发，将其整合成一个为我们所用的智能化产品，这是许多创业公司能够做的有价值的事情。因此，在这两个因素的推动下，智能体目前处于一个非常火热的状态。

李博杰：我追问一个技术问题，您认为纯视觉方案是指仅通过图像识别来执行操作，还是指识别图像中的具体元素，将其内部代码提取出来进行操作？

孙林君：我介绍一下我们的理解，不代表主流。这项技术涉及在浏览器上安装一个插件，用于解析浏览器的源代码，识别界面上的各种元素，例如搜索框、输入框、对话区域、表格下载区域等高级对象。在提取出这些对象之后，如果我想预订酒店，系统会找到这一步骤应该操作的元素，并最终完成整个流程。

然而，如果涉及到SIS客户端，情况就不同了。比如要解析一个高级对象，而我们在编写代码时采用最普通的方式，用二进制的方式来解析，实际上是无法实现的。在这方面，我们的理解有所不同。RPA的一个优势在于，几乎所有的动作都由操作系统的组件完成，相当于我们有了积木块，这些积木块是原子化的操作能力。如果我们让大型模型掌握了使用RPA的能力，并结合任务拆解和推理能力，它就可以完成任务。在我们的方案中，我们把大型模型之外的一些能力集成进来，形成一个自主智能体的产品，而不是直接使用大型模型的纯原生能力，这个效果会更好。

胡一川：当前模型排行榜上的最高分数是20.7分，与人类的75分相比，差距显著。这里存在一个核心问题：尽管人类操作UI依赖于视觉，但目前的模型在这一点上存在一个主要缺陷。为了通过视觉方式操作UI，模型必须精确地输出它想要操作的元素的坐标。这个任务的难度相当于让一个大型语言模型识别出"strawberry"中有多少个字母“R”——模型的原理决定了它在这方面的表现会非常有限。当模型接收到一张截图时，它并不具备准确找到目标元素坐标的能力。依赖当前的技术方案，这个问题仍存在明显缺陷。即使拥有大量数据和更强的泛化能力，模型在坐标定位上的准确率也难以达到90%，更不可能接近99%。

纯视觉方案虽然模拟人类的视觉处理，但它存在缺陷。如果把RPA和工程化的方法结合起来，一定会有所帮助。例如，RPA本身能够以几乎百分之百的准确率执行流程，并且可以精确定位界面上的任何元素。问题在于，如何把这种输入和输出在大模型的框架下，无论是在训练阶段还是推理阶段都能加进去，这是我们接下来需要研究的课题。如果这个难题能够得到突破，它一定会给整个行业带来巨大的帮助。

李博杰：刚才提到这么多大模型的进展，好多创业者都有一样的担心，大模型会不会哪天突然进步一大步，原来做了很多工程优化就白费了。

周健：我们在创业初期的时候，也十分担心这件事情。我记得GPT-4发布时，我凌晨3点才下飞机，收到了一大堆消息，问我该怎么办。我觉得AI非常有意思，它有点像文艺复兴时期，你会思考到底是什么。我一直在强调专家支持或私域数据的重要性，为什么这么说呢？

大型模型的原理有点像它背下了图书馆里一百万本书的内容，但一个人即使背下了一百万本书，也未必能成为哲学专家。本质上，我们每个人都有自己的信念，关于什么是真实的，这也是一个结构。很多时候所谓的反思，并不是因为事实变了，而是因为我们的信念变了。在这个意义上，这部分的沉淀以及它与已有的私域数据的结合是非常重要的。有些数据并不在互联网上，比如薪酬数据。显然，一个HR在看简历时，会根据经验判断应该出多少钱，这里面有一种内部知识。至少在现有的大型模型中，是无法吸收这种知识的。从纯粹的人类所谓的隐性知识的角度来看，我们其实是可以吸收的。至于是否一定要使用大型模型，这还有待商榷，除非有新的架构，还有成本的问题。在人类历史上，从未发生过这种事情，即使是半导体芯片也没有发生过这种事情。我们还是需要找到自己的边界，找到自己的竞争优势，或者说它的成本模型决定了它不会这么做。这是一个很好差异化的点。

李博杰：如果是在特定领域的场景中，你提到有一些领域数据和专有知识。对此，您认为是采用Prompt的方式更好，还是使用RAG？应该选择哪种方式？

周健：那些都不对。我们自己内部有这样一个模块，我还没有很好的能够说出，领域模型，世界模型，时空模型，我现在还在找那个词，但是本身既不是知识图谱，也不是RAG。

李博杰：希望周老师给我们发布出一篇诺奖级的成果。

孙志明：我从事人工智能的第一天起，我就在思考AGI会带来怎样的变革。过去两年里，技术的迭代速度超出了我的想象。今年年初发布的Sora，去年年底时我们认为生成视频还需要三年时间。在我看来，生成式人工智能是通往AGI的过渡性产物。无论是芯片、算力还是能力问题，尽管技术迭代速度很快，这种技术迭代速度在架构体系上实现的逻辑是必然的。我们不必过于担心，因为技术的迭代，即便带来颠覆，也是在原有基础上的颠覆。作为创业者，我们不需要有这样的焦虑，但需要有这样的思考。

现在，我们正处于AI时代，所有的逻辑关系和运作逻辑都经历了根本性的转变。从市场的角度来看，技术迭代的速度与市场客户的认知能力之间存在着显著的差距。从这个角度来看，我们不需要过分担心GPT-3.5是否会取代RPA，图像识别能力的提升RPA是否会被淘汰。在这个过程中，可能会出现更好的解决方案，这正是我的思考方式。

孙林君：如果我们观察股票，你把时间刻度缩放得很密集时，趋势会显得特别明显，几乎变成了一条直线。但当你放大时间刻度，你会发现它变成了一条极其曲折的曲线。在现实生活中也是如此，如果你理想化地认为一旦通用技术出现，所有其他事物都会失去意义和价值。但实际上，在技术落地的过程中，会遇到许多困难和需要克服的痛点，现实是非常骨感的。

当然，我们并不是说通用人工智能时代不会来临，它一定会到来，只是会在未来的某个时刻。一些社会学家研究，未来可能只剩下服务业这一种职业，所有的行业都将被颠覆。在通往这个目标的过程中，会有许多中间状态，而这些中间状态正是我们创业公司需要努力推进的。

回看我们所经历的阶段，最初的几十年，我们在算法上遇到了瓶颈，难以突破。今年的诺贝尔奖授予了当时研究BP神经网络的专家。现在我们进入了算力瓶颈的时代。再过几年，我们可能会发现，数据将成为新的瓶颈。为什么呢？公开数据可能已经被耗尽，大家都已经使用过，AI能生成的数据也都出来了，再继续就是过拟合了。有很多数据是行业的专有技术，它们构成了行业的壁垒。无论是在RPA还是在其他行业，我们结合Agent去做的事情，这个时候你的行业专knowhow非常有价值的。再加上人工智能技术的加持，能够发挥巨大的价值。因此，从这个角度来看，这个愿景并不可怕，我们一点也不害怕将来有一天会被替代。

李博杰：你刚才提到数据量不足的问题。现在，OpenAI的O1方法通过生成大量数据，并在实际环境中进行广泛交互。你认为这种方式是否有前景？

孙林君: 肯定是有希望。回顾AlphaGo时代，我们看到了它所起到的作用，但也发现它确实存在一些瓶颈。例如，强化学习并没有我们想象的那么鲁棒。另一方面，引入人类经验的模型是有上限的。这个上限要靠智能化技术自己去突破。如果要靠它自己去突破，这件事情还需要技术的进一步演进，仍然有很大的发展空间。

胡一川：我的观点更为乐观。随着底层模型能力的演进，它为创业者带来了更多的机会。我举两个例子来说明这一点。我们看到大模型的编程能力越来越强。在GPT-3.5和GPT-4发布的时候，去年GitHub Copilot就非常火爆，据说已经有数百万的付费用户。随着Claude 3.5编程能力的进一步提升，像Cursor这样的一个非常年轻的团队，开发出了面向开发者的AI开发工具。所以，模型作为一种底层能力，是不可能满足所有用户和工作需求的。因此，这为创业者提供了巨大的机会。

我再举一个例子，最近有一个美国高中生开发了一款名为“卡路里AI”的应用，利用多模态模型，可以对食物中包含的卡路里进行比较准确的判断。他开发了一个非常简单的应用，一夜之间就爆红了，据说现在每月有几十万美金的MRR（月度经常性收入），这是一个17岁高中生的杰作。大模型让AI真正平民化，这件事情正在实实在在地发生。

AI Agent， To B还是ToC

李博杰：您觉得Agent这个事情，To C是不是一个好时机？未来会怎么样？

胡一川：我个人觉得To B、To C都有机会，只是To B不一样。在To B市场中，从生产力工具的角度来看，Agent如何能够降低成本、提高效率、增加收入是一个关键点。但这里的挑战在于，企业对稳定性和准确性的预期会更高，正如孙总前面提到的，你的边界必须非常清晰，并且必须在划定的边界内高质量地完成任务。这是To B市场既有机会又有挑战的地方。而To C市场的场景则更为多样，今天的大模型都有很大的机会去创造出一些颠覆性的应用。

孙林君：我们的产品也面向消费者（To C），但它采用的是KP（关键客户） To B的模式。使用RPA软件的用户很多是财务、会计、人力资源、客服等领域的专业人士，他们有很多重复性工作需要处理。他们会自发地在互联网上寻找能够满足这些需求的产品，并下载使用。优秀的产品应该是C、B同源的。现在人工智能发展如此强大，我们未来和系统的交互就是通过自然语言，交互门槛降低到了非常低的水平，对使用体验的要求也变得更高。在这个过程中，如何让产品具备让消费者感觉良好的特性，这是我们坚持不断完善和迭代社区版的一个重要原因。

对于To C来说，场景相对简单，但对B端场景来说会相对复杂。对于实在智能来说，我们选择的路线是瞄准目前看来不那么复杂的任务。我们不会一开始就做一个超级复杂、需要用到人类各个环节专家知识的任务，但对于那些日常工作中重复琐碎的事情，我们可以先解决这些问题。

孙志明：我们最初是从To C业务起家的。去年，我们的To C平台刚刚上线，即便没有进行推广，第一个月吸引了300万用户。我们的API每天消耗十万，一旦我开始收费，用户数量就会下降，这给我带来了不少困扰。去年年末，我决定暂停To C产品的开发。目前，我们每天仍有约一万用户。

我们是一个高度自定义化的智能代理平台，起步非常早。我们当时开发了很多插件，并且自己编写代码。上线的速度达到了我的预期，但我没有预料到算力消耗会如此之高。那时，我们每月的算力费用高达几百万。因此，我开始转型，专注于To B业务，我们称之为智能体云。

我们公司的使命，是让AI的力量成为每个人的天赋。我希望在将来的AGI时代，每个人都能拥有智能代理助理，这是我的设想。在技术层面，我关注模型的迭代和单个能力的发展，我会快速接入，将单个计算能力封装成特定的场景，面向教育类用户和第三类用户，满足他们实际的业务场景。因为这些用户根本不知道如何做智能体，他们对低代码没有概念，你只需要帮我解决问题就可以了。

周健：在我看来，B端和C端在商业模式上有本质的不同。从商业模式的角度来看，关键在于你为客户提供的价值是否值得他们愿意为之付出，以及成本。C端的一个主要问题是数字空间几乎没有摩擦力，用户切换成本几乎为零。在数字世界中，大厂是最大的玩家。从这个意义上说，我相信没有人会认为一个小公司能迅速地推出一个全民应用，这是不可能的。

我们必须选择一个特定的客群，这没有问题。但我们需要为这个客群提供足够大的价值。你的壁垒在哪里？你如何守住这个价值？从商业角度来看，这些都是必须考虑的问题。毕竟，我们毕竟是创业者，不是只想短期获利。我最终希望业务能够持续下去。在我看来，C端虽然有这种机会，但基本上需要结合线下。仅靠数字是不够的。

我知道一个朋友，他写了一些Prompt。他告诉我在深圳，他的壁垒是只有他这样的人才存在。他做美甲，卖给纽约的LGBT群体和直播的人。他有一些关系，让佛山的人加工。他的壁垒在于佛山的群体和纽约LGBT直播群体之间的“社会空洞”，这种联系是独特的，他可以利用这种联系。这就是构建这种商业模式的基础。如果你没有这样的禀赋，那就无法成功。你只是想在数字空间随便做一个C端应用，这是不可能的。

B端则不同，B端有客群，要有价值主张，要有信任，客户也愿意回报。关键在于，建立信任的过程很慢，信息传递过程中往往会失真。这是To B业务的难点，即使有了AI，这个难点依然存在。从某种意义上说，我们需要想办法缩短这个链条，否则在这个时代，迭代速度慢，风险很大。我们需要考虑如何将一些不那么核心的价值点外包出去。这是我们自己的思考。

Agent应用是否能形成微信式网络效应

李博杰：你刚才提到C端很难形成壁垒，但在Agent领域，有没有可能形成类似微信的网络效应，或者积累用户数据，从而建立壁垒？就像OpenAI之前提到的电影《Her》中，AI可以记录用户的所有记忆。如果用户切换到其他平台，这些记忆无法转移，这样的壁垒一下子就会变得非常高。

周健：你说的是一个状态，问题在于如何实现。没有办法直接跨越时空达到那个状态，仍然需要一步步积累数据，而这个过程是需要成本的。当然，壁垒是存在的，但如何跨越它是很大的难点。

李博杰：您认为，通用的应用创业公司是否很难成功？比如ChatGPT？

周健： C端几乎没有机会。

孙志明：可以在单侧模型上开发一些特定应用，聚焦于特定场景。

周健：如果能与物理设备绑定，就会有市场。

孙志明： C端还是存在一些机会的。

李博杰：您认为这样的设备机会是不是在苹果、华为这些大厂手中？

孙志明：不一定。硬件厂商有其独特优势，但在具体场景和用户特定需求上，他们的能力未必突出。尤其是在大模型支持下，手机具备这些底层能力，提供通用功能，大家都在发挥。可能会出现现象级产品，但这是一个三维的生态，不是单一的，很难一家独大。

李博杰：感谢各位老师的精彩见解。今天的讨论非常深入，我个人认为AI Agent领域确实有巨大潜力。OpenAI也将Agent视为O1之后的下一个重要方向。Agent可能会在多个层面上改变人类生活。在实现杀手级应用的道路上，各位老师提供了很多宝贵建议。希望在现有技术条件下，能够开发出既实用又有商业价值的AI Agent，让它走进千家万户，为大家的生活和工作创造更多价值。

点个“在看”，再走吧

http://mp.weixin.qq.com/s?__biz=MzkyNjU2ODM2NQ==&mid=2247602370&idx=2&sn=dda9f185daf74d5f0a1cde9a87cb0d75

硅星人Pro

硅（Si）是创造未来的基础，欢迎来到这个星球。