"AI Agent(AI代理或者AI原生应用)是AI的终极未来,将替代我们手机上的所有App和操作系统,提供”即叫即到“的专家级服务。SaaS+AI就是AI原生应用吗?AI 原生的应用的真正含义是什么?本文将全面解读AI原生应用的核心要素”
前言
设想一下,你想在 AI 领域创办一家公司。你会选择技术栈的哪一层进行突破你是否考虑在基础设施层竞争?如果是,祝你能够击败英伟达以及超级规模的云服务提供商。你是否打算在模型层展开竞争?如果是,祝你能够战胜 OpenAI 和阿里腾讯百度。你是否准备在应用层竞争?如果是,祝你能够超越企业 IT部门,形形色色的软件供应商和系统集成商。仔细盘算一下,这应该是一个可行的选择,胜算还蛮大的。
基础模型虽令人惊叹,宛如魔法,但也同样非常混乱。主流企业无法接受黑箱操作、幻觉现象及低效的工作流程。用户面对空白提示框也不知所措,不知道该提问什么。这些为应用层带来了技术和商业机会。随着大语言模型变得指数级地更好,我们可以看到,垂直领域的AI 应用将会是下一代价值十亿美元公司的关键。我们正在各个知识经济领域看到一批新兴的智能代理型应用出现。以下是其中的一些示例:通过将提供这些服务型AI应用的边际成本降低—与推理成本的急剧下降相对应—这些具有自主性的应用正在扩展并开辟新的市场。例如Casetext,一家法律科技公司,用了十年的时间从 0 发展到 1 亿美元的估值,而在 GPT-4 发布后的短短两个月内,因为其开发的AI法律助理产品,CoCounsel,公司估值达到了 6.5 亿美元,并被 Thomson Reuters 收购。AI Agent产品的核心:发现并建立特定领域的认知架构
AI Agent是指能够感知环境、理解任务、学习推理并决策,可以自主完成复杂任务的智能体。两年前,许多AI应用层公司还被简单地认为是 GPT-3 之上的包装。如今,这些“包装”已经演进成为“认知架构”的模拟,而且被证明是构建其长期价值和竞争壁垒的有效方法之一。在市场上获得成功的AIAgent企业,用实践证明了将一个模型的原始能力转化为一个具有吸引力且可靠的完整商业服务的解决方案,需要大量的工程工作。如果我们可以把“垂直 AI 产品”看作是“GPT 套壳” ,与此类似,所有的 SaaS 产品都可以看做是“SQL 套壳”,比如 Salesforce 本质上也只是将几个数据库连接了起来,并且根据用户不同的交互方式展示不同的数据,它的竞争壁垒在于产品背后的业务逻辑。同样的,对于AI 应用产品来说,竞争力不必在 AI 上,而在于“构建在对行业和业务逻辑的深刻理解之上的“认知结构””,或者说模拟人类推理工作流的应用逻辑。什么是认知架构 (cognitive architectures),认知架构是指决定系统如何处理用户输入并生成响应的基本结构,类似于系统的思维过程。 即系统是如何根据用户输入进行思考的(与模型进行交互的流程),进而完成具体操作或生成相应反馈。在人工智能领域,认知架构是AI应用中的一个核心要素,它涉及到如何定制和实验不同的认知架构,以适应从基本聊天机器人到复杂自主系统的各种需求。例如,LangChain和LangGraph是促进不同认知架构定制和实验的工具,其中LangChain适用于简单的链和检索流,而LangGraph适用于更复杂的代理工作流。复杂的现实世界中需要大量特定领域和特定应用的推理,而这些推理无法有效地被纳入至一个通用模型中。比如一个科学家在规划和执行任务的方式上,与作为软件工程师时有很大不同。此外,在不同公司工作的软件工程师,其工作方式也各不相同。虽然增强学习算法进一步扩展了横向通用推理的边界,我们仍然需要特定应用或领域的推理来实现有用的 AI Agent。例如,在 上面提到的Factory 的AI Agent案例中,他们的每个 "droid" 产品都配备了一种自定义的认知架构,模仿人类在解决特定任务中的认知过程,例如审阅 pull requests,或编写并执行迁移计划以将某个服务从一个后端迁移至另一个后端,Factory 的 droid 会分解所有依赖关系,建议相关的代码更改,添加单元测试,并由人工进行审核。然后在获得批准后,它会在开发环境中执行这些更改,并在所有测试通过后合并代码。正如人类可能会做的那样——通过一组离散的任务来完成,而不是一个通用的黑盒解决方案。应用层的 AI 公司不仅仅是在基础模型上叠加用户界面,这些系统拥有复杂的认知架构,通常涵盖多个基础模型,通过某种路由机制进行协调集成,并结合适用于 RAG 的向量和/或图形数据库,配备合规的防护机制,还具备了模拟人类推理工作流的应用逻辑。如果我们认为将SaaS软件加上AI能力就是“AI原生”应用,那么我们是严重低估了“AI 原生”所真正包含的意义。就如同二十年前,软件公司对 SaaS 的想法嗤之以鼻。“这有什么特别之处?我们也可以运行自己的服务器,通过互联网提供这些服务!” 从概念角度来看,确实很简单。然而随后发生的是业务的全面重塑。EPD 从瀑布式开发模型和 PRD 转变为敏捷开发和 AB 测试;GTM 从自上而下的企业销售和传统的人际社交活动,转向自下而上的 PLG 和产品分析;商业模式从高 ASP 和与维护服务相关的收入流,转变为高 NDR 和基于使用的定价。很少有本地部署公司成功实现了这一转型。我们有理由相信“AI 原生”应用也是一个类似的转变。那么AI“原生”应用的真正含义是什么?这一轮的AI应用浪潮,不仅是技术的飞跃,更是交付模式的变革。在互联网与云计算环境下,产品服务往往局限于内容展示与简单的交互,我们称之为“内容服务”。这种服务由于缺乏“大脑”的理解和推理能力,难以像人类助理或者服务专员那样深入理解用户需求,也就无法提供深度个性化的服务。然而,AI Agent就截然不同,它不仅具备接近甚至超过人类的逻辑推理能力,而且聚合了用户的各种行为数据,并长期和用户进行深度互动,使得“行为智能服务”成为可能。AI Agent不再只负责传递与展示信息,或者简单的搜索查询,而是能够直接参与到用户的实际行动中,完成复杂任务。我们现在的软件系统就像传统驾驶中的巡航模式,在驾驶过程中,巡航模式只是人类驾驶员的辅助工具。AI应用开启了一种新的模式,首先将AI Agent作为副驾驶部署(人类在线),并利用这些运行实例为系统争取以自动驾驶部署的机会(无需人类参与),GitHub Copilot 是一个很好的例子。另外一种更加优雅的模式,比如Sierra ,是一种类似特斯拉的自动驾驶(FSD)的模式,AI Agent坐在驾驶座上独立驾驶,在遇到故障的时候升级到人类处理。未来,当智能服务从云端走到了终端,不用再等待处理结果和信息传输,我们就能真正实现“随叫随到”的服务体验。小到日程安排、自动叫外卖,大到健康管理、AI教育,这些“行为智能服务”都将在智能体上实现。当这些智能服务渗透到人们的日常生活中,成为一种不可或缺的习惯时,其市场潜力就能得到最大程度的释放,我们也就将见证一个全新的智能服务时代。因为大模型推理能力还会出现幻觉,开发团队需要花费大量的时间研究如何让模型的输出达到可用的程度。虽然对于一个没有用过 ChatGPT 的人来说,对话式机器人的输出很惊艳,但是在面对专业人士时,ChatGPT 的输出虽然很有专业的风格,但是细看内容的话,会发现它还是在一本正经地胡说八道,会存在不少错误,这在专业领域是绝对不被允许的。为了让它的输出能达到可以给用户交付的标准,这里面需要进行大量的“工作流拆解”、“分节点调优”的工作。在这个过程中,最高效的开发方式是“测试驱动开发”,即先测试出什么样的提示词和对话流程能够让 GPT 输出有用的内容,再围绕着这个流程开发产品功能。比如CoCounsel的团队就花了大量的时间在降低模型的输出幻觉上。他们试了很多方法,比如在提示词工程里添加足够专业的用例、优化搜索算法(把一次查询拆解成多轮查询)等。新兴的A I Agent提供的是用“软件”来代替人力劳动。这意味着其潜在的市场不再局限于千亿的软件市场,而是一个以 万亿美元计算的服务市场。这样的A I应用企业出售的不再是软件而是出售工作。“出售工作的含义是什么?” 以 客服AI Agent,Sierra,为例。B2C 公司将 Sierra 部署在其网站上,以与客户进行沟通。Sierra 的工作是完成解决客户问题的任务。Sierra 根据每次问题解决情况收费,这里不涉及传统的“软件坐席”概念,客户只需提供任务,Sierra 会执行该任务,并据此获得相应的报酬。出售“工作”而不是软件,这将是许多 AI 公司追寻的最终目标。具备强大推理能力的AI应用将不仅仅是一个简单的工具,而是一个能够感知周围环境并独立完成任务且不断自我进化的“个体”。所以产品的设计不能选择工具化的场景,简单地提升现有的工作流程,而是要选择那些AI Agent能够独立自主完成整个工作的场景。例如,CoCounsel 最初选择的场景是利用 AI 的能力,帮助律师们发现几个案 例之间的相关性,从而更高效地获取信息。律师只用上传和自己正在处理的工 作相关的文件,AI 会读取这些内容,并且推荐相似的法律案例,从而给律师参 考,让律师更加清楚自己手上的案子该如何处理。这是有价值的,但是只是一 个工具,只是简单改善了律师的工作流,只能算是个不错的渐进式创新,但依 然没有在行业里掀起大的波澜。后来,ChatGPT 出现了,CoCounsel 重新开 发了一个对话式的法律 AI 产品,客户可以像与ChatGPT 交流一样和他对 话, 并给它布置任务,比如可以让它帮你阅读 100万份文件,看看里面是否 有某家公司欺诈的证据,然后整理出一份摘要。这样的产品交互方式很像给 律师团队招了一个新的工,而不是购买了新的产品, 这极大地提高了他们 的客户所在的律师事务所的人效,所以产品很快完成了PMF。 再比如 ,Sierra AI主要通过OpenAI的GPT-4o、o1等模型打造了一个对话式AI Agent平台,主要聚焦在客户服务领域,可以混合处理文本、语音自动执行超复杂工作流程。包括客服咨询、退订商单、订阅更新等。Sierra AI可以帮助企业打造“数字化员工”将很多重复、枯燥、无意义的业务流程实现自动化,从而实现降本增效。再以 XBOW 为例,XBOW 正在开发一款 AI “渗透测试者”。“渗透测试”或渗透性测试是一种模拟的网络攻击,旨在评估公司自身的安全系统。在生成式 AI 出现之前,公司只在有限的情况下(例如,出于合规要求)雇佣渗透测试员,因为人工渗透测试成本昂贵:这是一个由高度熟练的人员手动执行的任务。然而,XBOW 现在展示 了一种基于最新大模型推理能力 的自动渗透测试,其性能可媲美最优秀的人类渗透测试员。这极大地扩展了渗透测试市场,并为不同行业和规模的公司提供了持续执行渗透测试的可能性。AI Agent不是简单的“GPT 套壳” ,如何降低模型的输出幻觉至关重要。当智能体真正尝试为客户解决问题,并实际完成工作时,需要像一个优秀的员工一样出色,才能让客户买单。这就要求在AI Agent开发中,为提示词添加示例数据,构建测试集数据变得极为关键。为了这个目标,AI 应用开发团队需要建立独家的业务数据集,比如行业的专业数据集。在前面提到的CoCounsel的开发中,具备专业律师背景的产品团队就积累了专业的法律案例。但是这还不够,o1模型的出现,让人们看到了思维链的强大之处,CoCounsel 的团队又开始了对思维链的探索,比如邀请全国最优秀的律师来分享自己解决复杂法律问题时的思考过程和工作流程,来获得更多思维链的训练数据。私有数据集的质量将决定AI应用的能力,如何构建一个高质量的私有数据集将是AI产品经理要优先考虑的问题。这上面所有的一切,构成了“AI原生”应用产品的特有的模式,也形成了其独特的竞争壁垒。这样的“原生”的AI应用公司与现在的云计算软件公司呈现出了不同的面貌: • 定价模式:云计算软件公司基于使用定价,而AI公司按照完成的工作收取报酬 • 云计算软件公司专注于软件利润池,而 AI 公司则聚焦于服务利润池。 • 云计算软件公司通过按座位收费出售软件。AI 公司通过结果导向的方式计费。 • 云计算软件公司倾向于采用自下而上的无缝分销模式。AI 公司则越来越多地采取自上而下的方式,注重客户交互,追求高度信任的交付模式。 • 云计算软件公司采用PRD 驱动的敏捷开发和 AB 测试;AI公司的实践证明了测试和数据驱动的开发是最有效的开发模式。所以AI 应用开发不是简单的给SaaS软件增加AI的能力(比如支持自然语言交互),而是全新的产品的理念和模式,其中私有数据集和认知结构的构建尤其重要。
随着AI应用的不断发展,未来,你不必花费大量的时间和金钱在一个地下室逐页阅读文档,而是真的有个 Agent 能和你一起进行战略性的智能思考,这不仅会让工作变得高效,更会让工作更有意思。AI Agent将替代我们手机上所有的APP,甚至替代各种操作系统,为我们提供各种”即叫即得“的各种服务,所有的行业都值得我们用AI Agent来重新做一遍。
冯朝晖
AI时代的数字化创新
北京晨阳智数科技有限公司首席AI和数字化专家
数据标注
在多家互联网企业和世界500 强企业负责企业数字化和信息化的战略规划和执行。曾经先后担任:
亚信安全数字化支撑部总经理
大连万达集团创新加速器总经理
大连万达商业地产管理集团信息管理部总经理
ROSEONLY(诺誓)联合创始人/COO
爱康国宾健康管理集团副总裁/CIO
ADP中国副总裁/CIO,Audatex中国总经理
曾荣获ITValue评选的“最具价值CIO”的荣誉,
数据对齐
在企业数字科技领域有超过25年的工作经验
在多家互联网企业和世界500 强企业负责企业数字化和信息化的战略规划和执行。
在数字化转型和创新领域有着卓越的实践和成绩
【数字产业创新研究中心】2024人工智能&大数据创新应用案例集
「首席数字官」是锦囊专家旗下的新媒体平台,专注数字化转型的趋势洞察、前沿科技应用、模式创新、优秀案例、领军人物的采访报道。文章覆盖微博微信、腾讯、百度、今日头条、搜狐等20+媒体平台和国内外专家社群100+。如果你是企业数字化探索者、观察者,对转型创新有独到的见解、夯实的案例,也欢迎投稿!投稿请联系《首席数字官》编辑部:【欢迎添加小锦好友(微信号:jn-xiaojin3),请备注公司部门职位,进中国软协CIO之家社群或数字化讨论群,与众多同行、专家共同讨论交流】
2、转载时,请在文章开头注明:文章转自「首席数字官」,ID:ChiefDigitalOfficer,作者XX。