Prosus是全球消费互联网的领军集团,也是全球最大的科技投资机构之一。Prosus在全球的长期增长市场中运营并投资,致力于打造领先的消费互联网公司,以赋予人们更多权利,丰富社区生活。
该集团的主要业务方向是在线分类广告、食品配送、支付和金融科技,以及教育科技领域。通过 Prosus Ventures 团队,该集团在物流、金融科技、健康、区块链、社交和电商平台、农业等领域投资新技术的增长机会,积极支持那些利用科技改善人们日常生活的卓越创业者。
Prosus正在积极通过构建AI Agents来提升集团内部的生产力,同时,他们的Ventures 团队也在大力支持更多的新兴创业公司。这篇文章从构建者的视角出发,描述了他们所观察到的全新的AI AgentOps生态,期望能够为你带来新的视角和思考。
本文来自: https://www.prosus.com/news-insights/group-updates/2024/ai-agentops-landscape
在Prosus AI团队中,我们不断探索如何利用新的AI能力来帮助解决我们在Prosus集团中所服务的20亿用户的实际问题。基于AI的智能体(AI agents)是生成式 AI 的下一个有前景的前沿领域。我们已经为广泛的用例构建和测试了AI智能体,从对话数据分析到教育导师,以及引导食品和杂货订单、电商和二手市场的购买和销售体验的智能市场助理。我们了解到,构建有用的智能体很难,但一旦它们发挥作用,它们可以极大地提升价值,并重新定义用户体验。下面我们分享了一些我们的经验,以及在构建我们自己的智能体时与 Prosus Ventures 团队共同创建的智能体及工具生态系统(AgentOps生态)的概述。
01
什么是智能体
关于智能系统的任何讨论的关键在于对它们的定义有一个共同的理解。一般来说,智能体是能够根据用户的通用指令自行决策和采取行动的AI系统。它们通常具有四个主要组成部分:
强大的大语言模型(LLM),理解用户意图并根据目标和智能体可以访问的工具创建行动计划。
工具,为核心大语言模型增加额外的能力,如网络搜索、文档检索、代码执行、数据库集成,可能还包括其他AI模型。这些工具使智能体能够执行诸如创建文档、执行数据库查询、创建图表等操作。
记忆,包括对相关知识的访问(如长期记忆中的数据库)以及在完成行动计划的多个步骤中保留特定请求信息的能力(短期记忆)。
反思和自我批评:更高级的智能体还具有在执行行动计划时发现并纠正自己可能犯的错误并重新安排步骤的能力。
智能系统,如我们自己的智能体,是更强大自主系统的垫脚石,我们致力于理解并继续倡导如何使它们变得有用和安全。
智能体可以有不同程度的复杂性,这取决于工具的数量和质量、大语言模型的选择,以及对智能体创建的工作流程施加的约束和控制。请参见下方(从LLM到智能体的演变),对单回合聊天机器人和两个智能体的对比。
02
我们为什么构建智能系统
创建智能系统的驱动力源于现有AI Copilots的局限性。截至目前,大多数AI Copilots仍然局限于单回合任务,如“总结这段文字”或“完成这段代码”。
另一方面,智能体有望完成更复杂的、多跳任务,如:“找出最好的跑鞋并为我购买它”,“分析这份年度报告以提供对该公司增长潜力的看法”,或“提供包括我们内部收入数据的可穿戴设备市场概述”。与简单的Copilots相比,智能体的影响可以从每个系统对相同基本请求的回答中看出。
更全面的答案本身就可以成为构建智能体的理由。然而,作为额外的价值,智能体还可以量化地提高结果的质量,正如Andrew Ng最近所描述的那样。下图(编码基准测试)显示,具有智能体能力的GPT3.5可以轻松击败更大的模型,例如在复杂编码任务中的GPT-4——当今最强大的模型之一。仅使用模型时,GPT3.5在同一任务中的表现明显逊色于其更强大的大模型。
03
并非一帆风顺
当然,这引出了一个问题:如果智能体如此出色,为什么所有AI交互都还没有使用智能体呢?尽管取得了进展,利用大型 LLM 完全实现 AI 智能体潜力的旅程仍然很新,并且充满了构建有用和可靠的智能系统的重大挑战。我们认为这些挑战大致分为三类:技术成熟度、智能系统的可扩展性、工具和集成。
04
任务和行业特定智能体的机遇
我们的经验表明,智能体通常在为特定领域或较窄的任务集构建时表现得更好。因此,尽管这一领域仍在不断发展,但我们对任务和行业特定智能体越来越感到兴奋,这些智能体有望提供针对特定挑战和需求的定制解决方案,并有助于解决构建智能体时面临的一些问题。其中一个例子是我们构建的任务特定智能体,用于帮助对话数据分析,使组织中的任何人都能在不需要知道如何查询数据库的情况下访问内部数据。
在正确的时间获得正确的信息,以便做出基于事实的决策,因为通常情况下数据位于内部数据库中,需要了解数据源的数据分析师来编写查询以从相关数据库中提取数据——这是一个复杂的工作流程。通过专注于数据分析等领域的任务特定智能体,可以更容易地搜索信息、访问数据库、评估信息的相关性,并将其综合起来回答用户的问题。我们在构建 Toqan数据分析智能体时采用了这种方法。它是这样运作的:
通过这种工作流程并随着时间的推移进行调整,我们现在拥有一个可扩展的框架,在特定高影响用例中,将答案的准确性显著提高了,从50%的感知准确率提高到100%。
05
未来是……AgentOps?
正如我们所讨论的,构建智能系统不仅仅是为强大的大语言模型设计提示词——尽管正是功能调用(使得可以调用外部工具)等模型训练的持续进展,以及能够推理和计划的更强大的大语言模型,使智能体成为可能。创建一个有效的智能体需要为其构建访问工具(例如编写和执行自己的代码、浏览网络、编写和读取数据库),构建执行环境,集成系统,启用一定程度的规划和自我反思等等。
由于这些智能系统的复杂性,AgentOps的概念已成为一个关键的关注领域。AgentOps 旨在通过提供一套预构建的能力和工具,降低构建和扩展AI智能体的技术障碍,这些工具可以拼凑在一起,使创建更复杂和高效的智能系统变得更加容易。对于任何构建智能体的人来说,监控AgentOps生态系统将是理解可用的技术进步并进一步增强 AI 智能体能力的关键。
在构建Toqan和其他基于智能体的系统时,我们经常发现自己在解决艰难的技术问题并寻找构建工具。因此,我们与Prosus Ventures团队一起整理了AgentOps生态系统,以突出我们考虑的一些工具。我们希望这份指南对于关注智能体发展的人来说是有帮助的。
06
仅仅是起点
尽管我们这些构建系统的工程师可能并没有感觉到,但人工智能代理实际上还处于初级阶段。朝着建立高效且随处可见的自主智能体的过程,仍然是一个充满不断探索与创新的旅程。当我们应对这些智能体的产品化的复杂性和挑战时,变革的可能性越来越明显。通过理解当前的状况,根据他们的关注领域对智能体进行分类,以及关注 AgentOps 的发展,我们可以预见到自主AI智能体世界未来将会有令人激动的进步。
我们预计在今年,智能体将出现在co-pilots和AI Assistants中,并将在实验和非关键任务应用(如市场研究、数据可视化在线购物助手)中成为主流。对于我们的团队而言,借助Toqan和我们已经整合的底层工具,我们的目标是始终领先于智能体的发展趋势,我们也会逐步将我们对GenAI和智能体的研究成果应用到Toqan智能体的未来版本和Prosus集团公司的产品中。
07
附录 - 市场概况
除了对AgentOps工具的调查外,我们还为现有的智能体开发了一个市场概况,以展示正在形成的生态系统。我们认为这两者结合起来,可以为那些对追踪智能体感兴趣的人提供有益的指南。