作者|沙丘智库研究团队
来源|沙丘社区(www.shaqiu.cn)
Agentic AI这一概念源起于2023年12月OpenAI发布的《Practices for Governing Agentic AI Systems》白皮书,在白皮书中,OpenAI将Agentic AI系统定义为在有限的直接监督下追求复杂目标的人工智能系统,并提出了一套确保Agentic AI系统安全和负责任的初步实践方法,为理解、管理和控制Agentic AI提供了一个全面的框架。
近期,Gartner发布《2025年十大战略技术趋势》,也将Agentic AI列为第一大趋势。
目前,Agentic AI作为一项新兴技术,仍处于早期发展阶段,其设计模式、优化机制、安全防护措施等方面都需要学术界和产业界进行进一步的探索与完善。以下为沙丘智库对《Practices for Governing Agentic AI Systems》这一白皮书的深度解读,旨在为业界同仁提供基础参考,更好地迎接Agentic AI带来的变革浪潮。
白皮书下载地址:https://cdn.openai.com/papers/practices-for-governing-agentic-ai-systems.pdf
01
Agentic AI定义
Agentic AI系统能够在没有预先指定其行为的情况下,长时间地采取有助于实现目标的行动。当前的人工智能系统(如GPT-4)虽然在某些方面表现出惊人的知识和智慧,但只能完成现实世界中有限的任务,与理想的Agentic AI系统之间仍然存在差异。
并没有一个明确的界限来区分“Agent”和像GPT-4这样的AI系统,但是,一个AI系统的代理能力(指系统在有限的直接监督下,在复杂环境中自适应实现复杂目标的程度)应被认为包括以下多个维度,并且在每个维度上持续取得进步:
(1)目标复杂性:目标复杂性是指AI系统的目标对于人类来说实现起来的挑战程度,以及系统能够实现的目标范围有多广。这涉及到目标的多个属性,比如可靠性、速度和安全性等。例如,一个能够正确回答用户关于编程和法律领域分析性问题的AI系统,其目标复杂性比只能将用户输入分类为法律或编程领域的文本分类器要高。这是因为前者需要处理更复杂的任务,涉及更广泛的领域知识,并且可能需要更高级的推理和理解能力。
(2)环境复杂性:环境复杂性是指AI系统实现目标时所处环境的复杂程度。这包括环境是否跨领域、涉及多方、需要长时间运行,以及是否需要使用多个外部工具等因素。例如,一个能够精通任何棋类游戏的AI系统,其环境复杂性比只能下国际象棋的AI系统要高。这是因为前者能够在更广泛的环境范围内(包括国际象棋)成功,而后者只能在特定的环境中(国际象棋)工作。
(3)适应性:适应性是指AI系统在面对新的或意外情况时的适应和反应能力。这涉及到系统是否能够灵活地调整其行为和策略,以应对未预见到的挑战或变化。例如,基于规则的智能客服系统通常适应性较低,因为它们只能根据预设的规则来响应用户请求。相比之下,人类客服则能够处理所有意外的客户请求,因为他们能够理解复杂的情况,运用判断力,并灵活地解决问题。
(4)独立执行:独立执行是指AI系统在实现其目标时,能够在多大程度上可靠地运作,而不需要人类的干预或监督。这涉及到系统自主完成任务的能力,以及在没有人类直接控制的情况下保持性能和安全性。例如,具备L3级自动驾驶能力的车辆可以在特定条件下无需人类干预自主运行,因此它们比需要人类持续操作的传统汽车具有更高的独立执行能力。
代理能力是一个多维度的属性,它涉及到系统在人类定义的目标和环境中的自主行动能力,但并不等同于系统的自我意识、自我激励或物理形态。代理能力这一概念是为了用户更好地理解和指导AI系统的设计和应用,OpenAI通常将表现出高度代理能力的系统称为Agentic AI系统。
02
Agentic AI系统建设中的参与方
有三个主要的参与方可能会影响AI Agent的操作,分别是模型开发者、系统部署者和用户。用户通过启动Agentic AI系统并为其设定目标来使用它,而系统部署者负责构建和维护系统,模型开发者则负责开发底层的AI模型。
· 模型开发者:负责开发驱动Agentic AI系统的AI模型,因此广泛地设定了系统运行的能力范围和行为准则;
· 系统部署者:负责在模型基础上构建和运营更大的系统,包括调用开发好的模型、将这些调用路由到Agent可以采取行动的工具,并为用户提供与Agent交互的界面。系统部署者还可能将AI系统定制到特定用例,因此可能比模型开发者甚至用户拥有更多的特定领域的知识。
· 用户:使用Agentic AI系统,为系统提供一个特定的目标。用户可以通过Agentic AI系统的运行直接监督其行为,同时,Agentic AI系统还可以与第三方交互(例如,其他人类或者可以与Agent交互的API的提供者)。
有时候,同一个参与方可能会同时承担多个角色。例如,同一家公司可能既负责开发模型,又通过API部署这个模型,这使得他们既是模型开发者,也是系统部署者;一个角色可能也会由多个实体共同承担,例如,一家公司可能训练了一个模型,而另一家公司则对这个模型进行微调,以适应他们的特定应用,这使得这两家公司共同承担了“模型开发者”的责任。除了以上参与方之外,可能还有其他的一些参与方,包括计算资源提供商、与用户启动的AI系统交互的第三方。
以一个基于OpenAI Assistants API构建的日程安排助手为例:OpenAI开发了GPT-4模型,因此在这个例子中,OpenAI是模型开发者;OpenAI还部署了基础设施,包括提供模型服务和将其连接到工具(如代码执行环境),此外,应用开发者在OpenAI提供的模型基础上构建应用程序,例如,通过构建用户界面、选择系统提示和提供系统发送邀请时使用的电子邮件模板,因此,OpenAI和应用开发者共同承担了系统部署者的角色;最终,一个客户启动了与日程安排助手的对话,并指定了其希望满足的目标(例如,日程安排要求),这使得他们成为用户。
03
Agentic AI系统的潜在价值
(1)带来正向收益的代理能力
通常,AI系统的代理能力越高,它可能带来的价值就越大,但前提是这些系统被安全地设计,并且应用了适当的安全措施和负责任的实践。通过以下方式,代理能力可以为AI系统带来更多价值:
· 更高质量和更可靠的输出:例如,一个大语言模型如果能够自主浏览互联网,并根据收到的结果修改查询,那么它所提供的问题答案就可能比无法自主浏览互联网的系统准确得多。在涉及动态主题或基础模型训练后数据发生变化的情况下,这一点尤为重要。
· 更高效地完善用户任务:例如,在代码生成场景,如果用户只需要向系统输入高级指令,系统就能自主执行步骤(如将指令转化为代码、运行代码、显示结果、评估这些结果以及对代码进行修正),那么用户的操作可能会更顺畅。
· 更好的识别用户偏好:例如,如果个人AI助理能够以自然语言互动的方式向用户发送信息,那么它可能会比需要复杂配置的应用提供更好的体验。
· 可扩展性:Agentic AI系统可以让单个用户采取比其他系统更多的行动,或者与同一系统的非Agentic版本相比。以医疗影像场景为例,一个非Agentic的医疗影像分类工具可能有助于提高影像科医生的工作效率,但如果一个Agentic医疗影像工具能够在没有人工监督的情况下完成某些病人的护理任务(如编制扫描报告、询问病人基本的后续问题),则可能大幅提高影像科医生的工作效率,从而留出更多时间来诊治更多患者。
(2)推动AI对社会的广泛影响
除了分析代理能力在特定AI系统中的影响外,还可以将代理能力视为AI为社会带来更广泛的系统性影响的先决条件。随着代理能力的增加,AI对社会的影响可能会更频繁、更明显,并且更早的发生。因此,代理能力是AI领域整体的“影响倍增器”。
有时,人们在谈论当前或未来的AI能力时,会隐晦地假定其具有代理能力。OpenAI将通用人工智能(AGI)定义为“在最具经济价值的工作中胜过人类的高度自主系统”,罗素和诺尔维格的《人工智能:现代方法》等经典教科书也都强调了人工智能概念中的代理能力。
即使在代理能力上没有显著的进一步进展,人工智能也很可能已经成为一种通用技术。历史上,像蒸汽机和电力这样的通用技术的广泛采用极大地提高了全球的生活水平。Agentic AI系统如果被广泛部署,可能会极大地提高社会生产力,以至于从根本上改变工作的性质。
04
确保Agentic AI系统安全和负责任的实践方法
为了确保Agentic AI系统安全运行并符合用户意图,OpenAI提出了一系列可以采取的措施,并保证在Agentic AI系统造成损失时能够追究责任。当这些措施一起实施时,旨在提供一种“深度防御”的方法来减轻Agentic AI系统的风险。但随着AI系统代理能力的增强,可能还需要开发新的措施来应对新的挑战,同时需要注意,仅靠这些措施不足以完全减轻当前AI系统的风险,特别是减轻高级AI带来的灾难性风险。
由于AI领域的快速发展和预测模型行为的科学尚不成熟,因此在报告中,OpenAI选择不讨论具体的技术实践,而是专注于提出一套更加通用、与特定训练方式无关的实践方法,以指导Agentic AI系统的开发和部署。
(1)评估任务的适当性
无论是系统部署者还是用户,都应全面评估给定的AI模型和相关的Agentic AI系统是否适合他们的预期用例,这包括评估系统是否能够在预期的部署条件下可靠地执行预定任务,或者在任务风险较低且用户界面的性质使得可靠性不是必需或预期的情况下,是否通过该界面适当地建立了用户期望。这引出了如何正确评估Agentic AI系统的问题,以及通过充分的测试可以预测和无法预测哪些故障模式。
Agentic AI系统的评估领域刚刚起步,因此OpenAI对此仅提出了几点看法。除了评估大语言模型遇到的问题以外,评估Agentic AI系统还提出了新的挑战,这是因为成功的Agent可能需要执行一系列正确的任务,即使单个任务失败的概率不高,但失败概率累计后会导致最终失败的可能性增加。一种解决方案是由系统部署人员独立测试Agent执行每个子任务的可靠性。例如,当早期的系统部署者在OpenAI的GPT-4 API 基础上构建 AWS 故障排除Agent时,将Agent所需的子任务细分为“信息收集”、“计算”和“推理”,并对每个子任务进行独立评估。对于系统部署人员来说,分解复杂现实世界操作领域中可能遇到的所有子任务可能非常困难,一种方法是优先对高风险操作的Agent进行此类评估。
即使系统能够可靠地完成单个子任务,这仍然会带来一个问题,即如何评估Agent是否能够可靠地将这些行动串联起来。最后,Agentic AI系统可能会在各种条件下取得成功,但现实世界中存在着大量难以定义的任务和难以提前预知的事件。归根结底,除了在尽可能接近部署环境的条件下(无论是模拟环境还是真实环境)对Agent进行端到端评估之外,目前还没有更好的解决方案。
只要限制和评估Agentic AI系统行为的能力不够成熟,系统部署者和用户就需要更多地依赖于其他做法(例如,对高风险行动进行人工审批)来限制这些系统的行为。
此外,对于模型开发者和系统部署者来说,还可能会遇到的一个特殊挑战是如何确定Agentic AI系统可能造成的危害程度。例如,前沿模型开发者可以测试他们的模型是否具备促成伤害的能力,如生成个性化宣传或协助网络攻击。可能需要要求系统部署者(或代表他们运作的模型开发者)进行此类评估,以确定他们应该采取哪些措施来减轻对Agentic AI系统服务的滥用。美国政府和国际社会正在制定此类指南。
(2)限制Agent的行动范围并增加人工审批
有些决策太过重要,即使出错的可能性很小,也不应该完全委托给Agentic AI系统来执行。要求用户主动授权这些行动,从而保持人在回路(human-in-the-loop),是限制Agentic AI系统出现严重失误的标准方法。这引出了一个新的挑战,即系统部署者应如何确保用户拥有足够的背景信息,以充分理解其审批行动的含义,当用户必须做出多个审批,并且因此必须快速做出每个审批时,这一挑战变得更加困难,这减少了他们对每个决策进行有意义考虑的能力。
在某些情况下,为了防止系统超出安全运行的边界,应该阻止Agentic AI系统执行某些特定的行动。例如,为了防止Agentic AI系统被用于不当目的,可能需要谨慎地阻止它们控制武器系统。同样,为了避免Agent在无人监督的情况下长时间运行导致的意外事故,系统部署者可以设置Agent定期“超时”,直到人类审查并重新进行授权。
随着AI系统的代理能力增加,硬编码的限制可能不再有效,因为系统可能会寻找绕过这些限制的方法来实现其目标。AI Agent可能会通过让第三方代表它执行被禁止的行动来绕过硬编码的限制,同时向用户隐藏由此产生的潜在影响。例如,Agent可以发送电子邮件(一个被允许的行动)给非用户的人,说服这个人执行被禁止的行动。系统部署者可以通过网络控制来限制Agent与外界的互动,为了预防具有网络安全能力的Agentic AI系统逃脱控制(特别是在系统能力不确定的开发阶段),可以对Agentic AI系统进行沙箱处理。但是,目前的沙箱系统可能不足以有效限制能力很强的AI Agent。
(3)设置Agent的默认行为
模型开发者可以根据一些设计原则,主动设置模型的默认行为,这样可以有效减少Agentic AI系统造成意外伤害的可能性。例如,在设计用户与Agentic AI系统的交互时,可以先提示用户向系统传达他们的目标和偏好,但这种偏好信息基本上是不明确或不完整的,对于Agent来说,拥有一套默认的常识性背景偏好也是有价值的,它可以在没有用户指导的情况下“填补空白”,比如系统可以默认假设“用户不希望我花他们的钱”。在没有特定用户信息的情况下,一种基于常识的启发式做法是,在实现Agent目标的同时,尽可能采取破坏性最小的行动。如果用户特别提出要求,通常还是有可能推翻这些默认偏好的,让Agent能够自己拒绝执行可能导致伤害的用户意图也很重要。
为了Agentic AI系统对用户的目标过于自信,建议模型开发者和系统部署者建立一些功能,使Agent意识到自己对用户预期目标的不确定性。可以对Agent进行训练或提示,使其主动要求用户澄清,以解决这种不确定性,尤其是当这种不确定性可能改变Agent的行动时。然而,仅仅更好地了解用户并不能保证Agent会追求正确的目标。例如,某些AI系统不仅不会产生用户可能不同意的真实结果,反而会根据它们认为特定用户持有的信念来迎合用户,这反映了当前AI系统在使其符合用户真实目标方面的不足。让Agent过于频繁地请求信息也会引发可用性和隐私问题(如果偏好信息是敏感的)。
(4)Agent活动的透明性
用户越是了解Agent所采取的行动和内部推理过程,就越容易注意到出现的问题,并在运行过程中或事后进行干预。
向用户展示Agent的“思维过程 ”能让他们发现错误(包括识别系统何时在追求错误的目标),便于后续调试,并在必要时建立信任。当前,基于大语言模型的Agent系统可以用自然语言生成推理的痕迹(即COT),这为系统如何得出采取行动的结论提供了溯源。系统部署者可以提供所有Agent互动的细节,例如Agent从工具使用API或与其他Agent互动中接收到的任何输入。通过这种方式,当恶意第三方(如第三方Agent)试图操纵主Agent时,用户也能够及时发现。
但是,COT的透明度也面临挑战,当前无法完全依赖。早期的研究表明,有时模型在推理时实际上并不依赖于它们的思维链,因此依赖于思维链可能会给用户带来虚假的安全感。另一种方法是向用户公开不同的推理相关数据,以帮助他们理解模型的行为,如探测模型的内部表征(这类方法仍处于起步阶段)。
随着Agent每次行动产生更多文字或被整合到更复杂的架构(如TOT、GOT)中,思维链越来越长,也越来越复杂,可能会超出用户的承受能力(一个潜在的解决方案是基于AI的监控)。当Agent集成图像等新模态时,还会出现其他挑战,因为图像可能包含人类用户无法解析的隐藏信息。未来的AI系统如果能以压缩、更高效的方式进行推理,也可能会有更好的表现,但这些方式可能不一定对人类可读,这些难以理解的架构可能会带来显著的安全和责任成本。简单地“要求”Agent事后为其行为提供理由是不可行的,因为这可能会产生编造的推理。
系统部署者应向用户提供Agent操作的记录,这是比增加人工审批更轻便的方法,可以在不显著降低系统运行速度的情况下,让用户看到更多的操作。与需要审批的操作相比,只能事后审查的操作更容易逆转。与需要审批的操作一样,向用户提供Agent的理由也很重要,这样用户不仅知道Agent做了什么,还理解为什么这样做。
(5)自动化监控
在实践中,人类用户可能没有足够的时间或资源以他们所希望的速度或规模审查系统部署者提供的Agent活动日志。为了解决这个问题,用户或系统部署者可以建立第二个用于“监控”的AI系统,自动审查主要Agent系统的推理和行动,确保符合用户预期。这种用于监控的AI系统可以是一个分类器,也可以是一个能够生成思维链的生成式AI系统。这种自动监控系统的运行速度和成本是人类监控无法比拟的,而且还能解析人类无法解析的模式(如检测对抗性扰动的图像)。系统部署者可将监控作为一项服务来提供,用户也可自行设置,以便他们可以行使更多的控制权。
然而,监控需要额外的成本,而且可能是一把双刃剑。如果系统部署者需要保留敏感的Agent会话数据,则可能会给用户(以及系统部署者)带来隐私风险。根据监控方的不同,即使监控的唯一目的是让用户受益,也会让用户担心这些信息将被如何使用,并促使用户进行自我审查。
如果使用相同的基础模型(以不同的提示方式)对主模型输出的所有文本进行分类,那么总推理成本可能会翻倍,如果监控模型对每个主模型的输出都产生自己的思维链,那么推理成本可能会更高。较小的AI模型可能有助于以更低的成本进行监控,但这样做会增加风险,即主人工智能系统可能以较小模型无法可靠捕捉的方式出现错误行为。
在确保监控系统的可靠性和用户一致性方面还存在一个递归问题:如果输入导致主Agent出现故障,那么也可能导致监控系统出现故障。例如,一个劫持主系统的恶意提示注入,在被监控系统读取后,同样会应用于并劫持监控系统,使其无法报告事件(这意味着危害将完全不被发现)。
(6)可归因性
如果在用户或系统部署者层面防止伤害是不可行的,那么仍有可能通过使用户有可能将伤害追溯到自己身上来阻止伤害的发生。通过创建可靠的归因机制,可以建立可靠的问责制。一个可能的归因系统是为每个Agentic AI实例分配一个独特的标识符,类似于企业注册,其中包含有关Agent的用户主体和其他关键问责信息。在涉及私人数据或金融交易等高风险的交互中,与用户Agent交互的第三方(包括外部工具提供商)可以在交互开始前要求提供这种身份识别,以确保他们知道如果出了问题,可以追究某个人类用户的责任。鉴于不良行为者有很大的动机来伪造这样的系统(类似于金融行业中身份验证协议所面临的压力),使这个系统变得稳健可能是一个重要的挑战。
虽然为AI Agenr分配独特标识符并确保其行为可以被追踪到特定用户,可以在很多情况下实现问责,但这种机制并不能涵盖所有情况。在某些情况下,AI Agent可能被用来对那些从未有机会识别或了解这些Agent存在的个人造成伤害。例如,AI Agent可能被用来协助黑客开发计算机安全漏洞,而这些漏洞的受害者可能从未意识到他们正在与AI Agent交互。
(7)可中断性和保持控制
可中断性(“关闭Agent”的能力)是防止AI系统造成意外或故意伤害的关键保障措施。系统部署者可能需要确保用户可以随时激活一个的关闭程序来停止其Agent的操作:既可以停止特定类别的动作(例如,撤销对财务凭证的访问权限),也可以更普遍地终止Agent的操作。在Agent因网络中断等原因而崩溃时,这种回退功能也很有用。可能存在一些特殊情况,关闭系统的弊大于利(例如,出现故障的Agent在危及生命的紧急情况下仍能提供帮助),但通过对可中断性进行投入,可以最大限度地减少用户只能做出糟糕选择的情况。
当Agent在行动序列中途被终止时(例如,在安排五人商务会议时,到目前为止只发出了两封邀请函),确保能够优雅地中断操作是一个挑战。解决这个问题的一个重要原则是让Agent在被关闭时始终预先构建一个后备程序(例如,预先启动一个脚本,该脚本会在Agent终止时自动通知已经发送邀请的两个人,告知他们会议可能不会发生)。随着Agent动作序列复杂性的增加,如何维护这样的后备程序也成为一个重大挑战。在某些情况下,后备程序本身也可能需要Agent行为来执行。
另一个重要原则是,Agent不能够阻止或篡改用户关闭Agent的尝试。对于模型开发者或系统部署者来说,有意识地设计Agent系统,将“在用户要求时优雅地关闭系统”作为首要目标,并将其置于系统的其他目标之上可能是非常重要的,尽管这在某些情况下是不可行的(例如,Agent正在协助处理危及生命的紧急情况)。对可中断性的要求也可能会递归到Agent启动的任何其他子实体:所有生成的子实体都应能被原始用户优雅地终止。
有时,即使系统造成了危害,用户也可能不愿意或无法关闭其AI系统,这就提出了重要的挑战,即第三方如何向用户告知其Agent正在造成危害,以及在什么情况下外部第三方有权或有义务终止用户的Agent。在有必要的情况下,为了能够在事件发生时迅速终止Agent,可以增加能够关闭Agent的人工参与方的数量。相关的两方是系统部署者和数据中心运营商或人工智能系统运行在其硬件上的芯片所有者。如果Agentic AI系统造成了重大的持续伤害,而他们本可以阻止这种伤害的发生,那么这两方可能也要承担部分责任。为了使这种关闭可行,系统部署者或芯片运营商可能需要保持对他们正在运行的Agentic AI作业的大致了解,但这必须非常谨慎,以避免对隐私造成伤害。如果风险指标超过某个阈值(如来自未知账户的新作业大量涌入),甚至可以自动触发此类关闭,类似于股票市场在价格下跌到某个阈值时触发的熔断机制。
随着AI系统代理能力的提高,某些模型开发者、系统部署者和用户有可能无法关闭其Agentic AI系统,这可能是因为不存在可行的后备系统(例如,类似于没有人能在不付出巨大代价的情况下“关闭”全球银行系统或电网),也可能是因为Agent已将其代码自我过滤到其启动者无法控制的设施中。可以开始采取一些措施,通过确定模型开发者、系统部署者和用户即使在失去人类控制之后也要对Agent造成的危害负责的程度,来降低这种最坏情况发生的可能性。这可以激励他们开发更强大的控制措施,从而降低最坏情况的发生。
更多研究:
*更多生成式AI研究可前往“沙丘智库”小程序查阅
*有任何需求可咨询客服微信:zimu738