随着生成人工智能 (gen AI) 成为信息安全最前线,红队在识别其他人可能忽视的漏洞方面发挥着至关重要的作用。
2024 年,数据泄露的平均成本达到历史最高水平,达到 488 万美元,企业需要确切了解自己的漏洞所在。鉴于企业采用新一代人工智能的速度惊人,其中一些漏洞很有可能存在于人工智能模型本身,或用于训练它们的数据中。
这就是 AI 红队测试的用武之地。这是一种测试 AI 系统应对动态威胁场景的弹性的方法。这涉及模拟现实世界的攻击场景,以在 AI 系统部署到生产环境之前和之后对其进行压力测试。红队测试对于确保组织能够享受新一代 AI的好处而不增加风险至关重要。
IBM 的 X-Force Red Offensive Security 服务遵循迭代流程并进行持续测试,以解决四个关键领域的漏洞:
模型安全性和安保测试
人工智能应用测试
AI平台安全测试
MLSecOps 管道安全测试
在本文中,一起看看IBM将重点关注针对 AI 模型和训练数据的三种对抗性攻击。
即时注射
大多数主流的新一代人工智能模型都内置了保护措施,以降低产生有害内容的风险。例如,在正常情况下,您不能要求 ChatGPT 或 Copilot 编写恶意代码。但是,诸如即时注入攻击和越狱之类的方法可以绕过这些保护措施。
AI 红队的目标之一是故意让 AI “行为不当”——就像攻击者一样。越狱就是这样一种方法,它涉及创造性的提示,以让模型破坏其安全过滤器。然而,虽然越狱理论上可以帮助用户实施实际犯罪,但大多数恶意行为者使用其他攻击媒介——只是因为它们更有效。
提示注入攻击要严重得多。它们不是针对模型本身,而是通过在看似无害的提示中混淆恶意指令来针对整个软件供应链。例如,攻击者可能会使用提示注入让 AI 模型泄露敏感信息(如 API 密钥),从而可能让他们获得与该模型相连的任何其他系统的后门访问权限。
红队还可以模拟逃避攻击,这是一种对抗性攻击,攻击者巧妙地修改输入以诱使模型对指令进行分类或误解。这些修改通常对人类来说是不可察觉的。然而,他们仍然可以操纵人工智能模型采取不受欢迎的行动。例如,这可能包括改变输入图像中的单个像素来欺骗计算机视觉模型的分类器,例如用于自动驾驶汽车的模型。
数据中毒
攻击者还会在训练和开发期间攻击 AI 模型,因此红队必须模拟相同的攻击,以识别可能危及整个项目的风险。数据中毒攻击是指攻击者将恶意数据引入训练集,从而破坏学习过程并将漏洞嵌入模型本身。结果是整个模型成为进一步攻击的潜在切入点。如果训练数据被泄露,通常需要从头开始重新训练模型。这是一项资源密集且耗时的操作。
从 AI 模型开发过程一开始,红队的参与就至关重要,可以降低数据中毒的风险。红队在与现有生产系统隔离的安全沙盒环境中模拟现实世界的数据中毒攻击。这样做可以深入了解模型对数据中毒的脆弱程度,以及真正的威胁行为者可能如何渗透或破坏训练过程。
AI 红队还可以主动识别数据收集管道中的弱点。大型语言模型 (LLM)通常从大量不同的来源提取数据。例如,ChatGPT 是在来自数百万个网站、书籍和其他来源的大量文本数据上进行训练的。在构建专有 LLM 时,组织必须确切知道他们从哪里获取训练数据以及如何审查其质量。虽然这更多的是安全审计员和流程审查员的工作,但红队可以使用渗透测试来评估模型抵抗数据收集管道缺陷的能力。
模型反演
专有 AI 模型通常至少部分基于组织自己的数据进行训练。例如,部署在客户服务部门的 LLM 可能会使用公司的客户数据进行训练,以便提供最相关的输出。理想情况下,模型应仅基于每个人都可以查看的匿名数据进行训练。然而,即便如此,由于模型反转攻击和成员推理攻击,隐私泄露仍可能存在风险。
即使在部署之后,新一代人工智能模型仍会保留训练数据的痕迹。例如,谷歌 DeepMind 人工智能研究实验室的团队成功利用简单的提示诱骗 ChatGPT泄露训练数据。因此,模型反转攻击可以让恶意行为者重建训练数据,并可能在此过程中泄露机密信息。
成员推理攻击的工作方式类似。在这种情况下,攻击者试图通过借助另一个模型进行推理来预测某个特定数据点是否用于训练模型。这是一种更复杂的方法,攻击者首先根据他们攻击的模型的输出训练一个单独的模型(称为成员推理模型)。
例如,假设一个模型已经根据客户购买历史进行了训练,以提供个性化的产品推荐。然后,攻击者可能会创建一个会员推理模型,并将其输出与目标模型的输出进行比较,以推断出他们可能在有针对性的攻击中使用的潜在敏感信息。
无论哪种情况,红队都可以评估 AI 模型是否能够通过推理直接或间接地无意中泄露敏感信息。这有助于识别训练数据工作流本身的漏洞,例如未根据组织的隐私政策充分匿名化的数据。
建立对人工智能的信任
建立对人工智能的信任需要采取主动策略,而人工智能红队在其中发挥着重要作用。通过使用对抗训练和模拟模型反转攻击等方法,红队可以识别其他安全分析师可能错过的漏洞。
这些发现可以帮助人工智能开发人员确定优先级并实施主动防护措施,以防止真正的威胁行为者利用相同的漏洞。对于企业而言,结果是降低了安全风险并增加了对人工智能模型的信任,这些模型正迅速在许多关键业务系统中根深蒂固。
— 欢迎关注 往期回顾 —
>>>网络安全等级保护<<<
>>>关键信息基础设施安全保护<<<
>>>数据安全系列<<<
因侵犯公民个人信息罪 深圳一人被判一年三个月 售卖他人求职简历
公安部网安局:河南开展整治网络谣言专项行动 查处造谣传谣3000余人
一公司高管为泄愤攻击智慧停车收费系统,致上千家停车场无法自动抬杆
上海4人被判刑:5元掌握明星偶像行程?贩卖明星信息4人被判刑!
假期内,网络主播直播约架?郑州警方迅速控制,刑拘十人!网络空间不是法外之地!
网络水军团灭记:“转评赞”狂刷单 上百人“网络水军”团伙落网
北京多家公司因不履行网络安全保护义务被处罚!“两高一弱”仍然是安全隐患重点
>>>其他<<<
网络安全知识:什么是CIA三要素 (机密性、完整性、可用性)?
网络安全知识:什么是基于域的消息认证、报告和一致性 (DMARC)?