红队如何暴露人工智能模型中的漏洞

文摘   2024-12-25 13:30   河南  

随着生成人工智能 (gen AI) 成为信息安全最前线,红队在识别其他人可能忽视的漏洞方面发挥着至关重要的作用。

2024 年,数据泄露的平均成本达到历史最高水平,达到 488 万美元,企业需要确切了解自己的漏洞所在。鉴于企业采用新一代人工智能的速度惊人,其中一些漏洞很有可能存在于人工智能模型本身,或用于训练它们的数据中。

这就是 AI 红队测试的用武之地。这是一种测试 AI 系统应对动态威胁场景的弹性的方法。这涉及模拟现实世界的攻击场景,以在 AI 系统部署到生产环境之前和之后对其进行压力测试。红队测试对于确保组织能够享受新一代 AI的好处而不增加风险至关重要。

IBM 的 X-Force Red Offensive Security 服务遵循迭代流程并进行持续测试,以解决四个关键领域的漏洞:

  1. 模型安全性和安保测试

  2. 人工智能应用测试

  3. AI平台安全测试

  4. MLSecOps 管道安全测试

在本文中,一起看看IBM将重点关注针对 AI 模型和训练数据的三种对抗性攻击。

即时注射

大多数主流的新一代人工智能模型都内置了保护措施,以降低产生有害内容的风险。例如,在正常情况下,您不能要求 ChatGPT 或 Copilot 编写恶意代码。但是,诸如即时注入攻击和越狱之类的方法可以绕过这些保护措施。

AI 红队的目标之一是故意让 AI “行为不当”——就像攻击者一样。越狱就是这样一种方法,它涉及创造性的提示,以让模型破坏其安全过滤器。然而,虽然越狱理论上可以帮助用户实施实际犯罪,但大多数恶意行为者使用其他攻击媒介——只是因为它们更有效。

提示注入攻击要严重得多。它们不是针对模型本身,而是通过在看似无害的提示中混淆恶意指令来针对整个软件供应链。例如,攻击者可能会使用提示注入让 AI 模型泄露敏感信息(如 API 密钥),从而可能让他们获得与该模型相连的任何其他系统的后门访问权限。

红队还可以模拟逃避攻击,这是一种对抗性攻击,攻击者巧妙地修改输入以诱使模型对指令进行分类或误解。这些修改通常对人类来说是不可察觉的。然而,他们仍然可以操纵人工智能模型采取不受欢迎的行动。例如,这可能包括改变输入图像中的单个像素来欺骗计算机视觉模型的分类器,例如用于自动驾驶汽车的模型。

数据中毒

攻击者还会在训练和开发期间攻击 AI 模型,因此红队必须模拟相同的攻击,以识别可能危及整个项目的风险。数据中毒攻击是指攻击者将恶意数据引入训练集,从而破坏学习过程并将漏洞嵌入模型本身。结果是整个模型成为进一步攻击的潜在切入点。如果训练数据被泄露,通常需要从头开始重新训练模型。这是一项资源密集且耗时的操作。

从 AI 模型开发过程一开始,红队的参与就至关重要,可以降低数据中毒的风险。红队在与现有生产系统隔离的安全沙盒环境中模拟现实世界的数据中毒攻击。这样做可以深入了解模型对数据中毒的脆弱程度,以及真正的威胁行为者可能如何渗透或破坏训练过程。

AI 红队还可以主动识别数据收集管道中的弱点。大型语言模型 (LLM)通常从大量不同的来源提取数据。例如,ChatGPT 是在来自数百万个网站、书籍和其他来源的大量文本数据上进行训练的。在构建专有 LLM 时,组织必须确切知道他们从哪里获取训练数据以及如何审查其质量。虽然这更多的是安全审计员和流程审查员的工作,但红队可以使用渗透测试来评估模型抵抗数据收集管道缺陷的能力。

模型反演

专有 AI 模型通常至少部分基于组织自己的数据进行训练。例如,部署在客户服务部门的 LLM 可能会使用公司的客户数据进行训练,以便提供最相关的输出。理想情况下,模型应仅基于每个人都可以查看的匿名数据进行训练。然而,即便如此,由于模型反转攻击和成员推理攻击,隐私泄露仍可能存在风险。

即使在部署之后,新一代人工智能模型仍会保留训练数据的痕迹。例如,谷歌 DeepMind 人工智能研究实验室的团队成功利用简单的提示诱骗 ChatGPT泄露训练数据。因此,模型反转攻击可以让恶意行为者重建训练数据,并可能在此过程中泄露机密信息。

成员推理攻击的工作方式类似。在这种情况下,攻击者试图通过借助另一个模型进行推理来预测某个特定数据点是否用于训练模型。这是一种更复杂的方法,攻击者首先根据他们攻击的模型的输出训练一个单独的模型(称为成员推理模型)。

例如,假设一个模型已经根据客户购买历史进行了训练,以提供个性化的产品推荐。然后,攻击者可能会创建一个会员推理模型,并将其输出与目标模型的输出进行比较,以推断出他们可能在有针对性的攻击中使用的潜在敏感信息。

无论哪种情况,红队都可以评估 AI 模型是否能够通过推理直接或间接地无意中泄露敏感信息。这有助于识别训练数据工作流本身的漏洞,例如未根据组织的隐私政策充分匿名化的数据。

建立对人工智能的信任

建立对人工智能的信任需要采取主动策略,而人工智能红队在其中发挥着重要作用。通过使用对抗训练和模拟模型反转攻击等方法,红队可以识别其他安全分析师可能错过的漏洞。

这些发现可以帮助人工智能开发人员确定优先级并实施主动防护措施,以防止真正的威胁行为者利用相同的漏洞。对于企业而言,结果是降低了安全风险并增加了对人工智能模型的信任,这些模型正迅速在许多关键业务系统中根深蒂固。



— 欢迎关注 往期回顾 —

精彩回顾:祺印说信安2024之前

230个网络和数据安全相关法律法规规范文件打包下载

单位高层领导参与网络安全不应该只是口头说说
党委(党组)网络安全工作责任制实施办法
“两高一弱”专项下,谈合规下的弱口令
网络被黑?还看“两高一弱” ,原来是不履行网络安全义务惹的祸

>>>网络安全等级保护<<<

网络安全等级保护:等级保护工作、分级保护工作、密码管理工作三者之间的关系
1994-2024等级保护30年法律法规及政策发展历程概览

网络安全等级保护:等级保护的概念

网络安全等级保护:等级保护工作的内涵

网络安全等级保护:开展网络等级保护工作的流程

网络安全等级保护:贯彻落实网络安全等级保护制度的原则

网络安全等级保护:开展网络安全等级保护工作的法律依据

网络安全等级保护:开展网络安全等级保护工作的政策依据

网络安全等级保护:开展网络安全等级保护工作的标准依据

网络安全等级保护:等级保护工作从定级到备案

网络安全等级保护:网络总体安全规划很重要

网络安全等级保护:一定要做好网络安全运行与维护

网络安全等级保护:应急响应与保障是法定要求

网络安全等级保护:如何正确处理终止的等级保护对象

网络安全等级保护:政策与技术“七一”大合集100+篇

网络安全等级保护:安全管理机构

网络安全等级保护:网络安全事件分类分级思维导图

网络安全等级保护:明确测评双方的责任从了解测评过程指南开始(思维导图下载)

>>>关键信息基础设施安全保护<<<

关键信息基础设施安全保护要求思维导图

关键信息基础设施保护要求之分析识别与风险评估乱谈
关键信息基础设施保护要求之安全防护

网络安全框架CSF 2.0 核心与示例映射

>>>数据安全系列<<<

数据安全管理从哪里开始
数据泄露的成本:医疗保健行业
数据安全知识:数据安全策略规划
数据安全知识:组织和人员管理
数据安全知识:数据库安全重要性
数据安全知识:数据整理与数据清理
数据安全知识:什么是数据存储?
数据安全知识:什么是数据风险评估?
数据安全知识:如何逐步执行数据风险评估
数据安全知识:数据风险管理降低企业风险
数据安全知识:数据整理与数据清理
数据安全知识:什么是数据安全态势管理?
数据安全知识:数据库安全重要性
数据安全知识:数据库安全威胁
数据安全知识:不同类型的数据库
数据安全知识:数据库简史
数据安全知识:什么是数据出口?
数据安全知识:什么是数据治理模型?
>>>错与罚<<<

警惕风险突出的100个高危漏洞(上)

警惕风险突出的100个高危漏洞(下)

警惕“两高一弱”风险及安全防护提示(全集)

不履行网络安全保护义务是违法行为!多家单位被通报!

因侵犯公民个人信息罪 深圳一人被判一年三个月 售卖他人求职简历

公安部网安局:河南开展整治网络谣言专项行动 查处造谣传谣3000余人

四川遂宁公安公布10起涉网违法犯罪典型案例

276人落网!河南新乡警方摧毁特大“网络水军”犯罪团伙

重拳出击严打涉网犯罪 海淀警方守护网络清朗
网警@同学们 暑期这些兼职不能做!

非法出售公民个人信息 网站经营者被判三年有期徒刑

超范围采集公民信息,违法!鹤壁网警出手

一公司高管为泄愤攻击智慧停车收费系统,致上千家停车场无法自动抬杆

重庆某国企因网安责任人履职不到位被约谈

因违规收集使用个人信息等,人保寿险宁波分公司被罚32万,4名责任人同时被罚

回顾长沙市三个区网信开出首张罚单的不同时间和处罚单位类型

上海4人被判刑:5元掌握明星偶像行程?贩卖明星信息4人被判刑!

假期内,网络主播直播约架?郑州警方迅速控制,刑拘十人!网络空间不是法外之地!

网安局:拒不履行网络安全保护义务,处罚!事关备案!

网络水军团灭记:“转评赞”狂刷单 上百人“网络水军”团伙落网

北京多家公司因不履行网络安全保护义务被处罚!“两高一弱”仍然是安全隐患重点

关于“近20台服务器“沦陷”,3.54亿条个人信息被盗”一点点浅析

>>>其他<<<

2023年10佳免费网络威胁情报来源和工具

重大网络安全事件事后工作很重要

默认安全:对现代企业意味着什么

网络安全知识:什么是事件响应?

网络安全知识:什么是攻击面?

网络安全知识:什么是访问控制列表 (ACL)?

网络安全知识:什么是访问管理?

网络安全知识:什么是访问矩阵?

网络安全知识:什么是账户收集?

网络安全知识:什么是工业控制系统 (ICS) 网络安全?

网络安全知识:什么是暴力攻击?

网络安全知识:什么是安全审计?

网络安全知识:什么是分组密码?

网络安全知识:什么是僵尸网络?

网络安全知识:什么是非对称加密?

网络安全知识:什么是边界网关协议 (BGP)?

网络安全知识:什么是缓冲区溢出?

网络安全知识:网络安全中的EDR是什么?

网络安全知识:什么是身份验证?

网络安全知识:什么是勒索软件?

网络安全知识:什么是授权?

网络安全知识:什么是自治系统?

网络安全知识:什么是蓝队?

网络安全知识:什么是Bind Shell?

网络安全知识:什么是安全网关?

网络安全知识:什么是蓝队?

网络安全知识:什么是防病毒产品?

网络安全知识:什么是横幅抓取?

网络安全知识:什么是堡垒主机?

网络安全知识:什么是引导扇区病毒?

网络安全知识:计算机网络中的桥接器

网络安全知识:什么是广播?

网络安全知识:什么是业务连续性计划?

网络安全知识:什么是基于证书的身份验证?

网络安全知识:什么是CIA三要素 (机密性、完整性、可用性)?

网络安全知识:什么是补丁管理?

网络安全知识:什么是跨站请求伪造?

网络安全知识:什么是基于域的消息认证、报告和一致性 (DMARC)?

网络安全知识:什么是拒绝服务(DoS)攻击?

网络安全知识:什么是端到端加密 (E2EE)?

将人类从网络安全中解放出来

人,是造成网络安全问题的根本原因

祺印说信安
学习网络安全、说网络安全;共同致力于网络安全、网络安全等级保护。
 最新文章