红队如何暴露人工智能模型中的漏洞

文摘 2024-12-25 13:30 河南

随着生成人工智能 (gen AI) 成为信息安全最前线，红队在识别其他人可能忽视的漏洞方面发挥着至关重要的作用。

2024 年，数据泄露的平均成本达到历史最高水平，达到 488 万美元，企业需要确切了解自己的漏洞所在。鉴于企业采用新一代人工智能的速度惊人，其中一些漏洞很有可能存在于人工智能模型本身，或用于训练它们的数据中。

这就是 AI 红队测试的用武之地。这是一种测试 AI 系统应对动态威胁场景的弹性的方法。这涉及模拟现实世界的攻击场景，以在 AI 系统部署到生产环境之前和之后对其进行压力测试。红队测试对于确保组织能够享受新一代 AI的好处而不增加风险至关重要。

IBM 的 X-Force Red Offensive Security 服务遵循迭代流程并进行持续测试，以解决四个关键领域的漏洞：

模型安全性和安保测试
人工智能应用测试
AI平台安全测试
MLSecOps 管道安全测试

在本文中，一起看看IBM将重点关注针对 AI 模型和训练数据的三种对抗性攻击。

即时注射

大多数主流的新一代人工智能模型都内置了保护措施，以降低产生有害内容的风险。例如，在正常情况下，您不能要求 ChatGPT 或 Copilot 编写恶意代码。但是，诸如即时注入攻击和越狱之类的方法可以绕过这些保护措施。

AI 红队的目标之一是故意让 AI “行为不当”——就像攻击者一样。越狱就是这样一种方法，它涉及创造性的提示，以让模型破坏其安全过滤器。然而，虽然越狱理论上可以帮助用户实施实际犯罪，但大多数恶意行为者使用其他攻击媒介——只是因为它们更有效。

提示注入攻击要严重得多。它们不是针对模型本身，而是通过在看似无害的提示中混淆恶意指令来针对整个软件供应链。例如，攻击者可能会使用提示注入让 AI 模型泄露敏感信息（如 API 密钥），从而可能让他们获得与该模型相连的任何其他系统的后门访问权限。

红队还可以模拟逃避攻击，这是一种对抗性攻击，攻击者巧妙地修改输入以诱使模型对指令进行分类或误解。这些修改通常对人类来说是不可察觉的。然而，他们仍然可以操纵人工智能模型采取不受欢迎的行动。例如，这可能包括改变输入图像中的单个像素来欺骗计算机视觉模型的分类器，例如用于自动驾驶汽车的模型。

数据中毒

攻击者还会在训练和开发期间攻击 AI 模型，因此红队必须模拟相同的攻击，以识别可能危及整个项目的风险。数据中毒攻击是指攻击者将恶意数据引入训练集，从而破坏学习过程并将漏洞嵌入模型本身。结果是整个模型成为进一步攻击的潜在切入点。如果训练数据被泄露，通常需要从头开始重新训练模型。这是一项资源密集且耗时的操作。

从 AI 模型开发过程一开始，红队的参与就至关重要，可以降低数据中毒的风险。红队在与现有生产系统隔离的安全沙盒环境中模拟现实世界的数据中毒攻击。这样做可以深入了解模型对数据中毒的脆弱程度，以及真正的威胁行为者可能如何渗透或破坏训练过程。

AI 红队还可以主动识别数据收集管道中的弱点。大型语言模型 (LLM)通常从大量不同的来源提取数据。例如，ChatGPT 是在来自数百万个网站、书籍和其他来源的大量文本数据上进行训练的。在构建专有 LLM 时，组织必须确切知道他们从哪里获取训练数据以及如何审查其质量。虽然这更多的是安全审计员和流程审查员的工作，但红队可以使用渗透测试来评估模型抵抗数据收集管道缺陷的能力。

模型反演

专有 AI 模型通常至少部分基于组织自己的数据进行训练。例如，部署在客户服务部门的 LLM 可能会使用公司的客户数据进行训练，以便提供最相关的输出。理想情况下，模型应仅基于每个人都可以查看的匿名数据进行训练。然而，即便如此，由于模型反转攻击和成员推理攻击，隐私泄露仍可能存在风险。

即使在部署之后，新一代人工智能模型仍会保留训练数据的痕迹。例如，谷歌 DeepMind 人工智能研究实验室的团队成功利用简单的提示诱骗 ChatGPT泄露训练数据。因此，模型反转攻击可以让恶意行为者重建训练数据，并可能在此过程中泄露机密信息。

成员推理攻击的工作方式类似。在这种情况下，攻击者试图通过借助另一个模型进行推理来预测某个特定数据点是否用于训练模型。这是一种更复杂的方法，攻击者首先根据他们攻击的模型的输出训练一个单独的模型（称为成员推理模型）。

例如，假设一个模型已经根据客户购买历史进行了训练，以提供个性化的产品推荐。然后，攻击者可能会创建一个会员推理模型，并将其输出与目标模型的输出进行比较，以推断出他们可能在有针对性的攻击中使用的潜在敏感信息。

无论哪种情况，红队都可以评估 AI 模型是否能够通过推理直接或间接地无意中泄露敏感信息。这有助于识别训练数据工作流本身的漏洞，例如未根据组织的隐私政策充分匿名化的数据。

建立对人工智能的信任

建立对人工智能的信任需要采取主动策略，而人工智能红队在其中发挥着重要作用。通过使用对抗训练和模拟模型反转攻击等方法，红队可以识别其他安全分析师可能错过的漏洞。

这些发现可以帮助人工智能开发人员确定优先级并实施主动防护措施，以防止真正的威胁行为者利用相同的漏洞。对于企业而言，结果是降低了安全风险并增加了对人工智能模型的信任，这些模型正迅速在许多关键业务系统中根深蒂固。

— 欢迎关注往期回顾 —

精彩回顾：祺印说信安2024之前

230个网络和数据安全相关法律法规规范文件打包下载

单位高层领导参与网络安全不应该只是口头说说

党委（党组）网络安全工作责任制实施办法

“两高一弱”专项下，谈合规下的弱口令

网络被黑？还看“两高一弱” ，原来是不履行网络安全义务惹的祸

>>>网络安全等级保护<<<

网络安全等级保护：等级保护工作、分级保护工作、密码管理工作三者之间的关系

1994-2024等级保护30年法律法规及政策发展历程概览

网络安全等级保护：等级保护的概念

网络安全等级保护：等级保护工作的内涵

网络安全等级保护：开展网络等级保护工作的流程

网络安全等级保护：贯彻落实网络安全等级保护制度的原则

网络安全等级保护：开展网络安全等级保护工作的法律依据

网络安全等级保护：开展网络安全等级保护工作的政策依据

网络安全等级保护：开展网络安全等级保护工作的标准依据

网络安全等级保护：等级保护工作从定级到备案

网络安全等级保护：网络总体安全规划很重要

网络安全等级保护：一定要做好网络安全运行与维护

网络安全等级保护：应急响应与保障是法定要求

网络安全等级保护：如何正确处理终止的等级保护对象

网络安全等级保护：政策与技术“七一”大合集100+篇

网络安全等级保护：安全管理机构

网络安全等级保护：网络安全事件分类分级思维导图

网络安全等级保护：明确测评双方的责任从了解测评过程指南开始（思维导图下载）

>>>关键信息基础设施安全保护<<<

关键信息基础设施安全保护要求思维导图

关键信息基础设施保护要求之分析识别与风险评估乱谈

关键信息基础设施保护要求之安全防护

网络安全框架CSF 2.0 核心与示例映射

>>>数据安全系列<<<

数据安全知识：什么是数据存储？

数据安全知识：什么是数据风险评估？

数据安全知识：如何逐步执行数据风险评估

数据安全知识：数据风险管理降低企业风险

数据安全知识：数据整理与数据清理

数据安全知识：什么是数据安全态势管理？

数据安全知识：数据库安全重要性

数据安全知识：数据库安全威胁

数据安全知识：不同类型的数据库

数据安全知识：数据库简史

数据安全知识：什么是数据出口？

数据安全知识：什么是数据治理模型？

>>>错与罚<<<

警惕风险突出的100个高危漏洞（上）

警惕风险突出的100个高危漏洞（下）

警惕“两高一弱”风险及安全防护提示（全集）

不履行网络安全保护义务是违法行为！多家单位被通报！

因侵犯公民个人信息罪深圳一人被判一年三个月售卖他人求职简历

公安部网安局：河南开展整治网络谣言专项行动查处造谣传谣3000余人

四川遂宁公安公布10起涉网违法犯罪典型案例

276人落网！河南新乡警方摧毁特大“网络水军”犯罪团伙

重拳出击严打涉网犯罪海淀警方守护网络清朗

网警@同学们暑期这些兼职不能做！

非法出售公民个人信息网站经营者被判三年有期徒刑

超范围采集公民信息，违法！鹤壁网警出手

一公司高管为泄愤攻击智慧停车收费系统，致上千家停车场无法自动抬杆

重庆某国企因网安责任人履职不到位被约谈

因违规收集使用个人信息等，人保寿险宁波分公司被罚32万，4名责任人同时被罚

回顾长沙市三个区网信开出首张罚单的不同时间和处罚单位类型

上海4人被判刑：5元掌握明星偶像行程？贩卖明星信息4人被判刑！

假期内，网络主播直播约架？郑州警方迅速控制，刑拘十人！网络空间不是法外之地！

网安局：拒不履行网络安全保护义务，处罚！事关备案！

网络水军团灭记：“转评赞”狂刷单上百人“网络水军”团伙落网

北京多家公司因不履行网络安全保护义务被处罚！“两高一弱”仍然是安全隐患重点

关于“近20台服务器“沦陷”，3.54亿条个人信息被盗”一点点浅析

>>>其他<<<

2023年10佳免费网络威胁情报来源和工具

网络安全知识：什么是访问控制列表 (ACL)？

网络安全知识：什么是访问管理？

网络安全知识：什么是访问矩阵？

网络安全知识：什么是账户收集？

网络安全知识：什么是工业控制系统 (ICS) 网络安全？

网络安全知识：什么是边界网关协议 (BGP)？

网络安全知识：什么是缓冲区溢出？

网络安全知识：网络安全中的EDR是什么？

网络安全知识：什么是Bind Shell？

网络安全知识：什么是引导扇区病毒？

网络安全知识：计算机网络中的桥接器

网络安全知识：什么是广播？

网络安全知识：什么是业务连续性计划？

网络安全知识：什么是基于证书的身份验证？

网络安全知识：什么是CIA三要素 (机密性、完整性、可用性)？

网络安全知识：什么是补丁管理？

网络安全知识：什么是跨站请求伪造？

网络安全知识：什么是基于域的消息认证、报告和一致性 (DMARC)？

网络安全知识：什么是拒绝服务（DoS）攻击？

网络安全知识：什么是端到端加密 (E2EE)？

将人类从网络安全中解放出来

人，是造成网络安全问题的根本原因

祺印说信安

学习网络安全、说网络安全；共同致力于网络安全、网络安全等级保护。

最新文章

《银行保险机构数据安全管理办法》

《银行保险机构数据安全管理办法》发布

国家金融监督管理总局有关司局负责人就《银行保险机构数据安全管理办法》答记者问

数据安全知识：什么是重复数据删除？

如何为软件开发团队实施有效的安全基准

MITM和社会工程学绕过WPA3网络密码

意大利因Open AI违规行为开出1.14亿元罚款

一图读懂《制造业企业数字化转型实施指南》

如何制定全面的数据清洁政策

2025年10款最佳Linux防火墙

工信部等三部门联合印发《制造业企业数字化转型实施指南》

红队如何暴露人工智能模型中的漏洞

网络产品服务提供者的合规不容忽视！浙江某软件科技公司被公安机关行政处罚

数据安全知识：什么是数据生命周期管理？

信息安全手册：数据传输指南

警惕！“银狐”木马病毒再次出现新变种并更新传播手法

苹果抱怨欧盟扩大iPhone技术访问权限引发隐私风险

重庆市网信办对一网络科技公司未履行网络数据安全保护义务罚款五万元

2024年综述：热门数据泄露事件和行业趋势

2025年10款最佳网站安全扫描器

一公司违反《网络安全法》被郑州惠济区委网信办约谈

乌克兰浣熊信息窃取者在美国被判入狱

网络安全框架CSF 2.0 核心与示例映射

2025年人工智能监管将变得严肃起来

NetWalker勒索软件关联人员在美被判处20年监禁

国外：一周网络安全态势回顾之第78期

BadBox感染19万台Android设备组成的僵尸网络

10 亿个密码将被“Passkey”取代

关键信息基础设施保护要求之安全防护

CISA指令要求联邦机构在2025年前实现云安全

黑客正在扫描RDP服务，尤其是端口1098以进行攻击

Apache Struts RCE 漏洞被公开 PoC 积极利用

男子因SQL注入被判处69个月监禁

关键信息基础设施保护要求之安全防护

信息安全手册：网关指南

从此江湖不“杀猪”，只有“爱情诱饵”

巨头安全也堪忧，思科数据泄露4.5TB数据，2.9GB样本流出

“杀猪盘”从此不“杀猪”，只有“爱情诱饵”

CISA发布国家网络事件响应计划(NCIRP)–2024年

黑客利用红队工具通过TOR和VPN发起RDP攻击窃取数据

关键信息基础设施保护要求之分析识别与风险评估乱谈

关键信息基础设施之分析识别与风险评估乱谈

人工智能的过去、现在和未来

国家中医药管理局关于印发《中医医院信息与数字化建设规范（2024版）》的通知

《中医医院信息与数字化建设规范（2024版）》解读

Facebook因数据泄露被罚款2.51亿欧元

关键信息基础设施安全保护要求思维导图

信息安全手册：密码学指南

Kali Linux 2024.4 发布，一探新版本

2025年做出明智的网络安全支出决策

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉