人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐｜NeurIPS 2024

科技 2024-11-16 13:12 北京

人大&港科大团队投稿
量子位 | 公众号 QbitAI

利用概念激活向量破解大模型的安全对齐，揭示LLM重要安全风险漏洞。

来自人大&港科大的研究人员提出安全概念激活向量（SCAV）框架，通过精确解读大模型的安全机制来指导攻击。

基于SCAV的攻击方法能够生成嵌入级和提示级的攻击，自动调整扰动参数，并显著提升了攻击成功率和响应质量。

在对七个开源大模型的评估中，基于关键词匹配标准的平均攻击成功率（ASR）为99.14%。同时，研究表明，基于SCAV生成的攻击提示具有跨模型迁移的潜力，可在GPT-4等黑盒API上取得成功。

提出SCAV框架

使用SCAV框架诱导攻击，首先需要训练SCAV分类器。

通过对恶意和安全指令嵌入的降维分析，研究者发现这两类指令在低维空间中呈现明显的分隔。因此，通过在模型的嵌入空间中定义一个“安全”与“恶意”的概念分离面，就能够识别出模型在不同输入上对“安全性”的反应。SCAV分类器的目标是在嵌入空间中建立一种简单的线性模型，将恶意指令和安全指令进行分离，以便在后续攻击中利用这一特性。

△图1：SCAV分类器的训练流程

SCAV框架可以诱导两种攻击层次——嵌入层（embedding-level）和提示层（prompt-level）。

△图2：SCAV诱导的嵌入层攻击

嵌入层攻击通过在模型的中间层嵌入空间中引入微小扰动来改变模型对输入的安全判断，从而绕过安全机制。具体来说，模型的每一层都可以用对应输出的嵌入训练SCAV分类器，分类器在该层的测试集准确率反映了模型在该层的安全机制的存在与强弱。研究发现，对于经过安全对齐的模型（例如LLaMA），其早期层通常具有较低的测试集准确率，而在中后期层通常具有逼近100%的测试集准确率；而对于未经过安全对齐的模型（例如Alpaca），其所有层的SCAV分类器测试集准确率通常在85%以下，行为与对齐模型呈现明显不同（如图3所示）。因此，嵌入层攻击将锚定那些测试集准确率大于阈值P1（设定P1=90%）的层。

△图3：不同模型各层的SCAV分类器测试集准确率变化

在模型处理一个恶意指令的前向传播过程中，利用SCAV分类器的参数在各层引入一个扰动，使得所在层的输出嵌入变为：

这个扰动的参数 ε 为大小，v 为方向，需要满足约束条件

这个约束条件的直观意义就是降低嵌入被模型确认为恶意指令的概率Pm到阈值P0（设定P0=0.01%）以下，从而逆转模型的安全概念认知，同时保证对模型尽量小的修改。由于这个优化问题有闭式解，因此不同于已有的基于优化的攻击手段，执行这种攻击是非常快速的。

在模型处理恶意指令的每一个新生成token的过程中，逐层应用这种扰动，就可以达到高效、高质量的攻击结果。

△图4：SCAV诱导的提示层攻击

提示层攻击则是通过修改输入提示词来进行攻击的一种手段。研究发现，现有的基于优化的攻击手段如AutoDAN等，其优化的目标往往不是模型的真实输出。而SCAV分类器正提供了模型对安全认知的精确描述，因此更适合用于优化目标。通过将AutoDAN的分层遗传优化算法的优化目标修改为基于SCAV分类器的函数：

提示层攻击能够达到比现有的基于优化的攻击手段更好的效果。值得注意的是，在开源模型上训练得到的攻击提示对于GPT-4的API也一样有效，具有相当的可迁移性。

实验和评价

研究评估了SCAV诱导的嵌入层攻击和提示层攻击与DeepInception、AutoDAN、GCG、RepE、JRE、Soft prompt等基线方法的攻击效果。恶意指令数据集为Advbench和StrongREJECT。

评价指标有两类：一是常用的基于关键词匹配计算出的攻击成功率（ASR-keyword），二是基于GPT-4进行评价的进阶指标，ASR-answer、ASR-useful和Language Flaws，分别从不同的角度考察模型回复的质量。

达到这一效果所需的数据总量则比基线方法少得多。

如图5所示，研究结果表明，受益于SCAV良好的建模与刻画安全机制的能力，仅需5对恶意-安全指令样本就可以达到100%的ASR-keyword。而在仅有一对数据时，基线方法几乎失去效果，但SCAV仍然保持了80%左右的ASR-keyword，并且在随机多次的实验中具有更小的方差。

图5：在使用不同训练数据数量时，SCAV和基线方法的ASR-keyword比较，显示方差

提示层级的攻击结果如表3、表4所示。

表3显示，SCAV方法始终表现最佳，相比于手动设计或优化攻击提示的基线方法，ASR相关的标准提高了12%到42%，Language Flaws最多减少了18%。这证明了优化目标的有效性，即同时提高攻击成功率并保持模型性能。

表4显示了将从LLaMA模型学习的提示应用于GPT-4的结果。SCAV方法通常表现更好，ASR相关标准最多提高48%，Language Flaws最多减少26%。这表明通过研究某些白盒模型的内部工作原理所学习的攻击提示可能仍然对其他黑盒API有用。

见解

基于SCAV的攻击过程，研究者们提出了如下见解。

见解一：当前开源和闭源的大模型均存在严重的安全风险。

表5显示了使用SCAV攻击7个知名开源大模型的结果。可以看到，除了一个模型外，所有大模型对超过85%的恶意指令都提供了相关答案（ASR-answer）。响应质量也很高，平均ASR-useful为87%，Language Flaws平均为12%。此外，在大多数情况下，ASR-keyword接近100%。这非常危险，因为最近发布的开源LLM的性能正在逐渐提高，并且几乎不需要成本就可以获得对任何恶意指令的响应，因为不需要对大模型进行微调或使用大量训练数据。

表6显示了使用各种SCAV攻击手段组合对GPT-4攻击的结果。即使是最先进的GPT-4对Advbench上的84%恶意指令返回有用的响应，并且对StrongREJECT上的 54% 恶意指令给出有用的响应。这表明，黑盒模型的对齐也可能通过使用现有攻击方法显著逆转。因此，迫切需要开发有效的方法来防御当前的攻击方法或停止开源高性能大模型。

见解二：遗忘学习等现有防御方法并不能抹消SCAV所揭示的安全漏洞。

现有的防御方法如遗忘学习等是否能有效帮助大语言模型忘记有害知识？通过对一个经过Eraser遗忘学习微调的LLaMA-2-7B-Chat版本应用SCAV攻击方法，表7显示，仍然可以诱导大模型产生许多有害响应，这表明现有的遗忘学习并不能抹消SCAV所揭示的安全漏洞。此外，研究者们还发现ICD、Self-Reminder等经典的防御方法对嵌入层攻击这种手段基本不适用，说明了SCAV安全漏洞的高危特性。

见解三：对大模型可区分安全和恶意嵌入这一漏洞的认识

图6：通过 (a) 攻击单层；(b) 攻击多层，以及 (c) 将嵌入级攻击转移到其他白盒大模型，揭示大模型的安全机制

线性可分性与大模型的安全机制之间可能存在密切关系。

之前的实验表明，对齐的模型可以在中晚期层线性分离来自恶意和安全指令的嵌入（图1），并且由线性分类器引导的攻击成功率很高，这表明大模型的安全机制可能很好地被线性可分性建模。为了更好地理解它们之间的关系，进一步攻击了LLaMA-2-7B-Chat的第0、第10、第20和第30层。如图6a所示，对线性可分层（第10、20、30层）的攻击始终导致ASR-keyword的增加，而对其他层（第0层）的攻击则没有改善ASR-keyword。基于这些结果，研究者推测，对于每一层，线性可分性不仅可能表明大模型理解安全概念，还可能意味着大模型将在后续层中使用这一安全概念来生成响应。

不同的层可能从相关但不同的角度建模安全机制。

图6b显示了在攻击LLaMA-2-7B-Chat的不同层时Pm的值，有两个现象。首先，攻击单一层（第10层）会导致当前层的Pm较低，但随后在后续层中Pm会增加。这意味着后面的层以某种方式逐渐通过利用嵌入的现有信息来纠正攻击，可能是因为模型从不同的角度建模安全机制。其次，当更多层被扰动（例如，第10层到第13层）时，后续层的Pm不再能够被模型纠正。这表明某一些层可能共同决定了从不同角度的整体安全机制。

不同的白盒大模型可能在其安全机制上存在一些共性。

图6c展示了在将嵌入级攻击从一个白盒模型应用到另一个模型时的ASR-keyword。可以看到，ASR-keyword有时相当大（接近100%）。这表明大模型的安全机制可能具有某种共性，并且SCAV在某种意义上可能已经表征了这种共性。然而，关于何时可以转移以及为什么会转移，仍然缺乏清晰的解释。

结论

在本研究中，研究者们提出了一种基于安全概念激活向量（SCAV）的框架，以揭示大语言模型在安全对齐方面的潜在漏洞。通过在模型的嵌入空间中定义“安全”与“恶意”指令的分离面，SCAV框架能够在嵌入层和提示层引导两种攻击方式，显著提升了对模型安全机制的攻击成功率和攻击迁移性。

实验表明，SCAV方法在更少样本下比基线方法更有效，且减少了生成内容的缺陷。研究指出，大模型在嵌入空间的线性可分性是其安全机制的薄弱点，现有防御方法难以完全阻止SCAV攻击，强调了开发更强安全防护的紧迫性。

目前相关论文和代码已公开，感兴趣可以进一步了解。

论文链接：
https://arxiv.org/pdf/2404.12038
代码仓库：
https://github.com/SproutNan/AI-Safety_SCAV

— 完 —

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247758574&idx=3&sn=9a74710339ac277a3030695a7299ef60

量子位

追踪人工智能新趋势，关注科技行业新突破

最新文章

“清华AI医院”上线！首批42位AI医生亮相，诊断覆盖300余种疾病

国产4o大模型，秒懂国风李子柒

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

定档12月11日，MEET2025智能未来大会报名通道已开启！

刚刚，星舰第六次试验成功！猛禽发动机实现“太空重启”，降落过程大秀身姿

2499，AI浓度爆表！戴上这副眼镜，一句话点咖啡/实时翻译/AR导航全搞定

特斯联首款通用智能体发布，实现对物理世界的高维感知

港科大具身机器人团队，连续获亿级融资

ChatGPT付费功能免费用！Mistral把Canvas、Artifact全复制了

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

定档12月11日，MEET2025智能未来大会报名通道已开启！

腾讯AI大牛，被曝投身视频生成创业

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

如祺出行跑进智驾深水区 “数据闭环”为技术迭代提供更优解

智能交互创新赛落幕，哈工大AI智能背诵助手拿下特等奖｜OPPO智能体平台

AI能办专属信用卡了，Agent自己赚钱自己花，OpenAI合作伙伴打造

AI一键解析九大生物医学成像模式，用户只需文字prompt交互，微软UW等新研究登Nature Methods

定档12月11日，MEET2025智能未来大会报名通道已开启！

ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

打破纪录！中国科学家让薛定谔的猫活了23分钟

视频大模型无损提速：删除多余token，训练时间减少30%，帧率越高效果越好 | NeurIPS

实测腾讯元宝2.0：图文视频啥都能搜，论文绘画全搞定

杨植麟发布Kimi新模型：数学对标o1，中考高考考研成绩全第一

航展附近这场无人机编队表演，竟用了钉钉AI助理出的方案

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了，SU哈佛亚马逊最新研究引热议

不做Sora背后：百度的多模态路线是什么？

马斯克新官上任再起诉OpenAI！新证据称Ilya七年前就不放心奥特曼了

人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐｜NeurIPS 2024

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

ChatGPT深夜更新：Mac版支持“读屏编程”，Windows版全员可用了

AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

最后1天！2024人工智能年度评选，AI时代的行业先锋就等你来

大模型上了火山方舟：数据唯你可见，唯你所用，唯你所有

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

Meta最新触觉机械手登Science子刊封面，操作未知物体精度最高提升94%

大模型“取长补短”新思路入选NeurIPS'24，显著优于现有路由方法，南科大港科大出品

最后2天！2024人工智能年度评选，AI时代的行业先锋就等你来

把Runway、Luma们一锅端了！这款视频模型上“杀手级”功能：一致性魔咒终于打破

Keras之父，离职谷歌

百度打通两大国民产品！六边形AI创作新物种「自由画布」来了

小度为何押注AI眼镜？

今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

稚晖君后宇树也来玩开源了：机器人操作数据集，采用抱抱脸LeRobot训练测试，网友：泰裤辣！

最后3天！2024人工智能年度评选，AI时代的行业先锋就等你来

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐｜NeurIPS 2024

人大&港科大团队 投稿量子位 | 公众号 QbitAI

提出SCAV框架

实验和评价

见解

结论

人大&港科大团队投稿
量子位 | 公众号 QbitAI