NeurIPS 2024 | MoGU:用于增强模型安全性并保持其可用性的框架

创业   2024-10-29 08:22   北京  

本文介绍来自哈尔滨工业大学SCIR实验室的最新科研成果 - MoGU。这是首篇利用Mix-of-Experts(MoE)思想增强模型安全性的工作。该框架在训练中只使用了600条指令(训练中不包含任何攻击模板),并在评估中展现出面对各种红队攻击以及越狱攻击良好的防御能力。此外,MoGU解决了现有防御策略在模型“可用”和“安全”之间跷跷板的问题,能够做到增强模型安全性并保持其可用性。

论文题目:

MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability

论文链接:

https://arxiv.org/pdf/2405.14488

代码链接:

https://github.com/DYR1/MoGU

本文第一作者在安全方面的近期工作:

  • 迈向安全的微调:Towards Secure Tuning: Mitigating Security Risks Arising from Benign Instruction Fine-Tuninghttps://arxiv.org/pdf/2410.04524

  • 越狱攻击方法:Analyzing the inherent response tendency of llms: Real-world instructions-driven jailbreakhttps://arxiv.org/pdf/2312.04127

一、动机

尽管与人类价值观对齐(RLHF)的模型展现出强大的防御能力,但随着越狱攻击的出现,RLHF后的模型仍然可以被轻易地诱导产生有害内容。为了进一步加强模型的安全性,很多工作开发防御策略,如通过检测输入/输出、安全上下文提示、重构解码空间等,但我们注意到当前的防御策略通常导致模型整体倾向于产生拒绝立场,从而导致模型会拒绝回答许多良性指令,损害其可用性。因此,一个关键的挑战是:如何保证模型可用性的同时改善其安全性?

为了解决这一问题,我们的工作提出了Mixing of Glad and Unwiliing responders(MoGU)框架。该框架首先采用参数有效微调技术LoRA,将基础LLM转换为两种不同的状态:高兴响应者(Gladresp)和不愿意响应者(Unwillresp)。Gladresp,作为一个极其可用的LLM,被训练成对任何指令产生积极的反应。相反,Unwillresp作为一个极其安全的LLM,被训练得非常谨慎,拒绝任何指令。

MoGU的核心组件是一个动态路由器,作为一个安全感知器,嵌入在应用LoRA的每一层。该路由器被训练成根据输入向量动态平衡Gladresp和Unwillresp的贡献,有效地混合它们的输出向量。如下图所示,当面对恶意指令时,路由器会给Unwillresp分配更高的权重,以确保安全的拒绝响应。相反,面对良性指令时,路由器将更多的权重转移到Gladresp上,促进有用的回应。

核心思想

二、方法

我们的MoGU的总体框架如下图所示。我们从三个方面介绍了我们的框架:训练数据准备、训练阶段和推理阶段。

整体框架图

训练数据准备

对于我们的训练数据,我们只收集了600条指令,其中包括来自Alpaca的300条良性指令和来自Advbench的300条恶意指令。如图所示,对于每个指令,我们都构建了一个积极响应和一个拒绝响应。我们将良性指令标记为Xb,恶意指令标记为Xm,高兴响应标记为Yg,拒绝响应标记为Yr。因此,我们的训练数据集包含四种类型的数据对(Xb,Yg),(Xb,Yr),(Xm,Yg)和(Xm,Yr)。数据的具体构建可参考论文。

训练阶段

在训练阶段,我们最初使用LoRA框架训练Gladresp和Unwillresp。随后,所有其参数被冻结,我们训练引入的路由器。LoRA框架只更新目标权重矩阵中添加的低秩分解矩阵。如图所示,目标权重矩阵通常包括Q、K、V、O和FFN。在我们的研究中,我们将O作为目标权重矩阵进行探索。
训练Gladresp和Unwillresp Gladresp的目标是将基本LLM校准为极度可用的LLM,可以对任何指令产生积极响应。一个极端的例子是,即使是恶意的指令,Gladresp也能产生积极的反应。因此,我们使用数据(Xm,Yg)来训练基础LLM,损失函数可以表示为:

类似地,Unwillresp的目标是将基础LLM校准为可以拒绝任何指令的极其安全的LLM。极端的情况是,甚至会拒绝任何良性指令。因此,我们使用数据(Xb,Yr)来训练基LLM,损失函数可以表示为

随后,受对比学习的启发,我们引入了负样本训练两个极端的状态。对于Gladresp,我们需要确保它不会对任何恶意指令产生拒绝响应。对于Unwillresp,我们需要确保它不会对任何良性指令产生积极反应。因此,我们将数据(Xm,Yr)和(Xb,Yg)分别作为训练Gladresp和Unwillresp的负样本。Gladresp的损失函数可表示为:

而Unwillresp的损失函数可表示为:

路由器的设计与训练 路由器包括两个线性网络,分别表示为Rglad和Runwill,它们都具有相同的结构配置。每个线性网络R都包含一个低秩分解矩阵,然后是一个全连接层。我们假设对于第i个投影层O,输入向量表示为h(i)。线性网络R的作用可表示为:

将Rglad和Runwill分别提供的权重wglad和wunwill分配给Gladresp和Unwillresp,以混合它们的输出向量。如图所示,Gladresp的第i个O层的输出向量可以表示为
而Unwillresp的第i个O层的输出向量可以表示为:

那么,Gladresp和Unwillresp输出向量的混合可以表示为:

在路由器的训练过程中,其他参数都被冻结,只更新路由器的参数。路由器的主要目标是引导LLM对各种指令产生适当的响应。具体来说,路由器应该促进对良性指令的积极响应和对恶意指令的拒绝响应。为了实现这一点,我们使用(Xb,Yg)和(Xm,Yr)作为训练数据。损失函数可表示为:

此外,路由器还配备了更细粒度的目标:它会根据指令的类型分配权重。具体来说,对于良性指令,Gladresp将被赋予更高的权重,对于恶意指令,Unwillresp将被赋予更高的权重。为了加强这种行为,我们使用L1规范来调节路由器分配的权重wglad和wunwill的优化,确保分配模式符合我们的期望。损失函数可表示为:

最后,整体损失函数可表示为:

推理阶段

最近研究表明,初始响应令牌对于确保整个响应的无害性至关重要。如果最初的反应符号表达了拒绝,那么这种反应更有可能是无害的。鉴于这些发现,并考虑到我们的附加参数延长了推理时间,如图所示,我们只使用MoGU解码前m个令牌,后续的令牌由基本LLM解码,以保持解码的效率和质量

三、实验

3.1 实验设置

评估数据 在我们的评估中,我们评估法学LLM的安全性和可用性。在安全评估方面,我们一方面进行了红队评估。我们使用Advbench,它包含520条恶意指令,其中300条用于训练,其余220条用于测试。此外,我们从Just-Eval收集了200条恶意指令(标记为“Malicious”)。另一方面,我们针对各种越狱攻击进行了安全评估。我们使用了AutoDAN、GCG、PAIR、SAP30和Compobj。对于可用性评估,我们使用了来自Just-Eval的800条良性指令来评估法学硕士解决问题的能力。

评估指标 对于评估指标,我们使用GPT-4评分和基于规则的评估。为了评估LLM的安全性,我们采用了GPT-Judge,该方法对反应的危害性进行了从1到5的评分,其中1代表无害,5表示极度有害。此外,我们确定了可以代表无害响应的目标(T),并基于这些目标计算攻击成功率(ASR),ASR量化了响应偏离我们确定的目标的概率。为了评估LLM的可用性,与Just-Eval一致,我们利用GPT-4从五个维度来评估回应(GPT-Eval):有用性、清晰度、真实性、深度和参与度。每个回答的得分从1到5分,得分越高表示质量越好。此外,我们编制了一份常见拒绝表达的列表,并监测它们在法学硕士回应中的频率(基于规则的评估),以评估法学硕士采取拒绝立场的程度。

基线 我们选择了七种先进的防御策略作为基准。SFT策略使用高质量的数据来训练法学硕士,从而使法学硕士与人类价值观保持一致。Detectinp 训练了一个基于BERT的二元分类器来区分良性和恶意指令。SelfExamination 策略让LLM自我评估反应是否有害。如果通过检测和自检检测到有风险的内容,则回复“对不起,我无法回答您的问题”。Retokenization策略通过改变输入来巧妙地改变含义来对抗各种越狱攻击。Self-Reminder策略始终提示LLM在整个输入过程中保持安全意识。ICD策略将安全情境演示集成到提示中。SafeDecoding策略增加了解码阶段拒绝令牌的可能性。基于我们构建的数据,我们在LoRA框架内实现了SFT,并遵循先前工作中的开源代码来复制其他基线。

3.2 实验结果

3.2.1 主实验

红队攻击评估

越狱攻击评估

可用性评估

MoGU保持强大的防御性能 如上述两张表所示,我们的MoGU框架在红队评估中稳定地增强了各种LLM的安全性。值得注意的是,我们的训练数据仅包含原始红队恶意指令,并明确排除任何带有越狱攻击提示的对抗性样本。尽管如此,我们的MoGU框架仍然对各种越狱攻击保持强大的防御性能。整体上看,在不同的模型上,MoGU的防御性能可以稳定地排在前三。

现有的防御策略提高了LLM的安全性,但往往损害了它们的可用性 例如,我们注意到ICD策略显著提高了Llama27B对各种越狱攻击的防御能力。然而,采用ICD策略后,Llama27B对良性指令的拒绝率从14.00%飙升至92.25%,其响应可用性得分从3.87大幅下降至2.17。类似地,SafeDecoding策略有效地保护Vicuna7B免受越狱攻击。然而,它导致拒绝反应从3.63%大幅增加到39.50%,反应可用性得分从3.89下降到2.29。这些现象表明,现有的防御策略往往导致法学硕士采取拒绝导向的立场,从而降低了它们的可用性

MoGU可以提高llm的安全性,同时保持其可用性 MoGU在各种LLM中表现出强大的防御性能。重要的是,它还保持了对良性指令做出高质量反应的能力。在可用性评估中,应用MoGU框架后,LLM对良性指令反应的可用性评分与基础LLM几乎持平,且拒绝表达的频率几乎相同。这些现象验证了MoGU框架相对于其他防御策略的优越性。

3.2.2 分析实验

权重分配统计
为了研究路由器的作用,我们分析了路由器在Llama27B、Vicuna7B和Falcon7B上分配的权重分布。我们收集了350条带有各种越狱攻击提示的恶意指令和800条来自Just-Eval的良性指令。在处理每条指令时,计算加权wunwill和wglad的平均值。上图给出了描述Vicuna7B统计结果的箱线图。值得注意的是,在越狱攻击期间,路由器分配了更高的权重给Unwillresp,而对于良性,它倾向于给Gladresp分配更高的权重。这种分配模式完全符合我们对路由器功能的期望。在Llama27B和Falcon7B上也观察到了相同的模式,详情可见论文。

3.3.3 消融实验

消融实验
在训练过程中,我们引入了负样本训练Gladresp和Unwillresp,并且引入L1范数约束Router分配的权重。我们指导了消融实验,验证了两个策略的有效性。其中,L1范数约束起到了更重要的贡献。

四、总结与展望

在这项工作中,作者提出了MoGU框架,解决了现有防御策略在“安全”和“可用”之间存在的跷跷板现象,并且能够在面对各种攻击时展现出良好的防御能力。其核心思想是,通过引入路感知输入的安全特征,为两种极端的情绪分配权重以融合两者的向量表示。作者在文中指导了全面的评估,以及详细的分析和消融实验来验证MoGU的优越性,希望这类框架可以在各个模型上进行部署,助力大模型安全。

llustration From IconScout By IconScout Store

-The End-

扫码观看

本周上新!


“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //


投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励


投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。


关于我“

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
bp@thejiangmen.com

    


点击右上角,把文章分享到朋友圈
点击“阅读原文”按钮,查看社区原文

将门创投
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器,由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
 最新文章