本文介绍来自哈尔滨工业大学SCIR实验室的最新科研成果 - MoGU。这是首篇利用Mix-of-Experts(MoE)思想增强模型安全性的工作。该框架在训练中只使用了600条指令(训练中不包含任何攻击模板),并在评估中展现出面对各种红队攻击以及越狱攻击良好的防御能力。此外,MoGU解决了现有防御策略在模型“可用”和“安全”之间跷跷板的问题,能够做到增强模型安全性并保持其可用性。
论文题目:
MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability
论文链接:
https://arxiv.org/pdf/2405.14488
代码链接:
https://github.com/DYR1/MoGU
本文第一作者在安全方面的近期工作:
迈向安全的微调:Towards Secure Tuning: Mitigating Security Risks Arising from Benign Instruction Fine-Tuninghttps://arxiv.org/pdf/2410.04524
越狱攻击方法:Analyzing the inherent response tendency of llms: Real-world instructions-driven jailbreakhttps://arxiv.org/pdf/2312.04127
一、动机
尽管与人类价值观对齐(RLHF)的模型展现出强大的防御能力,但随着越狱攻击的出现,RLHF后的模型仍然可以被轻易地诱导产生有害内容。为了进一步加强模型的安全性,很多工作开发防御策略,如通过检测输入/输出、安全上下文提示、重构解码空间等,但我们注意到当前的防御策略通常导致模型整体倾向于产生拒绝立场,从而导致模型会拒绝回答许多良性指令,损害其可用性。因此,一个关键的挑战是:如何保证模型可用性的同时改善其安全性?
为了解决这一问题,我们的工作提出了Mixing of Glad and Unwiliing responders(MoGU)框架。该框架首先采用参数有效微调技术LoRA,将基础LLM转换为两种不同的状态:高兴响应者(Gladresp)和不愿意响应者(Unwillresp)。Gladresp,作为一个极其可用的LLM,被训练成对任何指令产生积极的反应。相反,Unwillresp作为一个极其安全的LLM,被训练得非常谨慎,拒绝任何指令。
核心思想
二、方法
整体框架图
训练数据准备
训练阶段
随后,受对比学习的启发,我们引入了负样本训练两个极端的状态。对于Gladresp,我们需要确保它不会对任何恶意指令产生拒绝响应。对于Unwillresp,我们需要确保它不会对任何良性指令产生积极反应。因此,我们将数据(Xm,Yr)和(Xb,Yg)分别作为训练Gladresp和Unwillresp的负样本。Gladresp的损失函数可表示为:
而Unwillresp的损失函数可表示为:
推理阶段
三、实验
3.1 实验设置
评估数据 在我们的评估中,我们评估法学LLM的安全性和可用性。在安全评估方面,我们一方面进行了红队评估。我们使用Advbench,它包含520条恶意指令,其中300条用于训练,其余220条用于测试。此外,我们从Just-Eval收集了200条恶意指令(标记为“Malicious”)。另一方面,我们针对各种越狱攻击进行了安全评估。我们使用了AutoDAN、GCG、PAIR、SAP30和Compobj。对于可用性评估,我们使用了来自Just-Eval的800条良性指令来评估法学硕士解决问题的能力。
评估指标 对于评估指标,我们使用GPT-4评分和基于规则的评估。为了评估LLM的安全性,我们采用了GPT-Judge,该方法对反应的危害性进行了从1到5的评分,其中1代表无害,5表示极度有害。此外,我们确定了可以代表无害响应的目标(T),并基于这些目标计算攻击成功率(ASR),ASR量化了响应偏离我们确定的目标的概率。为了评估LLM的可用性,与Just-Eval一致,我们利用GPT-4从五个维度来评估回应(GPT-Eval):有用性、清晰度、真实性、深度和参与度。每个回答的得分从1到5分,得分越高表示质量越好。此外,我们编制了一份常见拒绝表达的列表,并监测它们在法学硕士回应中的频率(基于规则的评估),以评估法学硕士采取拒绝立场的程度。
基线 我们选择了七种先进的防御策略作为基准。SFT策略使用高质量的数据来训练法学硕士,从而使法学硕士与人类价值观保持一致。Detectinp 训练了一个基于BERT的二元分类器来区分良性和恶意指令。SelfExamination 策略让LLM自我评估反应是否有害。如果通过检测和自检检测到有风险的内容,则回复“对不起,我无法回答您的问题”。Retokenization策略通过改变输入来巧妙地改变含义来对抗各种越狱攻击。Self-Reminder策略始终提示LLM在整个输入过程中保持安全意识。ICD策略将安全情境演示集成到提示中。SafeDecoding策略增加了解码阶段拒绝令牌的可能性。基于我们构建的数据,我们在LoRA框架内实现了SFT,并遵循先前工作中的开源代码来复制其他基线。
3.2 实验结果
3.2.1 主实验
红队攻击评估
越狱攻击评估
可用性评估
MoGU保持强大的防御性能。 如上述两张表所示,我们的MoGU框架在红队评估中稳定地增强了各种LLM的安全性。值得注意的是,我们的训练数据仅包含原始红队恶意指令,并明确排除任何带有越狱攻击提示的对抗性样本。尽管如此,我们的MoGU框架仍然对各种越狱攻击保持强大的防御性能。整体上看,在不同的模型上,MoGU的防御性能可以稳定地排在前三。
现有的防御策略提高了LLM的安全性,但往往损害了它们的可用性。 例如,我们注意到ICD策略显著提高了Llama27B对各种越狱攻击的防御能力。然而,采用ICD策略后,Llama27B对良性指令的拒绝率从14.00%飙升至92.25%,其响应可用性得分从3.87大幅下降至2.17。类似地,SafeDecoding策略有效地保护Vicuna7B免受越狱攻击。然而,它导致拒绝反应从3.63%大幅增加到39.50%,反应可用性得分从3.89下降到2.29。这些现象表明,现有的防御策略往往导致法学硕士采取拒绝导向的立场,从而降低了它们的可用性。
MoGU可以提高llm的安全性,同时保持其可用性。 MoGU在各种LLM中表现出强大的防御性能。重要的是,它还保持了对良性指令做出高质量反应的能力。在可用性评估中,应用MoGU框架后,LLM对良性指令反应的可用性评分与基础LLM几乎持平,且拒绝表达的频率几乎相同。这些现象验证了MoGU框架相对于其他防御策略的优越性。
3.2.2 分析实验
权重分配统计
3.3.3 消融实验
消融实验
四、总结与展望
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。