NeurIPS 2024 | 如何防御对抗性提示攻击？AdvUnlearn让图片生成风险骤降

学术 2024-11-07 17:03 北京

来源：机器之心
本文约4200字，建议阅读10分钟
本文介绍了如何防御对抗性提示攻击。‍

本文第一作者为密歇根州立大学计算机系博士生张益萌，为 OPTML 实验室成员，指导教师为刘思佳助理教授。OPtimization and Trustworthy Machine Learning (OPTML) 实验室的研究兴趣涵盖机器学习 / 深度学习、优化、计算机视觉、安全、信号处理和数据科学领域，重点是开发学习算法和理论，以及鲁棒且可解释的人工智能。

扩散模型（Diffusion Models, DMs）已经成为文本到图像生成领域的核心技术之一。凭借其卓越的性能，这些模型可以生成高质量的图像，广泛应用于各类创作场景，如艺术设计、广告生成等。然而，随着扩散模型的日益普及，其带来的安全问题也逐渐显现。模型在处理开放式互联网数据时，可能会在生成过程中输出有害的、不适当的内容，例如裸露、暴力、侵犯版权的图像等，这为其实际应用带来了道德和法律上的挑战。

为应对这些问题，研究者提出了机器遗忘（Machine Unlearning）技术，也称为概念擦除（Concept Erasing）[1-3]。通过这一技术，我们能够有选择性地 “抹去” 扩散模型中的某些不应生成的概念。然而，尽管这一技术能够在非对抗性环境中取得一定效果，现有的概念擦除方法在面对对抗性提示攻击（Adversarial Prompt Attacks）时仍然存在明显的脆弱性。攻击者可以通过对输入提示的微小修改，诱导模型生成本应被擦除的内容，这使得现有的概念擦除技术不够鲁棒。

对抗性提示攻击：机器遗忘中的隐患

对抗性提示攻击的关键在于通过改变文本输入提示的细微细节，诱使模型生成不当的内容。这类攻击可能会通过调整拼写、加入特定符号、或是改变句子结构来规避模型的防护。例如，即便模型已经接受了擦除 “裸露” 相关内容的训练，但通过输入一些巧妙设计的提示词，攻击者依然可能让模型重新生成被擦除的图像。这种攻击的成功率显示了现有擦除技术在对抗恶意输入时的薄弱性。

为了解决这一问题，我们提出了 AdvUnlearn 框架。这是一个将对抗性训练（Adversarial Training, AT）与概念擦除相结合的框架，旨在提升扩散模型在概念擦除任务中的鲁棒性，防止模型在面对对抗性攻击时再次生成被遗忘的内容。

论文题目：Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models
论文地址：https://arxiv.org/abs/2405.15234
代码地址：https://github.com/OPTML-Group/AdvUnlearn
Unlearned Diffusion Model Benchmark: https://huggingface.co/spaces/Intel/UnlearnDiffAtk-Benchmark
‍

AdvUnlearn 框架：对抗性训练与概念擦除的融合

AdvUnlearn 框架的独特之处在于，它系统性地结合了对抗性训练与概念擦除方法，从而提升模型在对抗恶意输入时的安全性和鲁棒性。传统的对抗性训练主要应用于图像分类任务，而 AdvUnlearn 首次将其引入到扩散模型的概念擦除中。通过双层优化策略，AdvUnlearn 能够在增强模型鲁棒性的同时保持其图像生成质量。

双层优化（Bi-level Optimization）：AdvUnlearn 框架的优化分为两个主要层次：

下层优化（Lower-level Optimization）：这一层的任务是生成对抗性提示，即通过对输入文本提示的细微扰动，生成能够诱使模型生成本应被擦除的内容的提示。这个过程的目标是找到这些对抗性提示，使得模型在面对这些提示时生成不合规内容。
上层优化（Upper-level Optimization）：这一层的任务是通过最小化模型对目标概念的响应来强化模型的鲁棒性，同时确保模型生成质量不受影响。我们通过更新模型参数 θ，优化概念擦除的效果，同时保留模型的正常生成能力。

其中为目标遗忘内容，为遗忘目标函数，为生成攻击的目标函数。

保留效用的正则化（Utility-Retaining Regularization）

一个重大挑战是，直接引入对抗性训练可能会导致图像生成质量下降。这是因为模型在面对对抗性提示时，往往会过于专注于抵御不当输入，而忽视了对其他正常内容的生成能力。为此，我们提出了保留效用的正则化方法。

该方法的核心思想是引入一个 “保留集” （），这是一组与目标概念无关的文本提示。这些提示用于确保模型在训练过程中保留其生成正常内容的能力。例如，在处理 “裸露” 相关概念时，保留集中的提示可能涉及描述风景、动物、建筑等非敏感内容。

保留集的选择尤为重要。我们用 COCO 和 ImageNet 等数据集中的非敏感的物体类别制作成文本提示作为保留集，并通过大模型进行筛选，确保保留集中的提示与待擦除概念无关。这些提示集通过以下正则化项加入优化目标：

其中为未经过机器遗忘的初始模型参数。通过该机制，AdvUnlearn 框架能够有效解决对抗性训练带来的质量下降问题，确保生成图像的多样性和精度。

最佳优化模块的选择（Modularity Exploriation）: 文本编码器 vs. UNet

扩散模型通常由多个核心模块组成，其中文本编码器（Text Encoder）和 UNet 是两个主要组件。UNet 通常用于处理图像的逐步去噪过程，而文本编码器则将文本提示转换为适合生成图像的表示。

在传统的概念擦除方法中，UNet 被视为模型生成图像的核心，因此大多数现有技术都集中在 UNet 上进行优化。然而，在我们的研究中，我们发现文本编码器在应对对抗性提示攻击时表现更佳。文本编码器在处理输入提示的过程中，负责将文本信息转化为图像生成的关键特征。因此，对文本编码器进行优化，可以更好地控制模型对输入中细微变化的反应，从而提升模型在面对恶意输入时的鲁棒性。

具体来说，我们发现，优化文本编码器能够显著降低对抗性攻击的成功率，同时保留生成高质量图像的能力。此外，经过对抗性训练优化的文本编码器可以作为一个 “即插即用” 的模块，适用于不同类型的扩散模型，从而提高了框架的扩展性和通用性。

实证结果：AdvUnlearn 在多个任务中的表现

为了验证 AdvUnlearn 框架的有效性，我们进行了广泛的实验证明。实验涵盖了多个概念擦除任务，包括裸露概念擦除、艺术风格擦除和对象擦除。UnlearnDiffAtk [4] 作为默认的对抗性提示攻击来检查遗忘模型的鲁棒性。

裸露概念擦除

在处理敏感的 “裸露” 概念时，AdvUnlearn 展现了卓越的性能。相比传统的概念擦除方法，AdvUnlearn 显著降低了对抗性提示攻击的成功率（ASR）。例如，在常见的对抗性提示攻击场景下，ASR 从原始模型的 100% 下降至 21.13%，表明模型能够有效抵御恶意输入。同时，通过引入保留集，模型在生成无关内容（如风景或物体图像）时保持了高质量，FID 仅比标准模型略微上升。

艺术风格擦除

我们还对 “梵高风格” 的擦除进行了实验。在这一任务中，AdvUnlearn 同样表现出了优异的性能。经过对抗性训练后的模型，能够有效抵御对抗性提示攻击，成功率降至 2%。相比之下，未经优化的模型在攻击下几乎无法抵御，生成的图像仍保留了梵高的风格。此外，AdvUnlearn 在这一任务中成功保持了高质量的图像生成能力。

对象概念擦除

在对象擦除任务中，我们对 “教堂” 这一具体对象进行了擦除实验。AdvUnlearn 不仅能够有效抹去生成 “教堂” 图像的能力，还能在对抗性提示攻击下维持图像生成的质量。与其他擦除方法相比，AdvUnlearn 框架能够在保证生成质量的前提下，显著提升鲁棒性，使得模型在面对恶意输入时更加可靠。

总结与展望

AdvUnlearn 框架是首个结合对抗性训练和概念擦除技术的系统性方法，旨在提升扩散模型在概念擦除任务中的鲁棒性。通过对文本编码器进行优化，以及引入保留效用的正则化机制，AdvUnlearn 成功平衡了鲁棒性和模型效用。我们的实验结果显示，AdvUnlearn 能够在多种场景下有效抵御对抗性提示攻击，并保持高质量的图像生成。

随着生成式 AI 的应用范围不断扩大，如何确保模型的安全性和可靠性成为一个关键问题。AdvUnlearn 框架为解决这一问题提供了新的路径，并为未来的生成模型技术提供了重要的参考。如果你想深入了解 AdvUnlearn 框架的技术细节或实验结果，欢迎访问 GitHub 项目页面（https://github.com/OPTML-Group/AdvUnlearn）。

[1] Gandikota R, Materzynska J, Fiotto-Kaufman J, et al. Erasing concepts from diffusion models

[2] Zhang Y, Fan C, Zhang Y, Yao Y, et al. Unlearncanvas: A stylized image dataset to benchmark machine unlearning for diffusion models, NeurIPS 2024.

[3] Fan C, Liu J, Zhang Y, et al. Salun: Empowering machine unlearning via gradient-based weight saliency in both image classification and generation, ICLR 2024.

[4] Zhang Y, Jia J, Chen X, et al. To generate or not? safety-driven unlearned diffusion models are still easy to generate unsafe images... for now, ECCV 2024.

编辑：王菁

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247647939&idx=1&sn=7a51076244ec5fdf785d06e214079aee

数据派THU

清华大数据研究中心官方平台，发布团队科研、教学等最新动态及大数据领域的相关信息~

最新文章

RAPTOR：多模型融合+层次结构 = 检索性能提升20%，结果还更稳健

活动预告 | 首届北京数字人才发展大会

【伯克利博士论文】从自然场景视频中解耦人体运动和相机运动

LLM4Rec最新重磅工作：字节跳动序列推荐分层大模型HLLM

Salesforce 推出 Moirai-MoE，新视角设计下一代时序基础模型

【NUS博士论文】视频语义理解中的因果模型

清华软件论坛|C. Mohan:Data Management Implications of Intelligent Comp

征文延期至11月22日通知 | 首届开源技术学术大会征稿启事

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

随机性、熵与随机数生成器:解析伪随机数生成器（PRNG）和真随机数生成器（TRNG）

【CIKM2024教程】高效的时间图学习：算法、框架与工具

报名 | 大数据产业论坛第1期——汽车行业专场

通知 | 首届开源技术学术大会征稿启事

NeurIPS 2024｜解锁大模型知识记忆编辑的新路径，浙大用「WISE」对抗幻觉

深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究

【CIKM2024教程】大语言模型在表格任务中的应用

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

【ETHZ博士论文】用于视觉场景理解的领域鲁棒网络架构与训练策略

成都八零大赛圆满收官，清华大学参赛团队获“领先者”奖

原创｜制造新篇：重塑大语言模型在制造领域的力量

基于图论的时间序列数据平稳性与连通性分析：利用图形、数学和 Python 揭示时间序列数据中的隐藏模式

【NeurIPS2024】轨迹流匹配及其在临床时间序列建模中的应用

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

PeFAD：边缘设备中高效的联邦异常检测框架

【NeurIPS2024】Frozen-DETR：利用冻结基础模型的图像理解能力提升DETR

数据派志愿者招募 | 寻找最志同道合的你！

链接数据：如何使用知识图谱改进RAG

过采样与欠采样技术原理图解：基于二维数据的常见方法效果对比

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

NeurIPS 2024 | 如何防御对抗性提示攻击？AdvUnlearn让图片生成风险骤降

TimeDART：基于扩散自回归Transformer 的自监督时间序列预测方法

【NeurIPS2024】从因果角度重新思考视觉-语言模型适应中的失配问题

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

图结构赋能语言模型：华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

AGENTiGraph：一个交互式知识图谱平台驱动的基于私有数据多智能体系统 - 东京&耶鲁大学等最新研究

干货 | 清华Python编程入门分享会第三期

【牛津大学博士论文】使用图神经网络进行知识图谱的深度学习

直播预告 | Al+研发数字峰会(AiDD) 2024深圳站开幕式

11种经典时间序列预测方法：理论、Python实现与应用

干货 | 清华Python编程入门分享会第二期

【NeurIPS2024】用于时间序列预测的检索增强扩散模型

斯坦福&哈佛医学院 - MMedAgent，一个用于医疗领域的多模态医疗AI智能体

入选ECCV 2024！浙江大学联合微软亚洲研究院提出统一医学图像预训练框架UniMedI，打破医学数据异构化藩篱

【ETHZ博士论文】机器学习代码: 安全性与可靠性

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

梯度累积的隐藏陷阱：Transformer库中梯度累积机制的缺陷与修正

【牛津大学博士论文】用于本体工程的语言模型

KDD 2024 | 数据驱动的分布偏移检测与自适应

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉