NeurIPS`24 | 防御对抗性提示攻击!AdvUnlearn让图片生成风险骤降

文摘 2024-10-29 00:03 上海

点击下方卡片，关注“AI生成未来”

>>回复“GAI”，免费获取最新生成式AI相关行业报告和资料！

转载自：机器之心

如有侵权，联系删稿

本文第一作者为密歇根州立大学计算机系博士生张益萌，为 OPTML 实验室成员，指导教师为刘思佳助理教授。OPtimization and Trustworthy Machine Learning (OPTML) 实验室的研究兴趣涵盖机器学习 / 深度学习、优化、计算机视觉、安全、信号处理和数据科学领域，重点是开发学习算法和理论，以及鲁棒且可解释的人工智能。

扩散模型（Diffusion Models, DMs）已经成为文本到图像生成领域的核心技术之一。凭借其卓越的性能，这些模型可以生成高质量的图像，广泛应用于各类创作场景，如艺术设计、广告生成等。然而，随着扩散模型的日益普及，其带来的安全问题也逐渐显现。模型在处理开放式互联网数据时，可能会在生成过程中输出有害的、不适当的内容，例如裸露、暴力、侵犯版权的图像等，这为其实际应用带来了道德和法律上的挑战。

为应对这些问题，研究者提出了机器遗忘（Machine Unlearning）技术，也称为概念擦除（Concept Erasing）[1-3]。通过这一技术，我们能够有选择性地 “抹去” 扩散模型中的某些不应生成的概念。然而，尽管这一技术能够在非对抗性环境中取得一定效果，现有的概念擦除方法在面对对抗性提示攻击（Adversarial Prompt Attacks）时仍然存在明显的脆弱性。攻击者可以通过对输入提示的微小修改，诱导模型生成本应被擦除的内容，这使得现有的概念擦除技术不够鲁棒。

对抗性提示攻击：机器遗忘中的隐患

对抗性提示攻击的关键在于通过改变文本输入提示的细微细节，诱使模型生成不当的内容。这类攻击可能会通过调整拼写、加入特定符号、或是改变句子结构来规避模型的防护。例如，即便模型已经接受了擦除 “裸露” 相关内容的训练，但通过输入一些巧妙设计的提示词，攻击者依然可能让模型重新生成被擦除的图像。这种攻击的成功率显示了现有擦除技术在对抗恶意输入时的薄弱性。

为了解决这一问题，我们提出了 AdvUnlearn 框架。这是一个将对抗性训练（Adversarial Training, AT）与概念擦除相结合的框架，旨在提升扩散模型在概念擦除任务中的鲁棒性，防止模型在面对对抗性攻击时再次生成被遗忘的内容。

论文题目：Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models
论文地址：https://arxiv.org/abs/2405.15234
代码地址：https://github.com/OPTML-Group/AdvUnlearn
Unlearned Diffusion Model Benchmark: https://huggingface.co/spaces/Intel/UnlearnDiffAtk-Benchmark

AdvUnlearn 框架：对抗性训练与概念擦除的融合

AdvUnlearn 框架的独特之处在于，它系统性地结合了对抗性训练与概念擦除方法，从而提升模型在对抗恶意输入时的安全性和鲁棒性。传统的对抗性训练主要应用于图像分类任务，而 AdvUnlearn 首次将其引入到扩散模型的概念擦除中。通过双层优化策略，AdvUnlearn 能够在增强模型鲁棒性的同时保持其图像生成质量。

双层优化（Bi-level Optimization）：AdvUnlearn 框架的优化分为两个主要层次：

下层优化（Lower-level Optimization）：这一层的任务是生成对抗性提示，即通过对输入文本提示的细微扰动，生成能够诱使模型生成本应被擦除的内容的提示。这个过程的目标是找到这些对抗性提示，使得模型在面对这些提示时生成不合规内容。
上层优化（Upper-level Optimization）：这一层的任务是通过最小化模型对目标概念的响应来强化模型的鲁棒性，同时确保模型生成质量不受影响。我们通过更新模型参数 θ，优化概念擦除的效果，同时保留模型的正常生成能力。

其中为目标遗忘内容，为遗忘目标函数，为生成攻击的目标函数。

保留效用的正则化（Utility-Retaining Regularization）

一个重大挑战是，直接引入对抗性训练可能会导致图像生成质量下降。这是因为模型在面对对抗性提示时，往往会过于专注于抵御不当输入，而忽视了对其他正常内容的生成能力。为此，我们提出了保留效用的正则化方法。

该方法的核心思想是引入一个 “保留集” （），这是一组与目标概念无关的文本提示。这些提示用于确保模型在训练过程中保留其生成正常内容的能力。例如，在处理 “裸露” 相关概念时，保留集中的提示可能涉及描述风景、动物、建筑等非敏感内容。

保留集的选择尤为重要。我们用 COCO 和 ImageNet 等数据集中的非敏感的物体类别制作成文本提示作为保留集，并通过大模型进行筛选，确保保留集中的提示与待擦除概念无关。这些提示集通过以下正则化项加入优化目标：

其中为未经过机器遗忘的初始模型参数。通过该机制，AdvUnlearn 框架能够有效解决对抗性训练带来的质量下降问题，确保生成图像的多样性和精度。

最佳优化模块的选择（Modularity Exploriation）: 文本编码器 vs. UNet

扩散模型通常由多个核心模块组成，其中文本编码器（Text Encoder）和 UNet 是两个主要组件。UNet 通常用于处理图像的逐步去噪过程，而文本编码器则将文本提示转换为适合生成图像的表示。

在传统的概念擦除方法中，UNet 被视为模型生成图像的核心，因此大多数现有技术都集中在 UNet 上进行优化。然而，在我们的研究中，我们发现文本编码器在应对对抗性提示攻击时表现更佳。文本编码器在处理输入提示的过程中，负责将文本信息转化为图像生成的关键特征。因此，对文本编码器进行优化，可以更好地控制模型对输入中细微变化的反应，从而提升模型在面对恶意输入时的鲁棒性。

具体来说，我们发现，优化文本编码器能够显著降低对抗性攻击的成功率，同时保留生成高质量图像的能力。此外，经过对抗性训练优化的文本编码器可以作为一个 “即插即用” 的模块，适用于不同类型的扩散模型，从而提高了框架的扩展性和通用性。

实证结果：AdvUnlearn 在多个任务中的表现

为了验证 AdvUnlearn 框架的有效性，我们进行了广泛的实验证明。实验涵盖了多个概念擦除任务，包括裸露概念擦除、艺术风格擦除和对象擦除。UnlearnDiffAtk [4] 作为默认的对抗性提示攻击来检查遗忘模型的鲁棒性。

裸露概念擦除

在处理敏感的 “裸露” 概念时，AdvUnlearn 展现了卓越的性能。相比传统的概念擦除方法，AdvUnlearn 显著降低了对抗性提示攻击的成功率（ASR）。例如，在常见的对抗性提示攻击场景下，ASR 从原始模型的 100% 下降至 21.13%，表明模型能够有效抵御恶意输入。同时，通过引入保留集，模型在生成无关内容（如风景或物体图像）时保持了高质量，FID 仅比标准模型略微上升。

艺术风格擦除

我们还对 “梵高风格” 的擦除进行了实验。在这一任务中，AdvUnlearn 同样表现出了优异的性能。经过对抗性训练后的模型，能够有效抵御对抗性提示攻击，成功率降至 2%。相比之下，未经优化的模型在攻击下几乎无法抵御，生成的图像仍保留了梵高的风格。此外，AdvUnlearn 在这一任务中成功保持了高质量的图像生成能力。

对象概念擦除

在对象擦除任务中，我们对 “教堂” 这一具体对象进行了擦除实验。AdvUnlearn 不仅能够有效抹去生成 “教堂” 图像的能力，还能在对抗性提示攻击下维持图像生成的质量。与其他擦除方法相比，AdvUnlearn 框架能够在保证生成质量的前提下，显著提升鲁棒性，使得模型在面对恶意输入时更加可靠。

总结与展望

AdvUnlearn 框架是首个结合对抗性训练和概念擦除技术的系统性方法，旨在提升扩散模型在概念擦除任务中的鲁棒性。通过对文本编码器进行优化，以及引入保留效用的正则化机制，AdvUnlearn 成功平衡了鲁棒性和模型效用。我们的实验结果显示，AdvUnlearn 能够在多种场景下有效抵御对抗性提示攻击，并保持高质量的图像生成。

随着生成式 AI 的应用范围不断扩大，如何确保模型的安全性和可靠性成为一个关键问题。AdvUnlearn 框架为解决这一问题提供了新的路径，并为未来的生成模型技术提供了重要的参考。如果你想深入了解 AdvUnlearn 框架的技术细节或实验结果，欢迎访问 GitHub 项目页面（https://github.com/OPTML-Group/AdvUnlearn）。

[1] Gandikota R, Materzynska J, Fiotto-Kaufman J, et al. Erasing concepts from diffusion models

[2] Zhang Y, Fan C, Zhang Y, Yao Y, et al. Unlearncanvas: A stylized image dataset to benchmark machine unlearning for diffusion models, NeurIPS 2024.

[3] Fan C, Liu J, Zhang Y, et al. Salun: Empowering machine unlearning via gradient-based weight saliency in both image classification and generation, ICLR 2024.

[4] Zhang Y, Jia J, Chen X, et al. To generate or not? safety-driven unlearned diffusion models are still easy to generate unsafe images... for now, ECCV 2024.

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

喜欢的话，请点个赞👍和关注吧～

http://mp.weixin.qq.com/s?__biz=Mzg3Njk3NDkyNQ==&mid=2247510337&idx=2&sn=9c4ae6d02951b5d13d5db4c9b84185a9

AI生成未来

领先的AIGC和具身智能、大模型技术交流社区，关注LLM、CV、深度学习、生成式等AI领域前沿技术

Ollama v0.4 可运行 Llama 3.2 Vision 啦

掌管OpenAI安全的那个人离职了，离职信曝光

你的LoRA需要更新了！科大讯飞等提出MiLoRA：新颖且高效的LoRA变体

LLM之数据的重要性

智能体首次达到Kaggle Grandmaster水平，华为用结构化推理补齐思维链短板

谷歌&Mistral AI发布TIPS：具有空间意识的文本-图像预训练（适配各种计算机视觉任务）

vLLM这一年的新特性以及后续规划（总结版!）

免费可商用！腾讯混元大语言模型和3D模型正式开源！

FGM：刷新流匹配模型单步文本到图像生成纪录！(浙大&卡内基梅隆&北大&西湖大学)

ROSCon首次落子中国内地！享誉全球的机器人精英盛会马上开始了

ECCV'24 | SAM4MLLM：多模态大语言模型和SAM强强联合

英伟达&斯坦福大学发布GRS：从真实世界观测中生成机器人仿真任务

告别庞然大物,拥抱小巧精悍！面向移动和边缘设备的小语言模型综述

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！

NeurIPS`24震撼发布:Diff-eRank大模型评估新指标，精准衡量LLM去噪！

三年前的AI设计芯片造假？谷歌深陷学术不端丑闻，吹哨人被开除!

清华大学最新！2万字长文全面解读多模态生成式AI的前世今生！

大模型推理优化技术-KV Cache量化理论到实战

2024 AI年度报告发布，附十大预测：人形机器人热度下降

2024年大模型LLM还有哪些可研究的方向？听听大佬怎么说

红外图像合成技术综述

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

港理工&OPPO&Stability AI联合发布一致且高效的3D场景编辑方法——SyncNoise

突发！OpenAI正式发布ChatGPT网络搜索，彻底颠覆谷歌！

登上生图排行榜第一的red_panda，是家创业公司，不是国产模型

定制化视频生成新模范！零样本主体驱动，精确运动控制！复旦&阿里等发布DreamVideo-2

基于Gemini！Waymo提出端到端自动驾驶多模态模型EMMA！

苹果最强芯M4 Max首发！官方定位可开发大模型

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了 | TUM&Snap

从文本RAG到多模态RAG！LMU | 构建多模态RAG系统的最佳配置

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

4B和34B精度相当？xGen-MM-Vid (BLIP-3-Video)：你只需32个tokens来表示一个视频

VILA-U：统一多模态理解与生成模型！多模态任务新架构！

神秘模型“小熊猫”一夜刷屏：排名超Flux、Midjourney，网友：一看就中国的

教机器人"倒水"是融入生活的第一步！AR收集和生成演示(ARCADE)框架发布

NeurIPS`24 | 防御对抗性提示攻击!AdvUnlearn让图片生成风险骤降

大模型引领6G革命！最新综述探索「未来通信方式」：九大方向

颜水成团队新作:AI手机迎来重大技术进展！Meissonic:让移动成像技术飞跃

7B新王登基！Zamba 2推理效率比Llama 3提升20%，内存用量更少

初探大模型压缩

首篇！全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

一文读懂：从RAG到多模态RAG

大模型生成RPG游戏，情节角色全自定义！谷歌出品，一作上海交大

图像编辑多任务一网打尽！PromptFix，新型扩散模型&大规模视觉指令数据集（罗切斯特大学&微软）

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖励过优化问题

灵活精确可控编辑！Dice:首个离散扩散模型精确反演方法！

大模型面经—RAG工程实践经验总结

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉