【极简综述第二期28】扩散模型水印

文摘   2024-10-09 09:53   广东  

扩散模型水印


熊成 秦川


1 引言


       水印技术是保护数字图像安全的重要手段,通过在图像中嵌入相关信息,实现对图像版权的溯源追踪,检测图像盗版与违规图像滥用。随着扩散模型(diffusion model)在图像生成方面的快速发展,凭借其逼真的生成效果,大量的生成图像在社交媒体上广泛传播。同时,部分恶意用户也开始利用扩散模型生成含有恶意内容的违规图像,以谋取非法利益。因此,研究扩散模型水印,防止其生成的内容被滥用并实现溯源追踪,具有重要的理论意义和实际应用价值。本文主要对面向图像生成的扩散模型水印相关方法进行简要综述。

2 扩散模型简介


       受非平衡热力学的启发,扩散模型通过逐步对随机噪声去噪,实现图像生成[1]。如图1所示,通过对图像添加噪声与噪声预测,可实现对扩散模型的训练。现阶段,基于扩散模型的图像生成可分为两类:一类为直接训练扩散模型,从噪声中去噪采样生成图像,但由于受去噪次数、模型参数规模的影响,直接使用扩散模型生成高分辨率与高质量的图像会消耗大量的时间和算力;另一类为基于潜变量(latent)的扩散模型(latent diffusion model, LDM)[2],将直接生成图像改为先生成维度和数据量更小的latent,再由变分自编码器(variational auto encoder, VAE)的图像解码器(image-decoder)将latent恢复为图像。一般来说,基于LDM与VAE的方案能以更低的算力生成高分辨率与高质量的图像。

图1 基于扩散模型的图像生成    


3 扩散模型生成图像水印的研究现状


       目前已有很多学者开展了针对扩散模型生成图像的水印方法研究,已报道的成果和方法大致可分为8个方面:1)基于含水印训练数据集的方法;2)基于触发词的水印方法;3)基于扩散模型结构调整的水印方法;4)基于DDIM(Denoising Diffusion Implicit Models[3])近似可逆特性的水印方法;5)基于VAE图像解码器的水印方法;6)基于扩散模型的后置水印方法;7)基于扩散模型水印的图像数据集保护;8)针对扩散模型水印的攻击。下面将分别对这8个方面的方法进行简要介绍。


3.1 基于含水印训练数据集的方法


此类方法一般先采用已有的后置水印方法对原始训练数据集中的图像嵌入固定的水印信息,获得含水印训练数据集(后置水印方法是指针对已存在图像进行水印嵌入的相关方法)。随后结合先前采用的后置水印方法中的水印提取器,利用含水印训练数据集微调扩散模型或VAE的图像解码器,使得最终生成的图像含有与训练数据集图像一致的水印信息[4, 5]。新加坡科技设计大学的团队主要利用含水印训练数据集微调扩散模型[4],使得生成图像的水印信息能被先前采用的后置水印方法的水印提取器正确恢复。与[4]不同的是,针对潜变量扩散模型,Meta AI的团队主要利用含水印的训练数据集微调VAE的图像解码器[5],使得由潜变量扩散模型生成的latent在图像解码器中恢复成图像时嵌入固定内容的水印信息。

虽然此类方法能通过扩散模型直接生成含水印图像,但其所嵌入的水印信息均为固定内容,在不重新训练扩散模型或图像解码器的情况下无法调整水印信息内容,这给针对大规模用户的模型分发与追踪带来了困难。

3.2 基于触发词的水印方法    


此类方法首先构建基于触发提示词—验证图像对的数据集,随后利用此数据集微调扩散模型,使得微调后的扩散模型在输入触发提示词的情况下,生成验证图像,实现对扩散模型的所有权认证[4, 6]。与[4, 6]不同的是,文献[7]中的方法还对图像解码器的副本进行了微调,即原始图像解码器用于正常的图像生成,而一旦输入触发词,可由微调后的扩散模型结合微调后的图像解码器生成验证图像。为了使常用词也能作为触发词,Liu等人[8]将设定的某个常用词A放置至提示词语句中的固定位置,并将此提示词与验证图像相对应,而此固定位置不含A的提示词则与正常图像相对应。利用构建的提示词—图像训练数据集微调扩散模型,使得当提示词语句中的固定位置含触发词(即常用词A)时,生成验证图像,否则生成正常图像。与3.1节中的方法类似,此类方法主要是针对模型所有者进行版权保护,不适合在需要对大量模型使用者及其生成图像进行追溯的应用场景下使用。

3.3 基于扩散模型结构调整的水印方法


此类方法主要通过调整扩散模型的部分网络结构,以实现在图像生成过程中将水印信息嵌入,获得含水印的图像或latent。香港科技大学的团队通过微调基于U-Net结构的扩散模型的第一层网络,使其在一定去噪次数内进行水印嵌入[9]。具体地,水印信息首先通过一个预训练的线性层转换为含水印信息的中间输出,随后在图像生成的最后几步采样过程中将此中间输出输入至微调后的扩散模型,生成含水印图像,而预训练的提取器能从含水印的生成图像中恢复出水印信息。Feng等人[10]首先针对latent训练一组水印信息编解码器,随后利用基于LORA的模型微调,将与水印信息相关的微调前后的权重差加至原始模型的权重中,并与含水印的latent一同微调扩散模型,使得最终生成的图像中含有水印信息,且能被水印信息解码器所提取。

以上方法虽然能基于扩散模型在图像生成过程中实现水印信息的嵌入,但它们均需对扩散模型进行微调,对算力有一定要求。同时,对扩散模型的微调与结构的调整可能会对其本身的图像生成性能产生一定的影响。   

3.4 基于DDIM近似可逆特性的水印方法


由于基于DDIM的去噪采样过程在随机种子固定的情况下是近似可逆的,一些方法[11-14]便利用此特点在基于正态分布的初始噪声中嵌入信息,获得含水印噪声,并利用扩散模型去噪生成含水印图像。在水印提取时,针对含水印图像利用相同的扩散模型进行逆向加噪,使其再次恢复为含水印初始噪声,进而获取水印信息。Lei等人[11]所提方法主要由水印信息驱动,利用编码器直接生成含水印的初始噪声,随后利用基于DDIM的正向与逆向过程并结合信息解码器实现含水印图像的生成与水印信息的提取。与[11]不同的是,文献[12]为增强水印的鲁棒性及更为有效地对抗旋转攻击,在初始噪声的频域进行水印嵌入,且水印嵌入区域为环形,通过计算提取水印信息与嵌入水印信息之间的L1距离,并和预设定的阈值进行比较来实现溯源追踪。Yang等人[13]在初始噪声中嵌入了包含模型使用者在内的水印信息,基于DDIM的近似可逆特性,实现对生成图像的溯源追踪。与前面方法不同的是,Yu等人[14]考虑基于扩散模型来实现秘密图像的隐藏,即利用近似相同的初始噪声与不同提示词作为组合,结合DDIM的近似可逆特性,构建了公钥与私钥相配合的图像隐藏方法。具体地,首先确定需要隐藏的秘密图像A以及其所对应的提示词K1,即私钥;随后利用DDIM的近似可逆特性将A转换为噪声图像,并基于此噪声与提示词K2,即公钥,生成图像B;对于提取者而言,再次使用DDIM的近似可逆特性将B加噪为噪声图像,并使用私钥K1便能从此噪声图像中恢复出图像A;若不知晓K1,则无法恢复出图像A。

由于此类方法无需对扩散模型进行微调,因此更能保持扩散模型本身的图像生成性能。但仍然存在一些不足和限制,如:用于图像生成与进行可逆操作的扩散模型必须一致,且水印信息的嵌入者与提取者所使用的扩散模型也必须一致;若存在多个且不同的扩散模型以及大量的生成图像,则需要准确地将生成图像与其相应的扩散模型进行配对,才能保证水印的正确提取。 
 

3.5 基于VAE图像解码器的水印方法


       此类方法主要针对潜变量扩散模型,其在生成latent后需要使用图像解码器才能将latent恢复为可正常使用的图像,因此可在此阶段进行水印嵌入。一些研究人员利用需要训练的信息编码器在潜变量扩散模型生成的latent中嵌入水印,并能利用同时训练的信息解码器,从基于VAE的图像解码器恢复的图像中提取出水印信息[15-17]。上海理工大学的团队提出了一种基于信息矩阵的水印方法[18]。具体地,该方法首先利用所提出的信息编码器将水印信息转换为信息矩阵,随后在图像生成阶段,将此信息矩阵插入至图像解码器中,可获得含水印图像,且通过所提出的信息解码器能正确地从生成图像中提取出水印信息。此外,为了防止信息矩阵的使用被逃逸,导致生成高质量的无水印图像,该方法还提出了一种安全策略,即通过动态调整损失函数值的正负性,使得高质量图像只有在信息矩阵被使用的情况下才能生成,如果禁用信息矩阵,则只能生成低质量的噪声图像。Ci等人[19]通过预训练的水印编码器对图像解码器的中间输出进行二次处理实现水印信息的嵌入,最终获得含水印图像,并能由预训练的水印解码器提取出水印信息。


       与3.4节中的方法类似,此类方法也可保持扩散模型原有的图像生成性能,在训练方面消耗更少的计算资源。但是因为用于水印嵌入的图像解码器与扩散模型是两个独立的个体,所以攻击者可通过使用开源的原始图像解码器替换微调后的图像解码器,进而生成无水印的高质量图像。


3.6 基于扩散模型的后置水印方法  

 

       此类水印方法针对的是已有的原始图像,使用扩散模型的部分特性对这些原始图像进行水印嵌入。Tan等人[20]首先使用语义编码器提取原始图像的语义信息,并利用DDIM的近似可逆特性结合提取的语义信息,对原始图像使用扩散模型进行加噪以获得噪声图像;随后,通过离散小波变换(DWT)将水印信息嵌入至此噪声图像中,并再次使用扩散模型基于此含水印噪声图像与相关语义信息生成最终的含水印图像。在验证阶段,基于DDIM的近似可逆特性,使用扩散模型对含水印图像进行加噪,获得含水印信息的噪声图像,再进行离散小波变换以提取水印信息。文献[21]同样利用了DDIM的近似可逆特性对原始图像进行水印嵌入,但与[20]不同的是,该方法使用的是快速傅里叶变换,且采用的是无条件扩散模型,即无需输入相关语义信息。


       虽然利用DDIM的近似可逆特性可以为后置水印方法带来一定的新思路,但与3.4节中的方法一样,进行水印嵌入与提取时使用的扩散模型必须一致,当面临大量由不同扩散模型进行嵌入而产生的含水印图像时,将这些扩散模型准确地与水印图像进行配对存在一定的困难。


3.7 基于扩散模型水印的图像数据集保护


考虑到可能存在部分用户使用未经授权的风格图像数据集训练扩散模型,进而生成类似风格的图像,侵犯数据集所有者的版权,一些研究人员利用与3.1节中类似的方法,开展了针对训练数据集的版权保护工作。Cui等人[22]提出在图像数据集中嵌入基于不同纹理的分块水印信息,即不同纹理的候选块代表不同的信息,得到含水印数据集。若用户在无授权的情况下使用该含水印数据集微调扩散模型,则由微调后扩散模型生成的图像中将含有此类水印。同样地,为了实现对图像数据集的保护,Zhu等人[23]利用GAN生成对抗样本并处理原始图像数据集,而使用此处理后的数据集训练的扩散模型将生成含可见水印的图像,进而可申明数据集的版权归属。Ma等人采用基于编解码器的水印嵌入方法[24],对图像数据集进行水印嵌入,实现基于此数据集微调的扩散模型生成的图像含有目标水印。为了增强含水印数据集的微调适应能力,即在不同的微调策略下,水印仍能很好地保留在生成图像中,Cui等人[25]提出了将扩散模型微调与水印嵌入方法同时训练的方案,即根据扩散模型的微调情况,优化所嵌入图像的与水印相关的扰动,使得扩散模型能够更好地学习到水印信息。因此,在训练完成后,最终添加至图像的扰动更适合扩散模型学习,所以水印也更容易被保留,含水印数据集的微调适应能力也就更强。此外,该方法还提出一种由不同水印图像检测器组成的混合专家系统,每一种检测器专门针对某种微调方法进行训练而获得。 
   

3.8 针对扩散模型水印的攻击


一些研究人员也开始关注针对扩散模型水印的攻击问题。文献[26]提出了针对扩散模型水印的三种攻击方法:(1)水印检测器攻击,(2)边缘检测攻击,(3)基于模型微调的水印擦除攻击。具体地,第一种攻击是指恶意模型用户可能会通过训练水印检测器来识别出含水印的生成图像,并不断调整图像像素值,直至水印检测器无法识别出水印信息,以实现水印擦除;第二种攻击是指,假设部分水印信息会嵌入至图像的轮廓边缘,通过对轮廓边缘的检测与调整来破坏水印信息;第三种攻击则是使用原始不含水印的训练数据集对扩散模型进行微调,进而通过参数更新覆盖掉扩散模型中与水印嵌入相关的权重参数。Hu等人[27]提出的针对Stable Signature水印方法[5]的攻击是依靠模型微调实现的,即通过干净的原始数据集,微调图像解码器,覆盖掉解码器中与水印嵌入相关的权重参数,进而生成无水印的图像。针对[4, 6]中通过触发提示词—验证图像对扩散模型进行微调实现模型版权认证的方法,Yuan等人[28]提出了一种伪造触发提示词的方案。具体地,通过对比输入的词嵌入和生成图像,不断优化伪造的触发提示词,使得扩散模型根据伪造的触发提示词生成的图像与根据正确的触发提示词生成的验证图像接近,这就导致第三方认证机构难以确认模型版权的正确归属。考虑到实际应用对扩散模型的大量需求,这些攻击方法的提出为后续扩散模型水印在鲁棒性提升与应用扩展上起到了促进作用。  
 
与以上各类方法均不同的是,还有一些研究人员提出在条件潜变量扩散模型的主题内容中嵌入水印信息,实现对特定主题的内容进行保护与溯源追踪。文献[29]利用了Stable Diffusion的一种微调技术,即Textual Inversion (TI),通过该微调技术将水印信息与特定主题相关联,用户可基于特定主题生成含水印图像;利用该方法的解码器可从生成图像中提取出水印信息,实现对含特定主题内容的生成图像的溯源追踪。另外,目前研究面向图像生成的扩散模型水印的工作总体相对较多,但也有部分学者开展了面向其它类型数据的扩散模型水印的研究。Liu等人[30]提出面向音频生成的扩散模型水印方法,设计了一种基于编解码器的音频水印嵌入提取方案,具体地,水印首先通过水印编码器转换为隐变量,并与扩散模型原始的高斯隐变量输入相加成为新的输入隐变量,随后利用改进门控卷积网络为骨干的水印解码器从生成的音频中提取水印信息,实现对生成音频数据的溯源追踪。

4 展望


       面向扩散模型的水印技术发展时间尚短,属于新兴研究方向,还存在诸多亟待解决的问题,未来可能的研究方向包括但不限于:


       (1) 增强鲁棒性。受限于模型训练上的困难,当前基于DDIM的图像生成与逆向加噪的水印嵌入与提取在对抗多种图像攻击方面还存在不足,如何增强其鲁棒性对于实际应用而言至关重要;


       (2) 提升通用性。随着图像生成的应用范围逐渐扩大,多种不同结构的面向图像生成的扩散模型逐渐被提出,新的水印方法也应能适用于更多样的扩散模型;


       (3) 实现扩展性。基于扩散模型的视频、音频以及3D模型等的生成也迎来了飞速发展,因此实现面向除图像外的多种类型数据生成的扩散模型水印同样值得深入研究探索。   



参考文献


[1]Jonathan Ho, Ajay Jain, and Pieter Abbeel, “Denoising Diffusion Probabilistic Models,” in Proc. Advances in Neural Information Processing Systems (NeurIPS), pp. 6840-6851, 2020.

[2]Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer, “High-Resolution Image Synthesis with Latent Diffusion Models,” in Proc. Conference on Computer Vision and Pattern Recognition (CVPR), pp. 10674-10685, 2022.

[3]Jiaming Song, Chenlin Meng, and Stefano Ermon, “Denoising Diffusion Implicit Models,” in Proc. International Conference on Learning Representations (ICLR), 2021.

[4]Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Ngai-Man Cheung, and Min Lin, “A Recipe for Watermarking Diffusion Models,” arXiv: 2303.10137. 2023.

[5]Pierre Fernandez, Guillaume Couairon, Hervé Jégou, Matthijs Douze, and Teddy Furon, “The Stable Signature: Rooting Watermarks in Latent Diffusion Models,” in Proc. International Conference on Computer Vision (ICCV), pp. 22409-22420, 2023.

[6]Zihan Yuan, Li Li, Zichi Wang, and Xinpeng Zhang, “Watermarking for Stable Diffusion Models,” IEEE Internet of Things Journal, 2024. DOI: 10.1109/JIOT.2024.3434656.

[7]Zhiyuan Ma, Guoli Jia, Biqing Qi, and Bowen Zhou, “Safe-SD: Safe and Traceable Stable Diffusion with Text Prompt Trigger for Invisible Generative Watermarking,” arXiv: 2407.13188. 2024.

[8]Yugeng Liu, Zheng Li, Michael Backes, Yun Shen, and Yang Zhang, “Watermarking Diffusion Model,” arXiv: 2305.12502. 2023.

[9]Rui Min, Sen Li, Hongyang Chen, and Minhao Cheng, “A Watermark-Conditioned Diffusion Model for IP Protection,” arXiv: 2403.10893. 2024.

[10]Weitao Feng, Wenbo Zhou, Jiyan He, Jie Zhang, Tianyi Wei, Guanlin Li, Tianwei Zhang, Weiming Zhang, and Nenghai Yu, “AquaLoRA: Toward White-box Protection for Customized Stable Diffusion Models via Watermark LoRA,” arXiv: 2405.11135. 2024.

[11]Liangqi Lei, Keke Gai, Jing Yu, and Liehuang Zhu, “DiffuseTrace: A Transparent and Flexible Watermarking Scheme for Latent Diffusion Model,” arXiv: 2405.02696. 2024.

[12]Yuxin Wen, John Kirchenbauer, Jonas Geiping, and Tom Goldstein, “Tree-Ring Watermarks: Fingerprints for Diffusion Images that are Invisible and Robust,” arXiv: 2305.20030. 2023.

[13]Zijin Yang, Kai Zeng, Kejiang Chen, Han Fang, Wei Ming Zhang, and Nenghai Yu, “Gaussian Shading: Provable Performance-Lossless Image Watermarking for Diffusion Models,” arXiv: 2404.04956. 2024.

[14]Jiwen Yu, Xuanyu Zhang, Youmin Xu, and Jian Zhang, “CRoSS: Diffusion Model Makes Controllable, Robust and Secure Image Steganography,” in Proc. Advances in Neural Information Processing Systems (NeurIPS), 2023.    

[15]Tu Bui, Shruti Agarwal, Ning Yu, and John P. Collomosse, “RoSteALS: Robust Steganography using Autoencoder Latent Space,” in Proc. Conference on Computer Vision and Pattern Recognition (CVPR) - Workshops, pp. 933-942, 2023.

[16]Zheling Meng, Bo Peng, and Jing Dong, “Latent Watermark: Inject and Detect Watermarks in Latent Diffusion Space,” arXiv: 2404.00230. 2024.

[17]Guokai Zhang, Lanjun Wang, Yuting Su, and An-An Liu, “A Training-Free Plug-and-Play Watermark Framework for Stable Diffusion,” arXiv: 2404.05607. 2024.

[18]Cheng Xiong, Chuan Qin, Guorui Feng, and Xinpeng Zhang, “Flexible and Secure Watermarking for Latent Diffusion Model,” in Proc. ACM International Conference on Multimedia (MM), pp. 1668-1676, 2023.

[19]Hai Ci, Yiren Song, Pei Yang, Jinheng Xie, and Mike Zheng Shou, “WMAdapter: Adding WaterMark Control to Latent Diffusion Models,” arXiv: 2406.08337. 2024.

[20]Yuqi Tan, Yuang Peng, Hao Fang, Bin Chen, and Shutao Xia, “WaterDiff: Perceptual Image Watermarks Via Diffusion Model,” in Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 3250-3254. 2024.

[21]Lijun Zhang, Xiao Liu, Antoni Viros Martin, Cindy Xiong Bearfield, Yuriy Brun, and Hui Guan, “Robust Image Watermarking using Stable Diffusion,” arXiv: 2401.04247. 2024.

[22]Yingqian Cui, Jie Ren, Han Xu, Pengfei He, Hui Liu, Lichao Sun, and Jiliang Tang, “DiffusionShield: A Watermark for Copyright Protection against Generative Diffusion Models,” arXiv: 2306. 04642. 2023.

[23]Peifei Zhu, Tsubasa Takahashi, and Hirokatsu Kataoka, “Watermark-embedded Adversarial Examples for Copyright Protection against Diffusion Models,” arXiv: 2404.09401. 2024.

[24]Yihan Ma, Zhengyu Zhao, Xinlei He, Zheng Li, Michael Backes, and Yang Zhang, “Generative Watermarking Against Unauthorized Subject-Driven Image Synthesis,” arXiv: 2306.07754. 2023.

[25]Yingqian Cui, Jie Ren, Yuping Lin, Han Xu, Pengfei He, Yue Xing, Lingjuan Lyu, Wenqi Fan, Hui Liu, and Jiliang Tang, “FT-Shield: A Watermark Against Unauthorized Fine-tuning in Text-to-Image Diffusion Models,” arXiv: 2310.02401. 2024.

[26]Xiaodong Wu, Xiangman Li, and Jianbing Ni, “Robustness of Watermarking on Text-to-Image Diffusion Models,” arXiv: 2408.02035. 2024.

[27]Yuepeng Hu, Zhengyuan Jiang, Moyang Guo, and Neil Zhenqiang Gong, “Stable Signature is Unstable: Removing Image Watermark from Diffusion Models,” arXiv: 2405.07145. 2024.

[28]Zihan Yuan, Li Li, Zichi Wang, and Xinpeng Zhang, “Ambiguity attack against text-to-image diffusion model watermarking,” Signal Processing, 2024. DOI: 10.1016/J.SIGPRO.2024.109509.

[29]Weitao Feng, Jiyan He, Jie Zhang, Tianwei Zhang, Wenbo Zhou, Weiming Zhang, and Nenghai Yu, “Catch You Everything Everywhere: Guarding Textual Inversion via Concept Watermarking,” arXiv: 2309.05940. 2023.    

[30]Weizhi Liu, Yue Li, Dongdong Lin, Hui Tian, and Haizhou Li, “GROOT: Generating Robust Watermark for Diffusion-Model-Based Audio Synthesis,” arXiv: 2407.10471. 2024.



供稿:熊成、秦川,上海理工大学


隐者联盟
本公众号主要推介多媒体、人工智能、信息安全等方面的最新研究进展,愿与同行携手,共同推动科学研究向前发展。
 最新文章