【极简综述第二期29】生成式图像水印

文摘   2024-10-11 09:49   广东  

生成式图像水印


李金合,杨豪中,王宏霞


生成式图像水印是一种用于标识和保护图像生成任务中相关图像内容版权的技术,其概念来源于数字水印在图像生成任务中的新应用。不同于传统水印和基于深度学习的图像水印,一方面,生成式图像水印可以将水印信息嵌入原创数据集中,防止图像在未授权的情况下被用于训练生成模型;另一方面,也可以将水印嵌入与图像生成过程相结合,使水印融合到生成的图像中,从而保护生成图像的版权。

图像生成技术的蓬勃发展,催生了数字水印应用的新场景。在实际应用中,生成式图像水印面临几大挑战:一是含水印图像应保持良好的不可见性;二是含水印图像在不同的攻击场景下要保持较强的鲁棒性;三是水印嵌入过程需达到较高的时间效率。尽管传统的图像水印方案在计算复杂度和鲁棒性等方面表现出色,基于深度学习的图像水印技术在水印与图像内容的融合度方面进一步增强,然而,这些水印算法在应对复杂多样的生成图像时,仍存在一定的局限性。为此,生成式图像水印技术应运而生,并受到国内外学者的热切关注。


一、生成式图像水印研究背景


AIGC(Artificial Intelligence Generated Content)时代的到来,“有图未必是真相”,图像真实性的判断和图像来源的确认是亟待解决的重要问题,特别是Midjourney、Stable Diffusion、DALL·E3等面向大众的图像生成工具的普及,带来了诸多新的安全挑战[12]。例如,当热点事件的相关图片在社交平台上出现时,许多用户往往会下意识地进行传播和讨论,并不关注图像的真实性。这种现象催生了舆情风险的不可控性,并导致虚假信息的泛滥。图1是“ALL EYES IN RAFAH”事件中的相关图片。左侧为人工智能生成的拉法营地,图中帐篷排列有序,背景中的雪山清晰可见,整体一片祥和。而实际中的拉法如右侧所示,留下的只有难民、废墟和一片狼藉。当今生成图像变得愈发逼真,因此,如何有效鉴别真实图像和生成图像成为解决当前舆情问题的新课题。此外,随着Stable Diffusion等生成软件日趋成熟,普通用户只需输入一些简单的提示词,就可以生成相应的图像。得益于软件的开源和简便易用,借助这些工具进行艺术创作和分享也变得越来越普遍。

图1 生成图像与真实图像示例图


AIGC的蓬勃发展,在引起公众广泛关注的同时,也引发了人们对潜在隐患的担忧。特别是在图像内容创作领域,以下几个问题显得尤为突出:首先,图像数据集面临被非法获取并用于生成模型训练的风险,直接威胁数据原创者的权益;其次,精心训练并优化的生成模型被不当复制与滥用,损害了模型开发者的权益;再者,模型生成的图像作品也易于被盗用与滥发,进一步模糊了原创与复制的界限。为了有效应对上述挑战,生成式图像水印在解决这些问题方面具有潜在的应用前景。该技术巧妙地在生成图像中包含关键信息的水印,为图像的鉴权和归属提供了重要依据。目前,生成式图像水印被广泛用于生成图像的版权保护和追踪溯源等领域。对于生成式图像水印而言,通常需要满足三个基本性能指标:不可见性、鲁棒性和容量。不可见性指的是水印的嵌入不影响生成图像的视觉质量,换言之,用户几乎无法在生成的图像中察觉到水印的存在。鲁棒性是指含水印的生成图像在经过常规信道传输和恶意图像处理攻击后,仍能够提取出水印信息,从而完成图像的鉴权和完整性认证。容量则指水印信息的有效载荷,不同的容量代表能够携带信息的多少。通常,三者之间是相互制约的关系,一种性能的提升必然导致其它性能的下降,因此,如何平衡三者之间的关系是生成式图像水印的一个重要任务。   


二、生成式图像水印算法研究进展


图2 关键图像生成模型发展时间线


图像生成是计算机视觉领域一个重要的研究课题,随着深度学习技术的发展,图像生成模型取得了突破性进展,涵盖生成对抗网络(Generative Adversarial Network, GAN)[3]、变分自编码器(Variational Auto-Encoders, VAE)[4]、流模型(Flow-based Model)、扩散模型(Diffusion Model)等不同技术路线的概率生成模型。如图2所示,最早出现的是GAN模型和VAE模型,前者提出了一种生成器-判别器的架构,通过区分输入数据源自真实数据还是人工生成的,可以显著提高生成图像的质量与逼真度;后者则是基于编码器-解码器的架构,编码器对输入数据编码后得到隐变量,解码器学习隐变量空间的概率分布并生成新的图像内容。紧接着,研究人员提出了以NICE[5]和RealNVP[6]为代表的流模型,这些模型由可逆神经网络构建,过程具有可逆性。

近年来,以DDPM[7]为代表的采样器崭露头角,随后研究人员相继提出了DDIM[8]、DPM-Solver[9],并在此基础上与CLIP[10]等自然语言模型结合,发展了Stable Diffusion[11]、DALL·E[12]、SDXL[13]等文本到图像生成的创造性应用。最近出现的一致性模型(Consistency Models, CM)[14]通过直接将噪声映射到数据以生成高质量的图像,有效克服了扩散模型因迭代生成过程缓慢而面临的效率瓶颈问题,极有可能成为下一个主流的图像生成模型。


图像生成模型的发展带来了版权归属的问题,相应的水印方案也应运而生。由于当前基于VAE设计的水印方案较少,因此下面只对基于流模型、生成对抗网络和扩散模型的生成式图像水印算法分别进行详细论述。


1. 基于流模型的方案


流模型是通过一系列可逆变换建立较为简单的先验分布和较为复杂的实际数据分布之间的映射关系的一类生成模型,由于其自身特有的可逆性,被率先引入到隐写领域[1518]。在这些工作的基础上,研究人员相继提出了基于流模型的鲁棒水印方案。UDH方案[19]可用于水印任务,该方案将一张图像视为水印信息,通过对水印图像进行编码并与载体图像直接融合得到含水印图像,算法对裁剪、高斯噪声、JPEG压缩等攻击表现出了一定的鲁棒性。ASL[20]和IRWArt[21]方案则是将水印的嵌入和提取视为一对图像变换的逆问题,分别通过可逆神经网络的前向和后向过程来实现。当前,尽管研究者提出了部分基于流模型的水印算法,但更侧重于使用流模型解决隐写任务,基于流模型的水印方案在具有较高嵌入容量的同时,鲁棒性方面普遍表现较弱。   

2. 基于生成对抗网络的方案


GAN作为近年来最流行的生成模型范例,其独特的生成器与判别器架构设计,极大地推动了诸如DeepFake等前沿技术的迅猛发展,同时也激发了研究人员围绕GAN展开水印相关的研究。Hao等人[22]基于Hidden模型,通过在鉴别器前添加高通滤波,使水印嵌入到图像的中频区域,提供了更好的不可见性。与之类似的,Fei等人[23]将基于CNN的水印解码器添加到生成器的输出端,利用水印损失项对生成模型修改,从而输出含水印的图像。Huang等人[24]则致力于算法鲁棒性的提高,将注意力机制引入水印模型,同时提出了注意力模块和特征融合模块,增强了鲁棒性水印的特征学习能力。为了保护GAN模型,IPR-GAN[25]和PTW[26]两种方案通过修改生成模型,使生成的图像携带具有版权归属的水印信息,从而判断生成图像的来源。与前两者不同,Yu等人[27]先将水印嵌入到训练数据中,然后再迁移到生成模型,能适应诸如ProGAN、StyleGAN、BigGAN、CUT等各种先进的生成模型。基于GAN的水印方案主要侧重于深度伪造内容生成的对抗和检测,但在生成图像版权保护的鲁棒性指标方面相对逊色。

3. 基于扩散模型的方案


随着扩散模型在高质量内容生成领域的突破性进展,研究人员的关注点也逐步转向基于扩散模型的生成内容保护策略上,针对这一需求,各种水印方案层出不穷。下面将根据3种不同的技术路线分别概述。


(1)修改图像数据    


修改图像数据指的是将水印嵌入到原始图像中,利用含水印的图像对生成模型进行训练,从而在生成的图像中附带水印信息。例如,Zhao等人[28]用预训练的水印编码器将二进制信息串嵌入到原始图像中,然后在含水印的数据上训练扩散模型。Cui等人[29]提出了“图案一致性”的概念,利用4种图案代表数字0~3,可以将水印信息映射为基于图案的排列后嵌入到原始图像中,并通过在训练过程中优化解码器,达到检测生成图像中水印信息的目标。

然而,有些方案的目的是防止未经授权的数据使用,例如FT-Shield[30]、Diagnosis[31]、CGANW[32]和InMark[33]。FT-Shield和Diagnosis利用信号函数在受保护图像数据集中注入独特的信息,通过对生成图像的水印检测结果来判断原始数据是否存在未经授权的使用,所执行的是二元分类任务。CGANW基于条件生成网络设计了新的生成器,将可见水印与受保护图像联合训练得到具有对抗性的含水印图像。一旦未经授权的图像数据集被扩散模型用于图像生成,生成的图像将出现可见水印,从而避免侵权行为。InMark将水印信息嵌入到受保护图像集中,通过影响扩散模型去噪能力的噪声使生成图像的内容扭曲变形,从而达到数据保护的能力。修改图像数据的方式在数据集泛化方面存在一定的局限性,无法保证算法在未知数据上的有效性。


(2)调整生成模型


调整生成模型的方案主要遵循两阶段框架设计原则,首先,对水印编解码器进行预训练;然后,将水印解码器与生成模型的VAE解码器进行微调,从而使生成的图像自带水印信息。典型地,Stable Signature[34]方案采用Hidden的简化版本作为水印编解码器进行训练,训练好的水印提取器用于对生成模型的微调。该方案在常见的信号处理和几何处理等攻击下表现出良好的鲁棒性,但是水印信息仅支持固定内容,对于不同的水印信息将需要重新进行训练和微调。GenWatermark[35]借用上述结构,将诸如Textual Inversion、DreamBooth等特定主题的合成模型纳入微调过程中,以使生成图像免遭未授权的图像合成训练。在此基础上,Xiong等人[36]通过引入消息编解码器,并将消息编码器与微调LDM解码器的中间输出相融合,达到了灵活嵌入水印信息的效果。Meng等人[37]在水印编解码器和生成模型之间增加消息耦合器模块,降低了水印嵌入时对图像质量的不良影响。

此外,研究者也提出了其他的设计范式,例如,WOUAF[38]方案采用映射网络把水印信息转换为扩散模型维度内的中间指纹图像,并将其与解码器进行权重调制,以此来嵌入水印信息。该方法面对不同的水印信息只需一次前向传递过程,极大地节省了计算开销。Zhang等人[39]在保护图像版权的同时,借助隐写的脆弱性为其提供了篡改定位功能,这种同时具备版权保护和篡改定位的算法为主动防御框架提供了新的研究思路。对生成模型的调整更好地耦合了水印信息和图像内容,为水印算法带来了更好的不可见性和鲁棒性。但是,此类算法在编解码器训练和生成模型的微调过程中,对计算资源的需求极为庞大,在面临多样化的应用场景时,可能需要重新进行模型训练,这无疑会显著增加时间成本。


(3)修改隐变量空间


修改隐变量空间指的是将水印嵌入到用于采样的初始噪声中,然后基于含水印的初始噪声向量去噪并生成含水印图像。最初由Wen等人[40]提出的tree-ring方案率先在Stable Diffusion v2上实现,该方案借助傅里叶空间的不变特性,使算法针对裁剪、翻转和旋转等攻击具备了较强的鲁棒性;缺点在于其水印容量只有1比特,无法承载更多有意义的信息。   

ZoDiac[41]方案沿用了tree-ring方案的嵌入方式,区别在于ZoDiac先对现有图像进行DDIM反演,再向反演之后的初始噪声向量中添加水印,并且在含水印图像生成后引入图像增强模块,以此提高生成图像的视觉质量。Liu等人[42]则提出了一种称为镜像扩散模型的新模型,水印由特定的约束集决定,通过将生成数据映射到约束集中,实现水印信息的嵌入。为了标记更多的属性信息,Zhang等人[43]利用卷积神经网络将水印信息编码为隐空间的表示形式,将其与图像编码后的隐变量相融合,并经VAE解码得到含水印图像。该方案实现了大容量的水印信息嵌入,在分辨率为512×512的图像中可以嵌入大小为256×256的水印图像,但在鲁棒性方面有待提升。


与上述思路不同,Yang等人[44]提供了一个新的角度,他们把水印信息处理成与初始噪声向量相同分布的隐变量表示形式,然后基于此进行去噪图像生成。由于初始噪声向量基于水印产生,之后的采样和训练过程不会对初始噪声向量的分布造成影响,避免了上述几种方案的风格迁移问题。通过直接修改隐变量空间,无需编解码器的介入便可以实现水印嵌入,显著简化了训练流程。此类方法具有高度的灵活性与适配性,做到了“即插即用”的便捷效果,能够紧密贴合多样化的实际应用场景。然而,尽管前景广阔,仍有许多挑战和问题亟待我们深入探索并有效解决。


三、算法的性能与评价指标


生成式图像水印重点关注算法的鲁棒性、不可见性和水印容量等性能,其评价指标与传统的图像水印相似。具体而言,通常采用准确率(Accuracy)、误码率(BER)或归一化相关系数(NC)来衡量算法的鲁棒性。在不同的攻击场景下,准确率越高、误码率越低、NC值越高,表明算法的鲁棒性也越强。鉴于水印信息提取过程中可能存在的误判挑战,我们也常引入真阳率(True Positive Rate, TPR)、假阳率(False Positive Rate, FPR)和ROC曲线下面积(Area Under Curve, AUC)这几个关键指标,以更精准地衡量和反映提取信息的准确性。在不可见性方面,传统的PSNR和SSIM无法完全反映含水印图像的视觉质量,这是因为生成图像的整体噪声差异对上述两个指标有较大影响,但对人眼感知并不敏感。因此,研究人员引入了弗雷彻特初始距离(Frechet Inception Distance, FID)[45]和学习感知相似性(Learned Perceptual Image Patch Similarity, LPIPS)[46]等指标。其中,FID通过计算生成图像和真实图像特征向量概率分布之间的距离来评估两者的相似度;LPIPS则利用卷积神经网络对图像局部块进行特征提取,并通过计算块之间的相似性得分衡量图像生成前后的差异。进一步地,在文生图场景下,为了度量生成图像与文本提示词(Prompt)之间的相关性,研究人员基于CLIP模型提出了CLIP Score指标,用于评估自然语言与图像对之间的匹配度。在水印容量上,主要通过有效载荷的比特数进行衡量。

除此之外,算法的安全性也是值得关注的性能之一。生成式图像水印与传统方法类似,在讨论安全性时常与鲁棒性结合,两个性能的共同目标是在攻击后保证水印的完整性和可用性。但是,鲁棒性主要关注信号处理、几何变换等常规攻击,安全性则侧重于针对共谋攻击、IBM攻击等影响水印真实性判断的操作。应对共谋攻击、IBM攻击的主要策略包括利用随机密钥对水印信息加密、水印信息中携带时间戳、对水印信息进行可校验编码等方法。

四、常用数据集


生成式图像水印算法研究常用的数据集有MS-COCO[47]、CIFAR10[48]、FFHQ[49]、AFHQ[50]、ILSVRC[51]、LAION-400M[52]、CelebA[53]、CelebA-HQ[54]、wikiart[55]、DiffusionDB[56]、DIV2K[57]、LSUN[58]、LAION-5B[59]等。其中,ILSVRC、FFHQ、AFHQ、CIFAR10、DiffusionDB、LAION-400M、LAION-5B数据集主要用于训练,MS-COCO、CelebA、CelebA-HQ、DIV2K、wikiart数据集主要用于评估算法的鲁棒性和不可感知性。表1列出了常用数据集的相关信息,下面是详细介绍。   


MS-COCO是包含80个对象目标的百万级图像数据集,图像分辨率大小不一,具有COCO-2014和COCO-2017两个版本,两者均包括了训练集、验证集、测试集,主要区别在于图像的分配比例不同。COCO-2017还增加了123K规模的未标记图像,用于无监督训练,数据集规模达287K。CIFAR10数据集共有10类,包含飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车,每个类别包含6000张图像,图像分辨率大小均为32×32。CelebA是包含10177个名人的大型人脸图像数据集,图像分辨率大小不一,共有202599张人脸图像。CelebA-HQ是从CelebA收集的,并由ProGAN[54]进一步处理后得到高清质量图像。FFHQ同样是高质量人脸数据集,共有70K张PNG格式的高质量图像,区别在于人脸图像中附加了眼镜、帽子等配饰。其中AFHQ是包含猫、狗和野生动物三个域的动物面部数据集,图像分辨率大小为512×512,共有15000张图像。DIV2K是包含各种内容的高清图像数据集,图像分辨率大小均为2K左右,共计1000张高清JPEG图像。ILSVRC是ImageNet使用率最高的子数据集,该数据集涵盖1000个对象类,共计1431167张图像。LAION-400M是包含图像-文本对的大规模多模态数据集,包含4亿图文对,文本为英文。WikiArt是包含81444件艺术作品的风格迁移数据集,每张图像都有对应的艺术家、流派、风格类别标签,可用于风格迁移的模型训练。DiffusionDB是第一个公开的大规模文生图数据集,包含1400万个基于Stable Diffusion生成的图像及其prompts。LAION-400M和LAION-5B则是更大规模的文生图数据集,使多模态语言-视觉模型得到更好的训练。   

表1  常用图像数据集对比

名称

数据规模

图像类别

备注

MS-COCO

287K

自然图像

分辨率不统一

CIFAR10

60K

自然图像

分辨率为32×32

DIV2K

1K

自然图像

分辨率为2K左右

ILSVRC

1431167

自然图像

分辨率不统一

LSUN

1M

自然图像

分辨率为256×256

CelebA

202599

人脸图像

分辨率不统一

CelebA-HQ

30K

人脸图像

分辨率为1024×1024

FFHQ

70K

人脸图像

分辨率为1024×1024

AFHQ

15K

动物面部图像

分辨率为512×512

WikiArt

81444

艺术作品

分辨率不统一

DiffusionDB

14M

文本-图像对

多模态数据集、多语种文本

LAION-400M

400M

文本-图像对

多模态数据集、英文文本

LAION-5B

5B

文本-图像对

多模态数据集、多语种文本

注:K表示一千,M表示一百万,B表示十亿。


生成式图像水印算法依托图像生成模型构建,其性能与训练数据之间存在着紧密的联系。种类丰富、规模庞大的图像数据集能使模型训练出更好的性能,从而展现出我们期待的水印效果。此外,为了全面评估并提升算法的迁移能力与泛化性,构建一个多元化的图像数据集库显得尤为重要。因此,深入探索并广泛收集各类图像数据集,是推动生成式图像水印算法发展的不可或缺的基石。  
 

五、本章小结


当前,研究人员已提出许多先进的生成式图像水印算法,极大地推动了图像生成内容的版权保护和追踪溯源等技术的发展。然而,生成式图像水印算法的研究仍然面临许多问题亟待解决,下一步研究可重点关注以下几个问题。


其一,鲁棒性问题。鲁棒性是水印的核心性能之一,其强弱直接关系到水印系统的有效性和可靠性。当前,尽管提出了许多算法,但在面对几何处理等复杂攻击时,鲁棒性表现相对较弱。因此,可以进一步研究如何增强算法的鲁棒性。此外,在图像生成领域,如何确保受保护图像的数据集不被未经授权的模型用于训练,也是一个亟待解决的关键问题,亦可作为之后研究的重要方向。


其二,图像质量评价问题。水印的不可见性作为衡量其嵌入图像后视觉影响的关键指标,直接关系到算法在实际应用中的可行性。如何构建一个更为精准、全面的含水印图像视觉质量的评价体系是一个重要问题。对于生成式图像内容,传统评价指标如PSNR、SSIM已不能全面的反映含水印图像视觉质量,图像生成领域广泛使用的FID、LPIPS等指标也存在一定的局限性,因此,深入研究并开发出更能准确反映水印不可见性的新型评价指标具有重要意义。

其三,算法效率问题。时间成本作为算法从理论迈向实践的关键瓶颈之一,其重要性不容忽视。当前,基于预训练和微调框架的算法耗费着大量的计算资源和高昂的时间成本;“即插即用”式算法尽管以便捷性著称,但其迭代时间也不尽人意。因此,研究并优化算法的时间效率,是使其投入实际应用的必要前提。   

其四,数据集问题。数据集对于图像生成领域和水印性能评估的重要性不言而喻。不同的生成式图像水印算法用于实验验证的数据集不尽相同,这给算法公平对比和有效复现带来了潜在的挑战。此外,某些图像数据集存在图像质量低、内容单一的问题,难以有效评估算法的实际应用价值。在过去,CelebA和FFHQ这样的数据集被广泛应用于无条件生成模型的研究。如今,随着条件生成模型的迅速发展,规模更大的“图像-文本对”数据集,如LAION-400M和LAION-5B等,开始发挥越来越重要的作用。在实际应用中,图像生成文本指令更加复杂多样,存在大量非真实和即时性的内容,具备高质量、公信力、多样性和实时性的文本指令数据集相对稀缺。因此,构建多元化的图像数据集尤为重要,这对提升算法的实用性和可靠性具有重要意义。


参考文献


[1] T. Wang, Y. Zhang, S. Qi, et al, “Security and Privacy on Generative Data in AIGC: A Survey,” arXiv preprint, 2023, arXiv:2309.09435.

[2] C. Chen, Z. Wu, Y. Lai, et al, “Challenges and Remedies to Privacy and Security in AIGC: Exploring the Potential of Privacy Computing, Blockchain, and Beyond,” arXiv preprint , 2023, arXiv:2306.00419.

[3] I. Goodfellow, J. Pouget-Abadie, M. Mirza, et al, “Generative Adversarial Nets,” Advances in Neural Information Processing Systems, 2014, pp. 2672-2680.

[4] D.P. Kingma, M. Welling, “Auto-Encoding Variational Bayes,” In Proceedings of the International Conference on Learning Representations, 2013, pp. 1-14.

[5] L. Dinh, D. Krueger, Y. Bengio, “NICE: Non-Linear Independent Components Estimation,” arXiv preprint, 2014, arXiv:1410.8516.

[6] L. Dinh, J. Sohl-Dickstein, S. Bengio, “Density Estimation Using Real NVP,” arXiv preprint, 2016, arXiv:1605.08803.

[7] J. Ho, A. Jain, P.  Abbeel, “Denoising Diffusion Probabilistic Models,” Advances in Neural Information Processing Systems, 2020, pp. 6840-6851.

[8] J. Song, C. Meng, S. Ermon, “Denoising Diffusion Implicit Models,” In Proceedings of the International Conference on Learning Representations, 2021, pp. 1-22.

[9] C. Lu, Y. Zhou, F. Bao, et al, “DPM-solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps,” Advances in Neural Information Processing Systems, 2022, pp. 5775-5787.

[10] A. Radford, J.W. Kim, C. Hallacy, et al, “Learning Transferable Visual Models from Natural Language Supervision,” In Proceedings of the International Conference on Machine Learning, 2021, pp. 8748-8763.

[11] R. Rombach, A. Blattmann, D. Lorenz, et al, “High-Resolution Image Synthesis with Latent Diffusion Models,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2022, pp. 10684-10695.

[12] A. Ramesh, M. Pavlov, G. Goh, et al, “Zero-Shot Text-to-Image Generation,” In Proceedings of the International Conference on Machine Learning, 2021, pp. 8821-8831.

[13] D. Podell, Z. English, K. Lacey, et al, “SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis,” In Proceedings of the International Conference on Learning Representations, 2024, pp. 1-13.

[14] Y. Song, P. Dhariwal, M. Chen, et al, “Consistency Models,” arXiv preprint, 2023, arXiv:2303.01469.

[15] Z. Guan, J. Jing, X. Deng, et al, “DeepMIH: Deep Invertible Network for Multiple Image Hiding,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45(1), pp. 372-390.

[16] Y. Xu, C. Mou, Y. Hu, et al, “Robust Invertible Image Steganography,” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 7875-7884.

[17] Y. Lan, F. Shang, J. Yang, et al, “Robust Image Steganography: Hiding Messages in Frequency Coefficients,” In Proceedings of the AAAI Conference on Artificial Intelligence, 2023, 37(12), pp. 14955-14963.

[18] J. Jing, X. Deng, M. Xu, et al, “Hinet: Deep Image Hiding by Invertible Network,” In Proceedings of the IEEE International Conference on Computer Vision, 2021, pp. 4733-4742.    

[19] C. Zhang, P. Benz, A. Karjauv, et al, “UDH: Universal Deep Hiding for Steganography, Watermarking, and Light Field Messaging,” Advances in Neural Information Processing Systems, 2020, pp.10223-10234.

[20] H. Fang, Y. Qiu, K. Chen, et al, “June. Flow-based Robust Watermarking with Invertible Noise Layer for Black-Box Distortions,” In Proceedings of the AAAI Conference on Artificial Intelligence, 2023, 37(4), pp. 5054-5061.

[21] Y. Luo, T. Zhou, F. Liu, et al, “IRWArt: Levering Watermarking Performance for Protecting High-quality Artwork Images,” In Proceedings of the ACM Web Conference, 2023, pp. 2340-2348.

[22] K. Hao, G. Feng, X. Zhang, “Robust Image Watermarking Based on Generative Adversarial Network,” China Communications, 2020, 17(11), pp. 131-140.

[23] J. Fei, Z. Xia, B. Tondi, et al, “Supervised GAN Watermarking for Intellectual Property Protection,” In Proceedings of IEEE International Workshop on Information Forensics and Security, 2022, pp. 1-6.

[24] J. Huang, T. Luo, L. Li, et al, “ARWGAN: Attention-Guided Robust Image Watermarking Model Based on GAN,” IEEE Transactions on Instrumentation and Measurement, 2023, 72, pp. 1-17.

[25] D.S. Ong, C.S. Chan, K.W. Ng, et al, “Protecting Intellectual Property of Generative Adversarial Networks from Ambiguity Attacks,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2021, pp. 3630-3639.

[26] N. Lukas, F. Kerschbaum, “{PTW}: Pivotal Tuning Watermarking for {Pre-Trained} Image Generators,” In 32nd USENIX Security Symposium, 2023, pp. 2241-2258.

[27] N. Yu, V. Skripniuk, S. Abdelnabi, et al, “Artificial Fingerprinting for Generative Models: Rooting Deepfake Attribution in Training Data,” In Proceedings of the IEEE International Conference on Computer Vision, 2021, pp. 14448-14457.

[28] Y. Zhao, T. Pang, C. Du, et al, “A Recipe for Watermarking Diffusion Models,” arXiv preprint, 2023, arXiv:2303.10137.

[29] Y. Cui, J. Ren, H. Xu, et al, “DiffusionShield: A Watermark for Copyright Protection Against Generative Diffusion Models,” arXiv preprint, 2023, arXiv:2306.04642.

[30] Y. Cui, J. Ren, Y. Lin, et al, “FT-Shield: A Watermark Against Unauthorized Fine-tuning in Text-to-Image Diffusion Models,” arXiv preprint, 2023, arXiv:2310.02401.

[31] Z. Wang, C. Chen, L. Lyu, et al, “DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models,” In Proceedings of the International Conference on Learning Representations, 2024, pp. 1-21.

[32] P. Zhu, T. Takahashi, H. Kataoka, “Watermark-embedded Adversarial Examples for Copyright Protection Against Diffusion Models,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2024, pp. 24420-24430.

[33] H. Liu, Z. Sun, Y. Mu, “Countering Personalized Text-to-Image Generation with Influence Watermarks,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2024, pp. 12257-12267.

[34] P. Fernandez, G. Couairon, H. Jégou, et al, “The Stable Signature: Rooting Watermarks in Latent Diffusion Models,” In Proceedings of the IEEE International Conference on Computer Vision, 2023, pp. 22466-22477.    

[35] Y. Ma, Z. Zhao, X. He, et al, “Generative Watermarking Against Unauthorized Subject-Driven Image Synthesis,” arXiv preprint, 2023, arXiv:2306.07754.

[36] C. Xiong, C. Qin, G. Feng, et al, “Flexible and Secure Watermarking for Latent Diffusion Model,” In Proceedings of the 31st ACM International Conference on Multimedia, 2023, pp. 1668-1676.

[37] Z. Meng, B. Peng, J. Dong, “Latent Watermark: Inject and Detect Watermarks in Latent Diffusion Space,” arXiv preprint, 2024, arXiv:2404.00230.

[38] C. Kim, K. Min, M. Patel, et al, “WOUAF: Weight Modulation for User Attribution and Fingerprinting in Text-to-Image Diffusion Models,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2024, pp. 8974-8983.

[39] X. Zhang, R. Li, J. Yu, et al, “EditGuard: Versatile Image Watermarking for Tamper Localization and Copyright Protection,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2024, pp. 11964-11974.

[40] Y. Wen, J. Kirchenbauer, J. Geiping, et al, “Tree-Ring Watermarks: Fingerprints for Diffusion Images that are Invisible and Robust,” Advances in Neural Information Processing Systems, 2023, pp. 1-17.

[41] L. Zhang, X. Liu, A.V. Martin, et al, “Robust Image Watermarking Using Stable Diffusion,” arXiv preprint, 2024, arXiv:2401.04247.

[42] G.H. Liu, T. Chen, E. Theodorou, et al, “Mirror Diffusion Models for Constrained and Watermarked Generation,” Advances in Neural Information Processing Systems, 2023, pp. 1-20.

[43] G. Zhang, L. Wang, Y. Su, et al, “A Training-Free Plug-and-Play Watermark Framework for Stable Diffusion,” arXiv preprint, 2024, arXiv:2404.05607.

[44] Z. Yang, K. Zeng, K. Chen, et al, “Gaussian Shading: Provable Performance-Lossless Image Watermarking for Diffusion Models,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2024, pp. 12162-12171.

[45] M. Heusel, H. Ramsauer, T. Unterthiner, et al, “Gans Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium,” Advances in Neural Information Processing Systems, 2017, pp. 1-12.

[46] R. Zhang, P. Isola, A.A. Efros, et al, “The Unreasonable Effectiveness of Deep Features as a Perceptual Metric,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 586-595.

[47] T.Y. Lin, M. Maire, S. Belongie, et al, “Microsoft COCO: Common Objects in Context,” In Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, 2014, pp. 740-755.

[48] A. Krizhevsky, G. Hinton, “Learning Multiple Layers of Features from Tiny Images,” 2009.

[49] T. Karras, S. Laine, T. Aila, “A Style-based Generator Architecture for Generative Adversarial Networks,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 4401-4410.

[50] Y. Choi, Y. Uh, J. Yoo, et al, “Stargan v2: Diverse Image Synthesis for Multiple Domains,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020, pp. 8188-8197.

[51] J. Deng, W. Dong, R. Socher, et al, “Imagenet: A Large-scale Hierarchical Image Database,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2009, pp. 248-255.    

[52] C. Schuhmann, R. Vencu, R. Beaumont, et al, “LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs,” arXiv preprint, 2021, arXiv:2111.02114.

[53] Z. Liu, P. Luo, X. Wang, et al, “Deep Learning Face Attributes in the Wild,” In Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 3730-3738.

[54] T. Karras, T. Aila, S. Laine, et al, “Progressive Growing of GANs for Improved Quality, Stability, and Variation,” In Proceedings of the International Conference on Learning Representations, 2018, pp. 1-26.

[55] B. Saleh, A. Elgammal, “Large-scale Classification of Fine-art Paintings: Learning the Right Metric on the Right Feature,” International Journal for Digital Art History, 2016, 2, pp.1-26.

[56] Z. J. Wang, E. Montoya, D. Munechika, et al. “DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models,” In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. 2023, 1, pp. 893-911.

[57] R. Timofte, E. Agustsson, L. Van Gool, et al, “NTIRE 2017 Challenge on Single Image Super-Resolution: Methods and Results,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2017, pp. 1110-1121.

[58] F. Yu, A. Seff, Y. Zhang, et al, “LSUN: Construction of a Large-Scale Image Dataset using Deep Learning with Humans in the Loop,” arXiv preprint, 2015, arXiv:1506.03365.

[59] C. Schuhmann, R. Beaumont, R. Vencu, et al. “LAION-5B: An Open Large-scale Dataset for Training Next Generation Image-Text Models,” Advances in Neural Information Processing Systems, 2022, pp. 25278-25294.


隐者联盟
本公众号主要推介多媒体、人工智能、信息安全等方面的最新研究进展,愿与同行携手,共同推动科学研究向前发展。
 最新文章