TPAMI 2024 | AnyFace++:自由风格文本到人脸合成与操纵的统一框架

文摘   2024-10-29 19:01   辽宁  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

论文信息

题目:AnyFace++: A Unified Framework for Free-style Text-to-Face Synthesis and Manipulation

AnyFace++:自由风格文本到人脸合成与操纵的统一框架

作者:Mingjian Guang; Chungang Yan; Yuhua Xu; Junli Wang; Changjun Jiang

论文创新点

  • 1 自由风格文本到人脸生成问题的定义:本文首次定义了“自由风格”文本到人脸生成和操纵问题,这个问题允许使用更开放和灵活的文本描述来指导人脸图像的生成,从而更好地适应现实世界的应用需求。
  • 2 AnyFace++框架的提出:为了解决上述问题,本文提出了一个名为AnyFace++的统一框架,该框架通过结合CLIP模型和记忆模块,能够在更广泛的开放世界场景中应用,并且能够处理更多样化和细粒度的文本描述。
  • 3 多视角自适应邻域感知方法:AnyFace++采用了多视角自适应邻域感知方法,这种方法能够在节点和跳数级别上同时感知邻域信息,提高了模型对文本描述的理解和生成人脸图像的准确性。
  • 4 半监督训练策略和新数据集FFText-HQ:为了提高模型的训练效果并解决细粒度文本到人脸合成数据不足的问题,本文提出了一种半监督训练策略,并构建了一个新的数据集FFText-HQ,该数据集包含了精细的文本描述和对应的人脸图像,有助于提升生成结果的质量和多样性。

摘要

人脸包含了丰富的语义信息,这些信息很难用有限的词汇量和复杂的句子模式来描述。然而,大多数现有的文本到图像合成方法只能基于训练集中包含的有限句子模板和词汇生成有意义的结果,这严重限制了这些模型的泛化能力。在本文中,我们定义了一种新颖的“自由风格”文本到人脸生成和操纵问题,并提出了一个有效的解决方案,名为AnyFace++,它适用于更广泛的开放世界场景。AnyFace++中涉及到CLIP模型,用于学习对齐的语言-视觉特征空间,这也扩展了可接受的词汇范围,因为它是在大规模数据集上训练的。为了进一步提高文本和图像之间语义对齐的粒度,引入了一个记忆模块,将任意长度、格式和模态的描述转换为代表目标人脸的区分性属性的规范化潜在嵌入。此外,通过一种新颖的半监督训练方案和一系列新提出的目标函数,提高了生成结果的多样性和语义一致性。与最先进的方法相比,AnyFace++能够根据更灵活的描述合成和操纵人脸图像,并产生更具多样性的真实图像。

关键字

  • 生成对抗网络
  • 文本到图像生成

I. 引言

一张图片胜过千言万语。人脸作为社交互动中最重要的视觉信号之一,包含了丰富的语义特征,值得用无数的词汇来描述其在形状、纹理以及发型和配饰类型等相关概念上的巨大多样性。因此,根据任意文本描述生成多样化的人脸图像,以满足元宇宙、社交媒体、广告等应用日益增长的需求,是非常理想的。尽管现有的人脸图像合成[1]-[6]和操纵[7]-[9]方法能够使用无条件生成模型(例如,StyleGAN[10]和NVAE[11])生成令人印象深刻的结果,但根据条件性文本输入合成人脸图像仍然是一个具有挑战性的问题。因此,文本到图像合成问题(T2I)[12]-[19]在计算机视觉界引起了越来越多的关注。大多数早期的T2I尝试[12]、[14]、[17]、[20]提出了学习语言和视觉特征之间的关系,并基于文本和图像嵌入的连接生成语义一致的图像。然而,采用这种简单连接操作的方法只能根据单一输入标题合成图像,这些标题包含了关于目标主题的有限信息。如图1(a)所示,与基于部分描述生成的T2I结果相比,使用所有标题合成的人脸图像与源人脸在语义上更一致,表明涉及更多标题对于更忠实地生成所需人脸图像是有益的。除了描述的数量之外,大多数现有方法[2]、[12]、[21]只能处理训练集中包含的单词和短语的输入句子,这严重限制了它们在现实世界场景中的应用。此外,大多数现有方法需要额外的网络来从输入文本中提取特征。随着视觉和语言预训练模型如CLIP[22]的出现,一些方法[23]-[25]探索了开放世界文本到图像合成,然而,它们中的大多数要求输入遵循预定义的模式,并且除了区分性属性之外的句子组成部分被移除。因此,这些模型必须额外努力处理任意条件性描述。上述讨论反映了现有T2I方法的主要问题,即它们只能接受风格受限的输入文本(例如,有限数量的句子、格式化的语法和训练数据集中包含的词汇)。然而,在现实世界场景中,用户提供的文本描述通常是“自由风格”的,因此模型应该对输入文本的假设尽可能少。在本文中,我们定义了一个“自由风格”文本到图像生成和操纵问题,它应该具有以下属性:1)任何词汇都可以包含在标题中,特别是训练数据集中不包含的真实世界概念;2)标题中的任何细节都应该在生成或操纵结果中准确反映;3)任何数量的标题都可以作为描述所需图像的条件;4)允许任何格式的标题,使用户能够用自己的语言描述图像,而不是遵循预定的模板;5)应该接受任何模态的条件信息,允许用户以更细粒度的方式(例如,视觉参考)指导生成。在本文中,我们提出了一种通用方法,名为AnyFace++,用于解决新颖的自由风格文本到人脸图像生成和操纵问题。AnyFace++的整体架构由两个流组成,一个用于文本条件图像生成,另一个用于图像重建。由于T2I问题是不适定的,即文本和图像之间的映射是模糊的,因此这种一对一的图像重建网络作为辅助监督,有助于规范生成分支的输出。为了弥合语言和视觉输入之间的差距,除了双流架构外,还结合了对比语言图像预训练(CLIP)模型,以建立这些多模态信号的统一潜在空间。CLIP在包含4亿测试图像对的大规模数据集上进行训练,能够处理许多现有T2I数据集中不包含的词汇(任何词汇),这使得AnyFace++适用于更广泛的开放世界场景(见图1(b))。然而,由于CLIP是在野外数据集上训练的,文本特征常常无法捕捉到个别词汇中包含的细粒度语义,这影响了模型的灵活性。为了解决这个问题,一个直观的解决方案是强调描述人脸图像区分特征的句子组成部分。为此,引入了一个记忆模块,以增加面部属性和相应文本描述之间的局部相似性。记忆模块还可以将输入文本的CLIP嵌入转换为各种长度和格式的规范化特征向量(任何数量和格式),使模型能够处理更多样化的描述,并有助于防止通过查询和更新学习到的面部属性字典来忽略信息丰富的句子组成部分(任何细节)。然而,训练这样的模型需要大量的文本-图像数据对,这些数据的收集和注释成本非常高。因此,利用AnyFace++的架构设计,采用了半监督训练方案,其中成对数据和未标注的图像都可以作为输入。直观地说,这种策略可以显著扩大可用训练数据的规模,有助于改善共同特征空间中语言和视觉数据的对齐,并可以进一步增强生成结果的语义一致性。此外,多模态数据在各种输入形式中的兼容性还允许用户通过提供视觉指导和文本描述来指定目标面部属性的细粒度细节(任何模态)。为了训练我们的方法,提出了几个新的目标函数。为了对齐学习到的语言和视觉特征,许多现有研究[2]、[23]采用严格的约束来强制最小化配对文本和图像特征之间的距离,这可能会导致生成图像的质量和多样性降低,因为T2I问题固有的匹配歧义。因此,我们放宽了对文本和图像特征相似性的限制,并提出了一种新的多样化三元组损失,以提高生成结果的多样性以及防止输出图像偏离自然流形太远的潜在一致性损失。此外,还引入了一个跨模态转移损失,以促进两个网络之间的信息交换,并增强输入文本和输出图像之间的语义一致性。据我们所知,这是自由风格文本到人脸问题的定义、解决方案和应用的首次提出,这是去除人脸图像合成限制的突破。这篇期刊论文扩展了我们之前的会议论文AnyFace[26],主要在以下四个方面。
  • 我们引入了一种半监督训练策略,允许我们在训练过程中使用更多的数据,这提高了生成图像的质量和多样性。
  • 我们提出了一种新的记忆机制,学习更对齐的共同特征空间,用于文本和图像表示,这防止了从文本描述中遗漏信息丰富的面部属性。此外,新的记忆模块使我们的网络能够支持多模态交互生成任务。
  • 我们设计了一个潜在一致性损失,防止输出图像偏离自然图像流形太远。
  • 我们引入了一个新的数据集,精细的文本描述用于人脸,名为FFText-HQ,它解决了缺乏大规模数据集进行细粒度文本到人脸合成的问题。

3 方法

文本到人脸生成是一个多对多问题,即一个人脸图像可以有多个文本描述,一个文本描述也可能对应多个人脸图像。与文本到人脸生成不同,人脸图像重建是一个确定性任务,本文利用它来指导文本到人脸生成过程。基于上述观点,我们设计了一个双流框架用于文本到人脸合成。图2显示了AnyFace++的概述,它主要由两个流组成:人脸图像合成流和人脸图像重建流。我们在推理阶段只保留人脸图像合成流。AnyFace++支持两种类型的训练数据,图像-文本对或仅人脸图像。接下来,我们将简要介绍本文中使用的一些符号。给定一个文本描述或人脸图像作为输入,表示为T,人脸图像合成流的目标是合成一个人脸图像IT,其描述或内容与输入一致。人脸图像重建流的目标是生成一个人脸图像II,它可以重建人脸图像I。以下,我们将详细介绍双流文本到人脸合成网络的细节。

3.1 双流文本到人脸合成网络

人脸图像合成。如图2所示,给定一个文本描述或人脸图像,人脸图像合成流的目标是生成相应的人脸图像。由于CLIP为文本和图像建立了一个通用空间,其中配对的图像和文本的特征在高维超球体中彼此接近,因此我们利用CLIP来编码人脸图像和文本描述。具体来说,我们使用CLIP文本编码器或CLIP图像编码器从输入中提取一个768维的特征向量。借助CLIP模型,我们可以确保人脸图像和文本描述之间的全局相似性。与传统的文本到图像生成任务不同,人脸图像包含各种语义信息和细粒度细节。现有的预训练多模态方法通常忽略了语义区域与其相关文本描述之间的局部相似性。如图1(a)所示,对于一对人脸图像和文本描述,它们的全局相似性还包括面部属性(例如,眼睛、头发颜色)和关键词(用粗体和下划线标记)之间的多个局部相似性。如何对齐这些属性及其相关词汇以测量它们的局部相似性是我们方法的核心问题之一。然而,这是非常不平凡的,因为我们没有地面真相对应关系。受到之前工作的启发[73],我们提出了一个记忆模块,它可以通过弱监督学习将文本描述与人脸组件对齐。记忆模块的详细信息可以在第3.3节中看到。假设记忆模块由表示,那么
其中表示对齐的中间特征表示。我们使用StyleGAN生成图像,因为它的生成能力和表现良好的潜在空间。然而,和StyleGAN的潜在特征表示之间仍然存在很大的差距。我们提出了一个映射网络,跨模态蒸馏模块(CMDM),将嵌入到StyleGAN的潜在空间中:
其中表示潜在的潜在特征表示。先前的工作[9]、[24]表明,StyleGAN的潜在空间支持分离和有意义的图像操纵。我们不是直接通过生成图像,而是选择的最后个维度,并将其表示为。直观地说,提供了从给定文本描述中学习的人脸图像的高级属性信息。为了保持生成图像的多样性,潜在代码的其他维度从噪声中获取,通过预训练的映射网络提供随机的低级拓扑信息。我们将其表示为。除非另有规定,本文中设置。然后被连接在一起,并发送到StyleGAN解码器以生成最终结果
其中表示连接操作,表示StyleGAN解码器。
人脸图像重建。由于生成图像的多样性对于文本到人脸合成至关重要,我们必须仔细设计目标函数来规范人脸合成网络,使其能够学习更有意义的表示。然而,直接计算原始输入和合成图像之间的像素级损失是不可行的。因此,我们设计了一个人脸重建网络,它执行人脸图像重建并为人脸合成网络提供视觉信息指导。与人脸合成流类似,我们首先利用CLIP图像编码器从原始输入图像中提取一个768维的特征向量。然后,半监督记忆模块被进一步采用以增加局部语义区域和词汇之间的相似性。最后,CMDM被用来减少对齐的中间特征表示和StyleGAN的潜在特征表示之间的差距。如图2(a)所示,重建的图像可以被公式化为:
其中。注意,人脸合成网络和人脸重建网络都有半监督记忆模块和跨模态蒸馏模块,这在之间的交互中很重要。以下,我们首先简要介绍CMDM,然后介绍的详细信息。

3.2 跨模态蒸馏

先前的工作[77]-[79]揭示了模型蒸馏可以使两个不同的网络相互受益。受到它们的启发,我们也在本文中利用了模型蒸馏。为了对齐人脸合成网络和人脸重建网络的潜在特征,我们提出了一个简单但有效的模块,称为跨模态蒸馏模块(CMDM)。如图2(c)所示,CMDM是一个全连接网络,由12个线性层组成。假设网络的中间特征可以表示为,我们应该在将它们投影到StyleGAN的潜在空间之前对齐这些特征。具体来说,CMDM首先通过softmax对隐藏特征进行归一化,然后通过跨模态传输损失学习互信息:
其中表示Kullbach Leibler (KL) 散度。注意是为人脸合成网络设计的。我们可以很容易地推导出人脸重建网络的

3.3 记忆模块和半监督训练策略

考虑到人脸图像包含各种语义信息和细粒度组件,我们设计了一种新的记忆机制来增加面部属性和相关关键词之间的局部相似性。由于人脸图像合成流和人脸图像重建流中的记忆模块具有相同的功能,因此它们共享相同的网络架构。以下,我们将以人脸图像重建流中的记忆模块为例来描述详细的架构,人脸图像合成流中的记忆模块在输入和输出方面有所不同。所提出的记忆模块的结构如图3所示,由个记忆块组成,对应于个人脸属性(例如,性别、头发颜色)。在本文中,我们采用了26个人脸属性来描述人脸图像,详细信息可见表1。每个记忆块包含对应于不同属性项的不同记忆项。记忆初始化。初始化对于所提出的记忆模块非常重要。一个简单直接的方法是使用CLIP特征来初始化第个()记忆块,表示为。然而,CLIP是在从互联网收集的文本-图像对上训练的,可能在匹配细粒度面部属性和它们的关键词方面存在一些困难。为了克服这些限制,我们使用预先注释的文本-面部对重新初始化记忆块。给定一个人脸图像及其第个面部属性标签,其中是一个匹配图像的属性项的独热行向量,对其他属性项为0,我们可以重新初始化第个记忆块为:
其中是衰减率,表示向量的转置。记忆更新。为了探索更通用的视觉和语言表示,我们采用了自监督更新策略。假设的第个()记忆项可以表示为:的独立记忆项的数量),我们首先计算输入特征之间的余弦相似性
然后我们可以通过以下公式获得与最相关的记忆项
假设是一个独热行向量,它为第属性项分配1,对其他属性项为0,那么我们可以更新第个记忆块为:
注意,我们的记忆模块的输入特征可以从文本描述或人脸图像中提取,所以我们的记忆模块存储了文本描述和人脸图像的通用表示。记忆阅读。由于我们已经通过记忆模块获得了输入文本描述的人脸图像的通用表示,我们可以通过读取记忆块来重建输入特征。规范化特征可以通过连接所有记忆块的特征获得:,其中是初始特征和最相关记忆项的总和,
其中由方程8计算。半监督训练策略。为了学习记忆机制的通用视觉和语言表示空间,需要大量的文本到面部对进行训练。然而,现有的文本到面部数据集只有有限的文本注释。为了解决这个问题,我们提出了一种半监督训练策略。特别地,在训练过程中,文本-面部对和面部图像可以交替使用作为输入。CLIP提取的文本和图像特征用于更新记忆项,并且两种模态的信息被映射到统一的特征空间。而在推理阶段,我们可以通过在记忆模块中用图像特征替换文本特征来实现多模态交互生成。

3.4 目标函数

所提出方法的目标函数包含五个部分:一个跨模态传输损失,用于减少中间特征表示和StyleGAN潜在特征表示之间的差距;一个多样化三元组损失,用于鼓励合成人脸图像的多样性和高保真度;一个潜在一致性损失,用于减轻生成人脸图像中的不自然噪声;一个CLIP损失,用于确保生成的人脸图像和文本描述之间的语义一致性;以及一个重建损失,用于鼓励生成的图像与输入图像无法区分。由于我们已经介绍了跨模态传输损失的细节,我们将首先介绍多样化三元组损失和潜在一致性损失,然后展示人脸合成流和人脸重建流的整体目标函数。
多样化三元组损失(Diverse Triplet Loss)。回想在3.1小节中,CMDM将对齐的中间特征表示嵌入到StyleGAN的潜在空间中:。实际上,对齐的中间特征表示和StyleGAN的潜在空间之间仍然存在很大的差距。一个直接的方法是最小化成对损失:
其中是矩阵范数,例如范数,范数,是StyleGAN的相应潜在代码,可以通过预训练的反演模型[80]、[81]编码。然而,我们发现这种方法存在问题。如图4(a)所示,CMDM会通过收敛到平均人脸图像的潜在代码来作弊。为了提高合成图像的多样性和高保真度,我们设计了一个多样化三元组损失。给定一个批次的个样本,其中与目标代码配对的映射潜在代码被视为正样本,否则为负样本。平均人脸的潜在代码也用于惩罚CMDM的模型崩溃。多样化三元组损失由以下公式给出:
其中表示余弦相似性,表示边界。如图4(b)所示,多样化三元组损失促使正样本接近锚点,负样本远离锚点,同时鼓励正样本和负样本发散和细粒度特征。
潜在一致性损失(Latent Consistency Loss)。尽管多样化三元组损失可以提高合成图像的多样性,输出图像很容易偏离自然分布,导致生成结果中的伪影。为了缓解这个问题,我们提出了一个潜在一致性损失来约束潜在代码之间的距离。对于一个批次的映射潜在代码,第个样本和第个()样本的潜在代码之间的距离可以表示为:
然后我们可以将第个样本的所有距离连接起来,表示为:
类似地,我们可以用同样的方式定义由预训练的反演模型编码的目标潜在代码的距离。本文的一个基本假设是,由CMDM生成的潜在代码的分布应该与由预训练的反演模型生成的潜在代码的分布相似,因此潜在一致性损失通过计算之间的KL散度获得:
人脸图像合成。人脸合成流的目标函数可以公式化为:
其中分别是潜在一致性损失、跨模态传输损失和CLIP损失的系数,CLIP损失用于确保生成图像和输入之间的语义一致性:
其中是最终生成图像的特征。人脸图像重建。人脸图像重建流的目标函数可以定义为:
其中用于鼓励生成的图像与输入图像一致,定义为:

4 实验

4.1 实验设置

数据集:我们在两个公共数据集和一个新收集的数据集上进行实验。我们在Multi-Modal CelebA-HQ [2] (MM-HQ)和CelebAText-HQ [3]上验证了我们方法的有效性。MM-HQ [2]包含30,000张人脸图像,这些图像的文本描述是由属性标签合成的。CelebAText-HQ [3]包含15,010张人脸图像,这些图像有手动注释的文本描述。所有人脸图像都来自CelebA-HQ [82],每个图像有十个不同的文本描述。我们遵循SEA-T2F [3]的训练和测试集的分割设置。以前的数据集要么根据现有二进制属性注释固定模式的文本(例如,MM-HQ),要么主观地任意注释它们(例如,CelebAText-HQ)。这些数据集没有考虑人脸作为一个整体的特征,并且不能全面准确地描述一个人脸。为了弥补这一差距,我们构建了一个名为FFText-HQ的人脸数据集,该数据集具有精细的注释。FFText-HQ包含20K高分辨率人脸图像,遵循FFHQ [10]。每张图像都用26个人脸属性类别的文本描述进行了注释。在表1中,我们展示了26个人脸属性类别和相应的项目,这些项目涵盖了人脸几乎所有的特征。在本文中,我们只使用FFText-HQ的文本属性来提高记忆模块中生成结果的准确性,而不是制作用于训练模型的句子。
指标:我们从两个方面评估文本到人脸合成的结果:图像质量和语义一致性。图像质量通过Fréchet Inception Distance (FID) [83]、Learned Perceptual Image Patch Similarity (LPIPS) [84]、Convolutional Neural Network Image Quality Assessment (CNNIQA) [85]和Perceptual Index (PI) [86]进行评估。至于语义一致性,使用R-precision [12]来评估传统的T2I方法。使用在训练集上预训练的图像-文本匹配网络来检索每个目标图像的文本,然后计算匹配率。这种评估指标的一个问题是由于训练样本有限,预训练模型的性能不准确。此外,没有预训练的网络可以匹配人脸和文本。文本到人脸合成的目标是根据给定的文本描述生成人脸图像,我们希望合成结果与原始图像相似。基于我们构建的具有属性注释的FFText-HQ数据集,我们提出了使用属性匹配率来衡量生成图像和相应给定文本之间的语义一致性。对于属性匹配率,我们首先从表1中随机选择一些属性来制作句子,然后根据这些文本描述生成相应的图像。最后,我们计算生成图像和相应属性项之间的CLIP相似性作为匹配率。

4.2 定量结果

表2显示了与以前最先进的模型在CelebAText-HQ和MM-HQ数据集上的定量比较。如表所示,AnyFace++的FID和PI在两个数据集上都优于其他相关方法,证明了生成结果的视觉质量更高。我们的方法在CNNIQA中也取得了竞争性得分(排名第二),仅比表现最好的方法SEAT2F低0.011。AnyFace++的LPIPS优于大多数最先进的方法,略低于AnyFace。由于LPIPS是使用作为Anyface训练数据集的CelebATextHQ图像计算的,而AnyFace++的大部分训练图像来自FFHQ数据集(70000张图像),这与CelebAText-HQ的分布不同。数据分布的差异导致了Anyface++的LPIPS得分更高。关于语义一致性,AnyFace++比其他方法大大提高了属性匹配率。由AnyFace++生成的结果与给定的文本描述更加一致。

4.3 定性结果

本小节中,我们从图像质量和语义一致性的两个方面定性比较基线,包括通用文本到图像方法AttnGAN [12]和SEA-T2F [3],基于GAN的方法TediGAN-B [23]和AnyFace [26],以及最新的基于扩散模型的方法CollDiff [87]和Dalle2 [59]。具体来说,我们评估了这些方法在真实生活应用中的泛化能力,包括开放世界场景、多标题场景、多模态交互生成和文本引导的人脸操纵。

4.3.1 定性比较

图像质量和生成结果的语义一致性对于文本到图像任务非常重要。本小节展示了AttnGAN [12]、SEA-T2F [3]、TediGAN-B [23]、CollDiff [87]、Dalle2 [59]和AnyFace++的比较结果,如图6所示。如图中所示,多阶段方法(AttnGAN [12]和SEA-T2F [3])可以根据文本描述学习不同的语义属性(例如,性别和年龄),而忽略了细粒度信息(例如,波浪发和浓密的眉毛)。此外,它们的结果限制在256×256的分辨率,具有不自然的伪影和低质量的纹理。尽管TediGAN-B [23]的图像质量更好,但生成的人脸与文本描述不一致。例如,在第二行中,TediGAN-B生成了一个男性面孔,而生成结果应该是女性。CollDiff [87]和Dalle2 [59]在文本输入超出分布时生成的图像存在大量伪影。相比之下,AnyFace和AnyFace++能够产生在图像质量和语义一致性方面令人满意的结果。例如,在第三行中,波浪发的抽象语义和第四行中微张的嘴巴的描述与预期的文本一致。

4.3.2 真实生活应用

开放世界场景。由于AttnGAN [12]和SEAT2F [3]不适合数据集外的文本描述,我们与TediGAN-B [23]、CollDiff [87]和Dalle2 [59]进行了开放世界场景的比较。开放词场景的比较如图7所示。尽管TediGAN-B的结果照片般逼真,但其语义内容与相应的文本描述不一致。例如,第一个文本描述要求生成听到坏消息的结果,但TediGAN-B合成了一个快乐的面孔。CollDiff和Dalle2在文本输入超出分布时生成的图像存在大量伪影。AnyFace和AnyFace++都能准确地捕捉文本描述中的信息,生成语义一致且逼真的人脸。此外,得益于我们记忆机制的强大表示,具有相似含义的文本描述将被编码成StyleGAN的相似潜在代码,即使文本描述包含抽象信息。通过引入记忆机制来学习文本描述中的关键语义,AnyFace++获得了更强的生成多样性。总的来说,AnyFace和AnyFace++能够从文本描述中学习视觉概念。例如,“坏消息”产生的表情是“悲伤”,“博士”对应于“学位帽”,“程序员”与“秃顶”和“眼镜”相关。
多标题场景。在本小节中,我们与SEA-T2F [3]进行了多标题场景的比较。如图8所示,AnyFace和AnyFace++都能产生自然且平滑的外观,没有明显的幽灵伪影和颜色失真。随着句子数量的增加,正确匹配所有文本的难度也在增加。与SEA-T2F相比,AnyFace和AnyFace++的结果与文本描述(例如,“长发”和“遮住耳朵”)更加一致。由于记忆模块的优势,AnyFace++能够产生更语义一致的结果,特别是在眼睛颜色等局部细节区域。请注意,由于[3]中标记数据样本的主观性,即使源图像也可能不完全匹配所有描述。
多模态交互生成。多模态交互生成比文本到图像生成更具挑战性且前景广阔,因为它要求模型根据文本输入学习参考图像中的特定语义信息。图9展示了我们的方法和Textual-inversion [88]的多模态交互生成结果。AnyFace++可以使用文本或图像作为输入,通过网络进行半监督学习,使两种模态的特征在相同的特征空间中对齐。如图中所示,AnyFace++可以生成与文本描述和参考图像一致的面部特征。另一方面,Textual Inversion的图像质量比我们的好(它使用了预训练的Stable diffusion模型,这需要大量的训练时间和计算资源),但它未能改变生成图像的身份,结果与给定的文本不一致。
文本引导的人脸操纵。在本小节中,我们展示了AnyFace++可以很容易地适应给定文本描述的人脸图像的连续操纵,通过改变文本嵌入的大小(即,改变第3.1小节中的)。从图10中,我们比较了我们的方法与TediGAN [2]和StyleCLIP [24],这些是专门设计用于人脸操纵的方法。我们的方法可以实现比TediGAN和StyleCLIP更高的操纵程度。此外,我们的方法支持连续操纵,这允许用户在源图像和文本之间更灵活地控制操纵程度。

4.3.3 消融研究和讨论

跨模态蒸馏的分析。我们通过比较AnyFace和有无LCMT的定性结果来探索跨模态蒸馏对框架的影响,如图6所示。对于“w/o LCMT”,很难学习结构化特征。例如,第二行和第三行的面孔未能合成“波浪发”,并且最后一行合成的嘴巴与文本描述的一部分“嘴巴微张”不一致。进一步从定量角度探讨了LCMT的效果。在图11中,我们展示了有无LCMT的FID随训练步骤的变化。我们观察到实线(“w LCMT”)在所有数据集上通过大范围改善FID并加速收敛。定量和定性评估都证明了跨模态蒸馏的有效性。
不同模块的贡献。为了评估不同模块的贡献,我们训练了一个没有记忆机制的网络(记作“w/o Memory”),一个没有潜在一致性损失的网络(记作“w/o LConsist”),以及一个没有多样化三元组损失的网络(记作“w/o LDT”)。定性结果如图12所示。如图中所示,“w/o Memory”错过了一些细粒度细节并且缺乏多样性。“w/o LConsist”可以产生更多样化的结果,并且与给定文本更一致。然而,生成的面孔轮廓伴随着“噪声状”伪影。“w/o LDT”用成对损失替换了多样化三元组损失。“w/o LDT”生成的面孔外观相似,例如表情和肤色,这与文本描述的语义内容不匹配。定量比较如表3所示。移除任何一个模块都会使FID结果变差,表明每个模块对生成图像的分布都有一定的贡献。对于属性匹配率,每个模块都可以提高生成图像和给定文本之间的一致性。特别是,记忆机制显著提高了准确率。总的来说,所有模块都有助于性能提升。
复杂文本描述场景。我们定性和定量比较了AnyFace和AnyFace++在复杂文本描述场景中的表现。复杂的文本描述中包含丰富的属性和细节,这对于文本到图像生成来说是非常具有挑战性的。图12显示了AnyFace和AnyFace++的定性结果。如图中所示,AnyFace++比AnyFace更准确地捕捉文本描述的内容,无论是结构(例如,短发)还是外观(例如,黑发)信息。例如,第一行中AnyFace生成的棕色头发与文本描述的“黑发”不匹配。第二行的文本描述要求生成“短发”,而AnyFace生成了一个秃头。由于引入了记忆机制和潜在一致性损失,即使给定复杂的文本描述,AnyFace++仍然生成语义一致且高质量的面孔。定量比较中,我们计算了FID和属性匹配率。定量结果如表3所示。与AnyFace相比,AnyFace++将FID从50.56降低到42.42,并将属性匹配率从36.03%提高到40.55%。
多样化三元组损失中边界的影响。为了探索不同边界在多样化三元组损失中的影响,我们使用FID和属性匹配率进行评估。如图13所示,随着边界的增加,FID先减小然后增加,匹配率先增加然后减小。当边界太小,模型不能合成多样化的结果,当边界太大时,结果将超出真实图像的分布。因此,边界可以选择在(0.1,0.2)之间。

4.4 局限性

我们承认我们的方法有一些局限性,并且在面对具有挑战性的提示时可能会产生不准确的结果。我们已经确定了三种导致失败案例的提示类型:1) 与常识相矛盾的描述,例如“长胡须的女孩”或“有皱纹的婴儿”;2) 夸张的属性,例如“绿色眉毛”或“红发”;3) 特定个体,例如“小丑”或“唐纳德·特朗普”。失败的可视化示例如图14所示。

5 结论

在本文中,我们提出了一种名为AnyFace++的新方法,用于处理新定义的“自由风格”文本到人脸合成问题,这更符合现实世界的应用。AnyFace++采用了双流框架,一个用于文本条件人脸图像合成,另一个用于输入图像重建。通过跨模态蒸馏模块鼓励这两个分支之间的信息对齐,并且提出了多样化三元组损失以帮助网络产生具有多样化和细粒度面部组件的图像。此外,CLIP编码器被用来将语言和视觉输入嵌入到对齐的语言-视觉特征空间中,记忆机制进一步实现了输入句子和输出图像之间的语义细节匹配。为了改善多模态数据之间的对齐,并缓解具有详细描述的文本-图像对的不足,提出了一种半监督训练策略和一个新的数据集FFText-HQ,以激发未来在这个领域的探索。与现有方法相比,AnyFace++可以应用于现实世界的文本到人脸合成和操纵任务,对条件文本的数量、内容和格式的限制要少得多,并且可以以交互方式提供视觉指导。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编


PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章