点击下方“PaperEveryday”,每天获得顶刊论文解读
点击加入论文投稿、写作、阅读分享交流群
论文信息
题目:AnyFace++: A Unified Framework for Free-style Text-to-Face Synthesis and Manipulation
AnyFace++:自由风格文本到人脸合成与操纵的统一框架
作者:Mingjian Guang; Chungang Yan; Yuhua Xu; Junli Wang; Changjun Jiang
论文创新点
1 自由风格文本到人脸生成问题的定义:本文首次定义了“自由风格”文本到人脸生成和操纵问题,这个问题允许使用更开放和灵活的文本描述来指导人脸图像的生成,从而更好地适应现实世界的应用需求。 2 AnyFace++框架的提出:为了解决上述问题,本文提出了一个名为AnyFace++的统一框架,该框架通过结合CLIP模型和记忆模块,能够在更广泛的开放世界场景中应用,并且能够处理更多样化和细粒度的文本描述。 3 多视角自适应邻域感知方法:AnyFace++采用了多视角自适应邻域感知方法,这种方法能够在节点和跳数级别上同时感知邻域信息,提高了模型对文本描述的理解和生成人脸图像的准确性。 4 半监督训练策略和新数据集FFText-HQ:为了提高模型的训练效果并解决细粒度文本到人脸合成数据不足的问题,本文提出了一种半监督训练策略,并构建了一个新的数据集FFText-HQ,该数据集包含了精细的文本描述和对应的人脸图像,有助于提升生成结果的质量和多样性。
摘要
关键字
生成对抗网络 文本到图像生成
I. 引言
我们引入了一种半监督训练策略,允许我们在训练过程中使用更多的数据,这提高了生成图像的质量和多样性。 我们提出了一种新的记忆机制,学习更对齐的共同特征空间,用于文本和图像表示,这防止了从文本描述中遗漏信息丰富的面部属性。此外,新的记忆模块使我们的网络能够支持多模态交互生成任务。 我们设计了一个潜在一致性损失,防止输出图像偏离自然图像流形太远。 我们引入了一个新的数据集,精细的文本描述用于人脸,名为FFText-HQ,它解决了缺乏大规模数据集进行细粒度文本到人脸合成的问题。
3 方法
3.1 双流文本到人脸合成网络
3.2 跨模态蒸馏
3.3 记忆模块和半监督训练策略
3.4 目标函数
4 实验
4.1 实验设置
4.2 定量结果
4.3 定性结果
4.3.1 定性比较
4.3.2 真实生活应用
4.3.3 消融研究和讨论
4.4 局限性
5 结论
声明
#论 文 推 广#
让你的论文工作被更多人看到
你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。
稿件基本要求:
• 文章确系个人论文的解读,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 PaperEveryday 小编