文本与图像生成技术:T2I零样本ID保持;视觉token因式量化
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator
2024-11-23|SNU|🔺26
http://arxiv.org/abs/2411.15466v1
https://huggingface.co/papers/2411.15466
https://diptychprompting.github.io
研究背景与意义
在近年来,生成模型的快速发展使得文本到图像(TTI)模型取得了显著的进步。这些模型不仅能够根据文本提示生成图像,还能进行多种文本驱动的图像任务,例如文本引导的编辑和风格迁移。尽管如此,传统的主题驱动文本到图像生成方法通常需要大量的时间和资源进行微调,以实现对特定主题的精确对齐。近年来出现的Zero-shot方法虽能快速生成图像,但往往牺牲了主题的对齐效果。
针对这一挑战,本文提出了“Diptych Prompting”,一种新颖的Zero-shot方法,将生成任务重新定义为一种绘画任务,通过双联画(diptych)形式实现精确的主题对齐。
研究方法与创新
Diptych Prompting的核心创新在于其将生成任务视为双联画的修复过程。具体而言,左侧面板包含参考图像,而右侧面板则通过文本提示进行生成。该方法的两个主要技术创新包括:
背景去除:通过去除参考图像的背景,避免了不必要的内容泄漏,确保生成图像中仅保留主题。这一过程利用了先进的对象检测和分割技术,有效提升了主题的细节捕捉。
注意力权重增强:在生成过程中,增强了左侧面板与右侧面板之间的注意力权重,以更好地捕捉主题的细微特征。这种方法利用了FLUX模型的多模态注意力机制,确保生成的图像在细节上更为一致。
这些创新使得Diptych Prompting在零-shot主题驱动文本到图像生成中表现出色,能够在多种场景中生成高质量的图像。
实验设计与结果分析
在实验设计上,研究者采用了多种基准测试来评估Diptych Prompting的性能。通过对比现有的编码器基础图像提示方法,Diptych Prompting在主题对齐和文本对齐的质量上均表现出显著的优势。具体的实验结果表明,Diptych Prompting不仅能够生成视觉上更受用户喜爱的图像,而且在细节捕捉方面也优于传统方法。
此外,研究还探讨了该方法在风格化图像生成和主题驱动图像编辑等任务中的扩展性,验证了其在多种生成任务中的有效性。
结论与展望
综上所述,Diptych Prompting作为一种创新的Zero-shot主题驱动文本到图像生成方法,展现了其在生成质量和细节捕捉方面的显著优势。未来的研究可以进一步探索该方法在视频生成和3D图像生成等更广泛的应用场景中的潜力,推动生成模型在各个领域的应用发展。
Factorized Visual Tokenization and Generation
2024-11-25|NUS, FDU, Amazon|🔺10
http://arxiv.org/abs/2411.16681v1
https://huggingface.co/papers/2411.16681
https://showlab.github.io/FQGAN
研究背景与意义
在近年来,离散化图像标记方法逐渐受到重视,尤其是在自然语言处理领域取得成功的背景下,图像生成的需求愈发迫切。视觉标记器作为图像生成的基础,负责将图像数据转换为离散标记,从而使得基于变换器的生成模型得以高效应用。然而,现有的VQ(向量量化)模型如VQGAN在处理大规模词汇时面临挑战,尤其是在扩展词汇表时,往往会导致训练不稳定和性能下降。因此,如何有效地解决视觉标记器的可扩展性问题成为了该领域的重要研究方向。
本论文提出了一种新的因式量化方法(FQ),通过将大型代码本分解为多个独立的子代码本,从而降低了查找复杂度,提升了视觉标记的效率与可扩展性。此外,论文还引入了去冗余正则化机制,以确保每个子代码本捕获独特且互补的信息,促进多样性。这一创新设计不仅提升了标记的表达能力,还为后续的图像生成任务奠定了坚实的基础。
研究方法与创新
本研究的核心在于因式量化设计,具体包括以下几个方面:
因式量化设计:将大型代码本分解为多个独立的子代码本,简化了标记化过程,提升了稳定性与性能。每个子代码本专注于捕获图像特征的不同层次,增强了整体标记的质量。
去冗余正则化:该机制确保各个子代码本之间的正交性,鼓励每个子代码本专注于视觉数据的不同方面(如空间结构、纹理、颜色等),从而实现更丰富的表示。
表示学习:通过将预训练的视觉模型(如CLIP和DINO)融入训练过程,FQ模型能够学习到具有语义丰富性的特征,从而提升生成模型的表现。
这些创新点使得FQGAN在图像重建和生成任务中表现出色,实验结果显示其在多个基准测试中均达到了最先进的性能。
实验设计与结果分析
研究通过对比实验验证了FQGAN的有效性:
实验设置:在ImageNet数据集上进行训练和评估,采用多种代码本配置(如k=2和k=3),并使用标准的FID和PSNR等指标进行性能评估。
性能对比:FQGAN在图像重建任务中表现优于现有的VQGAN及其变种,尤其是在较大代码本的情况下,展现了其卓越的重建质量。
多场景表现:FQGAN在自回归生成模型中的应用显示出其高效的适应性,能够有效地处理复杂的生成任务。
结论与展望
本研究针对现有VQ标记器在处理大规模代码本时的局限性,提出了因式量化方法,显著提升了图像重建和生成的性能。实验结果证明了FQGAN的有效性及其在图像生成领域的潜力。未来的研究可以进一步探讨更多的子代码本配置,以期提升模型的表现,并探索其在多模态理解任务中的应用潜力。