今天给大家介绍的文章来自北大发布的文生图十年综述,文章回顾了超过440项相关工作,重点探讨了生成对抗网络(GAN)、自回归模型(AR)和扩散模型(DM)在T2I任务中的应用和演变。还涉及了T2I技术的多种前沿方向,包括生成能力、可控性、个性化生成、安全性和内容一致性等方面。此外,文章还总结了常用的数据集和评估指标,展望了T2I在AIGC中的潜在应用及未来研究机会。
本文回顾的研究方法主要围绕三种基础模型:生成对抗网络(GAN)、自回归模型(AR)和扩散模型(DM)。
相关链接
论文:https://arxiv.org/pdf/2411.16164v1
生成对抗网络(GAN)
GAN由生成器和判别器两部分组成,生成器负责从随机噪声中生成图像,判别器则评估图像的真实性。 GAN的优化目标是通过最小化判别器的损失函数,使生成的图像尽可能接近真实图像。 条件GAN(cGAN)被引入以增强生成图像与文本描述的关联性。
自回归模型(AR)
AR模型通过逐步生成图像的每个像素,依赖于先前生成的部分和输入文本。例如,DALL-E模型利用Transformer架构,结合了文本和图像特征,展示了AR在图像生成中的潜力。
扩散模型(DM)
DM通过逐步向数据添加噪声并学习从噪声中恢复原始数据,生成过程分为前向扩散和反向去噪。 例如,GLIDE模型首次将扩散模型应用于T2I,展示了其在生成高质量图像方面的优势。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~