当今视觉生成问题非常火热,文生图,文生视频等方向取得了很好的进展。然而视觉生成中仍然有非常重要的一些问题亟需解决,本文将对这些问题进行梳理。 生成模型的目标是拟合目标数据分布,然而,目标数据分布往往过于复杂,难以直接拟合。因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。根据信号拆分方式的不同,产生了不同的生成模型。
生成模型的目标是拟合目标数据分布,然而,目标数据分布往往过于复杂,难以直接拟合。因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。根据信号拆分方式的不同,产生了不同的生成模型。
一、视觉信号拆分问题
或者
图像块拆分将图像根据空间位置分成图像块,后面的图像块根据前面的进行生成,代表性的工作有 iGPT [4],DALL-E [5] 等。由于图像不同位置有独立的 inductive bias,具体来说,虽然单行的块内具有连续性,但是一行的最后一个块与下一行的第一个块之间却缺乏这种连续性。
再比如对于人脸数据集,人脸大多出现在图像的中间位置,而不是图像边缘。这些都说明了,根据空间位置来进行划分,不同任务学习目标有差异,不具备“等变性”。
深度拆分的代表性工作包括 VQVAE2 [6],RQVAE [7] 等。一般遵循 coarse-to-fine 的方式进行生成,前期拟合低频信号,后期拟合高频信号。因此,这个学习目标的不同也导致了缺乏“等变性”。此外,这类方法还可能导致“无效编码”问题,我们将在后文介绍。
二、Tokenization问题
Tokenization 的作用是将高维数据分布以“相对无损”的方式压缩成低维分布,这通常更有利于数据分布的拟合。
如果采用 RQVAE 进行编码,很容易出现当编码长度比较长的时候,后续的编码不能帮助提升重建质量,甚至对重建质量有损害的问题。作者通过一定的数学简化,对该问题提供了一个直观的解释,分析了该问题出现的原因。
假设 D 代表解码器,I 代表原始输入图像。不同深度的编码由 x0,x1,x2,…xN 表示,其中 N 是编码的深度在本例中假设为 4。
三、扩散模型是最大似然模型吗?
尽管 DDPM 从最大似然的角度出发,推导了扩散模型的理论。然而,有很多发现似乎表明,扩散模型并非最大似然模型。
VDM++ [9] 证明了,当不同噪声强度处的损失函数权重满足单调关系时,扩散模型是最大似然模型。然而,实际训练中,往往并不采用这样的损失函数权重。在测试阶段,Classifier-free guidance 的采用也使得优化目标不再是最大似然。在评估阶段,直接用 NLL 损失作为衡量指标,并不能准确评估生成模型的好坏。这都引出了一个问题:为什么最大似然的方法并不能获得最优的结果?针对该问题,作者从“等变性”的角度,给出了一种理解方式。
得分匹配与非规范化最大似然密切相关。通常,得分匹配可以避免最大似然学习中学到的所有数据点的等概率的倾向。对于某些特殊分布,如多元高斯分布,得分匹配和最大似然是等价的。
VDM++ 的研究表明,使用单调损失权重 ω(t) 实际上等同于为所有中间状态最大化 ELBO。然而,单调权重并不能表征不同噪声强度任务的训练难度差异。
如前所述,图像数据通常不具备这种等变性。在实际训练中,学习似然函数的难度随噪声强度变化;直观上,最大的困难出现在中等噪声水平,在这里似然函数往往学习得不够准确。在生成过程中,使用无分类器引导可以看作对学习不佳的似然函数的矫正。
在模型评估过程中,鉴于不同噪声水平的任务对最终结果的重要性不同,对这些 NLL 损失应用相同权重无法有效衡量最终生成输出的质量。
四、怎么平衡扩散模型中不同噪声步间的冲突?
五、扩散模型存在scaling law吗?
大语言模型的成功很大程度上归功于 scaling law。对于扩散模型,存在 scaling law 吗?
这个问题的关键在于采用什么指标来评估模型质量的好坏。文章中分析了三种做法:
用 [1] 中的难度系数当重要性系数,给不同任务的损失加权,当成衡量指标。对模型参数量,训练迭代次数和最终性能的关系分别建模,可以得到下面的结果。然而,该指标不能确保与人类的偏好完全一致。
利用已有的生成模型衡量指标,如 FID 等。这类方法有两个问题,第一,FID 等指标自身的 bias,比如 FID 假设数据抽取特征后的分布满足高斯分布,这会带来系统误差。第二,这些指标是在衡量生成数据分布和目标分布直接的差异,这在 in-the-wild 场景下可能会产生和人类偏好的差异。
直接采用人工标注衡量模型质量。收集好大量文本-图像数据,用生成模型从这些文本生成图像,并让用户评估生成结果和 ground truth 的偏好度,该指标可以作为模型 scaling law 的衡量指标。这种做法的缺点是需要大量人力,但是可以对生成结果做到真正的 align。并且可以指导测试方法的选择。
参考文献
[1] Hang, Tiankai, and Shuyang Gu. 'Improved Noise Schedule for Diffusion Training.'arXiv preprint arXiv:2407.03297 (2024).
[2] Tang, Zhicong, et al. 'Simplified Diffusion Schr' odinger Bridge.'arXiv preprint arXiv:2403.14623 (2024).
[3] De Bortoli, Valentin, et al. 'Diffusion schrödinger bridge with applications to score-based generative modeling.'Advances in Neural Information Processing Systems 34 (2021): 17695-17709.
[4] Chen, Mark, et al. 'Generative pretraining from pixels.'International conference on machine learning. PMLR, 2020.
[5] Ramesh, Aditya, et al. 'Zero-shot text-to-image generation.'International conference on machine learning. Pmlr, 2021.
[6] Razavi, Ali, Aaron Van den Oord, and Oriol Vinyals. 'Generating diverse high-fidelity images with vq-vae-2.'Advances in neural information processing systems 32 (2019).
[7] Lee, Doyup, et al. 'Autoregressive image generation using residual quantization.'Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
[8] Kingma, Diederik, et al. 'Variational diffusion models.'Advances in neural information processing systems 34 (2021): 21696-21707.
[9] Kingma, Diederik, and Ruiqi Gao. 'Understanding diffusion objectives as the elbo with simple data augmentation.'Advances in Neural Information Processing Systems 36 (2024).
作者:古纾旸
来源:公众号【PaperWeekly】
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。