图像生成的两大技术路线:扩散模型与自回归模型
传统自回归模型的技术局限
二维结构信息损失:图像token在水平和垂直方向上均存在关联性,但传统自回归模型的顺序生成机制难以有效建模这种二维依赖关系,影响了图像结构的完整性建模。 泛化能力受限:顺序生成模式导致模型对生成顺序具有强依赖性。例如一个按照从上到下顺序训练的模型,在要求反向生成时性能会显著降低。 空间信息缺失:将二维图像压缩为一维序列的过程中,相邻token之间的空间关系信息会丢失,这限制了模型对图像结构的理解和重建能力。 计算效率低下:传统自回归模型的计算复杂度随图像token数量呈O(n⁶)增长,这种复杂度使得高分辨率图像的生成在计算资源方面面临严峻挑战。
VAR:基于下一尺度预测的技术创新
多尺度VQVAE架构:VAR首先采用向量量化变分自编码器(Vector Quantized Variational Autoencoder,VQVAE)将图像编码为多尺度token图。VQVAE能够将图像的高维特征向量量化为离散码向量。系统在不同分辨率层次提取的特征图通过码本量化得到对应的token图表示。 VAR Transformer结构:VAR Transformer模块基于已生成的低分辨率token图预测下一个更高分辨率的token图。系统支持每个分辨率层次的token图并行生成,显著提升了计算效率。训练过程中采用块状因果掩码确保token图的生成仅依赖于较低分辨率的信息。
VAR系统工作机制
多尺度VQVAE编码环节:输入图像经由多尺度VQVAE编码器处理,生成多个分辨率层次的特征图,随后将各特征图量化为相应的token图表示。 VAR Transformer生成过程:VAR Transformer从最低分辨率token图开始,逐步自回归地生成更高分辨率的token图序列。在每个生成步骤中,系统输入已有的全部token图及其位置编码信息。 多尺度VQVAE解码过程:生成的多尺度token图通过多尺度VQVAE解码器重建为最终图像。解码器利用token图的索引信息从码本中检索相应的码向量,并通过插值和卷积操作重建图像。
VAR的技术优势
数学建模优化:VAR通过粗细层次的生成机制有效解决了二维结构建模问题,通过整体token图的预测处理了复杂的依赖关系。 泛化性能提升:VAR系统通过学习图像的整体结构特征,在各类输入场景下表现稳定,包括零样本图像修复和扩展任务。 空间信息保持:VAR在处理token图的过程中保持二维图像结构完整,多尺度架构有效捕捉了空间层次关系。 计算效率提升:VAR通过分辨率内的并行token生成和递归尺度扩展,将计算复杂度降低至O(n⁴),显著提升了系统效率。 图像质量改进:VAR在图像质量和推理速度方面均超越了现有的扩散Transformer模型。
VAR系统的训练与推理
多尺度VQVAE训练阶段(第一阶段):使用原始图像数据训练多尺度VQVAE模型。训练目标是最小化重建图像与原始图像之间的误差,同时生成多分辨率token图。在训练过程中,系统同步优化码本以提升特征表示能力。 VAR Transformer训练阶段(第二阶段):利用训练完成的VQVAE模型将图像转换为token图序列,随后训练VAR Transformer模型。VAR Transformer学习利用已有的低分辨率token图预测下一级token图,训练过程中采用因果掩码确保预测只依赖已知信息。
多尺度VQVAE编码步骤:利用训练好的VQVAE模型将输入图像编码为多尺度token图序列。 VAR Transformer生成步骤:从最低分辨率token图开始,VAR Transformer逐级生成更高分辨率的token图。 多尺度VQVAE解码步骤:利用多尺度VQVAE解码器将生成的token图序列重建为最终输出图像。
实验验证与扩展性分析
技术局限与未来发展方向
文本引导图像生成能力:当前VAR系统尚未实现文本条件下的图像生成功能。未来研究需要着重扩展模型的多模态处理能力。 视频生成应用:VAR在视频生成领域的应用潜力有待探索。后续研究需要探索VAR框架在时序数据生成中的扩展应用。 模型复杂性:VAR采用的两阶段训练策略(VQVAE和Transformer)增加了系统复杂度,需要进一步研究简化训练流程和提升学习效率的方法。
总结
想要了解更多资讯,请扫描下方二维码,关注机器学习研究会
转自:数据派THU