论文名称:LiT: Delving into a Simplified Linear Diffusion Transformer for Image Generation 论文地址:https://arxiv.org/pdf/2501.12976v1 项目主页:https://techmonsterwang.github.io/LiT/
使用极简线性注意力机制足够扩散模型完成图像生成。除此之外,线性注意力还有一个「免费午餐」,即:使用更少的头(head),可以在增加理论 GMACs 的同时 (给模型更多计算),不增加实际的 GPU 延迟。 线性扩散 Transformer 强烈建议从一个预训练好的 Diffusion Transformer 里做权重继承。但是,继承权重的时候,不要继承自注意力中的任何权重 (Query, Key, Value, Output 的投影权重)。 可以使用知识蒸馏(Knowledge Distillation)加速训练。但是,在设计 KD 策略时,我们强烈建议不但蒸馏噪声预测结果,同样也蒸馏方差预测结果 (这一项权重更小)。
其一,SSM 和 GLA 模块都依赖递归的状态 (State) 变量,需要序列化迭代计算,对于并行化并不友好。 其二,SSM 和 GLA 模块的计算图相对于 线性注意力 而言更加复杂,而且会引入一些算数强度 (arithmetic-intensity) 比较低的操作,比如逐元素乘法。
简化型线性注意力 (图 3,相当于在 ReLU 线性注意力的基础上加上 Depth-wise 卷积)。 Focused 线性注意力。 Focused 线性注意力 (使用 GELU 替换 ReLU)。
DiT 的预训练权重,即使只训练了 200K 步,也起着重要作用,将 FID 从 63.24 提高到 57.84。 使用预训练权重的指数移动平均 (EMA) 影响很小。 DiT 训练更收敛时 (800K 步),更适合作为 LiT 的初始化,即使架构没有完全对齐。
加载 Query,Key 和 Value 投影矩阵。 加载 Key 和 Value 投影矩阵。 加载 Value 投影矩阵。 加载 Query 投影矩阵。 加载 Output 投影矩阵。