TOKENFORMER: RETHINKING TRANSFORMER
SCALING WITH TOKENIZED MODEL PARAMETERS
arXiv2024
Transformers在基础模型中表现优异,但扩展这些模型的高计算成本是一个挑战,尤其是当架构修改时,通常需要从头重新训练。为了解决这个问题,Tokenformer 提出了一个本地可扩展的架构,利用注意力机制不仅进行输入 token 之间的计算,还实现了 token 与模型参数之间的交互。通过将模型参数视为 token,并用 token-参数注意力层代替传统的线性投影,Tokenformer 允许模型在不重新训练的情况下进行高效扩展。该模型通过逐步增加键-值参数对,从 1.24 亿参数扩展到 14 亿参数,在降低训练成本的同时,保持与从头训练的变换器相当的性能。
论文链接
https://arxiv.org/abs/2410.23168v1
Overview
Tokenformer 是一个完全由注意力驱动的架构,具有一个新的 token-Parameter注意层。Pattention 使用一组可学习的标记来表示模型参数,并让 token处理它们。随着模型的扩展,Tokenformer 会添加新的可学习tokens 来扩展现有的键值参数集,同时保持特征维度固定,并使其余计算不受影响。
Experiments
在零样本评估和图像分类任务上证明了该方法的有效性,与其他方法比较实现了最优性能。
SiT: Exploring Flow and Diffusion-based
Generative Models with Scalable Interpolant
Transformers
arXiv2024
文章了可扩展插值变压器 (SiT),这是一个建立在扩散变压器 (DiT) 基础上的生成模型系列。插值框架允许以比标准扩散模型更灵活的方式连接两个分布,使得对影响基于动态传输的生成模型的各种设计选择进行模块化研究成为可能:离散或连续时间的学习、目标函数、插值连接分布以及确定性或随机采样。通过仔细介绍上述要素,SiT 在条件 ImageNet 256 × 256 和 512 × 512 基准上使用完全相同的模型结构、参数数量和 GFLOP 在模型大小上均匀地超越了 DiT。通过探索可与学习分开调整的各种扩散系数,SiT 分别获得了 2.06 和 2.62 的 FID-50K 分数。
论文链接
https://arxiv.org/abs/2401.08740v2
Framework
SiT 改善了所有模型尺寸的 FID。所有结果均由 Euler-Maruyama 采样器使用250 个集成步骤。在所有模型尺寸中,SiT 收敛得更快。
Experiment
在与 DiT-X 模型相同的计算预算和 CFG 规模下,SiT-XL 模型具有类似的性能改进。对于 SiT-XL 256 × 256,遵循 DiT 中的相同设置并训练模型 7M 步。对于 SiT-XL 512×512,在相同设置下训练模型 3M 步,并在表 7 中报告结果。在两种训练设置下,都观察到 SiT 的性能优势。
DETRs Beat YOLOs on Real-time Object Detection
CVPR2024
该工作提出了一种实时端到端检测器,名为RT-DETR,该检测器成功地将DETR扩展至实时检测场景,并达到了最先进的性能。RT-DETR包含两个关键增强功能:一个高效的混合编码器,能够迅速处理多尺度特征;以及最小化不确定性的查询选择,提高了初始对象查询的质量。此外,RT-DETR支持无需重新训练的速度灵活调整,并消除了由两个NMS阈值引起的不便,促进了其实际应用。RT-DETR及其模型缩放策略拓宽了实时目标检测的技术途径,为多样的实时场景提供了超越YOLO的新可能性。
论文链接
https://arxiv.org/abs/2304.08069
Framework
将骨干网络最后三个阶段的特征输入到编码器中。高效的混合编码器通过基于注意力机制的尺度内特征交互 (AIFI) 和基于 CNN 的跨尺度特征融合 (CCFF) 将多尺度特征转换为图像特征序列。然后,不确定性最小查询选择选择固定数量的编码器特征作为解码器的初始对象查询。最后,带有辅助预测头的解码器迭代优化对象查询以生成类别和框。
Experiment
与 SOTA 比较,RT-DETR 在速度和准确性方面都优于最先进的 YOLO 检测器和 DETR。
写作总结
论文1写作方面,作者通过设计的实验巧妙得说明本文方法的可应用性,并着重提出一个核心观点,参数和输入token存在知识存储和提取的交互。因此深化了本文的核心,让读者对传统的网络结构有了新的理解。。
论文2在写作方面,作者在实验部分非常清晰地展示了各个关键设计分别对于模型的不同影响,并对每一个实验表格都进行了详细的定量分析和结果讨论,甚至使用额外的实验来论证作者的结论或解释实验的现象。这是值得借鉴的。
论文3在写作方面,为了弥补方法创新性上的不足,作者详细分析了之前方法的不足并给出了定量实验结果,另外,作者给出了RT-DETR编码器完整的迭代设计过程与对应的实验结果。这是我们在方法创新性不足时可以借鉴的做法。
The End
VLRLab
分享者:管一然 管海粟 张子杨
编辑:罗琪頔
审核:伏凌
免责声明:
(1)本文仅代表论文分享者观点,分享者不是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。
(2)本文观点不代表本公众号立场