点击上方 “小白学视觉 ”,选择加" 星标 "或“ 置顶 ”
重磅干货,第一时间送达
论文信息
题目:EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm EATFormer:受进化算法启发改进视觉Transformer 作者:Jiangning Zhang, Xiangtai Li, Yabiao Wang, Chengjie Wang, Yibo Yang, Yong Liu, Dacheng Tao 源码链接:https://github.com/zhangzjn/EATFormer 摘要受生物进化启发,本文通过类比经过验证的实用进化算法(EA)来解释视觉Transformer(ViT)的合理性,并推导出两者一致的数学表述。然后,受有效的EA变体启发,我们提出了一种新颖的金字塔EATFormer骨干网络,它只包含所提出的基于EA的Transformer(EAT)块。该块由三个残差部分组成,即多尺度区域聚合、全局和局部交互以及前馈网络模块,分别对多尺度、交互和个体信息进行建模。此外,我们设计了一个与Transformer骨干网络对接的任务相关头部,以更灵活地完成最终信息融合,并改进了调制可变形MSA,以动态建模不规则位置。大量的定量和定性实验在图像分类、下游任务和解释性实验中证明了我们方法的有效性和优越性。例如,我们的Mobile(1.8 M)、Tiny(6.1 M)、Small(24.3 M)和Base(49.0 M)模型仅使用ImageNet-1K上的朴素训练配方进行训练,就达到了69.4、78.4、83.1和83.9的Top-1准确率;EATFormer-Tiny/Small/Base武装的Mask-R-CNN在COCO检测上分别获得了45.4/47.4/49.0的box AP和41.4/42.9/44.2的mask AP,超过了当代MPViT-T、Swin-T和Swin-S的0.6/1.4/0.5 box AP和0.4/1.3/0.9 mask AP,同时FLOPs更少;我们的EATFormerSmall/Base在ADE20K上通过UperNet实现了47.3/49.3 mIoU,超过了Swin-T/S的2.8/1.7。 方法 EA启发的视觉Transformer 我们扩展了朴素EA中的操作符与朴素Transformer中的模块之间的关系,并推导出每对概念对之间的一致数学表述,揭示了视觉Transformer结构的进化解释。受一些有效的EA变体的核心思想的启发,我们推导出它们到Transformer架构设计中,并改进了之前的柱状模型为一个强大的金字塔EATFormer。 1 Transformer的进化解释 如上文图1所述,Transformer块在概念上与进化算法有类似的子模块。基本上,Transformer输入一系列补丁标记,而EA进化由许多个体组成的种群。它们都有一致的向量格式和必要的初始化。为了便于后续的类比和公式推导,我们将补丁标记(个体)表示为 ,其中i和D分别表示数据顺序和维度。定义L为序列长度,序列(种群)可以表示为 。不同组件的具体关系分析如下: 交叉操作符与MSA模块 对于EA的交叉操作符,它旨在通过结合其他个体的部分来创建新的个体。对于一个特定的个体, 操 作 符 将 在 全 局 种 群 中 随 机 选 择 另 一 个 个 体 x_j = [x_{j,1}, x_{j,2}, ..., x_{j,D}]( ) , 并 随 机 用 x_j替 换 x_i的 特 征 以 形 成 新 的 个 体 \hat{x}_i$: 其中 是均匀随机数生成器的第d次评估,其结果在[0, 1]中,C_R是由用户确定的交叉常数,范围在[0, 1]内。我们重新表述此过程为: 其中 和 是填充零或一的向量,表示 和 的特征选择,而 和 是相应的对角矩阵表示。⊙表示每个位置的逐点乘法操作。0表示相应个体没有贡献,即 充满零。如上所述,交叉操作实际上是一个稀疏的全局特征交互过程。对于Transformer的MSA模块,每个补丁嵌入与所有嵌入进行密集通信。不失一般性, 与整个种群X进行交互如下: 其中 (l ∈ {1,2,...,L})是第h个头从嵌入标记 到 的注意力权重,它是根据 的第h个头的查询值和 的第h个头的键值计算的,随后进行Softmax()后处理; (l ∈ {1,2,...,L})是 的投影值特征,具有相应的权重 ; 是所有加权 (l ∈ {1,2,...,L})的和,即, ,(c.f.,第3节的方程1了解更多详细信息)。 是值投影的参数矩阵,⊕表示连接操作。通过比较方程(5)和(6),我们发现这两个组件具有相同的公式表示,交叉操作是一个稀疏的全局交互,而密集建模的MSA具有更复杂的计算和建模能力。 变异操作符与FFN模块 对于EA中的变异操作符,它通过随机改变个体的特定特征,为种群带来随机演变。具体来说,种群中的一个个体 通过变异操作形成新的个体 ,公式如下: 其中 是均匀随机数生成器的第d次评估,其结果在[0, 1]中,MU是由用户确定的变异常数,范围在[0, 1]内。 和 是相对于 的第j个特征的下限和上限缩放界限。类似地,我们重新表述此过程为: 其中 是随机生成的向量,表示每个特征值的权重,而 是相应的对角矩阵表示;⊙表示每个位置的逐点乘法操作。对于Transformer的FFN模块,每个补丁嵌入通过级联的线性层进行定向特征转换(c.f.,方程2)。去掉复杂的非线性变换,我们只以一个线性层为例: 其中 是线性层的权重,它分别且相同地应用于每个嵌入。通过分析方程(7)和(9)的计算过程,变异和FFN操作共享统一形式的矩阵乘法,因此它们本质上具有相同的功能。此外,在微观层面上,FFN的权重在训练过程中动态变化,因此不同迭代中的个体输出是不同的(类似于变异的随机过程)。在算法的宏观目标中,EA中的变异在目标函数的约束下优化到一个潜在的方向(从统计上讲,只有部分变异个体被保留,即变异在整体训练过程中也具有确定的意义)。相比之下,训练后的FFN可以被视为在损失函数的约束下的方向性变异。最后,请注意,我们仅讨论FFN中一个线性层的变异比较,而 实际上比对角 更具表现力,因为它包含级联的线性层,并且非线性ReLU激活在相邻的线性层之间穿插,如方程(2)所示。 种群继替与RC操作 在生物种群的演变中,当前迭代的个体有一定的概率继承到下一个迭代中,其中当前迭代的部分种群将与选定的个体结合。同样,上述模式以残差连接(RC)的形式在Transformer结构中表达,即前一层的补丁嵌入直接映射到下一层。具体来说,部分选择可以被视为Transformer中的dropout技术,而种群继替可以被表述为连接操作的数学表达式,与残差连接的数学表达式一致,加法操作可以被视为连接操作的特例,共享一些部分权重。 最佳个体与任务相关标记 一般来说,基于Transformer的模型选择一个增强的任务相关标记(例如,分类标记),该标记融合了所有补丁嵌入的信息作为输出特征,而基于EA的方法选择种群中具有最佳适应度分数的个体作为输出。 Transformer中模块的必要性 如(Hassanat等人,2019)所述,缺少交叉操作符或变异操作符将显著损害模型的性能。同样,Dong等人(2021a)探索了Transformer中MLP的效果,发现MLP阻止了输出的退化,并且去除Transformer中的MSA也会显著损害模型的有效性。因此,我们可以得出结论,全局信息交互和个体演变对Transformer是必要的,就像EA中的全局交叉和个体变异一样。 2 之前柱状EAT的简短描述 我们在之前的NeurIPS'21会议(Zhang等人,2021)中探讨了朴素EA中的操作符与朴素Transformer中的模块之间的关系,并类比改进了基于ViT模型的柱状EAT。图4a显示了EAT模型的结构,它由N个改进的Transformer块堆叠而成,这些块受到一些EA工作中的局部种群概念的启发(Kolen & Pesch,1994;Land,1998;Moscato,1989),其中与全局MSA操作并行引入了局部路径。此外,这项工作设计了一个任务相关头部,以更灵活地处理各种任务,例如分类和蒸馏。然而,柱状结构自然不适用于下游的密集预测任务,并且在准确性方面与当代工作(Wang等人,2021a;Liu等人,2021)相比处于劣势,这限制了模型在某些场景中的实用性。为了解决上述弱点,本文进一步探索了EA和Transformer之间的类比,并改进了之前的工作,提出了一个金字塔EATFormer,由新设计的受有效EA变体启发的EAT块组成。 3 金字塔EATFormer架构的方法论 改进的EATFormer架构如图4b所示,包含四个不同分辨率的阶段,遵循PVT(Wang等人,2021a)。具体来说,模型由EAT块组成,包含三个混合范式 的残差:(a)多尺度区域聚合(MSRA),(b)全局和局部交互(GLI),以及(c)前馈网络(FFN)模块,两个阶段之间的下采样过程由步长大于1的MSRA实现。此外,我们提出了一个新颖的调制可变形MSA(MD-MSA)来提高全局建模能力,并设计了一个任务相关头部(TRH)以更优雅和灵活的方式完成不同任务。 3.1 多尺度区域聚合 受一些基于多种种群的EA方法(Chen & Kang,2005;Li等人,2021b)的启发,这些方法采用不同的搜索区域以获得更好的模型性能,我们类比地将这一概念扩展到2D图像的多个空间位置,并为研究的视觉Transformer设计了一个新颖的多尺度区域聚合(MSRA)模块。如图4a所示,MSRA包含N个具有不同步长的局部卷积操作(即,ConvSn,1 ≤ n ≤ N),从不同的感受区域聚合信息,同时发挥提供归纳偏差的作用,无需额外的位置嵌入过程。具体来说,第n个扩张操作转换输入特征图x可以表述为: 加权操作混合(WOM)机制进一步提出,通过softmax函数在一组可学习的权重α1, ..., αN上混合所有操作,中间表示xo通过混合函数F计算如下: 其中上述公式中的F是加法操作,其他融合函数如连接也是可用的,以获得更好的效果,但需要更多的参数。本文选择加法操作。然后,卷积层ConvSo将xo映射到与输入x相同数量的通道,并通过残差连接获得模块的最终输出。此外,MSRA模块还作为模型的茎和补丁嵌入,使EATFormer更加统一和优雅。注意,本文没有使用任何形式的位置嵌入,因为基于CNN的MSRA可以为下一个GLI模块提供自然的归纳偏差。 3.2 全局和局部交互 受EA变体(Moscato,1989;Hart等人,2005;Kumar等人,2014)的启发,这些变体引入了局部搜索程序,除了传统的全局搜索外,还用于更快更有效地收敛到更高质量的解决方案(c.f.,图1c以获得更好的直观解释),我们改进了基于MSA的全局模块到一个新颖的全局和局部交互(GLI)模块。如图4b所示,GLI包含一个额外的局部路径与全局路径并行,前者旨在挖掘更具辨别力的相关局部信息,如上所述的局部种群概念,而后者保留以模拟全局信息。具体来说,输入特征被划分为全局特征(绿色标记)和局部特征(蓝色标记),比例为p,然后分别输入全局和局部路径进行特征交互。注意,我们还在4.3.1中应用了提出的加权操作混合机制,以平衡两个分支,即全局权重αg和局部权重αl。两个路径的输出通过连接操作恢复原始数据维度H。因此,改进的模块非常灵活,可以被视为当前Transformer结构的即插即用模块。详细来说,局部操作可以是传统的卷积层或其他改进模块,例如DCN(Dai等人,2017;Zhu等人,2019),局部MSA等,而全局操作可以是MSA(Vaswani等人,2017;Dosovitskiy等人,2021),DMSA(Chen等人,2021g),Performer(Choromanski等人,2021)等。在本文中,我们选择使用MSA模块作为GLI的基本组成,它具有O(1)的最大路径长度,除了增强局部性外,还保持了全局建模能力。 4 EATFormer变体 在之前的会议版本(Zhang等人,2021)中,我们通过引入与全局MSA操作并行的局部路径,改进了柱状ViT模型,记为EAT-Ti、EAT-S和EAT-B,如表3顶部所示。在本文中,我们将柱状结构扩展为金字塔架构,并精心重新设计了新的EATFormer模型,该模型具有一系列不同规模的变体,以满足不同的实际应用需求,这些变体可以在表3的底部查看。除了深度和模型维度外,所有模型的其他参数保持一致:MSA的头维度为32;窗口大小设为7;所有卷积的内核大小为3×3;MSRA模块的扩张对于四个阶段分别设为[1]、[1]、[1,2,3]和[1,2];低级阶段1-2仅使用局部路径,而高级阶段3-4为了效率使用混合GLI模块。更详细的结构和实现可以在附带的源代码中查看。 5 讨论 与之前的EAT相比,改进的EATFormer具有更好的启发性、更精细的类比设计和更充分的实验。我们通过一系列后续实验来证明所提出方法的有效性和完整性,例如与SOTA方法的比较、下游任务迁移、消融研究和解释性实验。值得注意的是,本文中的EATFormer主干只包含一个统一的EAT块,它充分考虑了建模的三个方面:(1)多尺度信息聚合,(2)令牌间的特征交互,以及(3)个体增强。此外,本文中的EATFormer变体的架构配方主要由我们的直觉给出,并通过实验证明,但可变配置参数可以用作NAS的搜索空间,这在未来的工作中值得进一步探索,例如嵌入维度、MSRA的扩张、MSRA的内核大小、MSRA的融合函数、MSRA的下采样模式、GLI的分离比例、归一化类型、窗口大小、GLI的操作组合等。 实验结果 为了评估我们改进的EATFormer架构的有效性和优越性,我们使用不同体积的模型作为主干,对主流视觉任务进行了实验,并有序地进行了下游任务,即图像级分类(ImageNet-1K,Deng等人,2009)、目标级检测和实例分割(COCO 2017,Lin等人,2014)以及像素级语义分割(ADE20K,Zhou等人,2019)。此外,还进行了大量消融和解释性实验,以证明EATFormer及其组件的有效性。 1 图像分类 在本工作中,我们设计了不同规模的EATFormer变体,以满足不同的应用需求,与SOTA方法的比较结果如表4所示。为了全面评估不同方法的效果,我们选择了参数数量(Params.)、FLOPs、ImageNet-1K上的Top-1准确率,以及GPU(基本批量大小等于128的单个V100 SXM2 32GB,对于大型模型,批量大小将减少到内存要求的最大值)和CPU(批量大小等于128的Xeon 8255C CPU @ 2.50GHz)的吞吐量作为评估指标。我们最小的EATFormer-Mobile获得了69.4的Top-1准确率,远远高于MobileNetV3-Small 0.75×的65.4;而最大的EATFormer-Base仅用49.0M参数就获得了非常有竞争力的结果,并在384×384分辨率下进一步达到了84.9。相比之下,尽管我们的方法在最近SOTA的MPViT-T/-XS/-S上分别获得了+0.2%/+0.0%/+0.1%的轻微改进,但EATFormer的FLOPs显著减少-0.21G/-0.68G/-0.48G,GPU速度分别提高了+2.1×/+1.7×/+1.5×,CPU速度提高了+1.33×/+1.27×/+1.07×。在同一级别的50M模型中,我们的EATFormer-B仍然实现了329的吞吐量,比MPViT-B快1.8×,这种效率提升也是值得关注的。这意味着EATFormer在通用GPU和CPU设备上比MPViT更受用户欢迎,我们的EATFormer可以更好地在参数、计算和精度之间进行权衡。同时,我们的Tiny、Small和Base模型分别比之前的会议版本提高了+5.7↑、+2.7↑和+1.9↑。有趣的是,我们发现在50-80M参数范围内的不同方法的Top-1准确率在没有外部数据、标记策略、更大分辨率等情况下会大约饱和到84.0,因此值得未来探索如何缓解这个问题。 2 目标检测和实例分割 在表5中报告了与Mask R-CNN在COCO(Lin等人,2014)数据集上的比较结果,对于1×和3×时间表。所有主干都是在ImageNet-1K(Deng等人,2009)上预训练的,其窗口大小从7增加到12,没有全局注意力和其他变化。为了公平比较,我们使用MMDetection库(Chen等人,2019)进行实验,并遵循与Swin-Transformer(Liu等人,2021)相同的训练配方:使用AdamW(Loshchilov & Hutter,2019)优化器进行训练,学习率和权重衰减分别等于1e−4和5e−2。 3 语义分割 在表6中报告了与SOTA在ADE20K(Zhou等人,2019)上的比较结果。我们的EATFormer-Tiny比最近的VAN-Tiny(Guo等人,2023)获得了显著的+3.4↑改进,而EATFormer-Small在更少的FLOPs上实现了比SOTA方法更高的mIoU。对于更大的EATFormer-Base,它持续获得了比SOTA方法更有竞争力的结果,即比Swin-S(Liu等人,2021)和DAT-S(Xia等人,2022)分别高出+1.7↑和+1.0↑。与SOTA MPViT相比,我们获得了更好的参数、计算和精度之间的权衡。例如,与MPViT-B相比,我们的EATFormer-Base少了26M参数和156G FLOPs。我们的方法通常比对手具有更优秀的整体精度和计算性能。此外,图7底部显示了与Swin-S(Liu等人,2021)在验证数据集上的直观可视化结果。定性结果一致表明,所提出的EATFormer具有更准确的分割结果。 4 消融研究 为了全面评估每个设计模块的有效性,我们在以下部分进行了一系列消融研究。除非另有说明,否则所有实验都使用EATFormer-Tiny作为基础模型,并遵循第5.1.1节中提到的相同训练配方。 4.1 EAT块的组成部分 如第4.3节所述,我们提出的EAT块包含:(1)MSRA,(2)GLI,和(3)FFN模块,分别负责聚合多尺度信息、交互全局和局部特征,以及增强每个位置的特征。为了验证每个模块在EAT块中的有效性,我们在表7中进行了消融实验,其中包含不同的组成部分组合。结果表明,每个组件都对模型性能有所贡献,当使用所有三个部分时,我们的EATFormer获得了最佳结果。由于FFN占据了大部分参数和计算量,我们可以进一步研究优化这个模块,以获得更好的综合模型性能。 4.2 GLI的分离比例 我们在第4.3.2节中的方程(12)和(13)推导出,当GLI的分离比例p等于0.2时,EATFormer的参数数量和计算量最少,当p在[0, 0.5]范围内时,总参数和计算量没有太大差异。为了进一步证明上述分析并验证GLI的有效性,我们对分类任务进行了一组实验,对p在[0, 1]范围内进行了等间隔采样。如图8所示,x坐标表示不同的比例,左侧y坐标表示修改后的EATFormer-Tiny的Top-1准确率,嵌入维度为[64, 128, 230, 320]以便于通道可整除。右侧y坐标显示了模型的运行速度和相对计算量。图中的结果与前面的推导一致,p等于0.5是最经济高效的选择,模型具有相对较高的精度、快速的速度和较低的计算成本。本文中的所有GLI层都使用相同的比例,探索不同层的不同比例可能会基于上述分析带来进一步的改进。 4.3 EATFormer的组件消融 本文通过并行全局和局部建模的核心思想,将之前的柱状EAT模型(Zhang等人,2021)扩展为金字塔架构。具体来说,基于EAT块的EATFormer可以看作是从朴素基线演变而来,它采用了:(1)补丁嵌入用于下采样;(2)仅具有一个尺度的MSRA;(3)朴素的MSA;(4)简单的加法操作与αi, i = 1, ..., N, g,l等于1,而不是:(1)用于下采样的MSRA;(2)具有多个尺度的MSRA;(3)改进的MD-MSA;(4)具有可学习αi, i = 1, ..., N, g,l的加权操作混合(WOM)。基于EATFormer-tiny的详细消融实验可以在表8中查看,结果表明每个单独的组件都有作用,不同的组件组合可以互补,帮助模型实现更高的结果。请注意,WOM只能在使用基于多路径的MSRA时应用。 4.4 GLI的组成 默认情况下,GLI中的全局路径采用了我们设计的MD-MSA模块,受到动态种群概念的启发,而局部分支使用传统的CNN来模拟静态特征提取。为了进一步评估GLI模块的潜力,我们对不同的全局(即,MSA和MD-MSA)和局部(即,CNN和DCNv2,Zhu等人,2019)操作员进行了实验。如表9所示,MD-MSA仅用微不足道的参数和计算量就提高了模型效果0.3↑,而DCNv2可以在更高存储和计算成本的情况下进一步提高性能。理论上,MD-MSA对速度没有显著影响,但朴素的PyTorch实现没有CUDA加速,导致GPU速度明显下降。因此,经过进一步优化MD-MSA后,我们模型的运行速度有望提高。 4.5 不同归一化类型的效应 基于Transformer的视觉模型通常使用层归一化(LN)来获得比批量归一化(BN)更好的结果。然而,考虑到LN需要略多于BN的计算量,而且提出的混合EATFormer包含许多通常与批量归一化(BN)层结合的卷积,我们进行了消融研究,以评估哪种归一化更好。表10显示了三个EATFormer变体的结果,BN归一化的EATFormer实现了略微更好的结果,同时具有显著更快的GPU推理速度。请注意,这里没有使用合并卷积和BN层的技术,这种技术可以进一步提高推理速度。 4.6 MSRA在不同阶段的应用 不同的网络深度可能对MSRA模块有不同的要求,因此我们探索了在不同阶段引入MSRA。如表11所示,当在[2, 3, 4]阶段使用MSRA时,我们的模型获得了最佳结果,并且仅在第四阶段使用时模型效果急剧下降。考虑到模型的准确性和效率,使用这个模块在[3, 4]阶段是更好的选择。 4.7 MSRA的内核尺寸 MSRA模块用于多尺度建模,采用CNN作为其主要组成部分,因此卷积内核可能影响模型结果。如表12所示,更大的内核尺寸只能略微提高模型效果,但参数数量和计算量可能会大幅增加。因此,我们在所有规模的EATFormer中采用高效的3×3内核尺寸。 4.8 TRH的层数 即插即用的TRH模块可以轻松地与Transformer主干对接,以获得与任务相关的特征表示,我们以分类任务为例来探索这个模块的效果。如表13所示,随着EATFormer-Tiny模型中TRH层数的逐渐增加,Top-1准确率显著提高,并且在两层后性能趋于饱和。因此,使用两层TRH是平衡模型有效性和效率的推荐选择。然而,在更大的模型中没有明显的改进,因此对于更大的模型,TRH的多任务优势比准确性提高更为重要。 5 EATFormer解释 5.1 不同深度的Alpha分布 加权操作混合机制可以提高模型性能,并客观地表示模型在不同深度对不同分支的关注。基于EATFormer-tiny,我们对每个EAT块使用了3路MSRA和2路GLI,并且在训练后的alpha指示的权重分布如图9所示。(1)对于MSRA模块,同一阶段中α1(即,扩张等于1)的比例呈上升趋势,而更大的α3则相反,表明局部特征提取与更强的相关性(即,更小的尺度)对网络更为关键。相邻阶段之间的权重突变是由下采样操作引起的,它改变了特征分布。在最后一个阶段4中,大尺度路径具有更多的权重,因为它们需要建模尽可能多的全局信息以获得适当的分类结果。但总的来说,每个分支的比例是平衡的,意味着所有尺度的特征学习都有助于网络。考虑到计算量和参数数量,这也支持了上述关于仅在第3/4阶段使用MSRA的实验结果。(2)对于GLI模块,随着网络的加深,全局分支的权重逐渐超过局部分支,表明两个分支都是有效的,并且相互补充:局部CNN更适合低级特征提取,而全局Transformer更适合高级信息融合。 5.2 注意力可视化 为了更好地说明模型关注图像的哪些部分,我们应用了Grad-CAM(Selvaraju等人,2017)来突出我们的小型模型关注的不同区域。如图10所示,我们分别为ResNet50(He等人,2016)、Swin-B(Liu等人,2021)和我们的EATFormer-Base模型按列可视化了不同的图像。结果表明:(1)基于CNN的ResNet倾向于关注尽可能多的区域,但忽略了边缘;(2)基于Transformer的Swin更多地关注稀疏的局部区域;(3)得益于MSRA和GLI模块的设计,我们的EATFormer对主体目标有更具辨别力的注意力,这些目标拥有非常清晰的边缘。 5.3 GLI中全局路径的注意力距离 我们设计了GLI模块来显式地分别建模全局和局部信息,因此局部分支可以承担一部分本应由全局分支承担的短距离建模。为了验证这一点,我们在图11中可视化了我们之前的柱状EAT模型(Zhang等人,2021)和当前研究的EATFormer的全局分支的建模距离:1-顶部)与没有局部建模的DeiT相比,我们的EAT更多地关注全局信息融合(选择第4/6层作为示例),在非对角线位置发现更多显著的值。2-底部)由于窗口大小等于特征大小,可以覆盖整体信息,因此可视化了最后阶段的注意力图。当仅使用全局建模(无GLI)时,模型只关注稀疏区域,但当使用GLI时,模型会关注更多区域。结果表明,设计的并行局部路径承担了一部分应由全局路径承担的局部建模。我们可以发现柱状和金字塔架构之间的特征建模差异。与EA的关系。受EA变体(Moscato,1989;Hart等人,2005;Kumar等人,2014)的启发,这些变体引入了局部搜索程序,除了传统的全局搜索外,还用于更快更有效地收敛到更高质量的解决方案,我们类似地改进了GLI模块。当不使用GLI(仅全局建模)时,模型倾向于关联局部区域特征,这与生物进化中由于地理限制而产生的局部种群概念一致,即类似于EA中的局部搜索概念。使用GLI时,显式的局部建模释放了全局建模的潜力,迫使全局分支关联更远距离的特征以获得更好的结果,就像EA中的全局/局部概念(Moscato,1989;Hart等人,2005;Kumar等人,2014)提高了性能一样。 5.4 MD-MSA的1l和1m分布 图12展示了我们的小型模型在最后阶段MD-MSA学习的偏移(箭头越长,表示可变形距离越远,箭头方向表示采样方向)和调制(颜色越亮,表示权重越大)的可视化。不同深度的每个位置的偏移和调制存在差异,模型出人意料地倾向于给予主要对象更多的权重,这些对象能够描述对象的主要部分。由于我们在重采样时设置了 align_corners=True
,因此从中心到边缘有一个逐渐增加的0到0.5的偏差。因此,可视化结果整体向外扩散,这可能会在视觉上减弱每个学习位置的变化。请放大以获得更好的可视化。与EA的关系。受生物世界中个体在不同区域具有不同偏好的启发,我们改进了MD-MSA模块,考虑了每个空间位置的偏移。如图12所示,不同位置(个体)倾向于不同的偏移和调制(即,方向和尺度),就像生物世界中的个体一样。这种建模方法也在EA中得到了验证,例如,改进的工作(Liu & Lampinen,2005;Opara & Arabas,2019;Pant等人,2020)采用了类似的参数适应和特征缩放思想来进行全局特征交互。 5.5 TRH中的注意力图可视化 以分类任务为例,我们在包含多个头的内部交叉注意力层的两层TRH中可视化了注意力图。如图13所示,我们将注意力图的值归一化到[0, 1],并将它们绘制在图像的右侧。结果表明,不同的头关注不同的区域,更深层的TRH2比TRH1关注更广泛的区域,以形成最终的特征。 5.6 参数和FLOPs分布 以设计的EATFormer-Tiny为例,我们分析了不同层的参数和FLOPs分布,其中模型包含一个用于分辨率降低的茎,四个用于特征提取的阶段,以及一个用于目标输出的头部。如图14所示,参数数量主要分布在深层的第3/4阶段,而FLOPs集中在早期阶段,FFN占据了大部分参数数量计算。因此,我们可以专注于FFN结构的优化,以更好地平衡未来工作中的综合模型效率。 5.7 与局部/全局概念的作品比较 在本文中,ViT的局部性指的是将具有归纳偏差的CNN引入Transformer结构中,我们设计了GLI块作为一个并行结构,在旁边引入了一个不同的局部分支。这个想法受到了一些EA变体(Moscato,1989;Hart等人,2005;Kumar等人,2014)的启发,这些变体除了传统的全局搜索外,还采用了局部搜索程序,用于收敛到更高质量的解决方案。此外,全局/局部概念只是一个宏观上的概念,具体的方式因方法而异。例如,MPViT(Lee等人,2022)中的全局/局部概念表现为块之间的并行性,而不是每个块内部的并行性,而CMT(Guo等人,2022)将局部信息级联到FFN模块中,而不是像以前的作品(Srinivas等人,2021;Yuan等人,2021a;Li等人,2023b)那样将MSA作为局部性。相比之下,我们的GLI块由局部卷积和全局MD-MSA操作组成,并且进一步提出了加权操作混合(WOM)机制来自适应地混合所有操作。因此,我们认为GLI在技术层面上与比较方法有明显的不同。此外,我们还将我们的方法与一些当代/最近的工作(Lee等人,2022;Guo等人,2022;Li等人,2022;Zhang等人,2023b;Mehta和Rastegari,2022;Maaz等人,2023;Li等人,2023b)进行了比较,这些工作将全局/局部概念融入到他们的模型设计中。为了进一步说明我们的方法与这些方法的区别,我们在表14中根据几个标准对它们进行了全面的比较。结果说明了GLI在技术层面上的独特性。 声明 本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。 下载1:OpenCV-Contrib扩展模块中文版教程 在「小白学视觉 」公众号后台回复: 扩展模块中文教程 , 即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理 等二十多章内容。在「小白学视觉 」 公众号后台回复:Python视觉实战项目 , 即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别 等31个视觉实战项目,助力快速学校计算机视觉。 在「小白学视觉 」 公众号后台回复:OpenCV实战项目20讲 , 即可下载含有20 个基于OpenCV 实现20个实战项目 ,实现OpenCV学习进阶。 交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉 、传感器、自动驾驶、 计算摄影 、检测、分割、识别、医学影像、GAN、算法竞赛 等微信群(以后会逐渐细分), 请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过 。添加成功后会根据研究方向邀请进入相关微信群。请勿 在群内发送广告 ,否则会请出群,谢谢理解~