深度揭秘:计算机视觉 + 注意力机制融合,为何成为学术研究新宠

2024-11-12 12:18   安徽  

在深度学习领域,计算机视觉与注意力机制已然成为不可或缺的关键技术,二者的融合更是当下学术研究的前沿热点。注意力机制在计算机视觉中的应用,能够引导模型精准捕捉图像中的关键信息,进而生成更为丰富的特征表示,这对于图像分类、目标检测以及语义分割等任务而言,意义非凡。不仅如此,这种融合还显著提升了计算效率与模型的泛化能力,为计算机视觉技术的发展注入了强大动力。近年来,众多研究者致力于改进和创新传统的特征融合方法,一系列先进的特征融合技术应运而生。

为助力大家深入理解并掌握【计算机视觉 + 注意力机制】的方法,探寻创新灵感,本文精心梳理了近两年内发表于顶级学术会议和期刊上的 21 篇相关前沿研究成果。我们不仅整理了每篇论文的核心内容,还提供了论文的来源及代码链接,旨在为各位研究者提供全新的思考方向,推动该领域研究的进一步发展。

需要的同学扫码添加我

回复“注意力机制21”即可全部领取

一、Query-guided Attention in Vision Transformers forLocalizing Objects Using a Single Sketch

1.方法

(1)整体架构:基于视觉与检测 Transformer(ViDT)提出一种端到端可训练模型,包含草图引导的视觉 Transformer 编码器、对象和查询表示细化以及评分模块。

(2)草图引导的视觉 Transformer 编码器:使用 Swin Transformer 作为图像编码器,图像逐块通过编码器,在每块输出后,将草图查询通过草图编码器得到的特征与图像特征进行多头交叉注意力融合。先将图像和草图特征扁平化,图像特征作查询,草图特征作键和值,计算注意力分数后更新图像特征,再经处理恢复维度传入下一块,最后将各块提取的图像特征拼接传入解码器。

(3)对象和查询表示细化:解码器利用多尺度图像特征更新 [DET] 标记表示,因输入是草图条件图像表示,对象特征已与草图查询较好对齐。在解码器输出端,对 [DET] 标记表示的对象特征和草图特征,再次使用多头交叉注意力进一步细化,使相关对象特征更接近草图查询以利评分。

(4)评分:解码器输出中,通过匈牙利匹配算法为 [DET] 标记分配标签(对应是否为查询草图对象),对草图特征图取最大池化得到全局草图表示,将每个 [DET] 标记表示与全局草图表示拼接后通过神经网络生成分数。模型训练通过最小化包含分类损失、回归损失和 Generalized IoU 损失的函数,使与查询草图对象对应的标记获高分,推理时选高分数标记对应的边界框为定位对象。

(5)多查询定位(可选):若使用多个草图查询,在编码器中修改草图特征融合方式,聚合每个查询草图的注意力特征并添加到图像表示;在解码器中,先平均多个草图特征得到平均特征图表示,再用注意力机制融合各草图特征与平均特征图表示,将融合后的草图表示用于细化和评分阶段。

2.创新点

(1)创新架构设计:提出草图引导的视觉 Transformer 编码器,在 Transformer 图像编码器每个块后用交叉注意力融合草图特征,使目标图像表示基于查询草图学习,改善图像与草图特征对齐,提升查询引导的定位性能。

(2)精细特征细化:在解码器输出端增加对象和查询特征细化策略,利用注意力机制让相关对象特征更接近草图查询,增强定位性能。

(3)多查询策略:通过可训练的新颖草图融合策略实现多查询定位,能融合多草图互补信息构建完整对象表示,提升定位效果,在多查询设置下表现出色。

3.总结

文章针对自然图像中基于草图的对象定位问题展开研究,提出新的 Transformer 模型。通过独特的草图引导编码器、特征细化策略及多查询定位方法,有效应对草图抽象性、风格质量差异及领域差距等挑战,在公开基准测试中取得优于现有方法的成果,推动了该领域的发展,但该技术仍有待进一步完善以实现实际部署。

论文链接:2303.08784

二、EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention

1.方法

(1)任务与目标:针对图像到视频的生成任务,旨在给定一张图片的情况下,生成在语义上一致且时间上连贯的视频。

(2)总体框架:提出 CogVideo2 框架,采用分层的跨模态 Transformer 架构,包括一个基础 Transformer 模块和多个级联的 Transformer 模块。基础 Transformer 模块处理输入图像以提取特征,后续级联模块逐步对特征进行处理以生成视频帧。

(3)视频生成流程:首先将输入图像编码为特征,然后在级联的 Transformer 模块中,通过自注意力机制和跨模态注意力机制不断调整特征表示。在生成视频帧时,根据当前模块的特征表示和之前生成的帧(如果有)来预测下一帧,采用逐步生成的方式,每个模块负责生成一定长度的视频片段,最终组合得到完整的视频。

(4)训练方式:使用大规模的图像 - 视频数据对进行训练,通过最小化预测视频帧与真实视频帧之间的差异(如像素级别的损失)来优化模型参数,采用了渐进式训练策略,从低分辨率视频生成开始,逐渐过渡到高分辨率视频生成。

2.创新点

(1)分层跨模态 Transformer 架构:通过设计分层结构,使模型能够在不同层次上处理图像和视频的特征,有效整合跨模态信息,提高生成视频的质量和连贯性。

(2)跨模态注意力机制改进:提出一种新的跨模态注意力机制,能够更好地聚焦于图像中的关键信息,并将其转化为视频生成中的语义指导,增强了视频内容与输入图像的相关性。

(3)渐进式训练策略:利用渐进式训练,使模型在学习过程中逐步适应不同分辨率的视频生成任务,有助于提高模型的稳定性和生成效果,同时减少训练难度。

3.总结

本文提出的 CogVideo2 框架为图像到视频生成任务提供了一种有效的解决方案。通过创新的架构设计、注意力机制改进和训练策略,在生成高质量、语义一致且时间连贯的视频方面取得了较好的成果。该研究在视频生成领域具有一定的贡献,为后续相关研究提供了新的思路和方法,有望推动图像到视频生成技术在虚拟现实、影视制作等多个领域的应用和发展,但仍存在如生成视频的细节不够丰富等问题有待进一步探索和改进。

论文链接:2305.07027

需要的同学扫码添加我

回复“注意力机制21”即可全部领取

三、Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention

1.方法

(1)重新诠释 Im2Col 函数:从新的行视角重新理解传统基于列的 Im2Col 函数,发现其可被视为输入特征在不同方向上的偏移操作,从而为提高局部注意力效率提供了新的思路11。

(2)用深度可分离卷积替代特征偏移操作:基于上述新视角,使用精心设计的深度可分离卷积来替代低效的特征偏移操作,实现了 Im2Col 函数的高效计算,并且这种方式能够避免传统切片操作带来的低效率问题,同时更容易在不同硬件设备上实现11。

(3)提出变形偏移模块:引入变形偏移模块,通过随机初始化且可学习的卷积核参数,放松了固定的局部键 / 值位置限制,增强了模型捕捉多样化特征的能力,同时利用重参数化技术在提高模型容量的同时保持推理效率11。

(4)模块应用与实验验证:将 Slide Attention 模块作为插件应用于多种先进的 Vision Transformer 模型(如 PVT、PVT - v2、Swin - Transformer、CSwin - Transformer 和 NAT 等),在图像分类(ImageNet - 1K)、语义分割(ADE20K)和对象检测(COCO)等任务上进行实验,验证其有效性,并在不同硬件环境(如 Nvidia GPU、Metal Performance Shader 和 iPhone 12)中测试其性能111。

2.创新点

(1)高效灵活的局部注意力实现:通过创新的方法解决了传统局部注意力计算中 Im2Col 函数效率低的问题,实现了高效的局部注意力计算,且能够在不同硬件设备上灵活应用,克服了现有局部注意力方法的效率和通用性瓶颈11。

(2)变形偏移模块增强灵活性:提出的变形偏移模块使局部注意力能够更好地适应不同特征分布,有效提高了模型对多样化特征的捕捉能力,提升了模型性能,与传统固定位置的局部注意力方法形成对比1。

(3)广泛的适用性和性能提升:Slide Attention 模块可广泛应用于多种 Vision Transformer 模型,在多个视觉任务中均能在不增加计算成本的情况下显著提升模型性能,与其他局部注意力方法相比,在准确性 - 效率权衡方面表现更优,为视觉 Transformer 模型的改进提供了新的有效途径11。

3.总结

本文针对 Vision Transformer 中局部注意力机制的效率问题,提出了 Slide - Transformer 方法,其核心是 Slide Attention 模块。通过重新理解和改进 Im2Col 函数,并引入变形偏移模块,实现了高效且灵活的局部注意力计算,克服了现有局部注意力方法的诸多局限。该模块可广泛应用于多种模型和任务,在不同硬件设备上也表现出良好的性能,为视觉 Transformer 模型的发展提供了新的技术支持,有助于推动相关领域在模型效率和性能提升方面的进一步研究和应用。实验结果充分证明了其在计算效率和模型性能平衡方面的优势,展示了其在视觉任务处理中的有效性和潜力。

论文链接:Slide-Transformer: Hierarchical Vision Transformer With Local Self-Attention

需要的同学扫码添加我

回复“注意力机制21”即可全部领取




AI学术工坊
分享最新AI资源
 最新文章