论文赏读 | TIP | TTST: 用于遥感超分辨率重建的可动态选择token的Transformer网络

文摘   2024-08-15 07:50   荷兰  

 RS   DL 

论文介绍

题目:TTST: A Top-k Token Selective Transformer for Remote Sensing Image Super-Resolution ESI 高被引论文(TOP 1%)

期刊:IEEE Transactions on Image Processing (IF=10.8)

论文:https://ieeexplore.ieee.org/document/10387229

代码:https://github.com/XY-boy/TTST

作者主页:https://xy-boy.github.io/

年份:2024

作者单位:武汉大学等
注:本篇由论文原作者审核修订

创新点

  • 论文的核心创新是开发了Top-k Token选择Transformer (TTST)。这种方法解决了遥感图像超分辨率中的两个重要问题:
    • Token表征冗余:现有基于Transformer的方法在大尺度遥感影像处理中引入过多无关的Token,导致长距离建模效率低下。
    • 尺度表征单一:常规Transformer结构缺乏对多尺度特征的提取与融合,而理解遥感影像中的地物尺度多样性至关重要。
  • TTST引入了一种新颖的Top-k Token可挑选注意力机制 (TTSA),该机制能够动态选择最相关的Token,从而减少冗余并实现更为紧致的自注意力建模。
  • TTST还整合了一个多尺度前馈层 (MFL),通过捕捉多尺度的特征信息来丰富局部表征能力,并引入了全局上下文注意力 (GCA)模块,以增强全局特征聚合并为模型引入局部归纳偏置。
    图1展示了以往基于Transformer的遥感图像超分辨率模型中常常被忽视的遥感影像特性:(1) 尺度变异性:相似地面观测目标存在尺度差异。(2) 冗余Token表征:全局建模学习中存在显著的冗余内容。

数据

1. AID数据集:

  • 全称:Aerial Image Dataset

  • 内容:AID数据集是一个广泛用于遥感图像分类和超分辨率任务的标准数据集。它包含30类不同的场景类型,包括农业、商业、工业、住宅等,每类场景中有大量的高分辨率图像。

  • 应用:AID数据集被用于测试模型在不同场景类型下的超分辨率能力。该数据集的多样性使其成为评价模型在广泛场景下表现的良好基准。


2. DOTA v1.0数据集:

  • 全称:Dataset of Object Detection in Aerial Images

  • 内容:DOTA v1.0是一个大型遥感图像数据集,专门用于目标检测任务。它包含2806张卫星图像,涵盖15类目标,包括飞机、船只、车辆等。

  • 应用:DOTA v1.0数据集被用来评估模型在复杂场景中进行超分辨率处理的能力,特别是在含有多种不同目标的高密度区域中的表现。


3. DIOR数据集:

  • 全称:Dataset for Object Detection in Aerial Images

  • 内容:DIOR数据集包含23463张图像,涵盖了20类常见的地面物体。图像的分辨率和场景复杂度较高,包含丰富的自然场景和人工结构。

  • 应用:DIOR数据集用于测试模型在不同尺度和复杂度场景中的泛化能力,特别是在具有挑战性的遥感场景下的表现。


4. NWPU-RESISC45数据集:

  • 全称:Northwestern Polytechnical University Remote Sensing Image Scene Classification 45

  • 内容:NWPU-RESISC45是一个包含45类场景类型的遥感图像数据集,每类场景包含200张图像。场景类型包括机场、港口、森林、城市等,图像分辨率较高。

  • 应用:该数据集主要用于评估模型在处理实际降质(即真实环境中的图像退化)遥感图像时的性能。模型在该数据集上的表现可以反映其在真实世界应用中的有效性。


方法

整体结构

1. Top-k Token选择注意力机制 (TTSA)

  • 动机:Transformer的自注意力机制能够捕捉长距离依赖关系,但在遥感图像中,由于存在大量冗余信息,直接对利用所有Token计算注意力将不可避免引入噪声信息,降低模型的有效性。为了克服这一问题,TTST提出了Top-k Token选择注意力机制。

  • 实现:TTSA通过计算每个Query与Key之间的注意力分数,选择保留权值排名前k%的Token进行自注意力计算。通过这种方式,TTST能够自适应学习并利用最有利于超分辨率重建的Token来进行全局建模,从而减少大尺度范围中无关信息的干扰。

  • 动态选择:k的值不是固定的,而是动态设置为多个值,从而实现从稀疏到密集可适应的挑选。这种动态选择方式使得模型能够动态地调整选择比重,以应对不同遥感场景下的需求。

2. 多尺度前馈层 (MFL)

  • 动机:在遥感影像中,相似地物在不同场景中可能存在多尺度特征分布,仅依赖单尺度局部建模可能会忽略掉多尺度先验信息。为解决这一问题,TTST引入了多尺度前馈层促进多尺度特征表达。
  • 实现:MFL通过三个并行的不同卷积尺寸的深度卷积层(3x3、5x5和7x7)来捕捉多尺度特征,并将结果在通道维度上进行串联协同表达。
  • 特征融合:为增强多尺度特征之间的交互,MFL对输入特征进行通道分离并行处理,并通过ReLU激活函数进行非线性处理,最后通过1x1卷积进行整合。
  • 优点:这种设计不仅保留了多尺度特征的局部性,还能够在前馈过程中显著增强特征的丰富性。


3. 全局上下文注意力 (GCA)

  • 动机:遥感图像中常常存在大量的全局上下文信息,例如全局范围的地物自相似性(如飞机)。这些信息可以作为先验知识,帮助更好地重建图像。GCA模块旨在通过扩展网络的感受野来捕捉这些全局上下文信息。
  • 实现:GCA通过大核卷积分解策略,将一个大尺度卷积核(例如11x11)分解为多个小卷积核(例如3x3和5x5,以获得具有不同感受野的卷积结果。
  • 上下文选择注意力:在生成多个全局上下文特征后,GCA使用通道维度的选择注意力机制,通过全局池化和全连接层生成选择权重,然后根据这些权重对不同尺度的全局特征进行加权求和,选择最有价值的上下文信息进行聚合。
  • 优点:这种方法既能够保持较大的感受野,又能够灵活捕捉多尺度的上下文信息,有效增强了模型在大范围场景下的重建能力。

4. 整体模型架构

  • 特征提取:TTST模型的输入首先经过特征提取模块,该模块通过GCA层提取全局上下文特征,为Transformer的自注意力计算引入归纳偏置。
  • 残差Token选择组 (RTSG):RTSG是TTST的核心模块,由TTSA、标准窗口自注意力(WSA)、MFL和可选的GCA模块组成。多个RTSG层级联,逐步增强图像的特征表示能力。
  • 重建部分:在完成特征提取和聚合后,TTST使用像素重排(pixel-shuffle)层将特征图放大到目标分辨率,最终输出超分辨率图像。

结果和精度

精度评价

  • 峰值信噪比(PSNR)用于评估重建图像与参考图像的相似度,单位为分贝(dB),值越高,图像质量越好。本文在Y通道上计算PSNR,因为亮度信息更重要。
  • 结构相似性指数(SSIM)评估图像在结构、亮度和对比度方面的相似性,范围为0到1,值越接近1,质量越高。本文同样在Y通道上计算SSIM。
  • 自然图像质量评价指标(NIQE)是无参考图像质量评价指标,值越低质量越好,本文用于评估模型在真实场景中的表现。
  • 平均梯度(AG)衡量图像清晰度,AG值越高,图像细节越丰富,本文用于评估模型恢复图像细节的能力。


可视结果

模型复杂度分析

消融实验

更多消融实验结果和其他分析可见原文



欢迎关注CVPR 2024系列



因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。



关于AI回复功能:


公众号新增AI回复功能,已接入大模型,集成查找ArXiv论文、CSDN博文等功能


问题及讨论可直接在文章下方留言


相关链接:

论文赏读 | TPAMI | 基于非配对图像实现超分辨率重建和降分辨率处理, 低/高分辨率图像之间双向映射
论文赏读 | RSE | 北半球2.5m大规模建筑高度估计,基于深度学习的超分辨率重建方法
论文赏读 | CVPR24 | RefDiff, 扩散模型用于遥感数据超分辨率重建,结合参考图像和变化检测信息
论文赏读07 | SuperYOLO 结合超分辨率技术的多模态遥感目标检测模型


  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章