RS DL
论文介绍
题目:TTST: A Top-k Token Selective Transformer for Remote Sensing Image Super-Resolution ESI 高被引论文(TOP 1%)
期刊:IEEE Transactions on Image Processing (IF=10.8)
论文:https://ieeexplore.ieee.org/document/10387229
代码:https://github.com/XY-boy/TTST
作者主页:https://xy-boy.github.io/
年份:2024
创新点
论文的核心创新是开发了Top-k Token选择Transformer (TTST)。这种方法解决了遥感图像超分辨率中的两个重要问题: Token表征冗余:现有基于Transformer的方法在大尺度遥感影像处理中引入过多无关的Token,导致长距离建模效率低下。 尺度表征单一:常规Transformer结构缺乏对多尺度特征的提取与融合,而理解遥感影像中的地物尺度多样性至关重要。 TTST引入了一种新颖的Top-k Token可挑选注意力机制 (TTSA),该机制能够动态选择最相关的Token,从而减少冗余并实现更为紧致的自注意力建模。 TTST还整合了一个多尺度前馈层 (MFL),通过捕捉多尺度的特征信息来丰富局部表征能力,并引入了全局上下文注意力 (GCA)模块,以增强全局特征聚合并为模型引入局部归纳偏置。 图1展示了以往基于Transformer的遥感图像超分辨率模型中常常被忽视的遥感影像特性:(1) 尺度变异性:相似地面观测目标存在尺度差异。(2) 冗余Token表征:全局建模学习中存在显著的冗余内容。
数据
1. AID数据集:
全称:Aerial Image Dataset
内容:AID数据集是一个广泛用于遥感图像分类和超分辨率任务的标准数据集。它包含30类不同的场景类型,包括农业、商业、工业、住宅等,每类场景中有大量的高分辨率图像。
应用:AID数据集被用于测试模型在不同场景类型下的超分辨率能力。该数据集的多样性使其成为评价模型在广泛场景下表现的良好基准。
2. DOTA v1.0数据集:
全称:Dataset of Object Detection in Aerial Images
内容:DOTA v1.0是一个大型遥感图像数据集,专门用于目标检测任务。它包含2806张卫星图像,涵盖15类目标,包括飞机、船只、车辆等。
应用:DOTA v1.0数据集被用来评估模型在复杂场景中进行超分辨率处理的能力,特别是在含有多种不同目标的高密度区域中的表现。
3. DIOR数据集:
全称:Dataset for Object Detection in Aerial Images
内容:DIOR数据集包含23463张图像,涵盖了20类常见的地面物体。图像的分辨率和场景复杂度较高,包含丰富的自然场景和人工结构。
应用:DIOR数据集用于测试模型在不同尺度和复杂度场景中的泛化能力,特别是在具有挑战性的遥感场景下的表现。
4. NWPU-RESISC45数据集:
全称:Northwestern Polytechnical University Remote Sensing Image Scene Classification 45
内容:NWPU-RESISC45是一个包含45类场景类型的遥感图像数据集,每类场景包含200张图像。场景类型包括机场、港口、森林、城市等,图像分辨率较高。
应用:该数据集主要用于评估模型在处理实际降质(即真实环境中的图像退化)遥感图像时的性能。模型在该数据集上的表现可以反映其在真实世界应用中的有效性。
方法
整体结构
1. Top-k Token选择注意力机制 (TTSA)
动机:Transformer的自注意力机制能够捕捉长距离依赖关系,但在遥感图像中,由于存在大量冗余信息,直接对利用所有Token计算注意力将不可避免引入噪声信息,降低模型的有效性。为了克服这一问题,TTST提出了Top-k Token选择注意力机制。
实现:TTSA通过计算每个Query与Key之间的注意力分数,选择保留权值排名前k%的Token进行自注意力计算。通过这种方式,TTST能够自适应学习并利用最有利于超分辨率重建的Token来进行全局建模,从而减少大尺度范围中无关信息的干扰。
动态选择:k的值不是固定的,而是动态设置为多个值,从而实现从稀疏到密集可适应的挑选。这种动态选择方式使得模型能够动态地调整选择比重,以应对不同遥感场景下的需求。
2. 多尺度前馈层 (MFL)
动机:在遥感影像中,相似地物在不同场景中可能存在多尺度特征分布,仅依赖单尺度局部建模可能会忽略掉多尺度先验信息。为解决这一问题,TTST引入了多尺度前馈层促进多尺度特征表达。 实现:MFL通过三个并行的不同卷积尺寸的深度卷积层(3x3、5x5和7x7)来捕捉多尺度特征,并将结果在通道维度上进行串联协同表达。 特征融合:为增强多尺度特征之间的交互,MFL对输入特征进行通道分离并行处理,并通过ReLU激活函数进行非线性处理,最后通过1x1卷积进行整合。 优点:这种设计不仅保留了多尺度特征的局部性,还能够在前馈过程中显著增强特征的丰富性。
3. 全局上下文注意力 (GCA)
动机:遥感图像中常常存在大量的全局上下文信息,例如全局范围的地物自相似性(如飞机)。这些信息可以作为先验知识,帮助更好地重建图像。GCA模块旨在通过扩展网络的感受野来捕捉这些全局上下文信息。 实现:GCA通过大核卷积分解策略,将一个大尺度卷积核(例如11x11)分解为多个小卷积核(例如3x3和5x5,以获得具有不同感受野的卷积结果。 上下文选择注意力:在生成多个全局上下文特征后,GCA使用通道维度的选择注意力机制,通过全局池化和全连接层生成选择权重,然后根据这些权重对不同尺度的全局特征进行加权求和,选择最有价值的上下文信息进行聚合。 优点:这种方法既能够保持较大的感受野,又能够灵活捕捉多尺度的上下文信息,有效增强了模型在大范围场景下的重建能力。
4. 整体模型架构
特征提取:TTST模型的输入首先经过特征提取模块,该模块通过GCA层提取全局上下文特征,为Transformer的自注意力计算引入归纳偏置。 残差Token选择组 (RTSG):RTSG是TTST的核心模块,由TTSA、标准窗口自注意力(WSA)、MFL和可选的GCA模块组成。多个RTSG层级联,逐步增强图像的特征表示能力。 重建部分:在完成特征提取和聚合后,TTST使用像素重排(pixel-shuffle)层将特征图放大到目标分辨率,最终输出超分辨率图像。
结果和精度
精度评价
峰值信噪比(PSNR)用于评估重建图像与参考图像的相似度,单位为分贝(dB),值越高,图像质量越好。本文在Y通道上计算PSNR,因为亮度信息更重要。 结构相似性指数(SSIM)评估图像在结构、亮度和对比度方面的相似性,范围为0到1,值越接近1,质量越高。本文同样在Y通道上计算SSIM。 自然图像质量评价指标(NIQE)是无参考图像质量评价指标,值越低质量越好,本文用于评估模型在真实场景中的表现。 平均梯度(AG)衡量图像清晰度,AG值越高,图像细节越丰富,本文用于评估模型恢复图像细节的能力。
可视结果
模型复杂度分析
消融实验
更多消融实验结果和其他分析可见原文
欢迎关注CVPR 2024系列
因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询、投稿、合作、加群,加群需备注姓名/昵称,单位和研究方向)。
关于AI回复功能:
公众号新增AI回复功能,已接入大模型,集成查找ArXiv论文、CSDN博文等功能
问题及讨论可直接在文章下方留言
相关链接:
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。