论文赏读 | TIP | TTST: 用于遥感超分辨率重建的可动态选择token的Transformer网络

文摘 2024-08-15 07:50 荷兰

RS DL

论文介绍

题目：TTST: A Top-k Token Selective Transformer for Remote Sensing Image Super-Resolution ESI 高被引论文（TOP 1%）

期刊：IEEE Transactions on Image Processing (IF=10.8)

论文：https://ieeexplore.ieee.org/document/10387229

代码：https://github.com/XY-boy/TTST

作者主页：https://xy-boy.github.io/

年份：2024

作者单位：武汉大学等

注：本篇由论文原作者审核修订

创新点

论文的核心创新是开发了Top-k Token选择Transformer (TTST)。这种方法解决了遥感图像超分辨率中的两个重要问题：

Token表征冗余：现有基于Transformer的方法在大尺度遥感影像处理中引入过多无关的Token，导致长距离建模效率低下。
尺度表征单一：常规Transformer结构缺乏对多尺度特征的提取与融合，而理解遥感影像中的地物尺度多样性至关重要。

TTST引入了一种新颖的Top-k Token可挑选注意力机制 (TTSA)，该机制能够动态选择最相关的Token，从而减少冗余并实现更为紧致的自注意力建模。
TTST还整合了一个多尺度前馈层 (MFL)，通过捕捉多尺度的特征信息来丰富局部表征能力，并引入了全局上下文注意力 (GCA)模块，以增强全局特征聚合并为模型引入局部归纳偏置。
图1展示了以往基于Transformer的遥感图像超分辨率模型中常常被忽视的遥感影像特性：(1) 尺度变异性：相似地面观测目标存在尺度差异。(2) 冗余Token表征：全局建模学习中存在显著的冗余内容。

数据

1. AID数据集：

全称：Aerial Image Dataset
内容：AID数据集是一个广泛用于遥感图像分类和超分辨率任务的标准数据集。它包含30类不同的场景类型，包括农业、商业、工业、住宅等，每类场景中有大量的高分辨率图像。
应用：AID数据集被用于测试模型在不同场景类型下的超分辨率能力。该数据集的多样性使其成为评价模型在广泛场景下表现的良好基准。

2. DOTA v1.0数据集：

全称：Dataset of Object Detection in Aerial Images
内容：DOTA v1.0是一个大型遥感图像数据集，专门用于目标检测任务。它包含2806张卫星图像，涵盖15类目标，包括飞机、船只、车辆等。
应用：DOTA v1.0数据集被用来评估模型在复杂场景中进行超分辨率处理的能力，特别是在含有多种不同目标的高密度区域中的表现。

3. DIOR数据集：

全称：Dataset for Object Detection in Aerial Images
内容：DIOR数据集包含23463张图像，涵盖了20类常见的地面物体。图像的分辨率和场景复杂度较高，包含丰富的自然场景和人工结构。
应用：DIOR数据集用于测试模型在不同尺度和复杂度场景中的泛化能力，特别是在具有挑战性的遥感场景下的表现。

4. NWPU-RESISC45数据集：

全称：Northwestern Polytechnical University Remote Sensing Image Scene Classification 45
内容：NWPU-RESISC45是一个包含45类场景类型的遥感图像数据集，每类场景包含200张图像。场景类型包括机场、港口、森林、城市等，图像分辨率较高。
应用：该数据集主要用于评估模型在处理实际降质（即真实环境中的图像退化）遥感图像时的性能。模型在该数据集上的表现可以反映其在真实世界应用中的有效性。

方法

整体结构

1. Top-k Token选择注意力机制 (TTSA)

动机：Transformer的自注意力机制能够捕捉长距离依赖关系，但在遥感图像中，由于存在大量冗余信息，直接对利用所有Token计算注意力将不可避免引入噪声信息，降低模型的有效性。为了克服这一问题，TTST提出了Top-k Token选择注意力机制。
实现：TTSA通过计算每个Query与Key之间的注意力分数，选择保留权值排名前k%的Token进行自注意力计算。通过这种方式，TTST能够自适应学习并利用最有利于超分辨率重建的Token来进行全局建模，从而减少大尺度范围中无关信息的干扰。
动态选择：k的值不是固定的，而是动态设置为多个值，从而实现从稀疏到密集可适应的挑选。这种动态选择方式使得模型能够动态地调整选择比重，以应对不同遥感场景下的需求。

2. 多尺度前馈层 (MFL)

动机：在遥感影像中，相似地物在不同场景中可能存在多尺度特征分布，仅依赖单尺度局部建模可能会忽略掉多尺度先验信息。为解决这一问题，TTST引入了多尺度前馈层促进多尺度特征表达。
实现：MFL通过三个并行的不同卷积尺寸的深度卷积层（3x3、5x5和7x7）来捕捉多尺度特征，并将结果在通道维度上进行串联协同表达。
特征融合：为增强多尺度特征之间的交互，MFL对输入特征进行通道分离并行处理，并通过ReLU激活函数进行非线性处理，最后通过1x1卷积进行整合。
优点：这种设计不仅保留了多尺度特征的局部性，还能够在前馈过程中显著增强特征的丰富性。

3. 全局上下文注意力 (GCA)

动机：遥感图像中常常存在大量的全局上下文信息，例如全局范围的地物自相似性（如飞机）。这些信息可以作为先验知识，帮助更好地重建图像。GCA模块旨在通过扩展网络的感受野来捕捉这些全局上下文信息。
实现：GCA通过大核卷积分解策略，将一个大尺度卷积核（例如11x11）分解为多个小卷积核（例如3x3和5x5，以获得具有不同感受野的卷积结果。
上下文选择注意力：在生成多个全局上下文特征后，GCA使用通道维度的选择注意力机制，通过全局池化和全连接层生成选择权重，然后根据这些权重对不同尺度的全局特征进行加权求和，选择最有价值的上下文信息进行聚合。
优点：这种方法既能够保持较大的感受野，又能够灵活捕捉多尺度的上下文信息，有效增强了模型在大范围场景下的重建能力。

4. 整体模型架构

特征提取：TTST模型的输入首先经过特征提取模块，该模块通过GCA层提取全局上下文特征，为Transformer的自注意力计算引入归纳偏置。
残差Token选择组 (RTSG)：RTSG是TTST的核心模块，由TTSA、标准窗口自注意力（WSA）、MFL和可选的GCA模块组成。多个RTSG层级联，逐步增强图像的特征表示能力。
重建部分：在完成特征提取和聚合后，TTST使用像素重排（pixel-shuffle）层将特征图放大到目标分辨率，最终输出超分辨率图像。

结果和精度

精度评价

峰值信噪比（PSNR）用于评估重建图像与参考图像的相似度，单位为分贝（dB），值越高，图像质量越好。本文在Y通道上计算PSNR，因为亮度信息更重要。
结构相似性指数（SSIM）评估图像在结构、亮度和对比度方面的相似性，范围为0到1，值越接近1，质量越高。本文同样在Y通道上计算SSIM。
自然图像质量评价指标（NIQE）是无参考图像质量评价指标，值越低质量越好，本文用于评估模型在真实场景中的表现。
平均梯度（AG）衡量图像清晰度，AG值越高，图像细节越丰富，本文用于评估模型恢复图像细节的能力。

可视结果

模型复杂度分析

消融实验

更多消融实验结果和其他分析可见原文

欢迎关注CVPR 2024系列

点此进入CVPR2024遥感方向合集

因配置了AI回复功能，除关键词自动回复外，号内信息主要由AI大模型回复。如需资源、投稿、合作等，请直接联系小助手微信（添加请备注：咨询、投稿、合作、加群，加群需备注姓名/昵称，单位和研究方向）。

关于AI回复功能：

公众号新增AI回复功能，已接入大模型，集成查找ArXiv论文、CSDN博文等功能

问题及讨论可直接在文章下方留言

遥感数据 | FTW全球农田边界数据, 含对应影像数据! 约160万田块边界及7万多个样本

太强了！如何用ChatGPT结合Python处理遥感数据

NeurIPS24 | SolarCube: 马里兰大学等提出高分辨率太阳辐照预测基准数据集, 包含卫星和现场观测数据

TPAMI | 大型城市场景的建筑实例分割和3D重建, 基于航拍图像

TGRS | P2PFormer: 武大等提出遥感建筑轮廓提取新pipeline

遥感竞赛 | 基于无人机航片的玉米异常情况识别, CCF大数据与计算智能大赛

NeurIPS24 | 如何更好地利用地理位置信息来提升模型效果？

NeurIPS24 | FUSU: 香港大学等单位提出多源多时相土地利用变化分割数据集

Python包 | Leafmap: 交互式地理空间分析, 为非GEE用户设计! 含500多个高级地理空间分析工具

论文er们，深度学习+遥感这口饭得趁热吃！

实用工具｜GeoSegment,SAM用于遥感图像分割,网页端操作,下载便捷

RSE | 刚果盆地道路发展监测, 基于深度学习和多源卫星影像

INFUS | STFDiff: 基于扩散模型的遥感图像时空融合

资讯 | 硬刚！被On hold后，eLife期刊正面回应

NeurIPS24 | ETH等提出高分辨率树冠数据集, 实例级标注, 超28万个体树和5.6万树群, 全球+多样化

会议通知 | AI和数字孪生改变城市生活, 英国格拉斯哥大学举办, 可线上免费参加

超强3D人体姿态估计SOTA! 即插即用于各种基于Transformer 3D姿势估计器

遥感数据 | 时间序列农作物分类基准数据集, 跨不同国家和气候区

PNAS | 检测2000多种植物分布! 使用遥感和深度学习监测和预测植物物种分布和快速变化, 结合公民科学数据

NeurIPS24 | 无需复杂地图! 基于城市白模的无人机视觉定位新方法

IJDE | 综述 | 全面回顾多源遥感影像变化检测, 发展历史, 数据, 方法, 未来展望

实用工具｜适用遥感图像的AI自动标注工具,T-Rex Label, 开箱即用, 检测一切!

论文 | HazyDet: 雾天无人机目标检测开源数据基准, 以及深度感知检测器DeCoDet

TPAMI | Changen2, 用于生成多时相遥感图像及变化检测数据的基础模型

深度｜AI教父Hinton与AI教母李飞飞首次公开对谈：我们必须通过，让懂得数据的人和懂得如何使技术有效的人建立联系来搭建这座桥

RSE | 降低对灾后图像的依赖! 遥感建筑损毁评估模型, 受灾前后样本无需相同位置

TPAMI聚焦, SegNet 高效而精准的图像语义分割网络

完整PPT | 谷歌提出用于遥感大模型的Embedding Fields 模型

会议通知 | 第二届大湾区测绘遥感大会（二号通知）

NeurIPS24 | 多无人机协作精确预测车辆等目标移动轨迹, Drones Help Drones

2024遥感顶刊热门idea，多模态遥感影像融合

Python包 | samgeo: 使用SAM分割遥感影像等地理空间数据, 交互处理功能丰富

NeurIPS24 | 清华哈工大等提出轻量级卫星图像压缩新方法: COSMIC

Nature 子刊 | 使用元学习应对跨分辨率的多样化地球观测问题

NeurIPS24 | 大型卫星影像去云数据集, 超400万张图像

TGRS | Easy-Net: 轻量级建筑提取网络, 基于建筑本身特征, 结合CNN和Transformer

NeurIPS24 | 武大季顺平团队提出多模态大模型OMG-LLaVA, 桥接图像级、对象级、像素级理解和推理

在线地图实现SOTA性能，Wayve太强了！

论文 | Hinton等人的 t-SNE 数据可视化方法, 已广泛应用于遥感和深度学习研究

资讯 | 2025年度泰晤士高等教育世界大学排名发布

资讯 | scikit-eo: 用于遥感数据分析的Python包, 含深度学习, 大气校正, 图像融合等功能

资讯+实测 | OpenAI 推出Canvas 界面, 革新写作和编程体验! 实测U-Net和遥感代码

RSE | 结合Transformer和GEE实现Landsat全球陆地气溶胶遥感反演

Web演示 | 通过文本搜索遥感影像中的目标, 基于SkyCLIP模型, 可演示应用

NeurIPS24 | 330亿m²淹没区, 用于洪水制图的多时相卫星数据集Kuro Siwo

论文 | SegEarth-OV: 面向遥感图像的无训练开放词汇分割

CVPRW24 | GeoSynth: 卫星遥感图像生成器, 支持多种控制方式, 方便下载使用

论文 | ECCV24 | 卫星影像元数据自监督学习, 在下游任务提升分类性能

会议通知 | 2024人工智能与遥感学术交叉研讨会三号通知（AIRS-2024）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉