论文赏读 | TGRS | 全色和多光谱图像融合新方法! 基于像素级集成掩码自编码器

文摘   2024-09-02 07:48   荷兰  

 RS   DL 

论文介绍

题目:Pixel-Wise Ensembled Masked Autoencoder for Multispectral Pan-Sharpening
期刊:IEEE Transactions on Geoscience and Remote Sensing
论文:https://ieeexplore.ieee.org/document/10649657
代码:https://github.com/yc-cui/PEMAE

年份:2024

作者单位:中科院空天院,清华大学

注:本篇经由论文原作者审阅

创新点

  • 创新的观测模型:作者提出了一种新的观测模型,将LRMS(低分辨率多光谱图像)视为HRMS(高分辨率多光谱图像)的像素级掩码版本,区别于传统将LRMS视为HRMS的模糊和降采样版本的观点,本文的观点与真实世界场景更为契合。


  • 像素级集成掩码自编码器(PEMAE):将掩码自编码器与像素级集成相结合。通过集成从不同掩码模式获得的多种重建结果来重建HRMS,从而捕获更全面的空间和光谱信息。


  • 改进的注意力机制:论文引入了一种线性交叉注意力机制,替代传统的自注意力机制,将计算复杂度降低至线性时间。


  • 集成策略:PEMAE采用了一种集成策略,将从不同掩码模式获得的多种重建结果进行聚合,以增强最终HRMS输出的稳健性和准确性。


数据

NBU PansharpRSData 数据集

数据集包含来自多个卫星的多光谱图像(LRMS)和全色图像(PAN)配对,覆盖了多种地形和土地覆盖类型,为多光谱图像融合提供了广泛的测试场景。

链接:https://github.com/starboot/NBU_PansharpRSData

具体使用的卫星数据包括:

  • GaoFen-1(高分一号)

  • WorldView-2

  • WorldView-3

  • IKONOS


这些卫星数据具有不同的空间分辨率和光谱特性,涵盖了从城市到农村、从森林到水体等多种地理环境。

方法

1. 创新的观测模型

传统的观测模型通常将LRMS视为HRMS的模糊和降采样版本,而本文提出了一种新的观测模型,即将LRMS视为HRMS的像素级掩码版本。这一模型的核心思想是:

  • 像素级掩码:在HRMS上应用随机掩码,将一些像素值置为零,形成LRMS。这样,LRMS可以看作是HRMS的一个子集。
  • 反向推理:基于这种掩码观测模型,论文提出通过掩码自编码器从LRMS中恢复HRMS。通过对多个不同掩码模式下的重建结果进行集成,可以更准确地重建出HRMS。


2. 像素级集成掩码自编码器(PEMAE)

PEMAE用于在新的观测模型下进行图像重建。

2.1整体架构

PEMAE的整体架构如图所示,分为编码器和解码器两部分

  • 编码器:接收掩码后的LRMS作为输入。编码器将这些输入处理为特征表示。

  • 解码器:通过多个不同的掩码模式进行重建,每种模式生成一个HRMS的估计值。最终,这些估计值通过集成策略(如简单的残差块)融合在一起,生成最终的HRMS输出。

2.2掩码和散射过程

在模型中,LRMS经过掩码处理后输入编码器。在达到解码器之前,这些提取的特征会根据不同的散射方案被分散到多个不同的掩码模式下,这样解码器可以生成多个重建结果。这些重建结果反映了不同空间关系下的HRMS估计值。

  • 掩码处理:随机选择像素进行掩码,使LRMS保留一部分HRMS的像素信息。

  • 散射:将掩码后的LRMS分散到多个不同的掩码模式下,以捕获不同的空间关系。每种散射方案生成一个对应的掩码HRMS。

  • 重建:解码器从散射后的特征中重建出多个HRMS的估计值。

  • 集成:通过简单的残差块,将这些不同模式下的HRMS估计值集成到一起,得到最终的HRMS输出。


2.3 改进的注意力机制

由于处理的是大规模图像,模型中的自注意力机制在计算上非常昂贵。为此,研究提出了线性交叉注意力机制,以提高计算效率。

  • 线性交叉注意力:在传统自注意力的基础上,研究提出了一个线性复杂度的交叉注意力机制,显著降低了时间和内存消耗。

  • 使用LeakyReLU激活函数:为了更好地捕捉LRMS和PAN之间的复杂关系,模型采用LeakyReLU替代传统的ReLU激活函数,以避免因大量零激活而导致的网络收敛问题。

结果和精度

精度对比

reduced-resolution

full-resolution

不同集成数量解码出的特征可视化

过多的集成数量会导致难以学习有区分性的特征从而导致性能的下降(如N=8的结果要比N=4的结果更差)

模型参数量

更多结果讨论图表可查看原文


欢迎关注CVPR/ECCV 2024系列



因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。



关于AI回复功能:


公众号新增AI回复功能,已接入大模型,集成查找ArXiv论文、CSDN博文等功能



问题及讨论可直接在文章下方留言


相关链接:


论文赏读 | TGRS | 新型多尺度分解方法用于多光谱和SAR图像融合

论文赏读 | TMM | 多源遥感图像土地分类制图, Fast and Effective: 渐进层级融合PHFNet网络

论文赏读 | CVPR24 | 多模态无人机数据目标检测,自适应特征对齐和融合

论文赏读 | 整合CNN和ViT用于遥感语义分割,多级多模态融合的FTransUNet网络


  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章