RS DL
论文介绍
年份:2024
创新点
双阶段光谱supertoken分类器 (DSTC):DSTC 模型旨在解决单阶段逐像素分类模型的缺点,使用两阶段的过程来分类高光谱图像。
基于光谱导数的像素聚类:该技术将具有相似光谱特征的像素聚类成光谱supertoken,有助于保持区域分类的一致性和精确的边界定义。
基于类别比例的软标签:创新的标签方法根据各类别在每个supertoken中的比例分配权重。该方法有效地管理数据分布不平衡问题并提高分类性能。
数据
1. WHU-OHS 数据集
WHU-OHS数据集是一个大规模高光谱数据集,由Orbita Hyperspectral Satellite (OHS)获取。
图像分辨率:每张图像的分辨率为512 × 512像素。
光谱通道:包含32个光谱通道,覆盖了466-940 nm的光谱范围。
类别数:该数据集包含24种地表覆盖类别,如稻田、干旱农田、林地、灌木丛等。
用途:广泛应用于土地覆盖分类,尤其是大型区域的分类任务。 https://www.sciencedirect.com/science/article/pii/S1569843222002102
2. Indian Pines (IP) 数据集
IP数据集是一个经典的高光谱图像数据集,广泛用于遥感图像分类研究。
图像尺寸:145 × 145像素。
光谱通道:包含200个光谱波段。
空间分辨率:每个像素对应20 µm的空间分辨率。
类别数:包含16个地表覆盖类别,如玉米、草地、森林等。
样本分布:类别样本数量差异较大,从少量到大量不等。
3. Kennedy Space Center (KSC) 数据集
数据集简介:KSC数据集包括从肯尼迪航天中心获取的高光谱图像。
图像尺寸:512 × 614像素。
光谱通道:包含176个光谱波段。
空间分辨率:覆盖400-2500 nm的光谱范围,去除了低信噪比波段。
类别数:最终数据集中包含13个地表覆盖类别。
样本分布:类别分布不均匀,涵盖不同的自然和人工地表覆盖类型。
4. University of Pavia (UP) 数据集
数据集简介:UP数据集由Pavia大学区域的高光谱图像组成,主要用于城市地表覆盖分类。
图像尺寸:610 × 340像素。
光谱通道:包含115个光谱波段,去除噪声后剩余103个波段。
空间分辨率:每个像素对应1.3米的空间分辨率。
类别数:包含9个城市地表覆盖类别,如道路、建筑、植被等。
方法
总体结构
阶段1:光谱supertoken生成(Stage 1: Spectral Supertoken Generation)
目标:通过聚类技术将具有相似光谱特征的像素组合在一起,生成光谱supertoken,以减少数据的复杂度并提高分类精度。
1. 空间保留特征编码器(Spatial-preserved Feature Encoder)
目标:从输入的高光谱图像中提取深层语义特征,同时保留空间分辨率。步骤:
使用基于UNet架构的模型进行特征提取。
在下采样阶段,利用预训练的深度网络(如ResNet、PVTv2或Swin Transformer)作为骨干网络,从高光谱图像中提取特征。
在上采样阶段,通过一系列堆叠的卷积层恢复空间分辨率,并扩大特征维度,从而丰富捕获的语义信息。
2. 基于光谱导数的像素聚类(Spectrum-derivative-based Pixel Clustering)
目标:根据光谱相似性将像素聚类成光谱supertoken(Spectral Supertokens)。
步骤:
计算光谱导数特征:包括一阶和二阶光谱导数,分别用于分离在原始光谱中重叠的峰值和揭示复杂的光谱细节。一阶光谱导数帮助分离重叠的峰值,而二阶光谱导数揭示复杂的光谱细节。
像素聚类:选择初始中心点,计算每个像素与这些中心点的关联矩阵,通过迭代更新中心特征,最终形成像素聚类。初始中心点是从深层语义特征中选取的,通过计算每个像素与这些中心点的相似性,进行像素的分组。
3. 语义特征聚合(Semantic Feature Aggregation)
目标:动态聚合每个聚类内的语义特征,形成光谱supertoken。
步骤:对每个聚类内的特征点进行加权求和,聚合成一个supertoken。这种聚合方法考虑了每个特征点与聚类中心的相似性,从而形成代表该聚类的综合特征。
阶段2:supertoken到像素的预测(Stage 2: Token-to-Pixel Prediction)
目标:利用Transformer对光谱supertoken进行分类,并将这些分类结果投射回图像空间,生成最终的分类图。
1. token到像素预测(Token-to-Pixel Prediction)
目标:利用Transformer对光谱supertoken进行分类,并将这些分类结果投射回图像空间,生成最终的分类图。
步骤:
使用Vision Transformer (ViT) 对光谱supertoken进行分类。
通过注意力机制计算supertoken之间的关系,利用Transformer的强大特征表示和全局上下文建模能力,生成token级别的分类结果。
将这些分类结果转换回图像域,生成像素级别的分类图。
2. 基于类别比例的软标签(Class-proportion-based Soft Label)
目标:由于单个supertoken可能包含多种地表覆盖类别,因此提出一种基于类别比例的软标签来进行监督。
步骤:
使用关联矩阵过滤每个中心点下的所有像素标签。
计算每个类别在supertoken中的出现频率,生成软标签。这种方法确保了标签能够反映supertoken内所有类别的比例,从而提高分类精度。
结果和精度
DSTC模型通过有效的光谱supertoken生成和分类方法,在多个高光谱图像数据集上展示了其强大的分类性能和计算效率。实验结果表明,该模型在处理类别不平衡和提高分类精度方面具有显著优势,是一种有效的高光谱图像分类方法。
WHU-OHS 数据集精度
IP, KSC, 和UP 数据集精度
消融实验
欢迎关注CVPR 2024系列
因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询、投稿、合作、加群,加群需备注姓名/昵称,单位和研究方向)。
关于AI回复功能:
公众号新增AI回复功能,已接入大模型,集成查找ArXiv论文、CSDN博文等功能
问题及讨论可直接在文章下方留言
相关链接:
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。