结合MobileNet的改进DeepLabv3+遥感影像道路提取方法
杨 锐
(北京华星勘查新技术有限公司, 北京 100035)
[摘 要] 针对现有深度学习网络提取遥感影像中道路时存在的分割精度较低、错检率高、检测效率较低等问题,本文提出一种改进模型MB-DeepLabv3+。在编码器层,利用MobileNetv3作为特征提取网络,同时引入全局注意力机制计算空间与通道层面的样本注意力权重;在解码器层,以密集上采样卷积核代替双线性内插法进行特征图上采样。在Deep Globe 数据集上的实验结果表明,本文所提出算法在准确率上达到了98.39%,较原始DeepLabv3+提高了2.6%,并且对单幅影像的提取计算效率也有所提升,面对不同复杂程度的道路影像,较对照组内其余模型在漏洞、错误提取等问题上有了显著的改善,能够实现高效精准的道路提取。
[关键词] 遥感影像;道路提取;MobileNetv3;全局注意力机制;密集上采样卷积
0 引言
高分辨率光学遥感影像覆盖范围广,以高分辨率遥感影像为数据基础,结合语义分割技术的道路智能化提取,能够在城市建设规划、电子地图绘制、应急救灾等领域发挥重要的应用价值[1-2],如何精确、完整地提取大尺度遥感影像范围内的道路网,是当下的研究重点。传统图像分割算法,例如面向对象、模板匹配、非监督聚类等[3-4],主要依赖手工设定的模板及参数来实现特征物体的分割[5]。此类方法对于几何轮廓较规范物体分割表现较好,然而在提取复杂环境下的不规则道路网时,往往会受到手工参数特征表达能力的限制,受同谱异物等因素干扰,在提取精度与泛化性能方面表现不佳[6-7]。随着近几年来深度学习算法的快速发展,基于卷积神经网络与全卷积神经网络的图像分割算法在一系列图像分割领域取得的研究成果,已基本取代传统方法[8]。而在遥感影像道路提取领域,文献[9]提出一种基于级联空洞卷积核于双注意力残差网络的道路提取模型,该模型在CHN6-CUG 等数据集上的表现较对比模型均有显著改善;文献[10]在现有U型网络(U-Net)结构基础上,引入空间金字塔池化层和密集连接网络,创建了一种遥感影像道路提取模型,该模型在深度地球(Deep Globe)数据集上的F1 度量分数(F1-score)达到了0.77;文献[11]结合压缩—激励通道注意力层与U-Net网络,构建了SEU-Net 遥感影像道路提取模型,在Deep Globe 数据集上的F1-score 最高达到了0.82,优于原始U-Net模型。
上述研究成果体现了深度学习算法在图像分割领域内的优势,然而相较于普通场景,遥感影像复杂、范围广且背景极为复杂,存在诸多同谱不同物或者同物不同谱的目标。在道路提取任务中,现有深度学习方法仍然会因为常规卷积核特征挖掘能力有限、下采样丢失过多特征、正负样本比例不均衡等因素,导致道路提取结果出现断裂、非道路目标被错误提取等情况。针对上述问题,本文以第三代深度实验室网络(DeepLabv3+)为基础,提出一种适用于遥感影像道路提取的模型MB-DeepLabv3+。在现有结构基础上,引入第三代移动网络(MobileNetv3)代替一致性期望网络(Aligned Xpection Net)作为解码层内特征提取网络,提高模型的整体推理效率。同时在MobileNetv3 内引入全局注意力层(global attention moudle,GAM)来计算通道与空间维度的注意力特征,让模型在训练过程中抑制无关负样本特征,充分学习有效特征。在特征解码器中,使用密集连接上采样卷积对特征图实施尺寸上采样,还原更多高层次特征图内的细节特征信息。
1 技术路线及关键技术
1.1 DeepLabv3+简介
DeepLab 是谷歌研究团队最早于2017 年提出的图形分割系列网络[12]。作为该系列的最新一代网络,DeepLabv3+重新启用了编码器—解码器结构。其中,在编码层内,DeepLabv3+使用对齐的Xception(Aligned Xception)[13]作为特征提取网络对输入特征图进行特征提取与尺寸压缩,编码为带有高层次语义特征的小尺寸特征图,而Aligned Xception 在特征下采样过程中,分别向解码器和空洞空间金字塔池化层(atrous spatial pyramid pooling,ASPP)输出4 倍下采样和16 倍下采样特征图。特别是DeepLabv3+针对ASPP 结构进行了改进,在每一组卷积核后增加了批量归一化层与线性整流函数(rectified linear unit,ReLU)激活层,提高输出特征非线性表达能力。解码层对ASPP 层输出进行4 倍上采样并与特征提取层的输出进行拼接,然后通过二次4 倍双线性上采样进一步恢复特征图内信息,最终通过预测层取得图像各像素的分类结果。
1.2 技术路线
针对遥感影像高精度道路提取任务,分别对模型的特征提取部分和解码器部分进行优化。然后以当前主流模型为对照,在公开遥感道路分割数据集上进行性能对比测试,针对每组改进措施,通过消融实验,来验证其可行性。
1.3 关键技术
1.3.1 优化特征提取网络
DeepLabv3+所使用的Aligned Xception 网络在推理过程中所产生的运算参数较为庞大[14],导致模型训练拟合速度缓慢,单张图像检测时间较长,不利于在空间分辨率较高的遥感影像上高效开展大批量的道路自动化提取作业。MobileNetv3 则是借助神经网络架构搜索技术(neural architecture search,NAS)[15]所设计的轻量级特征提取网络,整体结构更加精简,能够高效作业。为实现快速精准的道路提取,以MobileNetv3 作为骨干网络对原始影像进行编码操作。在MobileNetv3中,每个特征提取层均采用瓶颈结构(Bottle Neck)设计,在特征提取层首尾端分别设置了1 × 1 像素大小卷积核,对输入与输出特征图进行通道压缩与拉伸,减少特征提取时参与计算的特征图通道数,进而降低计算量。在瓶颈结构内部,以3 × 3 像素与5 × 5 像素大小的深度可分离卷积核(deep wise conv,DWConv)[16]实施特征提取计算,然后使用压缩—激励(sequeeze and extraction,SE)通道注意力层来计算每一层输出特征中通道维度的正、负样本的权重特征。而SE 层仅考虑了通道层面特征权重计算,不能够抑制特征图在空间维度上的负样本背景特征。因此,本文以兼顾空间—通道相互作用的全局注意力模块(global attention moudle,GAM)[17]来计算每组输出特征图上的空间与通道注意力权重,GAM结构如图1(a)所示。可以看出,输入GAM的特征图分别经过通道注意力(channel attention,CA)子模块与空间注意力(spatical attention,SA)子模块,最后获得叠加的权重特征。其中,CA子模块首先对输入特征使用了转置操作(Permutation)来保留各个通道上的信息。然后通过两组多层感知机(multilayer perceptron,MLP)来计算通道与空间之间的依赖权重,在计算过程中通道数C 将被压缩r 倍,以节约计算参数。最后,使用Sigmoid 函数对权重特征图进行非线性激活作为通道维度的输出权重,对输入特征图赋权后,输入SA 子模块计算空间特征。在SA 子模块内,使用了两组7 × 7 像素的卷积核对空间信息进行融合,在融合的过程中也采用了r 倍的通道压缩比。最后以Sigmoid 对特征进行非线性激活,并对特征图进行二次赋权。改进后的MobileNetv3的完整结构如图1(b)所示。
图1 改进MobileNetv3结构图
1.3.2 优化解码器
DeepLabv3+模型的解码器结构中,对来自编码器ASPP 层输出的特征图经过2 次4 倍上采样后,尺寸恢复至原始影像的大小,然后逐像素预测对应的类别。而在解码过程中,DeepLabv3+采用双线性插值法(bilinear interpolation,BI)实现特征图尺寸上采样。然而,BI 算子内部核参数不可变,无法有效恢复特征图内的原始细节特征[18],不利于模型充分学习。针对此,本文以密集连接上采样卷积核(dense upsampling conv,DUC)[19]作为上采样算子对特征图内细节特征实施精密重建。相比传统线性内插算法,DUC 直接以全卷积的形式在特征图上进行运算,以获取密集的逐像素预测结果,假设下采样(DownSample)前特征图F1的像素尺寸为h × w × c,而DUC输出的特征图F4 的像素尺寸为H × W × L,则DUC 层的计算过程如式(1)—(3)所示。
式中,h × w × c 为下采样前特征图的像素尺寸与通道数,其中表示下采样前后特征图间的尺寸对应关系;d=4,为下采样比例。通过DUC 层卷积后的特征图F3 像素尺寸为h ×w × (d2 × L),L 表示像素类别数,本文为道路提取任务,故L = 2;F3 通过尺寸变换到H × W × L大小。
2 实验结果与分析
2.1 实验环境与数据集
本文利用公开遥感道路分割数据集Deep Globe Road[20]对实验模型进行训练与测试,该数据集内遥感影像均由Digital Globe 卫星拍摄,分别不同来自6 个国家,其中训练集内包含有影像6 226 张,验证集内有1 243 张,测试集内影像数量为1 093张。
实验全程在Ubuntu18.04 系统下Pytorch 框架下完成,实验设备的中央处理器型号为Intel Xeon(R) Silver 4120R,显卡型号为Nvidia RTX 3080,运行内存大小32 GB,Python 版本为3.8,深度学习模型推理加速库Cuda 版本为11.1,编译器为Vscode。
在模型训练过程中,采用了自适应矩估计器(adaptive moment estimation,Adam)优化网络并更新参数。初始动量参数为0.9,批量大小(batch size)设置为8,迭代轮数为150 次,初始学习率为1×10-4,学习率每经过15轮迭代缩减10%。
2.2 评价指标
将精确率(precision,P)、召回率(recall,R)、准确率Acc(accuracy,Acc)、平均交并比UmIo(mean intersection over union,mIoU)、单张图像检测时间(time)作为评价指标来量化评价检测模型。各指标计算公式为
式中,TP 表示分类为真的道路样本;FP 表示分类为真的背景样本;FN 表示分类为负的道路样本;TN分类为负的背景样本;L+1表示样本类别总数;pii 表示被正确分类的像素数,pij 表示被错误分类的像素数。
2.3 消融实验
为验证改进方案的有效性,开展了针对性的消融实验。以DeepLabv3+作为基础模型,MBDeepLabv3+作为完整改进模型,在基础模型上依次添加不同的改进方案作为三组实验模型。在完全相同的实验环境与Deep Globe Road 的测试数据集下对模型进行训练及测试,结果如表1所示。
表1 消融实验结果 单位:%
可以看出,三组改进方案都使模型整体检测精度有不同程度提升,其中,使用密集上采样卷积核后的改进模型精度由95.79%提升到了97.84%,提升效果最好,说明以可学习卷积核完成特征图大尺寸重建的方式能够有利地促进模型学习细粒度提升,进而提高分割精度;而替换特征提取网络以及单独使用GAM 的实验组分别较基础模型有了0.79%与0.49%的精度提升,同样证明了采用注意力机制抑制无关背景的方法能够让模型得到更充分的训练,并提高检测精度;而完整改进的MB-DeepLabv3+在测试数据集上的检测精度达到了98.39%,较基础模型提高了2.6%,足以说明各改进方案的组合对于模型检测精度的提升依然有效。
2.4 模型对比试验
通过与当前主流的图像分割模型进行性能对比,验证所提出模型在遥感影像道路提取任务上的先进性。选择PSPNet、U-Net、DeepLabv3+作为对照组,在同一环境下训练并完成模型测试。具体结果如表2所示。
表2 对比实验结果
由表2 实验结果可知,本文所提出的改进模型MB-DeepLabv3+在各项精度指标上均优于对照组内的模型。其中,在准确率指标上较其余三组对比模型分别提升了4.11%、3.03%、2.6%,充分说明了所提出的改进模型在遥感影像道路提取精度方面的优势;在计算效率方面,改进后模型在检测单张像素尺寸为1 024 × 1 024 的图像时仅用时1.38 s,较U-Net、PSPNet 以及基础模型DeepLabv3+有着更高的检测效率。
2.5 可视化结果分析
本文方法与对照组模型在不同场景下的道路提取结果如图2所示。通过将各模型的提取结果与道路网真值掩膜进行对比可看出,MBDeepLabv3+模型对于道路的分割更为连续且准确;相比之下,U-Net模型的提取结果出现了不同程度的断裂以及错误提取问题。这说明了本文所提出模型对于遥感影像内复杂或稀疏的道路网大多能够实现精准且连续的提取,具有很好的精度与泛化能力。
图2 不同场景下提取效果对比
3 结束语
针对现有模型在实现遥感影像道路提取过程中存在的提取道路断裂、错检率较高等问题,本文基于DeepLabv3+提出一种改进的遥感影像道路提取模型MB-DeepLabv3+。使用Mobile-Netv3 作为编码层内特征提取网络,并在其内引入全局注意力机制来捕获空间与通道层面的注意力特征,在提高模型计算效率的同时,通过赋权的方式提高模型对道路样本的学习强度;采用密集上采样连接卷积核作为解码层内的上采样算子,实现大尺寸特征图内道路细节特征的精准还原。在Deep Globe 数据集上进行了模型消融实验与模型对比实验,结果表明,本文所采用的每组解决方案,皆能够提高道路提取结果的连续性,能够解决道路错误提取的问题。而完全改进的MB-DeepLabv3+模型较其余对照组模型也有着更高的提取精度和计算效率,对于不同复杂程度场景下的遥感影像,MB-DeepLabv3+能够获取更加完整且准确的道路提取结果。在下一步的研究中,一方面,将在更多遥感影像中验证所提出模型的泛化能力;另一方面,将对模型进行轻量化处理,以便模型在中央处理器性能弱以及低算力平台上执行高效的道路提取作业,拓展模型的应用场景。
引文格式:杨锐. 结合MobileNet的改进DeepLabv3+遥感影像道路提取方法[J]. 北京测绘,2024,38(8):1218-1223.
[作者简介] 杨锐(1982—),男,安徽潜山人,硕士,高级工程师,从事摄影测量与遥感、工程测量、界限与不动产测绘方面的工作。
⬆️联系我们⬆️