改进U-Net模型在遥感影像建筑物提取中的应用
俞佳笠 马 超
(宁波市阿拉图数字科技有限公司,浙江 宁波 315042)
摘要:针对传统遥感影像建筑物方法提取背景复杂影像时存在的精度低、图像边缘预测效果差等问题,本文在U-Net模型的基础上提出一种改进模型。首先,为防止过拟合现象产生,向U-Net收缩路径中加入随机失活(Dropout)函数;其次,为提升模型训练速度,向扩张路径中加入批量归一化层;最后,为提升模型的图像边缘预测效果,选择联合损失函数为模型损失函数。通过武汉大学建筑物数据集进行实验,结果表明本文模型在建筑物提取完整度、边界分割精度等方面都有不错的表现,尤其是针对较小建筑物的提取效果更好,其中精度指标UIo、AO、Kappa系数分别达到了76.876%、91.413%、81.225%,相比对比模型的精度指标更优,从而验证了本文方法的可靠性。
[关键词] 遥感影像;改进U-Net模型;建筑物提取;联合损失函数;随机失活函数
0 引言
近年,航空航天与遥感技术不断发展与进步,采集了大量具有丰富光谱特征的高分辨率遥感影像数据,目前凭借丰富的信息已经广泛应用于众多领域[1-2]。作为城市结构的重要组成部分,建筑物的位置与空间分布对智慧城市建设、规划、变化监测、人口估计等具有重要意义。因此,研究如何从高分辨率遥感影像中高效、快速提取建筑物是目前遥感领域中尤为重要的研究方向之一。
目前,基于影像数据的建筑物提取主要有传统方法与深度学习方法。传统方法通常基于影像的形态特征与隐式特征,结合机器学习算法分割影像建筑物[3-4]。但是这种算法仅基于低维特征进行建筑物提取,分割准确率较低,推广价值不高。深度学习是对人脑的学习过程进行模拟,具有较强的特征提取能力,因此被广泛应用于高分辨率遥感影像建筑物提取中。文献[5]提出了一种全卷积神经网络(full convolutional networks,FCN),能够完成像素至像素的训练与预测。后续又提出了DeconvNet、SegNet、U-Net等。不断有学者在已有网络上进行改进,文献[6]在SegNet 模型中加入Lorentz函数稀疏约束,对模型进行了优化;文献[7]提出一种双重约束的改进U-Net,通过更新参数的优化,提升建筑物提取精度;文献[8]通过在U-Net模型中加入特征压缩模块,提升网络空间信息的恢复能力,提升分类精度。综上,以U-Net模型为代表的遥感影像建筑物提取模型经过不同方面、不同程度的优化,提升了建筑物提取精度。然而,在复杂、边界信息不足的建筑物或者小建筑物的提取方面,U-Net模型依然具有很大提升空间。因此,本文在已有遥感影像建筑物提取模型的基础上,在U-Net收缩路径中加入卷积操作,提升模型深度;同时引入正则化与批量归一化,并构建联合损失函数,最终实现提升模型建筑物提取精度的目的。
1 研究方法
1.1 U-Net结构
U-Net 最早应用在医学图像语义分割中并取得了不错的效果,后续又不断在其他语义分割领域中得到广泛应用。U-Net是具有代表性的编码器—解码器结构,在编码中进行卷积与最大池化操作,在解码器中进行卷积与上采样操作,低级特征会与高级特征级联[9-10]。
1.2 模型改进
本文在U-Net的基础上,提出一种改进U-Net并用于遥感影像建筑物提取。该改进模型的结构如图1所示,其中,左半部分与右半部分分别为收缩路径与扩张路径。
图1 改进U-Net网络模型结构
与U-Net 不同的是,为使改进U-Net 更好地对低维与深层信息进行提取,将收缩路径特征层卷积次数改为2、2、3、3、3。为了确保卷积前后尺寸不变,卷积前进行0 填充,完成卷积后,采用分段线性函数激活,接着进行5次下采样操作,下采样前保存特征图并将特征图传递至对应尺度的扩张路径。引入随机失活函数(Dropout)对第四组、第五组最后一层特征图进行处理,如图1中黄色框所示。引入Dropout 的目的是提升网络抗拟合性,该函数通过以0.5 的概率暂停某神经元激活值的工作,抑制过拟合现象的产生;同时通过限制网络对某个特征加以很高权重,以避免测试集准确率不高的情况。工作原理如图2所示。
图2 Dropout神经网络模型
扩张路径中,经过5 次上采样将特征图恢复至原尺寸。完成前4 次上采样后,堆叠收缩路径组的第一与最后特征图。特征图拼接后,进行2 次3×3 卷积。在进行第二次卷积时,为了避免梯度爆炸与梯度消失,引入批量归一化算法,转化前层特征为标准正态分布。批量归一化(batch normalization,BN)是一种具有参数及学习能力的网络模型归一化处理算法,如果某个模型架构较深,前几层数据的微小变化就会导致后面的操作不断放大,限制模型的训练速率[11-12]。本文模型对伸缩路径加深,因此在卷积操作后、Relu 激活函数前均加入BN 层。这样可以提升网络泛化能力,降低网络收敛难度。
通过改进的网络结构能够有效提升模型深度,加快模型收敛速率,强化对小目标物与目标边缘信息的学习。
1.3 损失函数优化
损失函数是衡量网络输出值与真实值之间误差的指标,损失函数越小,表明网络对数据的拟合性能越好[13]。针对不同应用场景以及不同的深度学习技术,选择合适的损失函数尤为重要。
回归问题中,通常根据实测值y 与真实值y'间的残差y-y'进行损失函数构造。Huber 损失函数、L1损失函数以及L2损失函数是常用的损失函数。图像分类与回归问题不同,预测值y 与真实值y'分别为概率值与标量,因此以y×y'而非残差进行损失函数构造[14-15]。
影像建筑物提取也就是图像分割,样本图像的边缘像素特征不足。图3 中,整片区域使用A表示,通过上下文信息与光谱特征即可有效划分中间区域a 与其邻域范围。由于裁剪操作,可能使得A-a 区域上下文信息分布于其他图片,影响边缘信息判断[16-17]。
图3 图像边缘忽略
为减少模型训练损失值,拟合A-a 区域与真实值相同类别,但这样会产生图像边缘过拟合。本文引入忽略边缘较差熵函数进行处理,该函数表示为[18]
式中,N 为像元总数量;yi为样本i 是真实类别的概率,ŷi为样本i是某类别预测概率。
1)创新教育融入中国科技教育的必然性。创新教育很早就被提及,但在我国各个学校中的落实情况并不乐观。《国家创新驱动发展战略纲要》提出计划在2020年建成创新型国家。而在全球化趋势日渐深入的情况下,我国在很大一部分产业中仍处于价值链的较低等级,很多技术仍依靠他国,这对我国发展是十分不利的。因此,当前的政治经济形势对我国的教育提出更高的要求,应将创新教育融入我国的科技教育,形成中国科技创新教育。
为提高准确率,保证预测值与真实值的重合度,将骰子损失函数作为辅助,表示为[19]
式中,Pre、Gtruth分别为预测值集合与真实值集合;δ为平滑因子,设置该值是为了避免分母为0以及输出位数过小的情况。
向交叉熵损失函数中加入忽略边缘策略后,能够有效降低边缘像素特征不足对模型的影响。骰子能够平衡目标样本、非目标样本分布差异对训练的影响,提升预测效果。联合忽略边缘交叉熵损失函数IELoss和DLoss,构建联合损失函数ID。
2 实验与结果分析
2.1 实验数据
本文研究所用实验数据为中国典型建筑物数据集,全称为WHU 建筑物航空影像数据集。数据集覆盖面积约为340 km2,包括151 张航拍影像,影像地面分辨率为1 m,尺寸为1 500 像素×1 500 像素。将数据集分为训练集、测试集与验证集,其中训练集包含137 张影像,测试集包含10张影像,验证集包含4张影像。
2.2 精度评价指标
为了定量分析与描述本文建筑物提取模型的性能,将交并比UIo(UIo)、总体精度AO(AO)与Kappa 系数作为精度评价指标[20-21]。由于基于影像的建筑物提取是二分类任务,因此,将统计学中指标用于特征标记示例,如图4所示。
图4 特征标记示例
图中,Gtruth为标签建筑物像素集,Pre为预测建筑物像素集。其中,Fn为假负类,将建筑物样本误判为非建筑物的集合;Tp为真正类,将建筑物样本正确判别为建筑物的集合;Fp为假正类,将非建筑物样本误判为建筑物的集合;Tn为真负类,将非建筑物样本正确判别为非建筑物的集合。
UIo可以用预测建筑物像素集Pre与标签建筑物像素集Gtruth
混淆矩阵常用于监督分类,表示分类精度。本文将建筑物、非建筑物预测精度在混淆矩阵中表征,如表1所示。
表1 混淆矩阵表
本文中,将AO与Kappa 系数作为混淆矩阵的二级指标。AO表示为
式中,M 为总类别数;N 为像元数;xii 为对角线元素。
根据特征标记计算公式及表1,可将式(6)写为
Kappa系数用于表征预测结果与实际标签一致性效果[22],表示为
式中,po可理解为AO;pe为偶然一致性,表示为
向式(8)中代入式(7)与式(9),得到Kappa系数为
2.3 实验结果与分析
设置初始学习率为0.000 1,迭代次数为100。图5为损失值变化。对其进行插值拟合,以便清晰看出整体变化。如图5 中红色虚线所示,前期训练过程中损失函数值急剧下降,第20次迭代后趋于稳定。
图5 损失函数曲线图-0.034 29
模型训练完成后,对测试集进行预测,统计预测结果精度指标,得到UIo 为76.876%,AO 为91.413%,Kappa系数为81.225%,表明本文方法能够有效且高精度地提取建筑物。建筑物提取混淆矩阵如表2所示。
表2 建筑物提取混淆矩阵 单位:像元
分别使用VU-Net 模型与SVM 模型进行相同实验,对比两种模型实验结果与本文模型实验结果。精度对比结果如表3 所示。可以看到,本文模型实验结果精度最高,相比VU-Net UIo 提升4.793%,AO 提升3.017%,Kappa 系数提升5.534%,进一步验证了本文模型的建筑物预测的有效性与优越性。
表3 模型实验结果精度对比 单位:%
三种模型的建筑物提取结果部分放大效果如图6 所示。其中,图6(a)为较高分辨率影像,图6(b)~图6(d)为基于该影像的SVM 模型、VUNet 模型与本文模型建筑物提取结果。可以看到,本文模型提取的建筑物的轮廓比SVM 模型、VU-Net 模型更好,与实际建筑物的轮廓更加贴合,而SVM 模型提取的建筑物轮廓最为曲折。图6(e)为较低分辨率影像,图6(f)~图6(h)为基于该影像的SVM模型、VU-Net模型与本文模型建筑物提取结果。图6(g)中圆框区域VU-Net 模型没有将其中建筑物成功提取。本文模型提取建筑物的准确率高,提取的建筑物的划分更为明显,具备较高的模糊区域建筑物边缘提取性能。因此,相比另外两种模型,本文模型提取该区域建筑物的效果改善明显。综上所述,本文模型无论是从定量分析还是定性分析来看,均优于对比模型。
图6 三种模型建筑物提取结果(局部)
3 结束语
本文以遥感影像为研究对象,针对现有U-Net 模型的不足,提出一种改进的U-Net 模型,使用WHU 建筑物航空影像数据集进行建筑物提取实验。对比本文提出的改进U-Net模型实验结果与SVM 模型、VU-Net 实验结果,结果表明本文提出的改进U-Net模型较对比模型具有更优的建筑物提取效果,其中精度评价指标UIo、AO、Kappa系数分别达到了76.876%、91.413%、81.225%,较SVM 模型UIo 提升15.811%,AO 提升5.086%,Kappa 系数提升11.641%;较VU-Net 的UIo 提升4.793%,AO 提升3.017%,Kappa 系数提升5.534%。此外,本文改进U-Net 模型在边界分割精度与建筑物提取完整性上,尤其是在边界信息复杂与较小的建筑物的提取上性能优越,充分证明本文提出的改进U-Net 模型的可行性与优越性。
引文格式:俞佳笠,马超. 改进U-Net模型在遥感影像建筑物提取中的应用[J]. 北京测绘,2024,38(8):1224-1229.
作者简介:俞佳笠(1991—),男,浙江宁波人,大学本科,工程师,从事测绘工程方面的工作。E-mail:tongjiust@126.com