摘要:针对跨域使用道路语义分割模型时,道路提取精度往往会大幅度下降的问题,采用针对性策略研究了一种分组迁移的跨域遥感影像道路提取算法:基于语义一致性对源域影像和目标域影像进行聚类生成跨域影像组,增强用于风格迁移的组内影像的语义相似性;采用循环对抗生成网络对组内影像进行风格迁移,降低影像迁移难度并提高迁移的有效性;利用改进的跨域伪标签交叉监督算法进一步提高源域模型对目标域影像的道路提取精度。实验结果表明,该文算法能够更加准确的提取目标域影像中的道路信息,在DeepGlobe数据集上训练的模型在Massachusetts测试集上的交并比达到了56.96%,优于其他几种同类无监督域适应算法。
引用:[1] 周天舒,周绍光. 分组无监督域适应的遥感影像道路提取[J]. 测绘科学, 2024, 49 (09): 115-124. DOI:10.16251/j.cnki.1009-2307.2024.09.012.
引言
道路是具有复杂拓扑结构的典型地物要素,在城市规划、应急响应、地图更新、交通管理等方面发挥了重要作用 [1] 。但是迄今为止,仍有成百上千条道路没有被录入地图中,很多偏远地区的道路还未实现数字化,即使是城市道路也不能及时更新。随着自动驾驶技术和基于位置信息的移动服务的发展,道路的准确定位和及时更新变得尤为重要 [2] 。
遥感影像道路分割一直是遥感应用领域的一个研究热点,其目的是在遥感影像中将道路从复杂的背景中区分出来,并得到准确的像素级标记。传统道路提取方法利用光谱特征,纹理特征,及几何形状等特征,训练分类器将影像中像素分为道路类与非道路类 [3] 。文献 [4]提出形状指数来区分道路和非道路类。文献 [5]以超像素为单元,将形状指数作为启发式信息嵌入蚁群算法提取道路。文献 [6]提出偏离度(DOP)和窄化率(NR)两个形状特征,用高斯混合模型自动识别道路区域。随着科学技术发展,遥感影像的空间分辨率越来越高,影像中地物的细节越来越丰富,传统的方法难以取得较高的道路提取精度。近年来,迅速发展的深度学习技术为遥感影像道路提取研究带来新的希望。研究者们提出了许多基于卷积神经网络的遥感影像道路提取模型。文献 [7]设计了结合残差模块的ResUnet, 并在Massachusetts道路数据集 [8] 上进行测试。文献 [9]用Deeplabv3模型进行遥感影像道路提取,通过空洞卷积和金字塔池化提取影像多尺度的特征,该方法在GF2数据集上的测试结果证明了其在复杂场景中提取道路的能力。在众多的道路提取策略中,文献 [10]提出的D-Linknet展示了杰出的性能,此模型通过一系列串并联的膨胀模块逐步扩大感受野,捕获影像中道路的全局特征,该方法以出色的表现赢得了Road Extraction Challenge2018 [11] 的第一名。不仅如此,简单的实验可以发现,在一个数据集上训练的D-Linknet模型直接应用于其他遥感影像时亦可取得相对较好的效果。当然这种直接跨域的道路提取效果尚有提升的必要,因为训练模型的源域数据和用于测试的目标域数据间存在差异,这种差异就是所谓的数据偏移。
迁移学习是解决数据偏移问题的最主要手段,其中的无监督域适应无需目标域标记样本,近年来受到广泛关注。无监督预适应方法利用源域样本和目标域未标记的样本训练模型,以此应对数据偏移问题。结合深度学习的无监督域适应算法可粗分为两类。第一类通过对抗学习拉近域间的距离。文献 [12]提出AdaptSegNet, 通过在输出空间用对抗学习方法拟合源域与目标域的特征分布。文献 [13]提出基于熵的目标域损失,通过降低目标域输出空间的熵实现域适应。然而,这类无监督域适应方法没有考虑目标域样本间的差异。第二类是源于半监督学习的自训练方法,具体而言,自训练通过使用模型生成的目标域数据的伪标签来精调模型,完成源域到目标域的域适应。但是,自训练方法的效果往往取决于初始模型的性能。在文献 [14] 的启发之下,本研究结合循环生成对抗网络(Cycle-consistent adversarial networks, CycleGAN)特征迁移 [15] ,设计了跨域伪标签交叉监督域适应(Cross-domain Pseudo supervision domain adaptation, CPSDA)算法,新算法具备上述两类方法的优点,既能利用对抗学习增加跨域数据间的相似性,获取具有较高精度的目标域初始分类模型,又可以解决CycleGAN可能导致少数地物类别变异造成的影响。
尽管无监督域适应方法没有对源域和目标域数据提出任何限制,但毫无疑问,两个域数据相似时,算法的效果会更好。如果源域和目标域数据相差甚远,则精度会很差。为此,新提出的方法将目标域数据聚类为若干个簇,并从源域中找出每个目标域类簇的相似影像构成跨域影像组,无监督域适应在各影像组内分别完成。本文主要贡献:提出一种简单而高效的跨域影像分组方法;提出了CPSDA无监督域适应语义分割方法。
1 分组无监督域适应道路提取方法
给定具有像素级标记的源域数据集DS,和未标记的目标域数据集DT,无监督域适应的目的是利用源域数据和目标域数据共同训练,并在源域和目标域上都能取得较好的测试结果。该文的目标是训练一个将源域样本与目标域样本概率分布对齐的模型G,这样即使是在目标域DT上进行测试,也能够正确地预测出目标域样本的像素级标签。我们的方法旨在利用影像的语义相似性,对源域与目标域影像数据集进行合理的分组,让组内的源域影像与目标域影像尽量相似,以减小模型迁移的难度。然后通过风格迁移和改进的自训练方法进一步提高模型迁移后在目标域的性能。如图1所示,提出的道路提取方法包括3个步骤:基于语义一致性的源域目标域影像分组、CycleGAN组内风格迁移、CPSDA跨域伪标签交叉监督域适应。
1.1 基线模型D-Linknet
D-Linknet是一种高效的道路提取语义分割模型,由4个残差块组成的编码器和完成下采样,连接一个级联的膨胀卷积模块,提取影像的浅层的位置相关的局部特征和深层的全局性语义特征。然后通过4个转置模块将图像逐层恢复至原始尺寸,通过跳跃连接保留局部信息。D-Linknet结构如图2所示。
鉴于D-Linknet良好的性能,本文的方法以D-Linknet作为基线模型,在不使用任何目标域影像真实标记的情况下,尽可能提升模型在目标域上的测试效果。
1.2 跨域影像分组
传统的无监督域适应语义分割方法从整个数据集的层面考虑源域与目标域之间的差异,通过对齐全局域差异来实现域适应,这些方法没有考虑目标域内部样本之间的差异。对于一张目标域影像,使用不同的源域影像训练得到的模型,测试精度存在差异。当使用与目标域测试影像更为相近的源域影像进行训练得到的模型,测试结果更为准确。基于此,本文提出一种影像相似度聚类分组策略,将跨域影像聚类分组,使得组内跨域影像语义尽可能相似,从而降低迁移难度。
选择一种能够代表一幅影像语义的特征是达成这一目标的关键。相关研究表明,深度卷积网络中浅层的嵌入特征包含图像与位置相关的纹理信息,而深层的嵌入特征包含图像的语义信息 [16] 。受此启发,本文采用D-Linknet的第四个残差块(如图2虚线框)的嵌入特征作为图像的语义特征进行聚类,该算法流程图如表1所示。
图3展示了分组后源域影像与目标域影像生成的跨域影像组中的部分影像。从分组结果可以看出,经过分组,组内影像中地物分布较为相似,道路像素在全图中的比例也比较接近。而组间影像地物差异较大,道路像素在全图中的比例有明显差异。
1.3 CycleGAN风格迁移
在完成分组之后,由于空间分辨率、光照条件、传感器等影响,跨域影像组内源域和目标域数据之间仍存在光谱特征等差异。为进一步减小源域与目标域样本之间的差异,我们将每组的源域样本向该组的目标域样本进行风格迁移,本文采用CycleGAN实现源域样本向目标域样本的风格迁移。
CycleGAN通过两个生成器网络和两个鉴别器网络来实现图像从一个域到另一个域的转换。这两个生成器网络相互交替,每个生成器网络将输入图像转换为目标域中的图像,然后将生成的图像与原始图像进行比较,以确保图像质量。同样,两个鉴别器网络也相互交替,以评估生成的图像是否符合目标域中的图像的特征。通过引入循环一致性损失,强制要求从源域到目标域的图像转换与从目标域到源域的逆向转换是一致的,从而使转换更加自然。CycleGAN风格迁移效果如图4所示。
虽然CycleGAN既能够将源域影像转换成目标域风格的影像,又能够将目标域影像转换成源域风格的影像,但是转换后的影像存在语义混乱的情况。直接将目标域道路影像转换成源域风格后使用源域模型进行测试,会导致大量的误提取。因此,我们只采用源域影像转换成目标域风格影像,参与后续的训练。在这种情况下,带有标签的存在语义混乱的影像可以被视为一种对原数据的增强。
图5展示了风格迁移转换前后源域影像与目标域影像的道路光谱特征以及影像的Resnet18嵌入特征进行了t-SNE可视化分析。结果表明,经过转换后的源域影像,其道路像素的光谱信息更接近目标域影像。同时,转换后的源域影像嵌入特征也逐渐与目标域对齐。
1.4 伪标签交叉监督域适应CPSDA
经过基于CycleGAN的跨域道路影像组的组内风格迁移,我们能够得到两类源域样本:语义准确,但色彩风格与目标域样本有差异的源域样本;色彩风格与目标域样本一致,但部分像素语义有偏差的风格迁移后的源域样本。我们希望融合两种样本的优点,既利用准确的图像语义信息和标签信息学习影像中道路的表征,正确地识别出影像中的道路像素,又能够让训练样本与目标域测试样本的色彩分布对齐,提高模型在目标域的性能。因此,我们提出一种由双分支网络构成的伪标签交叉监督域适应算法CPSDA,通过双分支网络融合两类训练样本。同时,借鉴半监督学习的思想,使用目标域影像的伪标签对模型微调,进一步提高模型性能。
CPSDA算法由两个平行的语义分割网络M 1和M 2构成,这两个语义分割网络具有相同的结构,和相同的初始化参数θ,θ由源域影像预训练的道路分割模型M S 提供。网络训练分为两个阶段:源域影像训练阶段和目标域影像训练阶段。在源域影像训练阶段,输入影像分别是经过相同图像增强后的源域影像和风格迁移后的源域影像。经过源域影像和风格迁移后的源域影像对两个网络的训练,两个网络具有不同的权重θ 1和θ 2。
在目标域影像训练阶段,输入影像是经过图像增强的目标域影像,设P 1、P 2是两个语义分割网络的预测概率图。由于两个网络权重不同,因此这两个输出具有一定差异性。这里,Y 1、Y 2分别是两个网络的预测概率图生成的二值图,即伪标签。
我们采用伪标签交叉监督的方法,以Y 2作为M 1的标签数据,Y 1作为M 2的标签数据,分别训练两个分支网络。图6展示了CPSDA算法的训练过程。
2 实验结果与分析
在无监督域适应道路分割实验中,源域数据集与目标域数据集存在空间分辨率、道路背景复杂度、道路类别等差异。在本文中,我们使用DeepGlobe、Massachusetts两个公开数据集进行无监督域适应道路分割实验。其中,我们选择DeepGlobe数据集作为源域数据集,Massachusetts作为目标域数据集进行实验。模型采用有标签的源域影像和没有标签的目标域影像进行训练,并对目标域测试影像的道路分割结果进行评估。
2.1 实验实施细节
在所提出的方法中有两个网络:循环生成网络CycleGAN和语义分割网络D-Linknet34。循环生成网络的生成器采用Unet的架构,共进行两次下采样和上采样,中间部分由9个残差块组成;判别器有4个下采样模块构成。D-Linknet34采用Resnet34作为主干网络。
为证明本文提出的跨域遥感影像道路提取方法的优势,我们与现有的先进方法进行了对比实验,这些方法包括AdaptSegNet, ADVENT,SAC [19] ,RoadDA [20] 。此外,我们还进行了只使用源域影像训练参与比较。本文实验中,所有影像都采用了色彩抖动、随即裁剪、随机旋转、随机翻转等数据增强手段扩大训练规模来避免过拟合。为了公平比较,我们没有使用任何后处理策略。
2.2 评价指标
为量化验证本文算法和其他相关方法对跨域遥感影像的道路提取精度,采用以下几个指标对分割性能进行定量评价:交并比(IoU)、准确率(COR)、召回率(COM)和F1分数。
交并比是计算两个集合交集和并集比率的一种指标。在计算机视觉领域,交并比通常用来评估图像分割算法的性能。交并比具体计算,见式(6)。
2.3 对比实验结果
为了进行公平比较,基线模型采用与本文算法相同的分割模型,其他的比较方法也使用相同的D-Linknet34模型作为主干网络。
表3展示了所提出的方法和其他的比较方法在Massachusetts数据集上的道路分割效果。总体来说,与最先进的无监督域适应方法相比,本文算法取得了56.96%的IoU和72.58%的F1分数,分割效果最好,这显示了所提出的方法的可靠性和鲁棒性。如预期一样,仅源域模型产生了最差的结果。与诸如AdaptSegNet, ADVENT等只使用域间自适应的方法相比,本文的模型采用的域内风格迁移自适应和伪标签交叉监督自训练使得分割结果有显著提高,例如在IoU这一项本文的方法比ADVENT高6.03%。此外,提出的方法也优于采用域内自适应及自训练的SAC和RoadDA。我们认为性能的提高是由于我们对源域和目标域采用了域间一致性学习。
图7显示了不同方法对Massachusetts测试集的几张代表性测试图像的道路分割效果图。可以观察到,本文算法得到了最接近地面真实标记的分割结果,能够对包含复杂背景的遥感影像中的道路进行较好的提取。
2.4 消融实验
本节将评估所提出的方法中的各部分对从DeepGlobe到Massachusetts无监督域适应实验的影响,实验结果如表4所示。没有采用分组和CycleGAN风格迁移策略的CPSDA只使用伪标签交叉监督训练,IoU和F1得分分别为51.46%和67.95%。在采用分组策略和CycleGAN风格迁移策略之后,模型性能得到提高。分组策略为IoU带来1.54%的提高,CycleGAN风格迁移策略为IoU带来3.94%的提高。同时使用分组和CycleGAN风格迁移策略的CPSDA模型能够将IoU提高5.5%。这证实了所提出的方法在无监督域适应分割模型训练阶段的有效性。
2.5 参数敏感性分析
本节对本文方法中各个参数的设置进行实验,并对实验结果和参数的最终选择进行讨论。
2.5.1 分组数k
本文方法采用K-means聚类对目标域影像进行分组。其中,分组数目k决定了目标域数据集子集的划分,也影响了对应组别源域样本的选取。我们采用Davies Bouldin指数来选择聚类类簇数目k。
为了在节省运算量的前提下找到适合的分组数目,本文在DeepGlobe到Massachusetts的无监督域适应实验设置下对目标域组数k进行了从2到7的实验。如图8所示,当分组数目k定为5时,目标域样本都得到了聚类最优解。
2.5.2 源域样本比例
源域样本比例决定了分组后每组参与迁移的源域样本数量,图9展示了在DeepGlobe到Massachusetts的无监督域适应实验设置下源域样本比例对算法性能的影响。通过实验可以看出,随着参与迁移的源域样本比例增加,模型性能逐渐提高,当源域模型比例到达1~1.2时,模型精度趋于平稳。因此在DeepGlobe道路数据集迁移到Massachusetts 道路数据集的设置下,对每组目标域样本,我们选择源域样本与目标域样本比例为1∶1进行迁移。
2.5.3 权重系数λ
如式5所示,λ用来平衡监督损失和伪标签监督损失。我们探索了在DeepGlobe到Massachusetts的无监督域适应实验设置下,不同的λ值对最终分割精度的影响。通过图10我们可以发现,λ=1.5能够在Massachusetts测试集取得最好的分割性能。
3 结束语
本文提出了一种简单而有效的基于分组迁移的无监督域适应道路分割方法。对目标域影像进行语义相似性聚类和源域影像配对生成跨域影像组,进行影像组内的风格迁移,进行无监督域适应训练。与原始模型相比,新算法迁移效果有了显著提高。对比试验也验证了本文方法优于其他的模型,并且通过消融实验展示了算法中各部分的合理性和有效性。总之,通过合理的影像分组策略和模型训练策略,能够显著提高原始模型的迁移效果。本文方法仍存在一定限制,分组策略和训练效率与目标域数据集大小和多样性有关,这是下一阶段的研究目标。
⬆️联系我们⬆️