题目:Real-Time Semantic Segmentation: A brief survey and
comparative study in remote sensing
期刊:IEEE
Geoscience and Remote Sensing Magazine
作者:Clifford
Broni-Bediako, Junshi Xia, Naoto Yokoya
通讯单位:RIKEN Center for Advanced Intelligence Project, Geoinformatics Team, Tokyo, Japan
遥感影像的实时语义分割是一项具有挑战的任务,需要性能和效率间的权衡。深度神经网络(DNN)已应用于多个遥感领域,包括森林火灾跟踪,土地利用/覆盖检测、作物长势监测等。近日,日本理化学研究所地理信息学团队夏俊士等人针对实时语义分割在遥感领域的应用进行了调查与比较,成果以“Real-Time Semantic Segmentation: A brief survey and comparative study in remote sensing”为题发表在遥感领域顶刊《IEEE Geoscience and Remote Sensing Magazine》。文章回顾了遥感图像实时语义分割方法的最新进展,并讨论了实时语义分割在遥感领域的当前研究趋势和未来发展方向。
多数用于遥感图像语义分割的DNN都需要高性能的专业机器(如GPUs),极大地限制了其在资源受限环境中的实时应用。遥感领域(或计算机视觉)中发表的关于图像语义分割的调查和综述大多重点关注深度学习方法,对DNN方法在遥感图像解译中的实时应用关注较少。为此,该文章通过总结文献中最先进的DNN方法来弥补这一研究不足。为了使遥感领域的研究人员能够采用最高效的DNNs方法进行遥感图像语义分割的实时应用,作者在OpenEarthMap遥感图像语义分割基准上对几种DNN方法进行了实时语义分割的比较(图1)。图1. OpenEarthMap基准测试中一些用于实时语义分割的现有DNN方法的性能比较。气泡大小表示参数量(Params)。mIoU:平均交并比;FLOPs:每秒浮点运算次数;NAS:神经架构搜索
针对特殊的实时语义分割任时,除了输出质量外还需关注推理能力。该过程涉及通过降低计算复杂性和内存占用来优化模型的架构,以加快推理速度。图3展示了用以加快推理速度的压缩技术。如紧凑架构(图2a–f)、修剪和稀疏化(图2g–h)、知识提炼(图2i)、量化和二值化(图2j–m)及低秩近似(图2n–o)。
图2. 常用模型压缩技术。(a–d)一些广泛使用的手工卷积块:(a)瓶颈卷积,(b)分组卷积,(c)倒置瓶颈卷积,(d)深度可分离卷积。(e–f)一些流行的自动学习单元:(e)NASNet,(f)Auto-DeepLab
续图2. 常用模型压缩技术。(g)权重修剪,(h)神经元修剪,(i)知识蒸馏技术。(j–m)量化和二值化技术:(j)权重矩阵,(k)二元量化,(l)基于K均值的量化,(m)线性量化。(n–o)低秩近似技术:(n)k×k核的低秩矩阵分解,(o)k×k×k核的低秩张量分解。Conv:卷积;FM:特征图;Concat:串联;Avg:平均;Sep:深度可分离卷积
用于遥感影像实时语义分割的最新DNN方法(表1),分为使用手工构建架构的模型和通过自动化NAS(AutoML)开发的模型。大多数实时语义分割模型都适用于广泛使用的紧凑骨干网络之一,包括MobileNet、SqueezeNet、ShuffleNet和EfficientNet,这些网络均针对图像分类任务而设计。ResNet、U-Net、VGG和Vision Transformer(ViT)等大规模架构也被压缩并适用于实时语义分割。分割任务包括建筑物提取、烧毁区域检测、杂草制图、云检测等。
表1. 遥感影像实时语义分割中采用的DNN方法
SqueezeNAS:被认为是第一个针对密集语义分割的无代理硬件感知搜索。SqueezeNAS 使用可微分搜索策略,通过类似于MobileNet的搜索空间,在Cityscapes语义分割数据集上提高了延迟优化网络的最高准确性。SqueezeNAS 架构搜索路径的概述如图3所示。
图3. SqueezeNAS架构路径概述。在第一个超级块中,选择候选块1,然后第二个超级块选择候选块3,第N个超级块选择候选块2
BiX-NAS :基于双向跳跃连接网络的多尺度升级。其使用两阶段搜索算法,第1阶段使用可微分搜索,第2阶段使用进化搜索(图4)。BiX-NAS通过筛选不同级别和迭代中无效的多尺度特征来降低计算成本。
图4. BiX-NAS 渐进式进化搜索概述。(a)第1阶段:搜索SuperNet N分为头网和尾网。(b)向前和向后传播。(c)第2阶段:只保留在P的Pareto前搜索的跳跃
DNAS :采用具有三个层次的分层搜索空间:路径级、连接级和单元级(图5),通过HRSI语义分割的可微分搜索来自动设计网络架构。DNAS搜索优化策略包括寻找SuperNet的最佳路径连接,以开发轻量级网络。
图5. DNAS 框架。由微搜索空间、宏观搜索空间(路径级别、连接级别和单元级别)和解码架构组成
OpenEarthMap是一个用于全球高分辨率土地覆盖制图的亚米级数据集。该数据集由5,000张航空和卫星图像组成,地面采样距离为0.25-0.5 m,包含人工标注的八类土地覆盖标签和220万个分割区域。如表2所示,对于遥感应用中的实时语义分割,评估结果表明现有的手工制作和自动化架构搜索紧凑网络可以被认为是最实用的起点,大多数DNN方法在OpenEarthMap测试集上表现良好。除Segmenter-Tiny外,其余模型的mIoU准确率都超过50%。其中,U-NetFormer-EfficientNet-B2在整体分割质量方面表现突出,准确率为64.56%,参数为8.91M。研究结果表明,将ViT的U-Net与EfficientNet骨干网相结合可有效产生局部注意力并增加有效感受野大小,最终提高分割质量。
表2. OpenEarthMap基准测试集上,基线U-Net系列模型和具有代表性的DNN手工制作和自动化NAS模型的语义分割结果
通常假设模型的效率指标是相关的(例如,更少的参数转化为更低的计算复杂性或更高的推理速度)。然而,这个假设不一定正确(图6)。研究显示BiX-NAS是最小的,只有0.38M参数;但其具有最大的FLOP(112.29G)和较低的推理速度(29.3 FPS)。研究评估的大多数模型的FLOP数量相对较少,但推理速度较低,表明较小的FLOP并不一定意味着更高的推理速度。此外,具有多分支连接架构的模型往往具有较低的推理速度(例如,SparseMask、MFR-UNets、HRNet和BiX-NAS)。这些发现表明,遥感应用选择实时语义分割方法时,仅依靠单一的效率指标可能会产生误导。在遥感语义分割的实时应用中,应采用具有最小多分支的网络架构,以实现高推理速度(即低延迟)。
图6. 模型效率指标之间的相关性:推理速度(FPS),计算复杂度(FLOP),可学习参数量(Params)。气泡大小表示模型的可学习参数量
文章针对遥感应用实时语义分割方法的发展提供了全面的见解,并强调了其优势和劣势。这些发现可为遥感领域的未来研究提供信息,并帮助从业者和研究人员为遥感应用开发更有效、更准确的模型。
Clifford Broni-Bediako, Junshi Xia, Naoto Yokoya. Real-Time Semantic Segmentation: A brief survey and comparative study in
remote sensing. IEEE Geoscience and Remote Sensing Magazine, 2023,
pp. 94-124.https://ieeexplore.ieee.org/document/10292940供稿:夏俊士
编辑:袁 博
审核:郭山川
指导:杜培军