0.26M 参数，0.483 GFLOPs，EfficientCrackNet 轻量级检测模型！

科技 2024-10-15 09:00 上海

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「集智书童-知识星球」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

裂纹检测，特别是在铺砌图像领域，由于具有诸如强度不均匀性、复杂拓扑、低对比度和嘈杂背景等固有的复杂性，在计算机视觉领域面临着巨大的挑战。自动裂纹检测对维护关键基础设施（包括建筑、铺砌和桥梁等）的结构完整性至关重要。
已有的轻量级方法通常面临诸如计算效率低下、复杂的裂纹图案和难以处理的背景，导致检测不准确，不适合实际应用中。
为了克服这些局限性，作者提出了EfficientCrackNet，该轻量级混合模型将卷积神经网络（CNNs）与 Transformer 相结合，用于精确的裂缝分割。EfficientCrackNet 集成了深度可分卷积层（DSC）层和移动视觉块，以捕捉全球和局部特征。该模型使用了边缘提取方法（EEM）实现高效裂缝边缘检测，而无需预训练，并用超轻量级子空间注意力模块（ULSAM）增强特征提取。
在三个基准数据集 Crack500、DeepCrack 和 GAPs384 上进行了大量实验，结果表明 EfficientCrackNet 与现有轻量级模型相比，性能优越，仅需0.26M参数和0.483 FLOPs（G）。
所提出的模型在准确性和计算效率之间找到最佳平衡，超过了最先进的轻量级模型，并提供了对实际裂缝分割的坚固和可适应解决方案。

1 Introduction

图1：在Crack500测试数据集上评估参数、mIoU和FLOPs（G）。气泡半径代表模型的FLOPs（G）。

裂缝是住宅建筑、铺砌物和桥梁上常见的结构故障，通常由于承重能力不足而导致，这会危及安全。裂缝的逐渐传播会影响结构的完整性和耐久性。因此，识别并检查裂缝对于评估和维护结构安全至关重要。2006年的一项研究表明，由于道路状况而导致的交通伤亡事故造成的损失估计为2175亿美元。这一数字代表了美国发生的所有事故总损失的43.6%。[54]。美国土木工程师协会（ASCE）在2021年基础设施报告中将美国公路基础设施评为“D”等，表示状况较差且处于风险之中。美国州际高速公路系统的分析发现，有11%的州际公路路面处于恶劣或良好状态。具体来说，有3%的路面被归类为恶劣，而8%的路面被归类为中等。

考虑到这些严重问题，提高公路基础设施的安全性、功能性和耐久性至关重要。有效地监测结构健康和评估道路状况可以实现快速决策和处理。手动的裂缝检测和分割是一项耗时且需要高度专业知识的劳动密集型任务。为了加快混凝土路面调查的进展，实现自动化裂缝分割至关重要。裂缝分割面临的主要挑战有强度不均匀、对比度不一致以及背景杂乱。

由于具有客观性、成本效益、效率和安全等优点，基于视觉的裂缝分割方法近年来在学术界和工业界受到了广泛关注。过去十年，深度学习经历了复苏，其在各种计算机视觉应用方面取得了显著成功。目前，用于裂缝分割研究的许多语义分割算法依赖于卷积神经网络（CNNs）[6, 19, 63]。CNNs的优势在于其卷积核具有翻译不变性和局部敏感性，这使得它们能够精确捕捉局部空间特征。卷积操作，由于其固定感受野，在识别局部模式方面有效，但在捕获全局上下文特征或长程依赖关系方面有限。[29]

在语义分割中，仅依赖局部特征进行像素级分类可能导致歧义，而结合全局上下文特征可以提高每个像素的语义内容精度。然而，卷积核在理解和建立图像的整体结构以及不同特征之间的关系方面的能力有限，因此提高裂纹分割的准确性仍然具有挑战性。相比之下，基于 Transformer 的网络可以捕捉全局上下文特征，为这些挑战提供了一种潜在的解决方案。然而，这些性能提升伴随着模型大小的牺牲。许多实际应用需要对资源有限的手持设备上的视觉识别任务进行及时执行。

有许多研究提出了各种用于裂纹分割的深度学习模型，这些模型通常依赖于高性能计算设备，如图形处理单元（GPUs）。这些模型通常有许多参数，需要稳定的、控制良好的环境，如数据中心，以确保可靠的运行。然而，由于这些模型对这些依赖性，它们的实际应用在现实世界的外部环境，如裂纹分割任务中的典型情况，是有限的。相比之下，物理基础系统，如无人机和移动机器人，在现实世界的应用中已经取得了显著的成功。

像NVIDIA Jetson TX2、Jetson Nano和Jetson Xavier NX这样的设备在边缘计算中被广泛使用，是因为它们的便携性、能源效率和紧凑的体型，使其成为现实世界应用的理想选择。这些设备可以安装在无人驾驶飞行器（UAVs）或机器人平台上，用于检查基础设施，如高层建筑、桥梁、隧道和公路。因此，尽管深度学习模型在精确分割性能上取得了成功，但它们在实际、现场应用中的使用仍然受到限制。边缘计算设备提供了一种更具实际价值的解决方案，以应对这些具有挑战性的环境。

2 Related Works

以前的研究中，大多数关于裂纹分割的CNN模型。U-Net是最著名的基于CNN的模型，并且各种U-Net架构在裂纹分割中得到了广泛应用 [14, 15, 20]。其他基于CNN的模型，如FCNs [2, 45], SegNet [37, 7], DeepLab [42] 和 Mask R-CNN [55]，也在各种研究中用于裂纹分割。此外，CNN基础模型还与其他注意力模块相结合 [13]。例如，将注意力门模块集成到U-Net中，通过优先关注重要区域并重建语义特征来增强裂纹特征提取，提高了裂纹分割性能 [27]。另一项研究增强了DeepLabv3+，使用多尺度注意力模块结合多尺度裂纹特征 [42]。同样，一个注意力模块被集成到DCANet后端网络中，结合详细和抽象特征，提高了模型的整体性能，从而从裂纹中恢复边缘信息 [38]。然而，基于CNN的模型由于其固有的局部性质，很难捕捉明确的长期依赖性。

由于大多数裂纹只占画面的一小部分，因此需要捕捉局部和非局部特征进行准确的裂纹分割 [8]。基于Transformer的模型在裂纹分割上表现出显著的性能 [29, 61]。一项研究使用MMSegmentation和OHEM策略开发了SegCrack，以提高裂纹分割的准确性 [41, 46]。

随后，另一项研究提出了Crack Transformer [17]，该模型将来自Swin Transformer [32]和SegFormer [50]的元素相结合。然而，基于Transformer的模型训练初期可能具有挑战性，并且在有限的数据集上容易过拟合 [31]。最近，人们越来越关注将CNN和Transformer相结合的混合模型。

与CNN不同，Transformer具有强大的长期依赖建模能力。然而，裂纹通常只占据图像的一小部分。因此，仅依赖Transformer可能会受到背景干扰，导致整体分割性能降低。使用混合模型可以弥补这一缺点 [49, 51, 65]。移动设备（如无人机和手机）通常具有有限的计算能力、内存容量和电池寿命。因此，作者的目标是研究使用一种紧凑的混合模型，以创建一种网络，其轻量级结构可以提高裂纹分割的准确性。

3 Methodology

本文节主要介绍了所提出模型的架构组成部分。提出的模型架构设计基于U-Net。提出的EfficientCrackNet模型主要由三个部分组成：编码器、瓶颈和解码器。EfficientCrackNet模型中的主要组成部分是边缘提取方法（EEM）、超轻量子空间注意力机制（ULSAM）和移动ViT块（MobileViT block）。

Edge Extraction Method (EEM)

作者采用了Edge Extraction Method (EEM)，通过结合两种传统的边缘检测方法，均方差（DoG）和拉普拉斯（LoG）以及卷积层。最终，作者得到了一个可训练的EEM，该方法能够在不需要单独边缘标签训练的情况下学习边缘特征，且参数数量最少。

对于边缘提取，EEM首先将输入图像用一个大小为（3，3）的高斯核卷积进行高斯模糊，以平滑高频分量并保留图像中物体的整体结构，通过保留低频特征来实现这一目的。

其次，DoG的数学公式由等式（1）给出，其中将卷积输入图像和原始输入图像相减，从而提取出完整图像与输入中低频特征之间的物体边界和边缘。这个过程类似于带通滤波器效应。进一步地，将高斯和拉普拉斯核结合，可以得到一个LoG核，等式（2）给出了这一LoG核的表达式。将这个LoG核与输入图像相卷积，执行二阶导数，因此只需提取那些有显著变化边缘。

（图2）边缘提取方法（EEM）。

将SEM集成到残差连接中，强调关键特征，确保边缘特征的保留和有效利用，这对于裂纹分割至关重要。因此，将SEM集成到残差连接中，允许EEM增强和维护边缘特征，这对于精确的裂纹检测和分割至关重要。EEM的结构如图2所示。

Ultra-Lightweight Subspace Attention Module (ULSAM)

注意力机制能有效地执行全局依赖的计算建模，并提供无限的感受野。多尺度卷积结构有可能得出更详细的特征；然而，来自无关特征的干扰可能产生 [48, 60]。为了解决这个问题的，必须实现注意力机制。当前最先进用的注意力机制不适合作者的轻量模型，因为它的计算和/或参数开销大。因此，本研究中使用了简单、有效且轻量级的注意力机制ULSAM。ULSAM使用每个特征子空间的单一注意力图。初始时，ULSAM使用深度卷积（DW）和后续在点积卷积（PW）阶段只应用一个过滤器，以产生注意力图。这种方法显著降低了计算复杂性。

用符号表示，假设从卷积层得到特征图，其维数为（m，h，w），其中m代表输入通道数，h和w代表空间维度数。在ULSAM中，特征图（F）被分成g个不同的组([F1, F2, ... , F_bar{n}, ... , F_g])，每个组包含G个特征图。组F_bar{n}代表这些中间特征图的特定集合，接下来的步骤概述了后续的处理。

在公式3中，是从一系列中间特征图中生成的注意力图。公式4描述了每个组内的特征图经过细化，得到增强特征图，利用特征分布；表示逐元素乘法，表示逐元素加法。通过将每个组的特征图拼接在一起，ULSAM生成的输出。这种方法让ULSAM能捕捉到多种尺度和频率的特征，同时也有助于网络内有效交叉通道特征利用 [39]。如图3所示，说明了ULSAM的结构。

MobileViT block

移动视觉Transformer（MobileViT）模块包括三个不同的子模块：局部特征编码、全局特征编码和特征融合。每个子模块分别负责提取局部特征、捕获全局特征或合并提取的特征。移动视觉Transformer在高效提取图像特征时保持低参数数量，使其成为受计算资源限制的应用程序的理想选择。

输入张量，移动视觉Transformer首先使用一个的卷积层，然后是一个点积（或者）卷积层，输出。卷积层捕获局部空间特征，而点积卷积将张量映射到更高的维度空间((dd>C）。

移动视觉Transformer改进了网络感知全局和局部特征的能力，从而增强了与传统卷积模块相比的特征提取能力。这种卷积操作允许变形器学习位置特征，意味着需要更少的变形器模块来学习更多特征，使其轻量 [36]。

Encoder

该网络的设计目标是轻量、高效和鲁棒。为了使模型轻便，在本次研究中，使用逐点卷积（DSC） [18]。许多高效的网络架构均将DSC作为其基本组成部分 [58, 21, 40]。DSC显著地降低了计算负载和网络中总参数的数量，从而提高了效率。

DW和PW在特征生成中起着不同的作用：DW主要关注识别空间关系，而PW强调捕捉跨通道的相关性 [18]。在DSC层之后应用了批量归一化（BN）和ReLU激活函数。

网络的编码部分使用了EEM、ULSAM和MobileViT块。EEM可以提高模型在外部裂纹边界的划分能力。EEM采用高斯和拉普拉斯滤波器组合来有效地提取边。该模块能够突出显示边缘和细节，使其特别适用于裂纹分割。

ULSAM主要采用子空间注意力机制。这使得所提出的模型能够同时捕捉不同尺度和频率的特征，并促进跨通道特征的有效利用。由固定感受野的卷积操作设计，可以检测局部模式，但天生难以捕捉全局上下文或长时间依赖关系。MobileViT块通过允许模型以高效方式编码局部和全局特征，解决了这一局限性。

Decoder

如图4所示：EfficientCrackNet的框架。

与编码器一样，网络的解码部分集成了一些高级组件，如DSC（方向短路连接），上采样，拼接块，ULSAM（多尺度融合）和MobileViT块，以实现健壮和高效的设计。

解码器路径首先提高特征图的分辨率，然后将其与编码器中的匹配特征图相结合，保持空间信息。DSC也在解码器中使用，以保持网络的效率和轻量级特性。每一个上采样步骤都与编码器的相应特征图相拼接，允许解码器利用高阶抽象特征和低阶详细特征。

这种跳过连接策略确保解码器保留了编码器中的重要空间特征。ULSAM集成到解码器中，以增强跨通道互依赖性和多尺度特征的学习。MobileViT块集成到解码器中，以提高模型在捕捉局部和全局特征方面的能力。

4 Experiments and analysis

Datasets

本研究使用了Crack500、DeepCrack和GAPs384数据集。

Crack500: Crack500数据集包括447张分辨率为2560 x 2592像素的图像，具有多种裂纹形状和宽度，以及复杂的背景纹理，因此分割具有挑战性[57]。

DeepCrack: DeepCrack是一个广为人知的数据集，用于评估裂纹检测算法。它包含537张图像，每张图像分辨率为384 x 544像素。该数据集在裂纹和背景之间的强度差异清晰，有助于有效识别路面图像中的裂纹[30]。

GAPs384: GAPs384数据集包含384张高分辨率图像（1080 x 1920像素），具有多种噪声类型和复杂的公路纹理，这使得裂纹分割具有挑战性并且对开发高级算法至关重要[53]。

Data Augmentation

为了提高作者模型的泛化能力，作者使用了各种数据增强技术。作者将图像进行了翻转（概率为0.7）、旋转（概率为0.7）、随机亮度和对比度调整（概率为0.2）、高斯模糊（概率为0.2）以及位移Scale-Rotate转换（概率为0.2）等增强。此外，作者还应用了高斯噪声（概率为0.2）和颜色反转（概率为0.2）。这些增强模拟了各种现实世界条件，提高了模型的鲁棒性和在不同场景下的泛化能力。

Loss Function

在本研究中，作者使用了Dice系数损失。定义如下：

其中是预测像素的集合，(B$ 是真实像素的集合。将Dice系数作为损失函数，作者定义Dice损失为：

在实际应用中，它可以表示为连续变量：

其中和分别表示像素的预测值和真实值，而是总像素数 [59, 25]。

Evaluation metrics

四种广泛认可的评价指标被使用：召回率（Re），精确率（Pr），F1分数和平均交集与并集（mIoU）。这些指标的定义如下：

图5：在DeepCrack数据集上的分割结果（a）原始图像，（b）真实值，（c）EfficientCrackNet（作者的），（d）LLM，（e）ShuffleNetV2，（f）MobileNetV3，（g）EfficientNet，（h）DeepCrack。

其中的量TP，FP，FN和TN分别表示以下：真阳性，假阳性，假阴性真阴性，分别。

Comparison with the lightweight models

作者在三个数据集上评估了一些最先进和轻量级的分割模型，作者的模型与它们进行比较。比较的模型包括EfficientNet [33]，DeepCrack [30]，ShuffleNetV2 [35]，MobileNetV3 [21]，LMM [1]。在这里，表1展示了结果。图5比较了在作者的模型和其他轻量级模型上在DeepCrack数据集上的分割输出和实际值，证明了提出的模型的鲁棒性。

在Crack500数据集上的结果：在Crack500测试数据集上，作者提出的EfficientCrackNet模型实现了mIoU 81.33%，Re 78.43%，Pr 79.77%。在F1分数方面，EfficientCrackNet达到了最高分79.10%。与其他模型相比，EfficientCrackNet在性能上有了明显提升，实现了比LMM高8.02%的mIoU，比MobileNetV3高17.07%，比ShuffleNetV2高14.07%，比DeepCrack高18.79%，比EfficientNet高30.04%。

在DeepCrack数据集上的结果：当在DeepCrack数据集上进行测试时，提出的EfficientCrackNet模型实现了mIoU 87.10%，Re 83.37%，Pr 88.54%。在F1分数方面，EfficientCrackNet达到了85.88%。比较分析发现，EfficientCrackNet在性能上明显优于其他模型，与LMM相比mIoU提高了0.77%，与MobileNetV3相比提高了11.61%，与ShuffleNetV2相比提高了5.29%，与DeepCrack相比提高了12.29%，与EfficientNet相比提高了11.37%。

在GAPs384数据集上的结果：在GAPs384测试数据集上，EfficientCrackNet实现了Re 76.87%，Pr 58.43%，F1 66.40%。此外，它获得了mIoU 71.94%，这是所有被评估模型中的最高值。与其他模型相比，EfficientCrackNet在性能上表现出优越性，其mIoU比LMM高8.44%，比MobileNetV3高21.71%，比ShuffleNetV2高13.72%，比DeepCrack高29.91%，比EfficientNet高22.70%。

持续更好的性能表明了在保持计算效率的同时，所提出模型的鲁棒性和适应性。

Model Complexity

轻量级网络试图通过解决三个关键因素来减少模型的复杂性：每秒浮点运算次数（FLOPs）和参数量。FLOPs和参数量可以通过方程14和15中定义的公式进行量化。

轻量级网络试图通过解决三个关键因素来减少模型的复杂性：每秒浮点运算次数（FLOPs）和参数量。FLOPs和参数量可以通过公式14和15进行量化。

在此背景下，(HWC_{in}表示输出通道的数量。变量对应 Kernel 大小。

尽管作者的模型轻量级，但在三个数据集上表现出色，这说明它在移动设备上进行实时裂纹分割是合适的。

5 Ablation Study

本节讨论了ULSAM、MobileViT块和EEM对作者的模型产生的影响。作者使用Crack500数据集作为示例，因为该数据集包含形状和宽度范围广泛，大部分图像都具有复杂的背景纹理。

Effect of ULSAM and MobileVit block

作者进行了实验来评估ULSAM和模型中的MobileViT块的影响。表3中呈现的结果是基于Crack500数据集。如果去掉ULSAM，F1得分将减少1.49%，mIoU将减少1.18%。类似地，去掉MobileViT块将导致F1得分减少4.79%，mIoU减少3.40%。ULSAM被集成到模型的编码器、瓶颈和解码器中。ULSAM改进了网络理解复杂视觉模式的能力，同时没有显着增加模型参数。另一方面，MobileViT块有助于捕捉全局特征，同时不会使模型复杂性显著增加。

Effect of EEM

边缘和物体边界对于各种高级计算机视觉任务至关重要，例如图像分割。在模型早期的特征图中，物体形状的空间细节保留更多，因此提取这些边缘对于像裂纹分割这样的任务特别重要。在作者的提出的模型中，作者在编码器的前几层使用了一个EEM。作者使用Crack500数据集来评估EEM对作者模型的影响。 presented in Table 4的结果展示了去掉EEM导致了性能显著降低，F1得分下降了10.71%，mIoU下降了7.48%。这突显了增强分割准确性的EEM的重要性。图6说明了EEM中每个组件对分割 Mask 的影响。

6 Conclusion

EfficientCrackNet是一个轻量级的混合模型，旨在在基础设施维护中自动检测和分割裂纹。它结合了DSC和MobileViT块，以捕获全局和局部特征，提高分割精度。该模型使用了一种创新性的EEM，结合了DoG和LoG进行特征提取，无需额外训练，并集成了ULSAM以改进特征表示。EfficientCrackNet在三个基准数据集上实现了最先进的结果，仅需0.26M参数和0.483 GFLOPs，使其成为实际应用的理想选择。

尽管EfficientCrackNet有诸多优点，但也存在局限性，需要进一步探索。它在检测极薄裂纹方面表现出挑战，可能需要更高级的特征提取技术。此外，光线和背景条件的变化可能影响其性能。未来研究应进一步优化模型并在结构健康监测方面扩大其应用，以提高基础设施维护的自动化程度和安全性。

参考

[1].EfficientCrackNet: A Lightweight Model for Crack Segmentation.

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

点击下方“阅读原文”，

了解更多AI学习路上的「武功秘籍」

http://mp.weixin.qq.com/s?__biz=MzU5OTA2Mjk5Mw==&mid=2247524281&idx=1&sn=3de5f966a24dcba74d31fb6d19b08d7e

集智书童

书童带你领略视觉前沿之美，精选科研前沿、工业实用的知识供你我进步与学习！

0.26M 参数，0.483 GFLOPs，EfficientCrackNet 轻量级检测模型 ！