标题:Joint learning model for underwater acoustic target recognition
单位:Big Data Research Center, University of Electronic Science and Technology of China; Chengdu Union Big Data Tech. Inc, Chengdu
1、研究背景:
1、提出一种轻量级的MSRDN作为波形分支的主干,在原有冗余模型上进行轻量级结构设计,在精度损失较小的情况下,大大降低了模型参数和计算成本;
2、提出了一种基于波形和T-F模型的水声目标识别联合模型,该联合模型可以在一定程度上避免单一模型的局限性带来的偏差;
3、提出了一种同步深度互学习的方法来训练联合模型。对比实验结果表明,同步深度互学习的联合模型提高了水声目标的分类性能。
3、研究方法:
MSRDN的轻量级改进主要集中在主干和MSRU的结构上。此外,还进一步优化了激活函数和批量归一化层的使用。
轻量级MSRU结构如图1所示。保留了软阈值和多尺度卷积核,以提高一维水声信号的感知能力。
图1 轻量级MSRU
首先,软阈值层被移到了单元的开头,跟在批量归一化层之后。由于 MSRU 通常是按顺序堆叠的,因此将软阈值层从单元的末尾移动到开头对整体没有显著影响。然后,在四个并行的卷积层中使用组卷积,其中分组参数g等于输入通道数。在通道连接层之后,特征的通道扩展为 4C_in。随后,特征的通道由最后一个卷积层重新组合为C_out。然而,在原始 MSRU 中,在四个并行的卷积层中使用标准卷积,其中每个卷积的外部通道是输入通道的 1/4。最后一个卷积层将特征的通道扩展了四倍。从宏观上看,轻量级 MSRU 比原始 MSRU 少一个激活层、少一个批量标准化层、少一个卷积层。
轻量级主干结构如图2所示。首先,在网络头部构建4个并行的卷积层,每个卷积层的输出通道数为7,每个卷积层的步幅为4。在进行批量归一化之后,使用通道连接对输出特征进行融合。通过实践发现,只要保持卷积层的感受野不变,网络在网络开始时对卷积核的大小并不敏感。因此,在4个并行的卷积层中使用了不同扩张率的扩张卷积。扩张卷积可以在不改变卷积核大小的情况下指数级增加感受野。
图2 轻量级主干
本文结合轻量级主干和轻量级MSRU,提出了一种轻量级MSRDN,如图3所示。四个堆栈中的轻量级MSRU数量分布为[4,4,4,4]。原始MSRDN的分布为[3,4,23,3],在初步实验中已被证明是冗余的。ConvStack4的最后一个单元的输出通道数设置为2048,以使输出尺寸与原始MSRDN保持一致。
图3 轻量级MSRDN
本文所提出的联合模型的结构如图4所示。该模型包括 T-F 和波形分支。
在时频分支中,水声目标的原始信号首先被输入到频谱图生成器中,其中一维波通过短时快速傅里叶变换转换为时频表示,在时频分支中使用了一种ConvNeXt的变体,每级具有较少的通道数C和较少的块数B。ConvNeXt中最后一级的输出在执行全局平均池化和层归一化后被输入到全连接层。在波形分支中,采用所提出的轻量级MSRDN作为主干。最后一个堆栈的输出在执行全局平均池化和层归一化后被输入到全连接层。在联合模型的末尾,将两个分支的输出合并在一起。最后,通过softmax层将预测结果变换为概率分布p_joint。在训练过程中,经过softmax层变换的T-F分支和wave分支的概率分布分别记为p_spec和p_wave,均与p_joint一起返回,以进行同步深度互学习。
在对比实验中,采用联合模型与其他模型进行性能对比,由于联合模型中既包含波形又包含时频模态,因此选取两组对比模型进行实验。第一组实验选择了基于时频表示的模型,包括 MLENET、Inception-Resnet、SCAE以及 ConvNeXt的变体。第二组实验选择了基于波的模型,包括MSRDN和轻量级MSRDN,本文提出轻量级MSRDN作为联合模型的波形分支。
表2 Deep Ship数据集上的对比实验结果
表3给出了参数和计算量的对比。联合模型的参数和计算量适中。与Inception-Res和MSRDN相比,联合模型以更少的参数和计算量获得了更好的识别性能。与MLENET以及联合模型的两个分支相比,联合模型以更多的参数和计算量换取了更好的识别性能。虽然SCAE的参数较少,但由于计算是在编码器开头用两个标准卷积层进行的,因此FLOPs比联合模型要大。
表4比较了三种不同的相互学习损失和没有相互学习损失的训练。从实验结果可以看出,相互学习损失可以将联合模型的准确率提高1.52%–1.98%。相比之下,MSE的性能略优于其他两个损失。这证明了联合模型对相互学习损失不敏感。实验结果进一步说明,所提出的联合模型的性能提升得益于两个分支的相互学习,而不是简单地将两个分支的输出相加。没有相互学习,联合模型的识别性能几乎没有提高。
表4 联合模型在ONC数据集上不同损失的实验结果
本研究比较了七种模型如图5所示。其中四种基于单一表示,其余三种模型是四种单一表示模型的联合模型。实验结果表明,轻量级MSRDN与MLENET组成的联合模型准确率为83.31%,与MLENET和轻量级MSRDN相比分别提升了2.48%和0.18%;轻量级MSRDN与SCAE组成的联合模型准确率为84.90%,与SCAE和轻量级MSRDN相比分别提升了0.95%和1.77%;轻量级MSRDN与ConvNext组成的联合模型准确率最高为85.20%,与两个单分支相比也有明显提升。此外,从T-F分支模型到其联合模型的每条折线都有正斜率,虚线趋势表明联合模型比任何单分支模型都能提高性能。
图5 不同模型组合在 ONC 数据集上的实验结果
在训练过程的探索中,本文考虑了四种类型的训练过程。不同训练过程的实验结果如图6所示。实验结果表明,使用同步DML从头开始训练联合模型是最有效的训练过程,可以获得最佳性能。此外,我们观察到wave分支模型和T-F分支模型之间的知识蒸馏没有达到理想的效果。这可能是因为两个分支的异构性。这证实了基于wave和T-F的模型之间存在不同的识别机制。
图6 不同训练过程的实验结果
讨论与分析:
(1)联合模型显著优于单一模型。这是因为联合模型结合了时频表示和波形特征的优势,捕捉到了更多的信号特征,从而提高了分类性能;
(2)同步深度互学习(SDML)方法在训练效率上明显优于异步深度互学习和预训练加微调方法。SDML方法通过在一次反向传播中同时更新所有参数,减少了训练时间,同时避免了异步更新可能带来的误导问题;
4、结论: