重庆邮电大学曾宪华等 | 一种结构范数正则化的可微神经结构搜索算法

文摘   科技   2024-08-25 12:00   山东  

文章下载

曾宪华, 吴杰, 夏耀光, 向一心. 一种结构范数正则化的可微神经结构搜索算法. 中国科学:信息科学, 2024, doi: 10.1360/SSI-2023-0372



研究意义

可微神经结构搜索(differentiable neural architecture search, DNAS)作为近年来神经结构搜索的主流方法之一,因为它结合基于梯度优化的搜索策略能够高效地搜索网络结构。然而,它的稳定性和通用性差是目前的痛点。本文认为问题的原因有两个,其一由于搜索困境导致学习到局部最优的结构参数,其二由于冗余选择导致模型复杂化并且过拟合。为了解决这两个问题,本文提出了一种结构范数正则化控制结构参数的学习, 摆脱搜索困境;此外设计了一种冗余边剪枝方法修剪网络结构中的冗余边,降低模型的复杂度。从而解决冗余选择问题,提升了模型的性能,为神经结构搜索算法提供了一定的思路。

本文工作

针对搜索困境问题,本文期望在搜索初期各个操作的参数 α 分布保持接近,这样使得操作选择的公平性和权重优化的公平性,此外期望搜索后期各个操作的权重分布更加稀疏且近似 one-hot 向量,这样能突出最重要的权重,选出最重要的操作,构建出最优的网络。因此本文提出了结构范数正则化器规范 α 的学习,控制结构参数在搜索初期更均衡,在搜索后期更稀疏。
具体来说,结构范数正则化器是从高范数惩罚(例如 L2 范数)随着搜索训练的进行, 均匀的衰减变到 L1 范数。众所周知,高范数正则化能够使得超参数优化的时候分布得均衡平滑,而 L1 范数正则化能够使得参数更稀疏而突出其中一个参数。在搜索初期,利用高范数使权重均衡,然后衰减到后期的 L1 范数使权重稀疏化,它能够同时解决搜索困境中的两个问题。
添加了结构范数正则化器可以有效的解决搜索困境问题,但是冗余选择的问题仍然存在。如图2所示,后两个节点选择的边中,存在冗余边,按照 DARTS 系列在构建 cell 模块的时候,每一个节点默认选择其入边中最优的两条边。本文观察发现对于一条边上所有操作的重要度都很低的情况下,DARTS 系列同样的保留下来作为这个节点的最优边,这实际上增加了模型的复杂度。这也是一种过拟合,其原因在于 DARTS 系列对最优边重要度度量实际上也是用单个操作的重要度来度量,而不是看整体操作的重要度,并且默认选择两条最优边,这是不合理的边选择。因此本文添加了对最优边重要程度的度量向量 Q,每一个节点根据入边的重要度排序来修剪不重要的边,而不再默认选择两条边。这样可以大大降低最终架构的复杂度,降低参数量,增强模型鲁棒性。

本文的算法为可微神经结构搜索提供了一种结构范数正则化器,并且对搜索的模型进行冗余边剪枝。本文将模型命名为 ANP-DARTS,整个模型框架如图3所示。其大致流程如下:首先初始化结构参数 α 和搜索空间以构建超级网络,超级网络用于搜索网络结构,将预处理好的数据集输入到超级网络中。网络权重未收敛时,优化结构参数,在优化的同注入结构范数正则化器控制结构参数的学习;然后训练更新网络权重参数完成后利用冗余边剪枝算法构建 cell 模块。网络权重收敛时,练结束,得到最优的 cell 模块。在搜索的前期,构范数正则化器处于高范数正则化,能够控制结构参数学习得更加平衡,训练到后期,数衰减到 L1 范数,控制结构参数稀疏化能够解决两难的搜索困境。结构参数通过结构范数正则化的优化之后,构建 cell 模块仍然存在冗余边,因此利用冗余边剪枝修剪掉不重要的边,使模型更加轻量化,决模型复杂带来的过拟合问题

本文的创新点如下:
(1) 提出了一种新颖的结构范数正则化算法,控制结构参数在搜索初期公平地学习,在搜索后期达到稀疏化以缩小结构搜索与最终模型之间的优化差距,使得结构参数进行更合理的学习,摆脱了搜索困境。
(2) 提出了一种冗余边剪枝算法,在网络搜索的过程中,不断修剪网络结构中不重要的边,压缩搜索的模型,解决网络结构复杂度高造成的过拟合,构建出性能更好的网络结构。
(3) 大量的实验表明本文提出的方法的有效性,本文在 CIFAR10、CIFAR100、miniImagenet 和 FHSP 等 4 个数据集上对比了众多优秀的算法,取得最优的综合性能。

实验结果

为了提供全面的实验,并验证所提出的方法的有效性,本文在多个数据集上进行实验。在自然图像分类任务上,本文在CIFAR10/CIFAR100和miniImageNet上进行实验,此外为了验证算法的通用性,本文在医学图像分类上进行实验,使用了胎儿心脏标准平面(fetal heart standard plane, FHSP)数据集。请注意,所有实验都是在单张Tesla-V100-SXM2-32GB上进行的。
1. 在 CIFAR10/CIFAR100 上实验
ANP-DARTS 在单个 Tesla-V100-SXM2-32GB GPU 上搜索了 15 个小时,搜索到的 normal cell 和 reduction cell 如图6所示。可以看到与 DARTS 相比,ANP-DARTS 搜索到的跳过连接更少,normal cell 更倾向于选择 3×3 的可分离卷积,相比其他候选操作,可分离卷积的深度更深,有利于提取更细节的特征。而且,利用冗余边剪枝算法,修剪掉 2, 3 节点中不必要的边,降低模型的复杂性并且提升了性能。

本文在 CIFAR10 数据集上进行三次独立的搜索以及评估实验,并且将最好的网络结构用在 CIFAR100 数据集上进行评估,实验与 CIFAR10 的设置相同。可以看到,只添加了结构范数正则化器而没有冗余边剪枝的 ANP-DARTS 在 CIFAR10 上评估得到极具竞争力的测试错误率,达到 2.58%;与 DARTS 相比,测试错误率降低了 0.18%;相比 DARTS-AER下降了 0.02%,证明了结构范数的有效性。增加了冗余边剪枝算法后, ANP-DARTS 的错误率降低到了 2.36%,相比 DARTS 降低了 0.4%,与 EPC-DARTS 相比降低了 0.04%,实验表明了 DARTS 系列的边构建方法的确增加了模型的复杂度,使得训练过拟合。与 DropNAS 相比,ANP-DARTS 的测试错误率不如它,但是鉴于冗余边剪枝的优越性,剪枝后的参数量比 DropNAS 更低。此外,本文将 CIFAR10 上发现的最佳网络结构,放在 CIFAR100 上评估,达到 15.89% 的测试错误率,相比DARTS,ANP-DARTS 的测试错误率降低了 1.87%,并且与其他方法相比同样极具竞争力。评估的结果表明,ANP-DARTS 中的结构参数正则化器和冗余边剪枝,对模型的性能和稳定性提升很大,能够分别解决搜索困境和冗余选择两个问题。

2. 在 miniImageNet 上实验
ANP-DARTS 在 miniImageNet 上搜索了 49 小时得到的 cell 模块如图7所示。可以看到 ANPDARTS 在规模更大的数据集上搜索的结构同样更倾向于选择 3×3 的可分离卷积,有利于提取更细节的特征。结构范数正则化的作用使得搜索到的跳过连接很少。并且经过冗余边剪枝,将节点 3 的不重要的边修剪掉。

本文对比了多个先进的神经结构搜索算法和人工设计的网络,结果如表3所示,所有对比方法的参数量和 FLOPs 经过本文的统一计算以便进行公平的对比,固定输入为 224×224×3 的随机矩阵并利用 thop 工具计算得到。从表3可以看到,ANP-DARTS 在 miniImageNet 上搜索的网络结构进行评估实验达到 82.18% 的测试准确率,相比 CDARTS 提升了 0.73%。为了验证算法的泛化性,本文对 CIFAR10 上搜索到的架构进行评估,达到了最高的测试准确率 (82.42%),优于对比的 DNAS算法。相比在 miniImageNet 上搜索的网络结构,提升了 0.24%,验证了 ANP-DARTS 在 CIFAR10上搜索的结构能够通用于此。可能的原因在于相比 CIFAR10,miniImageNet 数据量和类别数更多,更倾向于搜索出复杂的网络结构,并且得益于结构范数正则化与冗余边剪枝方法,在 CIFAR10上能够搜索出参数量更少的网络结构,在 miniImageNet 上能够表现更好。此外本文对比了更大参数量的人工设计的网络,在相同实验平台和相同训练轮数下,ANP-DARTS 表现优异。实验的结果表明,本文提出的结构范数正则化与冗余边剪枝方法在 miniImageNet 上同样能够搜索出性能优异的网络结构,能够适应更大规模数据集进行网络搜索的需求。

3. 在 FHSP 数据集上实验
ANP-DARTS 在 FHSP 上搜索的 cell 模块如图8所示。可以看到对于医学图像具有复杂特征的特点,ANP-DARTS 倾向于搜索更深的网络,以便于可以提取更细节的特征信息,与 DARTS 搜索的结构相比,ANP-DARTS 搜索到的跳过连接更少,这得益于结构范数正则化器在搜索前期控制结构参数公平的学习。此外利用冗余边剪枝,将 2 节点的其中一条边剔除掉,降低模型的复杂度,对性能的提升同样很有帮助。因此 ANP-DARTS 在面对医学图像这种复杂图像,同样能够稳定的搜索网络。

在 FHSP 上的实验结果如表4所示,本文从 Top1 测试准确率、Macro-F1 分数、Kappa 分数和参数量进行对比,对比了多个人工设计的网络和神经结构算法。与其他算法模型相比,ANP-DARTS 分别在测试准确率、Macro-F1 分数和 Kappa 分数上达到了最高,相比人工设计的网络,平均测试准确率上升了 1%。与 DARTS 相比,ANP-DARTS 的测试准确率提高了 1.64%,并且参数量降低了 0.25M。与其他神经结构搜索算法相比,ANP-DARTS 同样在前三个评价指标上达到最高。ANP-DARTS 将 CIFAR10 上搜索的结构用在 FHSP 上评估,也能达到最佳的性能 (91.05%),表明了 ANP-DARTS 的性能稳定性。此外,ANP-DARTS 得益于冗余边剪枝可以降低模型复杂度避免了过拟合。结果表明,ANP-DARTS 能胜任医学图像的识别任务,能够搜索出高效稳定的神经网络,能够有效地将其他数据集搜索的网络通用在医学图像任务上,为非专业者构建属于自己的模型。

4. 消融实验
结构范数正则化。本文在 CIFAR10 数据集上进行了消融实验。如图9所示,当 β = 0 时,即退化为 DARTS,随着正则化系数 β 逐渐增大,搜索的架构评估的精度逐渐增大,当 β = 0.3 搜索的架构的评估准确率最高,并且 β 过大意味着正则化强度增大,容易搜索出更差的网络结构。由此结构范数正则化选取 0.3 作为超参数系数。此外,正如前文阐述的结构范数正则化是由 2 范数随着搜索时间逐渐衰减,最终衰减到 1 范数,因此本文做了衰减时刻的消融实验。如表5所示,本文固定训练轮数为 50 个 epoch,对比了不同的 µ 对网络搜索的影响。可以看到当 µ = 0.1 时,高范数将在第 10 个 epoch 时衰减为 1 范数,这样的后果是搜索前期没有足够的时间对结构参数进行平滑地学习,在后续的搜索训练中使得结构参数学习得更稀疏,使得跳过连接数量过多 (6 个),导致搜索到的网络结构性能崩溃,不仅不能解决搜索困境问题,反而会加剧。当 µ = 0.025 时,意味着搜索在第 40 个 epoch 时衰减到 1 范数,得到更多的跳过连接 (8 个),前期结构参数得到更公平的训练,但是后期进行稀疏化的时间过短,仍然不能解决搜索困境问题。当 µ = 0.04,意味着在第 25 个 epoch 衰减到 1 范数,这样能拥有足够的时间对结构参数进行平滑地学习和稀疏化。实验也证明了搜索到的网络结构性能更好。

冗余边剪枝。本文同样在 CIFAR10 数据集上进行消融实验,所有实验设置与第 4.3 节相同,对比了是否采用修剪策略。如表6所示,本文进行了三次独立的搜索与评估实验。可以看到,采用了冗余边剪枝策略所搜索的架构能够表现出更优异的性能。对比仅使用结构范数正则化提升了 0.2%,相比 DARTS 提升了 0.36%,能够证明冗余边剪枝的有效性。






中国科学信息科学
《中国科学:信息科学》及其英文版《Science China Information Sciences》的宣传平台。
 最新文章