引言:考虑模型在不同设备上的部署问题,神经架构搜索算法(Neural Architecture Search,NAS)通常采用多目标优化方法,旨在同时优化模型大小和模型准确率等多个指标,为不同计算资源和应用场景提供多样化的模型选择。在基于超级网络的多目标神经架构搜索算法中,由于存在小模型陷阱问题,现有方法可能无法保留较大模型。此外,多任务神经架构搜索算法在同时处理多个任务方面表现出色,但大多数现有的研究都集中在来自同一数据集的多个任务上,限制它们在现实场景中的实用性,因为多个任务可能来自不同的数据集。
为解决上述挑战,最近华东理工大学联合西湖大学可信及通用人工智能实验室、英国萨里大学,在计算机视觉领域顶级会议ECCV2024上提出一个多目标进化多任务框架(Multi-Objective Evolutionary Multi-Tasking Neural Architecture Search,MO-EMT-NAS),以实现来自不同数据集的任务之间的架构知识迁移,同时搜索多个目标(模型精度和计算效率)的帕累托最优架构。为缓解小模型陷阱问题,我们先提出一个辅助目标,帮助保留多个具有相似精度的较大模型。此外,通过并行化多个任务的基于权值共享的超级网络训练和评估过程,进一步提高计算效率。在七个具有二、三和四个任务组合的数据集上的实验结果表明,MO-EMT-NAS可以实现更好的最小分类错误率,还能够在模型性能和复杂性之间提供灵活的权衡。与相应的多目标单任务方法相比,MO-EMT-NAS的运行时间缩短59.7%至77.7%。让我们一起来读读吧!
一、研究背景
1)我们提出一个MO-EMT-NAS框架来有效地搜索来自不同数据集任务们的帕累托最优架构,利用跨任务的可迁移的架构知识来持续促进架构搜索。
2)MO-EMT-NAS采用多目标优化方法,同时考虑分类错误率、模型大小,以及一个旨在减轻搜索过程中对小型模型架构偏好的辅助目标。通过多目标优化策略,MO-EMT-NAS不仅能够平衡模型性能和模型大小,还能在模型大小方面保持多样性。
3)通过允许并行基于特定任务的权重共享超级网络的训练和评估过程,MO-EMT-NAS的计算效率得到提高。
4)我们对MO-EMT-NAS在七个数据集上的性能进行基准测试,分别包含两、三和四个任务。这些数据集包括CIFAR-10、CIFAR-100、ImageNet和四个医疗数据集(PathMNIST、OrganMNIST_{Axial, Coronal, Sagittal})。从结果中,我们发现MO-EMT-NAS可以在模型性能和大小之间进行权衡。与多目标单任务方法相比,通过在不同任务之间隐式的架构知识迁移,MO-EMT-NAS可以在更短的运行时间内搜索到性能更好的一组神经架构。
二、本文方法
2.1 MO-EMT-NAS
MO-EMT-NAS的总体框架如图1所示,包括两个主要部分:搜索算法和基于权重共享的超级网络的训练与验证。通过多进程能够并行每个任务基于超级网络的训练和评估的过程,显著提高计算效率。
架构搜索算法如图1左边所示。首先,初始种群中的个体被等量随机分配到不同的任务。抽取亲代个体并在对应任务的数据集上进行训练,然后评估它们的目标。然后,按如下方式执行主循环。个体从亲代种群中被选择(被称为配偶选择),通过在相同任务中的探索和在不同任务之间传递知识来产生子代种群。从子代和亲代种群中抽样,并在其对应任务的数据集上进行训练,然后评估它们的目标,即模型错误率、大小和辅助目标。对亲代和子代的合并种群进行非支配排序与拥挤距离排序,选择下一代亲代种群。在主循环重复几代后,每个任务得到一组帕累托最优解。
由于NAS编码的离散性,本文采用基于块(Block)的交叉和基于位(Bit)的突变[1]。基于块的交叉以块为基本单位,允许选定的两个个体以预定义的交叉概率交换块。基于位的突变采用位作为基本单位,按突变概率在候选范围内随机改变所选个体的位的编码。在MO-EMT-NAS框架下,子代种群的生成实现任务间的隐性知识传递:1)对于分配到同一任务的亲本,通过交叉产生后代,突变算子可进一步探索对应的任务。当亲本来自不同的任务时,子代的产生是由一个称为随机交配概率的参数RMP控制的。2)架构知识迁移以RMP的概率触发,其中子代通过交叉和突变从亲代产生,并作为其亲代之一的任务。3)否则,不会发生知识迁移,即亲本独立发生突变并产生相应的后代,子代继承亲本的任务。
在MO-EMT-NAS中,环境选择必须考虑多个任务中多个相互冲突的目标。因此,应该通过给个体分配不同的任务属性,将种群划分为子种群。所以,每个任务可单独执行其环境选择。随后,考虑验证错误率、模型参数数量和辅助目标,进行多目标环境选择,来增加模型架构的多样性,提供一组有潜力的模型架构。
2.2 辅助第三个目标
考虑一个有 个目标的最小化问题,个体 支配个体 ,即 优于 ,如果:
如果 不支配 , 也不支配 ,则 和 互为非支配关系,说明 和 相似。同样, 被 支配意味着 比 差。NSGA-II[4]中非支配解的选择概述如下,如图1所示:1)对亲代和子代的合并种群进行非支配排序,得到每个个体的非支配等级。2)根据个体的非支配等级,选择预定义数量的个体存活到下一代。3)如果最后可接受的个体数量超过预定义的种群大小,则以每个个体的拥挤距离(表明其对解决多样性的贡献)作为选择标准。将优先考虑拥挤距离较大的解决方案,以确保种群的多样性。
多目标NAS方法可提供的关键见解是,为现实世界的应用提供多个重要目标之间权衡。不幸的是,正如前面所讨论的那样,搜索到一组不同且有潜力的架构(最小化验证错误率和模型大小)是非常重要的。图2显示NSGA-II在不同代获得的种群。在图2(a)中,随着进化的进行,通过最小化模型错误率和大小得到的种群迅速向较小模型收敛。这可以归因于这样一个事实,即当使用基于权重共享的超级网络时,较小模型在初始阶段可以获得更好的验证错误率,从而导致在最终时丢失所有较大模型。为缓解该问题,一个实用的方法是在执行非支配排序时包含一个辅助的额外目标,以提高候选架构的多样性。图2(b)描述将乘法累加操作(Multiply-Accumulate Operations, MACs)作为第三个辅助目标的结果。不幸的是,较小型模型仍然支配着较大型模型,这仅仅是因为MACs提供与模型大小相似的选择压力。另外,CARS,一种最先进的NAS方法,引入第三个目标,称为精度速度,通过模型参数数量的倒数来测量。CARS在每一代执行两次非支配排序,一次考虑验证精度和模型参数的数量,另一次考虑精度和精度速度。因此,CARS可以保留较小和较大模型,但不能保留中型模型,如图2(c)所示。
为解决上述问题,本工作提出一个辅助目标 ,通过整合模型错误率和大小,并利用指数分布来保留种群中的较大模型。
其中,模型参数的数量 和验证错误率 在当前代的总体上归一化为[0,1]。较大模型的保留是通过生成关于 的不同指数分布来实现的。根据公式,与错误率相似的较小模型相比,较大的模型产生的 值较小,相应的 也较小。图 1 给出辅助目标 的计算示例: 三个架构实现相同的错误率0.7,即 。因此, 时 的 小于 时 的 。同时,由于 总是倾向于错误率较小的模型, 引导搜索最小化验证错误率。所以, 不仅可以在错误率和参数数量之间取得平衡,还可以通过优先选择较大模型来减轻搜索偏差。因此,通过使用 作为辅助目标,可以增强模型架构的多样性,从而使模型大小在总体中的分布更加均匀,如图2(d)所示。
2.3 并行训练与评估
基于权值共享的超级网络的训练和评估过程如图1的右边所示。多任务框架允许每个任务基于超级网络的训练和评估的过程并行进行。具体来说,迭代次数除以个体的数量,以获得每个个体的迭代训练次数。这个过程只利用一轮(Epoch)的训练数据。在此之后,每个任务的个体被解码为模型架构,然后进行训练。最后,得到每个任务中每个个体的验证错误率和模型参数数量。
三、实验结果
3.1 设置
我们采用多目标单任务NAS(MO-ST-NAS)作为基线,仅从MO-EMT-NAS中删除多任务设置,以说明在不同数据集上跨相关任务传递架构知识的优势。同样,将MO-EMT-NAS与具有代表性的单目标进化MT-NAS(EMT-NAS)进行比较,以证明有辅助目标的MO的效率。
我们选择七个数据集,分别进行二、三、四个任务组合的实验进行性能评估。1)在经典数据集CIFAR-10和CIFAR-100上设计一个两任务实验。此外,获得的架构在ImageNet上重新训练,来验证架构的可迁移性。2)在MedMNIST[5]上,模拟直肠癌病理和肝脏肿瘤三维CT图像在不同平面上的二维图像等多种医学成像场景,设计多任务设置,即两任务、三任务和四任务设置,以验证我们方法的泛化能力。我们的基线和提出的方法都进行五次独立运行,超参数列在表1中。
按照[2]的做法,为更好地可视化和比较从MO算法中得到的最优架构们,根据模型大小将最终总体分为四组,如图1所示,从每组中选择错误率最小的架构(记为A、B、C、D)。
3.2 性能指标
我们采用超体积(Hypervolume, HV)[6]从收敛性和多样性方面来评估不同方法搜索到的架构集合。HV的计算以一组非支配解 为主导,以参考点 为界的目标空间的体积,
式中, 为通常的勒贝格测量法(Lebesgue measure), 是以 和 为界的超矩形。HV值越大,性能越好。在图3(b)中,收敛且分布良好的绿点集合的HV值越高,与黑点集合相比,性能更好好。对于每个任务,在每次独立运行所有比较算法后,每个目标在所有解中的最大值形成参考点 。因此, 在含不同算法的不同表中是不同的。
3.3 在CIFAR-10和CIFAR-100上的两任务
MO-EMT-NAS找到的模型们在比较中优于其他方法找到的模型。这表明MO-EMT-NAS压倒性地优于所有比较方法。如图4所示,MO-EMT-NAS搜索到一组多样且优越的架构(红线位于左下方)。有趣的是,与单目标MT-NAS方法相比,MO-EMT-NAS方法更具竞争力,这表明同时优化多个冲突目标可以增强对较大模型的保留,而不会过度牺牲验证错误率。此外,MO-EMT-NAS和MO-ST-NAS的比较表明,任务间的架构知识迁移有助于架构的搜索。表2中MO-ST-NAS和MO-EMA-NAS在CIFAR-10和CIFAR-100上运行五次的HV值平均值进一步证明我们的方法具有更好的收敛性和多样性。需要强调的是,在这些算法中,MO-EMT-NAS的计算效率最高,CIFAR-10和CIFAR-100只需要0.38GPU天。
3.4 架构迁移至ImageNet
将MO-ST-NAS算法和MO-EMT-NAS算法在CIFAR-10和CIFAR-100上得到的16个神经架构(如图4所示)迁移到ImageNet进行重训练。从图5可以看出,MO-EMT-NAS在Top-1精度方面优于其他算法,同时提供一系列参数个数在1.57M到3.25M之间的权衡模型。从MO-EMT-NAS迁移的模型架构总是比MO-ST-NAS具有更好的性能。模型精度最高的Our-C100-D,精度为75.47%,参数个数为3.25M。请注意,在ImageNet(具有大型数据集的单任务)上的实验旨在评估每种方法的架构可迁移性,而不是其解决多个任务的能力。
3.4 医疗多目标多任务
四个医疗数据集被缩写为P,A,C,S。
多目标NAS:从图6(a)-6(k)可知,MO使得MO-EMT-NAS在模型精度和模型大小这两个方面产生一组有潜力的模型。这进一步证实将MO方法与辅助目标结合的优势。重要的是,MO-EMT-NAS发现一组具有低错误率的神经架构,这些架构在单目标NAS、单任务NAS和EMT-NAS发现的模型中占支配地位。
进化多任NAS:在表3中,通过HV对每个任务获得的帕累托最优架构集合进行评估。与MO-ST-NAS相比,MO-EMT-NAS在各种任务组合上的HV值更高,即在收敛性和多样性方面表现更好。这是通过多任务优化利用任务间的知识迁移来实现的。在所有设置中,MO-EMT-NAS始终具有更好的准确性,同时速度明显快于MO-ST-NAS。
MO-EMT-NA的可扩展性:通过将任务数量分别设置为二、三和四个来测试MO-EMT-NAS的可扩展性。如图6(a)-6(k)所示,与单目标NAS方法相比,MO-EMT-NAS始终表现出卓越的性能,证实MO-EMT-NAS的可扩展性。具体来说,与EMT-NAS和单任务NAS相比,MO-EMT-NAS发现的架构始终占据支配关系(具有更好的性能)或非支配关系(具有类似的性能)。
不同相似度的多任务:用ResNet-50作为特征提取器,进行表征相似度分析,获得四个医疗数据集之间的任务相关性评分(Relatedness Scores,RS)。从图6(l)可知RS结果在0.09到0.50之间变化。值得注意的是,可观察到较低的分数在P和A、C、S之间,而更高的分数在A、C、S之间。从图6(a)-6(c)可知,随着RS的减小,搜索到的模型架构的错误率有所增加。例如,对于图6(a)中RS=0.25的两个任务,MO-EMT-NAS在数据集P上找到一组错误率在6.8%到8.0%之间的帕累托最优模型,但是,在图6(c)中RS=0.09的两个任务PS中,在数据集P上得到错误率在7.3%到9.6%的模型。一个可能的原因是任务之间缺乏相似性给架构知识迁移带来挑战,因为可获得的可迁移信息较少。
MO-EMT-NAS的可扩展性:通过将任务数量分别设置为二、三和四个来测试MO-EMT-NAS的可扩展性。如图6(a)-6(k)所示,与单目标NAS方法相比,MO-EMT-NAS始终表现出卓越的性能,证实MO-EMT-NAS有潜力的可扩展性。具体来说,与EMT-NAS和单任务NAS相比,MO-EMT-NAS发现的架构始终占支配关系(具有更好的性能)或非支配关系(具有类似的性能)。
搜索效率:记录实验过程中的运行时间,并记录各算法与MO-ST-NAS相比节省的时间百分比,如表3所示。
MO-EMT-NAS通过并行搜索任务节省的时间表示为“GPU Days I (%)”。可观察到,与多目标单任务基线相比,提出的MO-EMT-NAS将同时处理两、三和四个任务的运行时间缩短59.7%到77.7%,同时在模型错误率和模型大小之间达到更好的平衡。此外,MO-EMT-NAS节省的时间随着共同解决的任务数量的增加而增加。主要原因是MO-EMT-NAS中多个任务的并行训练和评估的过程显著提高计算效率,并将整体运行时间限制在最慢任务的运行时间。因此,对于两任务设置,节省的时间不超过50%。此外,MO-EMT-NAS同时处理多个任务,而MO-ST-NAS逐个解决任务,计算成本更高。
为进一步验证MO-EMT-NAS的效率,在非并行化多任务训练和评估的情况下,MO-EMT-NAS减少的时间用“GPU Days II (%)”表示。更具体地说,训练和评估所节省的时间和搜索所节省的时间分别用“Time I(%)”和“Time II(%)”来表示。“GPU Days II (%)”的结果显示,与MO-ST-NAS相比,MO-EMT-NAS节省高达53.5%的时间,表明多任务框架的效率。有趣的是,通过比较“GPU Days I (%)”和“GPU Days II (%)”,我们可以确认不同任务的时间成本存在异质性。根据“Time I(%)”,MO-EMT-NAS减少高达60.9%的训练和评估时间成本。同样,使用进化算法的搜索时间随着任务数量的增加而显著减少。原因是进化算法对每个任务需要几乎相同的时间,因此如果逐个处理任务,则搜索时间将增加一倍。
3.5 消融实验
为验证辅助目标的有效性,在CIFAR-10和CIFAR-100构成的两任务上运行有和无辅助目标 的MO-EMT-NAS算法。有辅助目标的MO-EMT-NAS的HV值(CIFAR10为0.571,CIFAR-100为0.532)优于无 的MO-EMT-NAS的HV值(CIFAR-100为0.443,CIFAR-100为0.356),这令人信服展示使用 的优势。表4中的HV值表明,在提出的辅助目标的帮助下,MO-EMT-NAS产生一组兼顾多样化的非支配架构。
四、总结
在本文中,我们提出一个基于权重共享的超级网络的多目标多任务NAS框架,可有效地为每个任务搜索到一组具有不同模型大小的有潜力的架构。多任务框架使得从不同任务中获得的架构知识可以隐式迁移,从而有效地促进来自不同数据集的多个任务。为缓解小模型陷阱问题,我们提出一个辅助目标,当它们达到相似的精度时,大模型会被优先选择,从而保留一组具有各种模型大小的有潜力的模型架构。大量的实验表明,MO-EMT-NAS获得的架构在较低的计算成本下表现出更优越的性能,同时能够保持模型大小的高度多样性。该工作实现了对多目标的权衡,但实际场景中存在更多目标数量、更复杂的目标之间关系等问题还需要更进一步考虑,未来将尝试考虑在更复杂应用场景下对多目标多任务NAS问题进行进一步研究。
参考文献
[1] Liao P, Jin Y, Du W. EMT-NAS: Transferring Architectural Knowledge Between Tasks from Different Datasets[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 3643-3653.
[2] Yang Z, Wang Y, Chen X, et al. CARS: Continuous Evolution for Efficient Neural Architecture Search[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 1829-1838.
[3] Gupta A, Ong Y S, Feng L, et al. Multiobjective Multifactorial Optimization in Evolutionary Multitasking[J]. IEEE transactions on cybernetics, 2016, 47(7): 1652-1665.
[4] Deb K, Pratap A, Agarwal S, et al. A Fast and Elitist Multiobjective Genetic Algorithm: NSGA-II[J]. IEEE transactions on evolutionary computation, 2002, 6(2): 182-197.
[5] Yang J, Shi R, Ni B. Medmnist Classification Decathlon: A lightweight Automl Benchmark for Medical Image Analysis[C]//2021 IEEE 18th International Symposium on Biomedical Imaging (ISBI). IEEE, 2021: 191-195.
[6] Zitzler E, Thiele L. Multiobjective Evolutionary Algorithms: A Comparative Case Study and the Strength Pareto Approach[J]. IEEE transactions on Evolutionary Computation, 1999, 3(4): 257-271.
初稿:廖鹏 王曦璐
初审:颜学明
终审:金耀初