大模型芯片与系统专题 | 软硬协同优化:高能效存内计算的混合专家神经网络架构探索

文摘   科技   2024-09-26 12:01   北京  

研究意义

在边缘计算的快速发展中,存内计算(CIM)技术以其卓越的能效比和计算并行性,成为推动智能设备发展的关键力量。然而,面对边缘场景对在运算精度、模型密度和能耗效率的不同需求,如何实现在不同应用场景的神经网络架构的客制化,仍然是当前亟待解决的问题。与此同时,混合专家模型作为大模型算法的新兴研究方向,其在边缘端部署仍待优化。本研究旨在提出一种软硬件协同搜索方案,以解决CIM系统上的混合专家(MoE)神经网络架构部署问题。

本文工作

在本研究中,我们提出了一种软硬件协同优化的神经架构搜索(NAS)框架—CMN。该框架以实现高效计算存储为目标,通过软件层面的MoE模型设计与硬件层面的CIM系统配置的紧密协同,在软件层面针对MoE结构的专家位置、数量和维度进行优化搜索,在硬件层面针对存算阵列大小、外围电路设计等进行优化搜索,两者构成嵌套搜索以适应各边缘场景下的不同需求。

软件层面,我们采用了遗传(EA)算法对MoE模型进行全局搜索,同时硬件层面利用粒子群优化(PSO)算法对CIM硬件设计进行动态调整。通过这种软硬件协同优化的方法,系统能够在每一步搜索过程中根据硬件模拟器的反馈,实时调整硬件和软件配置,确保在硬件限制下找到性能最优的网络结构。这种协同设计在边缘计算场景中尤为重要,因为它能够同时满足不同场景对能耗、延迟和性能的复杂需求,在适应不同场景的同时,最大化提高系统的整体效率。

本文的创新之处在于:

软硬件协同优化的神经架构搜索框架:CMN框架结合了软硬件协同设计,通过嵌套优化方法,外部使用进化算法优化MoE模型结构,内部利用粒子群优化算法(PSO)动态调整硬件架构设计,从而在不同的边缘应用场景下实现最佳性能和能效平衡。

面向边缘计算的存内计算架构优化:CMN框架针对边缘计算设备的资源限制,提出了基于存内计算(CIM)架构的MoE模型优化策略,显著提升了模型的能效和运行速度,为高效部署MoE模型在边缘设备上提供了创新性的解决方案。

广泛适用的多场景优化能力:CMN在不同的边缘应用场景下展示了卓越的适应性,能够在延迟敏感、能效受限以及精度优先的场景中分别实现显著的性能提升,这使得该框架具有广泛的应用潜力。


实验结果

在多个典型的边缘应用场景中,我们对CMN框架的性能进行了系统性的验证。实验结果表明,CMN框架在能效、延迟以及模型精度等方面均表现出了卓越的优势。

在对响应时间要求严苛的场景,如自动驾驶中,CMN框架通过优化MoE模型结构和硬件配置,实现了高达175.44倍的加速效果,相比传统密集模型,极大地缩短了系统延迟,满足了边缘设备对低延迟的苛刻要求。

在能耗受限的场景,如智能手表中,CMN展示了显著的能效提升。通过在CIM架构上对模型结构进行优化,CMN框架成功将能耗降低了29.67倍,显著延长了设备的电池续航时间,证明了其在低功耗边缘计算中的优越性。

此外,在对精度要求极高的场景,如医疗诊断中,CMN框架通过协同优化实现了模型精度和能效的平衡。相较于基线模型,CMN在保证精度仅损失1.09%的情况下,将模型参数量减少了12.24倍,显著减小了芯片面积和制造成本。这一结果表明,CMN能够在不牺牲性能的前提下,显著提升硬件资源利用效率。

综合来看,CMN框架在不同的边缘计算场景中均展示了优异的适应性和性能表现,展示出良好的应用前景与重大的实际意义。

本文工作由香港大学李熠博士后等、南方科技大学王中锐教授团队以及中国科学院微电子研究所尚大山研究员团队合作完成。以 “CMN: a co-designed neural architecture search for efficient computing-in-memory-based mixture-of-experts”为题发表在 Science China Information Sciences 2024年第10期大模型芯片与系统专题 “Special Topic: AI Chips and Systems for Large Language Models” 上,欢迎关注!


相关阅读

大语言模型中softmax和层归一化模块的高效硬件架构设计

面向动态形状模型的深度学习编译系统

基于芯粒的系统设计综述:系统架构与互联

后摩尔时代新器件重大研究计划专题简介

集成电路未来发展与关键问题观点专题合辑

硅基二维半导体材料与器件重大项目专题




中国科学信息科学
《中国科学:信息科学》及其英文版《Science China Information Sciences》的宣传平台。
 最新文章