本文的创新之处在于:
软硬件协同优化的神经架构搜索框架:CMN框架结合了软硬件协同设计,通过嵌套优化方法,外部使用进化算法优化MoE模型结构,内部利用粒子群优化算法(PSO)动态调整硬件架构设计,从而在不同的边缘应用场景下实现最佳性能和能效平衡。
面向边缘计算的存内计算架构优化:CMN框架针对边缘计算设备的资源限制,提出了基于存内计算(CIM)架构的MoE模型优化策略,显著提升了模型的能效和运行速度,为高效部署MoE模型在边缘设备上提供了创新性的解决方案。
广泛适用的多场景优化能力:CMN在不同的边缘应用场景下展示了卓越的适应性,能够在延迟敏感、能效受限以及精度优先的场景中分别实现显著的性能提升,这使得该框架具有广泛的应用潜力。
在对响应时间要求严苛的场景,如自动驾驶中,CMN框架通过优化MoE模型结构和硬件配置,实现了高达175.44倍的加速效果,相比传统密集模型,极大地缩短了系统延迟,满足了边缘设备对低延迟的苛刻要求。
在能耗受限的场景,如智能手表中,CMN展示了显著的能效提升。通过在CIM架构上对模型结构进行优化,CMN框架成功将能耗降低了29.67倍,显著延长了设备的电池续航时间,证明了其在低功耗边缘计算中的优越性。
此外,在对精度要求极高的场景,如医疗诊断中,CMN框架通过协同优化实现了模型精度和能效的平衡。相较于基线模型,CMN在保证精度仅损失1.09%的情况下,将模型参数量减少了12.24倍,显著减小了芯片面积和制造成本。这一结果表明,CMN能够在不牺牲性能的前提下,显著提升硬件资源利用效率。
综合来看,CMN框架在不同的边缘计算场景中均展示了优异的适应性和性能表现,展示出良好的应用前景与重大的实际意义。
本文工作由香港大学李熠博士后等、南方科技大学王中锐教授团队以及中国科学院微电子研究所尚大山研究员团队合作完成。以 “CMN: a co-designed neural architecture search for efficient computing-in-memory-based mixture-of-experts”为题发表在 Science China Information Sciences 2024年第10期大模型芯片与系统专题 “Special Topic: AI Chips and Systems for Large Language Models” 上,欢迎关注!
相关阅读