近年来,随着大规模预训练Transformer模型的迅速发展,人工神经网络(Artificial neural network, ANN)在自然语言处理领域取得了显著的进展。然而,这些模型的成功往往依赖巨大的计算资源和能源消耗,因此,开发低能耗、高效率的计算模型成为了研究者们关注的重点。脉冲神经网络(Spiking neural network, SNN)作为一种脑启发的类脑计算模型,因其稀疏性和事件驱动的特性,展现出了显著的节能潜力。具体而言,SNN通过模仿生物神经元的膜电压累积和脉冲发放行为,利用离散的脉冲序列进行信息传递和处理,这种机制相比传统ANN的密集浮点运算,能够在处理同样任务时减少能量消耗。但是,由于Transformer架构中存在与SNN不兼容的计算组件,以及脉冲传播的离散性和不可微分性,训练SNN语言模型面临着诸多挑战。在此背景下,本文提出了一种适用于自然语言理解的脉冲Transformer模型——SpikingMiniLM。如图1所示,该模型通过一系列创新性的方法,包括多步脉冲编码、改进的注意力机制和残差连接、稳定脉冲发放速率的参数初始化,以及ANN到SNN的知识蒸馏技术,克服了训练SNN语言模型的挑战,展示了SNN在自然语言理解任务上的可行性。实验结果表明,该模型不仅在GLUE(General Language Understanding Evaluation)基准测试中取得了与ANN相近的性能,而且还展示出了显著的低能耗优势。1.设计了一种纯脉冲的Transformer架构,避免了与脉冲神经网络(SNN)不兼容的浮点矩阵乘法和层归一化等操作;2.提出了一种新颖的多步脉冲编码方法,有效增强了脉冲序列在时间维度的信息承载能力,减少了文本嵌入转换为脉冲序列时的信息损失;3.基于稳定脉冲发放速率原理,提出了一种通用的SNN参数初始化方法,帮助模型在训练过程中更快收敛。4.针对自然语言理解任务,采用包含注意力蒸馏的ANN到SNN的知识蒸馏方法,有效避免了从头训练SNN所面临的挑战。实验结果表明,本文所提出的SpikingMiniLM在GLUE基准测试中取得了75.5的平均分数,相比于教师模型MiniLMv2保留了98%的性能,同时领先于更大规模的SNN模型如SpikeBERT、SpikingBERT。同时较小规模的SpikingMiniLM模型也达到了与BERT MINI接近的性能。表1 SpikingMiniLM与其他方法的性能对比此外,在能效计算方面,本文首次在SNN中引入了内存操作的功耗估计,以更科学地评估SNN模型的能耗。结果显示,SpikingMiniLM有效降低了自然语言理解任务所需的整体能源开销,特别是在计算功耗上具有显著的优势。文章以 “SpikingMiniLM: energy-efficient spiking transformer for natural language understandingSpikingMiniLM: energy-efficient spiking transformer for natural language understanding”为题发表在 Science China Information Sciences 2024年第10期大模型芯片与系统专题 “Special Topic: AI Chips and Systems for Large Language Models” 上,欢迎关注!相关阅读
清华大学李翔宇、尹首一等 | 基于芯粒的系统设计综述:系统架构与互联
大模型芯片与系统专题 | 软硬协同优化:高能效存内计算的混合专家神经网络架构探索
大模型芯片与系统专题 | 大语言模型中softmax和层归一化模块的高效硬件架构设计
大模型芯片与系统专题 | 面向动态形状模型的深度学习编译系统
后摩尔时代新器件重大研究计划专题简介
第347期双清论坛成果 — 集成电路未来发展与关键问题观点专题合辑