已有学者提出了一种在 FPGA 上的密集脉动阵列加速器以及一种分区方案,以实现transformer的低延迟推理。此外,利用基于块循环矩阵的权重表示来对transformer的加速运算。然而,很多先前由于transformer在高并行任务计算特性使得其无论是在计算资源需求还是运行功耗都很高,很难满足transformer高效推理的需求。
本文介绍一篇经典的论文,通过充分利用稀疏模式,在 FPGA 上提出了一种高效的稀疏transformer加速器,即 STA。它减少了transformer的操作次数和内存大小,减轻了计算和存储的负担。因此,STA 在保持高预测精度的同时实现了高效的transformer推理。
基于图 1 所示,DMME 以高计算效率支持多样矩阵计算。可扩展 softmax 模块在变换器的 MHA 子层中执行 softmax 操作。向量单元负责计算密度低的操作,包括偏差加法、残差加法和 ReLU 激活。重排网络在每次 MatMul 计算过程之后以及数据连接之前使用,在将临时结果写回中间片内内存之前对其重新排序。至于片内存储,可分为三部分,包括权重内存、输入内存和中间内存。权重和输入内存分别从片外 DRAM 存储变换器的参数和输入数据。结果也写回输入内存,并传递到 DRAM。一个 ResBlock 中的所有临时结果都将存储在中间内存中,与外部内存无通信。
表 III 展示了在不同平台上无批处理的公平性能比较。
欢迎扫下面二维码加入智能交通技术群!