近日,台湾大学电子工程研究所的研究团队发表了一项创新研究,宣布成功研发出一种超低功耗的语音转文字加速器芯片。这种基于28纳米工艺的芯片能够以极低能耗实现高效语音识别,适用于智能穿戴设备、虚拟助手以及智能机器人等边缘AI应用场景。该研究以“28-nm 1.3-mW Speech-to-Text Accelerator for Edge AI Devices”为题,发表在《IEEE Journal of Solid-State Circuits》上。
技术亮点与创新设计
该加速器芯片的研发瞄准当前语音识别设备在边缘计算环境中的三大难题:高能耗、长延迟以及对云计算的过度依赖。团队通过创新的算法和硬件设计,实现了多个技术突破:
高效混合算法:采用基于双向轻量级门控循环单元(LiGRU)的双向循环神经网络(BRNN),在保持语音识别高精度的同时,大幅减少了网络参数量和计算复杂度。相比传统方法,网络大小和计算复杂度分别减少了29.8倍和73.2倍,仅带来1%的精度损失。
先进的网络压缩技术:提出了包括比例因子剪枝(SFP)、多比特聚类(MBC)和线性量化(LQ)在内的多项压缩技术,将网络大小从38.15 MB压缩至1.28 MB,同时保持高识别精度。这些方法使计算资源的占用大幅降低,有效缩短了推理时间。
优化的硬件架构:加速器核心由特定设计的处理单元(PE)数组组成,通过优化数量(4个PE单元)以实现100%硬件利用率。基于改进的Viterbi解码算法,消除了传统反向追踪的存储需求,内存使用减少了21%。
节能与低延迟:芯片以1.25 MHz的时钟频率运行时功耗仅为1.3 mW,每帧语音的能耗仅为12.7毫焦。与当前先进设计相比,该加速器的能耗降低了6.5至177倍,延迟减少了37.5至50倍。
应用与实验验证
在实验中,该加速器使用TIMIT语料库对其性能进行测试,最终实现了15.2%的音素错误率(PER)。与目前的其他语音识别加速器相比,该设计在能效和精度上实现了全面超越,为低功耗、实时语音转文字在边缘设备的应用提供了全新解决方案。
研究团队表示,这一技术突破不仅推动了语音识别硬件的发展,还为未来智能设备的能效优化提供了全新思路。特别是在隐私保护需求日益提升的背景下,这款芯片无需依赖云服务即可完成本地语音处理,为实现更智能、更节能的边缘AI应用提供了新思路。
论文链接:
https://doi.org/10.1109/JSSC.2024.3389965
欢迎学术工作来稿,无偿宣传