IBM: 异构神经网络处理器!!!基于相变存储器!!!

科技   2025-01-03 09:19   四川  

导读。

近日,IBM苏黎世研究院和STMicroelectronics等多家研究机构的联合团队发表了一项创新研究,宣布他们成功研发出一种基于相变存储器(PCM)的异构嵌入式神经处理单元(NPU)。这种新型NPU结合了模拟与数字计算节点的优势,可以显著提升边缘人工智能(AI)设备的计算效率和灵活性。该研究以“Heterogeneous Embedded Neural Processing Units Utilizing PCM-based Analog In-Memory Computing”为题,发表在2024年《IEDM》上。

打破能耗与计算瓶颈的新型架构

这项研究中的NPU通过整合数字和模拟加速器节点,优化了深度学习推理的计算需求。其核心技术是基于相变存储器的模拟内存计算(Analog In-Memory Computing, AIMC)模块,这一模块能在存储器阵列内直接完成矩阵-向量乘法操作,大幅减少数据传输的能耗。与此同时,数字处理单元(DPU)与RISC-V处理器群支持多种运算精度和复杂模型的运行需求,使得这一架构能够灵活适配不同的计算任务。

相变存储器技术的突破

该研究采用了Ge-GST基材的相变存储器(PCM),这种技术通过精准的电流控制实现了高密度的模拟权重存储。相较于传统存储技术,PCM不仅具有较高的能量效率,还能在更先进的工艺节点上实现优异的可扩展性。此外,团队通过优化设备结构,显著降低了存储器的漂移和读噪声,为长期推理精度提供了保障。


图1. Ge-GST与SOI平台集成示意图

先进架构带来的性能提升

这种NPU架构包含20个节点,占地面积仅约30平方毫米,运行频率为500MHz,平均功耗低于1瓦。在性能上,这种架构在MobileBERT等变压器模型的推理任务中表现出色,其吞吐量与高端移动设备中的尖端SoC(如Google Pixel 6的EdgeTPU)相媲美,并显著超越了现有的低功耗边缘加速器。

研究还表明,该架构可以通过配置更大的计算资源,如增加数字加速器节点的数量,进一步提升性能。此外,所有模型权重均存储在AIMC模块中,这一特性在推理过程中无需外部存储加载权重,进一步降低了能耗。


图2. 芯片架构示意图

应用与未来展望

这种新型NPU不仅适用于卷积神经网络(CNNs)和循环神经网络(LSTMs),还能够高效处理变压器模型(Transformers),特别是在自然语言处理(NLP)任务中的应用。例如,在SQuAD v1.1数据集上的问答任务中,该架构的MobileBERT模型经过优化后可实现超过90%的F1分数,仅比浮点基线模型略低。

研究团队指出,这种异构NPU为边缘AI开辟了全新可能性。在未来,这一技术有望应用于智能手机、可穿戴设备、物联网传感器等领域,通过提供高性能、低能耗的计算能力,加速人工智能在边缘设备中的普及。


欢迎学术工作来稿,无偿宣传


微光知远
光电领域推广学术科普分享交流平台
 最新文章