Hot Chips 2024 | Meta新一代训练和推理加速器

文摘   科技   2024-10-06 08:00   四川  

引言

随着深度学习推荐模型(DLRMs)和大型语言模型(LLMs)在规模和复杂性上的快速增长,Meta公司开发了新一代Meta训练和推理加速器(MTIA),这是一种尖端解决方案,旨在提高各种AI模型和服务的性能、效率和开发人员生产力。


图1:展示了推理模型复杂度(GFLOPS/样本)和模型大小随时间增长的趋势。


开发新一代MTIA的动机源于几个关键因素。首先,DLRM和GenAI模型在规模和计算需求上的爆炸性增长,创造了对更强大、更高效硬件的需求。其次,将GPU部署于这些工作负载中暴露出了有效性能、资源密集度和容量限制等方面的挑战。为应对这些挑战,Meta着手开发一种加速器,能够显著提高总体拥有成本(TCO)的性能比和每瓦性能比,同时高效处理Meta多项服务中的各种模型。


新一代MTIA的主要特性

1. PyTorch Eager模式支持:加速器在作业启动和替换时间方面表现出色,新硬件作业启动时间不到1微秒,完成作业替换时间不到0.5微秒。这一特性提高了系统的整体响应性和吞吐量。


2. 整数动态量化:基于硬件的张量量化提供了与FP32(32位浮点)相当的精度,同时减少了内存和计算需求。这种技术实现了超过99.95%的精度,与基准FP32结果相比。


3. Gen-O-Gen性能:MTIA显著提高了GEMM(通用矩阵乘法)运算,在BF16精度下达到177 TFLOPS - 提升了3.5倍。还支持稀疏矩阵运算,TFLOPS提高了2倍,并实现了ANS(非对称数值系统)权重解压缩,提供50%的压缩率和20%更好的内存到计算张量传输性能。


4. 表批嵌入(TBE)优化:下载和预取嵌入索引的硬件优化使运行时间比上一代快2-3倍。


图2:展示了新一代MTIA的整体架构,包括处理元素、内存子系统和接口。


新一代MTIA基于台积电5nm技术构建,运行频率为1.35 GHz。芯片包含23.5亿个门和1.03亿个触发器,尺寸为25.6 x 16.4 mm(421 mm²)。封装尺寸为50mm x 40mm,TDP为90瓦。加速器在GEMM性能方面表现出色:INT8为354 TOPS,FP16为177 TOPS,在稀疏模式下性能翻倍。配备128GB LPDDR5内存,提供204.8 GB/s的带宽。


架构由几个关键组件组成:

  1. 控制子系统和主机接口

  2. 通过自定义网格网络连接的8x8处理元素网格

  3. 分布在四侧的256MB片上SRAM,提供2.7 TB/s带宽

  4. 四侧的16通道LPDDR5内存,支持高达128GB容量,带宽为204.8 GB/s


主机接口使用Gen5 x8 PCIe,提供32 GB/s的带宽。包括4MB PCIe描述符SRAM,用于快速描述符获取。控制核心子系统配备四核标量RISC-V处理器,8MB L2缓存和4MB上下文SRAM,用于高效的工作负载分配。


图3:说明了处理元素的组成部分,包括双RISC-V核心和各种功能单元。


处理元素(PE)是MTIA的核心。每个PE包含双RISC-V核心 - 一个标量核心和一个带向量扩展的核心。命令处理器(CP)协调PE内功能块的执行。固定功能单元加速各种操作,包括矩阵乘法、非线性函数、数据移动、动态量化、权重解压缩和急切模式处理。


每个PE内的点积引擎(DPE)提供2.77 TF/s(FP16)的性能,在稀疏模式下增加到5.54 TF/s。为匹配这一计算能力,MLU、RE和SE单元的数据路径已被拓宽。每个PE还包括384KB本地内存,以支持更大、更复杂的工作负载。


新一代MTIA的一个突出特点是整数动态量化能力。这种基于硬件的解决方案实时调整量化参数,在运行时收集每批次的最小/最大值,并支持按行量化。结果是全连接算子的通道级对称动态量化,与FP32基准结果相比,实现了超过99.95%的精度。


为提高特定工作负载的性能,MTIA包含几项优化:

  1. Eager模式增强:多播写入组允许控制核心向选定PE广播Eager模式工作队列描述符,将PE作业启动时间减少了80%以上。

  2. 硬件解压缩:专用解压缩引擎缓解了PCIe和网络拥塞,支持RFC1952(GUNZIP/GZIP)标准,包括静态和动态Huffman编码块。四个解压缩核心提供高达25 GB/s的解压缩率。

  3. PE权重解压缩:使用非对称数值系统(ANS)算法,MTIA实现了接近50%的压缩率,改善了片上内存占用,减少了PE到NoC的读取带宽。

  4. 表批嵌入(TBE):此功能将来自单独嵌入批处理操作的表合并为单个表,与上一代相比,运行时间提高了2-3倍。


图4:显示了加速器模块的物理布局,包括内存和PCIe接口规格。


新一代MTIA部署在PCIe CEM FHFL形态因子中,每个模块包含两个MTIA。每个模块支持高达256GB的LPDDR5内存,提供总计409.6 GB/s的内存带宽。板卡TDP为220W,使用64 GB/s Gen5 PCIe接口(2个Gen5 x8)。


在系统拓扑方面,单个机架包含72个MTIA ASIC,分布在三个机箱中,每个机箱容纳12个模块。这种配置自2024年上半年起已在数据中心部署,为Meta的AI工作负载提供了强大的计算能力。


新一代MTIA的性能显示出持续改进,特别是对于高复杂度模型。虽然低复杂度模型立即受益于大型片上SRAM,但高复杂度模型需要更多优化才能有效地在SRAM中分块数据并实现更高的有效FLOPS。在4-6个月的时间内,团队为这些具有挑战性的工作负载实现了超过2倍的性能提升。


新一代MTIA代表了AI加速器技术的进展。通过应对DLRM和GenAI模型日益增长的需求,Meta创造了多功能且强大的解决方案推动下一代AI应用和服务。随着模型复杂性的不断增加,像MTIA这样的创新将在维持AI生态系统的性能、效率和可扩展性方面发挥关键作用。


参考文献

[1] M. Maddury, P. Kansal and O. Wu, "Next Gen MTIA - Recommendation Inference Accelerator," Meta, 2024.



- END -



软件申请
我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。

点击左下角"阅读原文"马上申请


欢迎转载


转载请注明出处,请勿修改内容和删除作者信息!




关注我们



                      




关于我们:

深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。


http://www.latitudeda.com/

(点击上方名片关注我们,发现更多精彩内容)




逍遥设计自动化
分享特色工艺半导体(PIC/Power/MEMS)设计自动化解决方案及行业技术资讯,与广大业界朋友、专家共同交流!
 最新文章