Hot Chips 2024 | Meta新一代训练和推理加速器

文摘科技 2024-10-06 08:00 四川

引言

随着深度学习推荐模型（DLRMs）和大型语言模型（LLMs）在规模和复杂性上的快速增长，Meta公司开发了新一代Meta训练和推理加速器（MTIA），这是一种尖端解决方案，旨在提高各种AI模型和服务的性能、效率和开发人员生产力。

图1：展示了推理模型复杂度（GFLOPS/样本）和模型大小随时间增长的趋势。

开发新一代MTIA的动机源于几个关键因素。首先，DLRM和GenAI模型在规模和计算需求上的爆炸性增长，创造了对更强大、更高效硬件的需求。其次，将GPU部署于这些工作负载中暴露出了有效性能、资源密集度和容量限制等方面的挑战。为应对这些挑战，Meta着手开发一种加速器，能够显著提高总体拥有成本（TCO）的性能比和每瓦性能比，同时高效处理Meta多项服务中的各种模型。

新一代MTIA的主要特性

1. PyTorch Eager模式支持：加速器在作业启动和替换时间方面表现出色，新硬件作业启动时间不到1微秒，完成作业替换时间不到0.5微秒。这一特性提高了系统的整体响应性和吞吐量。

2. 整数动态量化：基于硬件的张量量化提供了与FP32（32位浮点）相当的精度，同时减少了内存和计算需求。这种技术实现了超过99.95%的精度，与基准FP32结果相比。

3. Gen-O-Gen性能：MTIA显著提高了GEMM（通用矩阵乘法）运算，在BF16精度下达到177 TFLOPS - 提升了3.5倍。还支持稀疏矩阵运算，TFLOPS提高了2倍，并实现了ANS（非对称数值系统）权重解压缩，提供50%的压缩率和20%更好的内存到计算张量传输性能。

4. 表批嵌入（TBE）优化：下载和预取嵌入索引的硬件优化使运行时间比上一代快2-3倍。

图2：展示了新一代MTIA的整体架构，包括处理元素、内存子系统和接口。

新一代MTIA基于台积电5nm技术构建，运行频率为1.35 GHz。芯片包含23.5亿个门和1.03亿个触发器，尺寸为25.6 x 16.4 mm（421 mm²）。封装尺寸为50mm x 40mm，TDP为90瓦。加速器在GEMM性能方面表现出色：INT8为354 TOPS，FP16为177 TOPS，在稀疏模式下性能翻倍。配备128GB LPDDR5内存，提供204.8 GB/s的带宽。

架构由几个关键组件组成：

控制子系统和主机接口
通过自定义网格网络连接的8x8处理元素网格
分布在四侧的256MB片上SRAM，提供2.7 TB/s带宽
四侧的16通道LPDDR5内存，支持高达128GB容量，带宽为204.8 GB/s

主机接口使用Gen5 x8 PCIe，提供32 GB/s的带宽。包括4MB PCIe描述符SRAM，用于快速描述符获取。控制核心子系统配备四核标量RISC-V处理器，8MB L2缓存和4MB上下文SRAM，用于高效的工作负载分配。

图3：说明了处理元素的组成部分，包括双RISC-V核心和各种功能单元。

处理元素（PE）是MTIA的核心。每个PE包含双RISC-V核心 - 一个标量核心和一个带向量扩展的核心。命令处理器（CP）协调PE内功能块的执行。固定功能单元加速各种操作，包括矩阵乘法、非线性函数、数据移动、动态量化、权重解压缩和急切模式处理。

每个PE内的点积引擎（DPE）提供2.77 TF/s（FP16）的性能，在稀疏模式下增加到5.54 TF/s。为匹配这一计算能力，MLU、RE和SE单元的数据路径已被拓宽。每个PE还包括384KB本地内存，以支持更大、更复杂的工作负载。

新一代MTIA的一个突出特点是整数动态量化能力。这种基于硬件的解决方案实时调整量化参数，在运行时收集每批次的最小/最大值，并支持按行量化。结果是全连接算子的通道级对称动态量化，与FP32基准结果相比，实现了超过99.95%的精度。

为提高特定工作负载的性能，MTIA包含几项优化：

Eager模式增强：多播写入组允许控制核心向选定PE广播Eager模式工作队列描述符，将PE作业启动时间减少了80%以上。
硬件解压缩：专用解压缩引擎缓解了PCIe和网络拥塞，支持RFC1952（GUNZIP/GZIP）标准，包括静态和动态Huffman编码块。四个解压缩核心提供高达25 GB/s的解压缩率。
PE权重解压缩：使用非对称数值系统（ANS）算法，MTIA实现了接近50%的压缩率，改善了片上内存占用，减少了PE到NoC的读取带宽。
表批嵌入（TBE）：此功能将来自单独嵌入批处理操作的表合并为单个表，与上一代相比，运行时间提高了2-3倍。

图4：显示了加速器模块的物理布局，包括内存和PCIe接口规格。

新一代MTIA部署在PCIe CEM FHFL形态因子中，每个模块包含两个MTIA。每个模块支持高达256GB的LPDDR5内存，提供总计409.6 GB/s的内存带宽。板卡TDP为220W，使用64 GB/s Gen5 PCIe接口（2个Gen5 x8）。

在系统拓扑方面，单个机架包含72个MTIA ASIC，分布在三个机箱中，每个机箱容纳12个模块。这种配置自2024年上半年起已在数据中心部署，为Meta的AI工作负载提供了强大的计算能力。

新一代MTIA的性能显示出持续改进，特别是对于高复杂度模型。虽然低复杂度模型立即受益于大型片上SRAM，但高复杂度模型需要更多优化才能有效地在SRAM中分块数据并实现更高的有效FLOPS。在4-6个月的时间内，团队为这些具有挑战性的工作负载实现了超过2倍的性能提升。

新一代MTIA代表了AI加速器技术的进展。通过应对DLRM和GenAI模型日益增长的需求，Meta创造了多功能且强大的解决方案推动下一代AI应用和服务。随着模型复杂性的不断增加，像MTIA这样的创新将在维持AI生态系统的性能、效率和可扩展性方面发挥关键作用。

参考文献

[1] M. Maddury, P. Kansal and O. Wu, "Next Gen MTIA - Recommendation Inference Accelerator," Meta, 2024.

- END -

软件申请

我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用，PIC Studio都可提升您的工作效能。

点击左下角"阅读原文"马上申请

欢迎转载

转载请注明出处，请勿修改内容和删除作者信息！

关注我们

关于我们：

深圳逍遥科技有限公司（Latitude Design Automation Inc.）是一家专注于半导体芯片设计自动化（EDA）的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件，提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio，分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务，广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作，推动特色工艺半导体产业链发展，致力于为客户提供前沿技术与服务。

http://www.latitudeda.com/

（点击上方名片关注我们，发现更多精彩内容）

逍遥设计自动化

分享特色工艺半导体（PIC/Power/MEMS）设计自动化解决方案及行业技术资讯，与广大业界朋友、专家共同交流！

最新文章

光电子集成芯片的光纤熔接封装技术介绍

MEMS导向梁式压电能量收集器的设计与分析

激光雷达数据处理及分析

氮化镓技术在电力电子领域的发展与市场动态

压电致动高速空间光调制器在可见光至近红外波段的应用

Scientific Reports | 深度学习在纳米光电子结构设计和优化中的应用

基于硅基光电子技术的零串扰亚波长光栅折射率传感器

系统级封装(SiP)技术

Chiplet技术革新與挑战

类脑计算：从材料到系统

光子智能变量优化工具(PIVOT）教程

Nature Communications | Floquet拓扑耗散Kerr孤子与非公度频率梳

现代半导体先进封装技术

Hot Interconnects 2024 | 人工智能系统互连技术的未来：挑战与解决方案

双偏振IMDD系统推进数据中心连接技术

激光雷达遥感技术的最新进展与未来展望

OCP2024 | 新一代人工智能服务器设计

重磅发布 | 逍遥科技推出PIVOT：基于pSim Plus的光子智能变量优化工具

IDTechEx | 光电子集成芯片和硅基光电子的演进

电子系统从2D到4D集成技术的发展

氮化镓技术：从制造到器件加工

光纤供电与射频光纤传输：新一代网络中的复合传输系统

GaN从衬底到器件技术的进展

NVIDIA自动驾驶汽车安全开发技术综述

人工智能时代传输网络的未来规划

Applied Sciences | 集成光电子技术的核心概念与未来展望

上海交大-平湖智能光电研究院携手逍遥科技助力光电子集成芯片产业发展

Optics Express | 使用角锥型横向转移反射器进行三孔径阵列主动相位锁定

无电感低功耗低电压交叉耦合调节式共源跨阻放大器设计

激光雷达数据获取系统

人工智能如何重塑数据中心基础设施

仿真技术推动光/微电子产业高质量发展——逍遥科技第六届仿真技术报道

激光雷达遥感技术原理与应用

通过制造感知反向设计来优化光电子集成芯片

Acacia | 未来光传输网络为人工智能时代做好准备

激光雷达遥感技术简介

Nature Photonics | 通过可控合成时间光子晶格的量子态处理

氮化镓技术：材料与生长工艺

Hot Chips 2024 | 人工智能普及之旅：现代计算中的挑战与解决方案

讯石专访逍遥科技：探索MEMS Studio创新方案，协同并进共创未来

硅基单片波长选择开关：利用阵列波导光栅和布拉格光栅滤波器

Chiplet架构的发展与设计

理解紧密耦合异构系统中的内存操作：Grace Hopper超级芯片指南

Optics Letters | 光学差分波前传感：利用深度学习提高灵敏度和动态范围

GaN技术在电力电子中的应用概述

基于强化学习的模拟线路设计优化

Meta | 人工智能集群光连接的挑战与机遇

Optics Express | 硅基光电子平台上高速外调制宽可调谐激光器

Lightmatter | 光子技术与人工超级智能的道路

基于波导介电网络的偏微分方程求解

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉