Hot Chips 2024 | 大语言模型时代的可持续AI计算解决方案

文摘   科技   2024-10-24 08:00   江苏  

引言

在人工智能领域快速发展的今天,对高效且强大的计算解决方案的需求前所未有地高涨。本文FuriosaAI开发的RNGD张量收缩处理器,这是突破性技术,旨在应对大语言模型(LLMs)和生成式AI时代的可持续AI计算挑战。

图1:显示FuriosaAI成立、RNGD开发里程碑和首次LLM演示的时间线。


RNGD处理器代表了AI加速技术的重大进步。FuriosaAI的使命是"使AI计算可持续,让地球上的每个人都能接触到强大的AI"。为实现这一目标,他们创造了一款在保持能源效率的同时还能提供出色性能的芯片。


让我们深入了解RNGD处理器的主要特性:

图2:RNGD处理器的详细规格,包括FLOPS、内存容量和功耗。


RNGD拥有512 TFLOPS的计算能力,这是通过8个处理元件实现的,每个元件能够达到64 TFLOPS(FP8)。处理器配备了48 GB的内存,其中包括256 MB的SRAM,并提供令人印象深刻的384 TB/s片上带宽。借助两个HBM3模块,内存带宽达到1.5 TB/s。


RNGD的突出特点是能够在150瓦功率范围内处理高性能LLM工作负载。这使得其适用于空气冷却的数据中心,有效解决了AI计算中日益增长的能源消耗问题。

图3:RNGD芯片架构的详细视图,包括SoC和HBM3组件。


RNGD采用台积电5nm工艺技术,芯片面积为653 mm²,晶体管数量达400亿。芯片设计使用了CoWoS-S(Chip-on-Wafer-on-Substrate with Silicon interposer)封装技术,这种技术允许将SoC与两个HBM3内存堆栈集成在一起。


早期性能数据显示了令人鼓舞的结果:

图4:比较RNGD与NVIDIA L40S、Intel Gaudi 2和Google TPU v5e性能的表格。


根据这些初步基准测试,在运行GPT-J 6B MLPerf基准测试场景时,RNGD的每瓦性能比NVIDIA L40S高出60%。


RNGD效率的关键在于其创新的张量收缩方法,这是深度学习模型中的核心计算。大多数商用深度学习加速器使用固定大小的矩阵乘法作为原语,而RNGD提高了硬件-软件接口的层次,将整个张量收缩作为原语来加速。

图5:图解说明张量收缩是深度学习中的核心计算。


这种方法实现了更高的性能和能源效率,同时提供了支持所有深度学习模型的灵活性。RNGD引入了低级einsum记法作为原语,将张量收缩与显式内存布局和调度相结合。

图6:说明RNGD如何将整个张量收缩作为单个原语操作处理。


RNGD的架构能够高效地进行计算的空间和时间编排,提高了利用率和效率。这对推理任务尤为重要,因为推理任务的批处理大小可能会有很大变化。

图7:RNGD处理器的详细架构图,显示互连网络和处理元件。


为了支持大型模型的多卡配置,RNGD实现了基于PCIe的芯片间通信。这允许通过直接点对点通信减少卡之间的延迟。

图8:展示多个RNGD卡与主机CPU之间基于PCIe的通信图。


RNGD还支持SR-IOV(Single Root I/O Virtualization)多实例支持和虚拟化,允许虚拟机使用多达8个虚拟功能。


在软件方面,FuriosaAI开发了全面的LLM软件栈,以充分发挥RNGD硬件的潜力:

图9:Furiosa LLM软件栈的图表,从PyTorch模型到RNGD硬件。


这个软件栈包括PyTorch 2.0集成、支持各种精度格式(FP8、INT8等)的量化工具包、多卡上的张量/流水线/数据并行性、先进的DNN编译器,以及最先进的服务优化。


Furiosa编译器在实现端到端模型效率方面发挥着关键作用:

图10:显示RNGD上优化张量操作的编译过程流程图。


编译器为给定的降维张量形状找到最佳策略,使用性能和功率估算器来探索策略空间。此外,还执行图级优化,如算子融合和内存分配拆分合并调度。


为了最大化服务性能,FuriosaAI开发了实现先进优化的服务框架:

图11:Furiosa服务框架图,展示其组件和优化。


该框架包括PagedAttention和分块KV缓存管理,利用Furiosa编译器和运行时进行高吞吐量服务,支持连续批处理。


为了高效量化,FuriosaAI提供了一个端到端的自动化量化工具:

图12:Furiosa量化器概览,这是自动化的基于图的量化工具。


这个工具使用图模式搜索支持任意定制的LLM模型,并提供各种量化方案,包括BF16、INT8、FP8和INT4选项。


RNGD的开发采用了先进的方法和工具:

图13:展示RNGD创建过程中使用的先进开发方法的信息图。


这些包括使用Rust和Chisel等高效语言,基于Kubernetes和Tekton CI的可扩展工具和基础设施,以及复杂的测试用例生成和验证流程。


RNGD张量收缩处理器代表了AI加速器技术的进步。通过专注于可持续计算并利用创新的硬件和软件优化,FuriosaAI创造了强大的解决方案,适用于大语言模型和生成式AI时代。随着对高效AI计算需求的持续增长,像RNGD这样的技术将在使先进AI能够应用于更广泛的场景并服务于更多用户方面发挥关键作用。


参考文献

[1] J. Paik, "RNGD – Tensor Contraction Processor for Sustainable AI Computing," FuriosaAI Inc., 2024.



- END -



软件申请
我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。

点击左下角"阅读原文"马上申请


欢迎转载


转载请注明出处,请勿修改内容和删除作者信息!




关注我们



                      




关于我们:

深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。


http://www.latitudeda.com/

(点击上方名片关注我们,发现更多精彩内容)




逍遥设计自动化
分享特色工艺半导体(PIC/Power/MEMS)设计自动化解决方案及行业技术资讯,与广大业界朋友、专家共同交流!
 最新文章