大模型的聚光灯照向网络——当超节点遇上超节点

文摘   科技   2024-06-22 18:31   美国  

请关注公众号并设为星标,便于收到文章更新提示。

引言 — 大模型像是人工智能爆发时代的一个业务怪兽,迅速吞噬着现代计算机的三个主要要素:计算,内存和网络。这三者都成为了底层的关键路径,推动着技术的快速发展。

这篇文章介绍两个最近刚刚展示的技术分享,他们最大的共同点都是从网络技术出发,对于大模型基础设施进行创新与改变。另外一个巧合的是,介绍文章中都使用了超节点这个名字。

而另一边,和谐发展的X86通用计算,在失去聚光灯关注的情况下,小心翼翼地提高自己能效比,在有限的资金和能源投入情况下,倔强地满足“又要马儿跑又要马儿不吃草”的能效指标,参考前文:

烈日下的绿色森林 —— 英特尔的能效核


今天这篇文章分为两个部分,分别引用了华为和ODCC的超节点介绍。

  • 来自华为开发者大会

  • 来自ODCC网络组项目




I. 来自华为开发者大会


在昨天(6月21日)举办的华为开发者大会(HDC 2024)上,华为云CTO张宇昕介绍了下一代云基础设施——CloudMatrix,正式发布了EMS弹性内存存储服务。

这一服务主要为了解决当前大模型训练与推理领域所面临的“内存墙”挑战,即单个神经处理单元(NPU)的高带宽内存(HBM)容量限制,该问题长期制约着AI算力的高效利用。

张宇昕表示,CloudMatrix改变了传统数据中心的架构和算力供给模式,将传统的以CPU为中心的主从架构,演进为多元算力对等全互联架构;并通过高速互联网络协议,将CPU、NPU、GPU 等算力资源全部互联和池化,从而把AI算力从单体算力演进到矩阵算力,开启智能算力新纪元。


目前华为云是业界唯一采用对等架构超节点技术提供算力服务的厂商。据悉,华为云超节点在算力方面相比业界单节点提升了50倍,大模型的checkpoint恢复时长低于10分钟,万卡集群线性度大于95%,远超业界水平。

华为云EMS的创新之处在于它在NPU卡与持久化存储之间增设了一层弹性内存存储,运用Memory Pooling专利技术,综合显存扩展、算力卸载和以存代算三大策略,有效打破了内存瓶颈。具体来说:

显存扩展:大模型推理中,由于模型太大,通常需要使用大量的NPU卡才能将模型参数装下来进行推理,但是NPU的算力往往利用率不高。EMS将模型参数分层存储在显存和EMS,只用了一半的卡,就可存下万亿参数的大模型,NPU部署数量减少50%。

算力卸载:大模型推理过程中包括模型计算和KV相关计算,其中KV相关计算的显存占用很大。EMS将KV相关计算的步骤卸载到EMS,而模型计算仍在NPU中进行,将AI推理性能提升了100%。

以存代算:大模型推理中为了节省显存,历史对话的KV Cache都不会保存,后续推理都只能重新计算,导致新推理的首Token时延超过1秒。现在可以将历史KV Cache保存在EMS里,供后续推理直接调用。优化后推理首Token时延降低到0.2秒以内,优化了80%。


II. 来自ODCC网络组项目


中国信通院与腾讯携手GPU、CPU、交换机芯片制造商、服务器供应商、网络设备厂商及互联网企业等多方力量,在ODCC共同发起超大带宽ETH-X(以太网)超节点计划

根据Scaling Law(规模定理),增大模型规模与增加训练数据量是直接提升AI大模型智能水平与性能的关键途径。但对集群算力需求的将呈指数级增长。

长序列是AI大模型发展的另一个重要方向,但是会加大对训练和推理算力资源的需求,尤其是对显存资源的需求。


目前只依靠单芯片算力,和scale out集群算力来提升算力资源遇到了限制:

单芯片性能提升受到内存墙问题约束,HBM容量带宽增长赶不上算力增长速度的限制。

另一种通过Scale out扩展集群规模提升整体算力的方式也受到GBS(Global Batch Size)不能无限增长的限制,导致集群规模增大到一定程度后,HFU明显下降。

最后,模型参数量增大需要更大的模型并行规模,模型并行中Tensor并行或MOE类型的Expert并行都会在GPU之间产生大量的通信,当前典型一机八卡服务器限制了Tensor并行的规模或Expert并行通过机间网络。


HBD(High Bandwidth Domain)是一组以超带宽(HB)互联GPU-GPU的系统。


通过构建更大的HBD系统,以scale up方式提升系统算力是解决上述问题的有效途径之一。

我之前分享过一篇META和MIT的文章,讨论HBD的大小:

用于训练拥有数十亿参数的大型语言模型的优化网络架构

另外就是英伟达NVL72的暴力美学。

暴力美学的优雅化——NVidia的Rack Scale

HBD超节点典型代表与业务收益举例


Nvidia将HB互联不仅用于GPU-GPU之间,而是将其应用到GPU-CPU/Memory的超大带宽互联,例如GH200、GB200产品。通过此方式为GPU提供一个超带宽访问CPU/Memory的能力。


相反若使用异步的memory offload方式将降低对时延的约束,并发利用多节点CPU/Memory,发挥HB互联的带宽优势。另外,当前memory offload已具备一定软件生态上的基础,例如Zero offload。


综上所述,超节点是一个以超大带宽(HB)互联16卡以上GPU-GPU以及GPU-CPU/Memory的scale up系统,以HBD超节点为单位,通过传统scale out扩展方式可形成更大规模、更高效的算力集群。超节点Scale Up的核心需求是超大带宽(HB),但规模不需要很大。Scale Out的核心需求是超大规模。因此Scale Up网络与Scale Out网络更适合是相互独立共存的两张网络。


以太网技术凭借开放的生态、多样的产业链环境,为技术的长期演进发展提供支撑。当前以太网技术上从端口带宽及交换容量方面已具有较强的竞争基础。如以太网单端口800G MAC标准已成熟并产业化,以太网单芯片51.2T交换容量 ETH-switch也已在2023年产品化商用。


ETH-X超节点参考架构与预期收益评估

ETH-X技术规范构成与项目计划


参考文献:

1. 科技讯文章链接: 

https://www.kejixun.com/article/662740.html#

form.com/2024/06/03/intel-brings-a-big-fork-to-a-server-cpu-knife-fight/

2. ODCC文章链接:

https://www.odcc.org.cn/news/p-1793939807426928641.html

3. 渣总文章:

谈谈华为开发者大会和下一代云基础设施CloudMatrix




为感谢支持,已点赞/分享/赞赏10篇/次以上的朋友,请加微信,进入微信群。我将发放免费加入知识星球的链接。

IT奶爸-知识星球



高阅读量文章





IT奶爸
实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。
 最新文章