大模型的聚光灯照向网络——当超节点遇上超节点

文摘科技 2024-06-22 18:31 美国

请关注公众号并设为星标，便于收到文章更新提示。

引言 — 大模型像是人工智能爆发时代的一个业务怪兽，迅速吞噬着现代计算机的三个主要要素：计算，内存和网络。这三者都成为了底层的关键路径，推动着技术的快速发展。

这篇文章介绍两个最近刚刚展示的技术分享，他们最大的共同点都是从网络技术出发，对于大模型基础设施进行创新与改变。另外一个巧合的是，介绍文章中都使用了超节点这个名字。

而另一边，和谐发展的X86通用计算，在失去聚光灯关注的情况下，小心翼翼地提高自己能效比，在有限的资金和能源投入情况下，倔强地满足“又要马儿跑又要马儿不吃草”的能效指标，参考前文：

烈日下的绿色森林 —— 英特尔的能效核

今天这篇文章分为两个部分，分别引用了华为和ODCC的超节点介绍。

来自华为开发者大会
来自ODCC网络组项目

I. 来自华为开发者大会

在昨天（6月21日）举办的华为开发者大会(HDC 2024)上，华为云CTO张宇昕介绍了下一代云基础设施——CloudMatrix，正式发布了EMS弹性内存存储服务。

这一服务主要为了解决当前大模型训练与推理领域所面临的“内存墙”挑战,即单个神经处理单元(NPU)的高带宽内存(HBM)容量限制,该问题长期制约着AI算力的高效利用。

张宇昕表示，CloudMatrix改变了传统数据中心的架构和算力供给模式，将传统的以CPU为中心的主从架构，演进为多元算力对等全互联架构；并通过高速互联网络协议，将CPU、NPU、GPU 等算力资源全部互联和池化，从而把AI算力从单体算力演进到矩阵算力，开启智能算力新纪元。

目前华为云是业界唯一采用对等架构超节点技术提供算力服务的厂商。据悉，华为云超节点在算力方面相比业界单节点提升了50倍，大模型的checkpoint恢复时长低于10分钟，万卡集群线性度大于95%，远超业界水平。

华为云EMS的创新之处在于它在NPU卡与持久化存储之间增设了一层弹性内存存储,运用Memory Pooling专利技术,综合显存扩展、算力卸载和以存代算三大策略,有效打破了内存瓶颈。具体来说:

显存扩展:大模型推理中,由于模型太大,通常需要使用大量的NPU卡才能将模型参数装下来进行推理,但是NPU的算力往往利用率不高。EMS将模型参数分层存储在显存和EMS,只用了一半的卡,就可存下万亿参数的大模型,NPU部署数量减少50%。

算力卸载:大模型推理过程中包括模型计算和KV相关计算,其中KV相关计算的显存占用很大。EMS将KV相关计算的步骤卸载到EMS,而模型计算仍在NPU中进行,将AI推理性能提升了100%。

以存代算:大模型推理中为了节省显存,历史对话的KV Cache都不会保存,后续推理都只能重新计算,导致新推理的首Token时延超过1秒。现在可以将历史KV Cache保存在EMS里,供后续推理直接调用。优化后推理首Token时延降低到0.2秒以内,优化了80%。

II. 来自ODCC网络组项目

中国信通院与腾讯携手GPU、CPU、交换机芯片制造商、服务器供应商、网络设备厂商及互联网企业等多方力量，在ODCC共同发起超大带宽ETH-X（以太网）超节点计划。

根据Scaling Law（规模定理），增大模型规模与增加训练数据量是直接提升AI大模型智能水平与性能的关键途径。但对集群算力需求的将呈指数级增长。

长序列是AI大模型发展的另一个重要方向，但是会加大对训练和推理算力资源的需求，尤其是对显存资源的需求。

目前只依靠单芯片算力，和scale out集群算力来提升算力资源遇到了限制：

单芯片性能提升受到内存墙问题约束，HBM容量带宽增长赶不上算力增长速度的限制。

另一种通过Scale out扩展集群规模提升整体算力的方式也受到GBS(Global Batch Size)不能无限增长的限制，导致集群规模增大到一定程度后，HFU明显下降。

最后，模型参数量增大需要更大的模型并行规模，模型并行中Tensor并行或MOE类型的Expert并行都会在GPU之间产生大量的通信，当前典型一机八卡服务器限制了Tensor并行的规模或Expert并行通过机间网络。

HBD（High Bandwidth Domain）是一组以超带宽（HB）互联GPU-GPU的系统。

通过构建更大的HBD系统，以scale up方式提升系统算力是解决上述问题的有效途径之一。

我之前分享过一篇META和MIT的文章，讨论HBD的大小：

用于训练拥有数十亿参数的大型语言模型的优化网络架构

另外就是英伟达NVL72的暴力美学。

暴力美学的优雅化——NVidia的Rack Scale

HBD超节点典型代表与业务收益举例

Nvidia将HB互联不仅用于GPU-GPU之间，而是将其应用到GPU-CPU/Memory的超大带宽互联，例如GH200、GB200产品。通过此方式为GPU提供一个超带宽访问CPU/Memory的能力。

相反若使用异步的memory offload方式将降低对时延的约束，并发利用多节点CPU/Memory，发挥HB互联的带宽优势。另外，当前memory offload已具备一定软件生态上的基础，例如Zero offload。

综上所述，超节点是一个以超大带宽（HB）互联16卡以上GPU-GPU以及GPU-CPU/Memory的scale up系统，以HBD超节点为单位，通过传统scale out扩展方式可形成更大规模、更高效的算力集群。超节点Scale Up的核心需求是超大带宽（HB），但规模不需要很大。Scale Out的核心需求是超大规模。因此Scale Up网络与Scale Out网络更适合是相互独立共存的两张网络。

以太网技术凭借开放的生态、多样的产业链环境，为技术的长期演进发展提供支撑。当前以太网技术上从端口带宽及交换容量方面已具有较强的竞争基础。如以太网单端口800G MAC标准已成熟并产业化，以太网单芯片51.2T交换容量 ETH-switch也已在2023年产品化商用。

ETH-X超节点参考架构与预期收益评估

ETH-X技术规范构成与项目计划

参考文献：

1. 科技讯文章链接：

https://www.kejixun.com/article/662740.html#

form.com/2024/06/03/intel-brings-a-big-fork-to-a-server-cpu-knife-fight/

2. ODCC文章链接：

https://www.odcc.org.cn/news/p-1793939807426928641.html

3. 渣总文章：

谈谈华为开发者大会和下一代云基础设施CloudMatrix

为感谢支持，已点赞/分享/赞赏10篇/次以上的朋友，请加微信，进入微信群。我将发放免费加入知识星球的链接。

IT奶爸-知识星球

高阅读量文章

IT奶爸

实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。

最新文章

聊一聊DDR（12）-DRAM的CS Training Mode(CSTM)

从Mooncake分离式大模型推理架构谈谈RDMA at Scale

聊一聊DDR（11）-DDR频率

液冷，网络，与整机柜 -- Intel IPDC 2024见闻

他山之石，集思广益 | IT奶爸文章奖励计划

英伟达，过热了么？

一文读懂 SFP家族

喜迎双11之月亮湖 -- 热辣薯条(Hot Chips 2024)

谷歌、康宁大超预期

Cerebras处理器架构细节

光计算互连（OCI）

AI 网络背景下 RDMA 的 Why， What & How 以及 Next

“E人”外卖小哥的“I人化”：Gaudi的RoCE优化实现

ETH-X项目及交换/计算节点结构散热设计介绍

近文小结与感谢 - 寄小读者

NVL机架的“中杯，大杯和特大杯”

热辣薯条(Hot Chips 2024)- 英特尔的至强D

RDMA与外卖小哥

英伟达在OCP，对于MGX机架的介绍

Load/Store over ETH乎？

先从一个基础的性能指标说起——CPU频率

CPU架构 -- Power

热辣薯条(Hot Chips 2024) - OpenAI的Scaling

热辣薯条(Hot Chips 2024) - 特斯拉的TTPoE

热辣薯条(Hot Chips 2024) - 博通的CPO

热辣薯条(Hot Chips 2024) - 英特尔的Gaudi

热辣薯条(Hot Chips 2024) - 英伟达的Blackwell

40+AI芯片/Chiplet/RISC-V企业已确认演讲！生成式AI时代最火AI芯片峰会9月举办

向左走，向右走 — 聊聊50亿美元的ZT收购

CPU架构 - CPU的各级缓存

NVL的硬件架构分析-（1）

Aurora Exascale Architecture（PPT）2024

暴力美学背后的细腻布局

Llama 3技术报告解读(1)- AI基础设施和并行策略

LLM推理需要什么样的硬件平台？（2）

LLM推理需要什么样的硬件平台？（1）

音乐，小说，与计算题 - 4： NVL72要出X86版本？！

再来谈谈大模型的分离式推理架构

Transformer架构详解文章与视频

H20跨入百万片俱乐部？

大模型的聚光灯照向以太网: ETH-X的scale up网络

大模型的聚光灯照向网络——当超节点遇上超节点

再谈谈三万亿的破绽

烈日下的绿色森林 —— 英特尔的能效核

暴力美学的show time —— 皮衣教主的Computex 2024 keynote

AI/ML中使用的集体操作（collectives），以太网卸载以及硬件实现

音乐，视频，与计算题 - 3

生成式AI的GPU网络 - 2

音乐，视频，与计算题 - 2

生成式AI的GPU网络

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉