引言 — 2024年11月26日,为期三天的英特尔新质生产力技术生态(Intel Connection)大会暨第17届互联网数据中心(IPDC)大会在成都国际会展中心举行。
本人代表各位关注的粉丝前往,仅就关心的领域见闻向大家汇报一下,即:串串,熊猫,武侯祠。。。是一个都没时间去看
搞错了,重来,
本文主要分为三个部分:
1. 液冷
2. 网络
3. 整机柜
I. 液冷
液冷应用越来越广泛,国产公司参与程度也越来越高,从连接器,到液体,冷板,再到解决方案,国产公司深度参与了产品化和标准的验证与制定。冷板液冷技术已经逐渐普及,下面介绍两个浸没式液冷。
英特尔发布的G-Flow浸没式液冷技术,过对现有服务器和机柜进行简易更改,即可为提供出色的散热能力,增强系统稳定性和易操作性。已通过验证性测试(POC)。
英特尔专利技术G-Flow单相浸没液冷
绿色云图和立讯科技在设计阶段的合作创新,基于英特尔G-Flow技术的浸没式液冷解决方案,在系统和机柜中优化流道和散热器设计,巧妙地利用液体高位差产生重力作用,实现高性能散热。
基于英特尔G-Flow技术的浸没式液冷解决方案
II. 网络
大模型的发展和ChatGPT的引爆,使得硬件,基础设施跟随scaling law一起在更大的规模上互联,就像会场对面这个亚洲最大的单体建筑。
在会议期间也很高兴和同行业的小伙伴对于目前的现状和将来的趋势进行讨论。
关于scale up和scale out网络的讨论和发展是时下大家所关心的热门话题。
IPDC的分论坛中介绍了Gaudi3由于自身集成RoCE网口而带来的好处,包括开放,灵活和合作。
重点介绍了Gaudi3集成NIC相对于标准的RoCE网络进行的优化实现和具体特性,对于LLM和深度学习应用可以更好的适配。
以下是具体介绍,包括对于RoCE的优化的实现方法。
硬件卸载:实现高效集合通信
在实践中,集合通信操作通常会被拆分为GPU之间多网络接口之间的发送-接收操作。
例如:Gaudi3 HLS-3 参考服务器配备了 8 个 Gaudi 加速器,每个加速器分配唯一的 Rank ID,通过多个端口连接。这种拆分操作会消耗 CPU 资源,影响端口利用率和传输带宽。
为解决这一问题,Gaudi 3 将集合操作卸载到硬件上,使其在可以利用较小的缓冲区,即可实现全带宽通信。
此外,在芯片设计时,Gaudi 3 集成了网卡(NIC)与调度器,应用系统、操作系统与网卡间无需大量交互,极大减少了调度过程中的开销。
MPI 集合操作的硬件优化
传统的 MPI 集合操作基于显式的发送和接收流程,通常无法直接映射到基于RDMA读写操作的架构中。
Gaudi 加速器通过硬件解决了交会流(rendezvous flow)问题。无需依赖软件层面的握手和重传,而是借助硬件机制确保数据在正确的时间传输。这种优化简化了用户操作,开发者只需通过简单的集合操作 API 即可高效使用。
In-Network Reduction:优化分布式归约计算
Gaudi 3 的网络路径支持 In-Network Reduction 功能,通过在数据传输路径上直接完成归约(all reduce)操作,显著提升了性能。这种功能能够降低计算需求,并优化通信与计算阶段的重叠,支持以下常见运算类型:
Sum(求和)/Min(求最小值)/Max(求最大值)
优势:
提升效率:将归约操作与数据传输结合,减少等待时间。
改善计算与通信重叠:在数据传输过程中完成归约操作,提高整体系统效率。
Tensor 语义支持:简化深度学习编程模型
传统 RDMA 操作依赖连续缓冲区,而深度学习应用则更关注 tensor 和子 tensor 语义。这种语义映射到连续缓冲区通常复杂且不可扩展。
Gaudi 3 在其 NIC 中引入了专用的 Tensor 引擎,可以直接访问本地和远程内存中的 tensor,就像芯片中的其他计算引擎一样,无需额外的复杂映射,大幅简化编程模型。
拥塞控制:保障网络性能
基于 RoCE的 Gaudi 3 scale-up 网络,提供多种拥塞管理方案以应对有损网络带来的性能下降:
基于优先级的流量控制(PFC):实现无损网络。
显式拥塞通知(ECN):用于拥塞管理(RCM)。
基于延迟的 SWIFT 拥塞管理:通过 RTT(往返时间)计算作为拥塞信号,提供更精细的控制,进一步优化网络性能。
此外,Gaudi3还支持包喷洒和选择性重传的功能。
III. 整机柜
随着AI的蓬勃发展和AI整机柜趋势的日益明显,在IPDC的不同场合,都可以看到有关AI整机柜的分享,讨论,和展览。
除了大型互联网公司(阿里,字节)的技术分享和未来演进,最具象化的展示,就是华勤的AI整机柜的demo。
据介绍该方案基于以太网互联的64GPU超节点模型方案,支持Intel BHS CPU和OAM2.0 GPU,具备高算力密度、高带宽低延时互联、高功率密度和高能效等关键特性,面向AI训练及大模型推理业务场景。系统scale up采用以太网为硬件底座,同时通过标准网卡scale out,以扩大超节点规模,形成更大、更高效的算力集群。
该款整机柜设计采用液冷散热、集中供电、112Gbps,并且未来兼容224Gbps的互联速率,以支持未来更高功耗、更快互联速率的系统演进需求。
整机柜的设计包括供电,液冷,高速信号的三盲插,并且支持漏液收集以及检测。
华勤AI Rack整机柜在设计上也充分考虑到集成、运输及部署等各项要求,体现了强大的系统整合能力。
高阅读量文章