大会预告
01 智算集群的互连架构
业务网络互连:承载的是诸如需要计算的输入数据,输出结果,以及在各类存储系统中的模型参数、checkpoint等。需要进行极大范围的互连,并且和云上的存储、业务接口等互通,采用以太网技术,通常支持各类RDMA。
Scale Out网络互连:训练的DP、PP并行计算切分流程,通常要把集群横向扩展到超多的GPU机柜,当前的训练规模已经发展到10w卡,目前国际的标准趋势是,采用专门优化的以太网技术UEC(Ultra Ethernet Consortium)协议。
Scale Up网络互连:以推理的大显存并行计算流量和训练的张量并行(TP)以及专家并行(MoE)流量为主,有在网计算的需求(可以对All reduce在Switch节点上进行加速)。互连规模在未来很多年内都会维持在单柜72~80个GPU,从模型大小和推理需求的发展来看,当前规划能满足很长一段时间的需求。
02 超节点内部Scale Up互连:注定和设备深度绑定的协议
面向GPU的语义支持:GPU是超众核架构,其在线程调度机制,以及核心的利用率考量上和CPU有着显著的区别。CPU的外设交互模式及RDMA交互模式等,无法有效的满足GPU的访存特性和性能要求。和这个使用模式比较类似的是CXL(Compute Express Link,通用计算的内存扩展技术)的使用方式,但CXL在此场景下也存在局限性,比如大量内存一致性特性支持的开销,以及前向兼容PCIe所有协议栈带来的大量冗余特性。
超高性能诉求:Scale Up相对于Scale Out和业务网络需要更高一个数量级(10倍以上)的带宽。由于GPU算力的狂飙,在当前的算力水平下,Blackwell这一代配置了双向共1.8T的算力,这意味着即使采用224g的phy,单芯片也需要双向共72个serdes差分对,整机柜需要数千根。。如果采用类似网卡的外置控制器方案,在功耗,延迟、稳定性等等都具有极大的劣势。Scale Up互连采用GPU直出,将所有的控制器植入GPU内部是不可避免的选择。
03 为什么采用全新的Scale Up协议而不复用已有的协议?
04 当前行业共识和UALink协议联盟发展
—END—
点击下方名片
即刻关注我们