中国移动与华为、中兴、华三、锐捷、盛科、云豹智能等合作伙伴共同发布第一颗全量支持GSE(全调度以太网)标准的DPU芯片——“智算琢光”。该芯片完成与业界多家主流交换芯片对接验证。5G公众号(ID:angmobile)了解到“智算琢光”填补了我国在新型智算中心网络高性能DPU芯片领域的空白;支持200G端口速率、报文容器喷洒、基于DGSQ的拥塞控制机制等最先进能力。
AI大模型业务的持续迅猛发展下,智算中心网络需要有更高的性能、更强的安全。5G公众号注意到构建在传统以太网上的设计RoCEv2在面向AI业务规模扩展的趋势和对网络高性能、高安全的需求时已难以适应。
作为无阻塞、高吞吐、低时延、服务于高性能计算的新型以太网,GSE满足AI大模型部署及训推需求,其架构自上而下分为控制层、网络层和计算层。针对RoCEv2网络在性能、安全两方面的问题,GSE有对应的解决方案,5G公众号注意到包括①采用定长的PKTC基于报文容器的负载均衡方案——首次同时考虑路由粒度和端侧性能开销问题,报文容器结合主动拥塞避免加全局调度技术,使智算网络在负载均衡做到接近最优的均匀分配,为降低业务长尾时延、提高有效带宽提供了保障;②基于全局动态授权的主动拥塞避免方案——通过实现基于端到端的动态调度控制器和基于动态分配的流量控制方案,旨在基于网络实时变化,进行动态调整,为数据流目标设备端口动态分配资源,在有限的资源下,为更大规模的AI网络提供支持;③物理层安全方案——通过在物理层构建数据加解密等安全传输能力,可以将加/解密时延降低至百纳秒级,且安全加密实例数低,不占用用户带宽,实现极低性能损伤的数据传输安全。
高性能方面。RoCEv2的负载均衡采用的是以太网传统的逐流负载均衡,难以适应AI的流量特征,包喷洒是负载均衡技术面向AI业务的未来趋势,但仍面临着报文乱序带来的严峻挑战,对此,GSE提出基于报文容器的负载均衡技术,兼顾细粒度负载均衡和一定保序能力。此外,针对RoCEv2基于PFC和DCQCN的拥塞控制技术所存在的不足,5G公众号注意到GSE提出基于DGSQ的全局调度技术,以更好地解决网络边缘的Incast拥塞问题。
高安全方面。针对RoCEv2缺乏原生传输安全设计以及IPSec、MACSec等现有安全协议开销较大的问题,GSE提出新型的以太网物理层安全协议PhySec,兼顾高安全与高性能。
有测试结果证明,GSE相较RoCE网络显著改善了任务完成时间。5G公众号注意到中国移动表示基于“智算琢光”DPU芯片搭建的GSE网络性能相比传统RoCE网络可提升30%以上,大幅提升了GPU节点间通信效率,填补了我国在新型智算中心网络高性能DPU芯片领域的空白。