一、背景与意义
二、白皮书的主要内容
需求和特征:
AI大模型训练对算力需求呈爆发式增长,要求智算网络具备超大规模、超高带宽、超低时延、超高可靠等特征。
分布式智算中心无损网络主要适用于算-算拉远和存-算拉远两类场景。 集群拉远部署面临传输时延、网络拥塞丢包等问题,传输网需解决高带宽和稳定性难题。
打造超大规模算力集群。 提供高效稳定训练能力。 实现算网灵活调度供给。 坚持绿色低碳节能减排。
分布式智算中心无损网络总体架构由多个单节点智算中心网络组成,包括AI集群区、通用计算区、存储区、带外管理区、管理区、网络服务区、接入区等多个业务区块。 每个区域负责特定的功能,区块间通过核心交换区的核心交换机连接在一起构成单节点智算中心网络。 多个单节点智算中心网络之间通过广域互联区互联,构成分布式智算中心无损网络,共同支撑起整个分布式智算中心的运行。
具备长距无损、超大带宽、超高可靠、弹性敏捷和智慧运维的特征。
异构网络集合通信优化技术。 网络级负载均衡技术。 精准流控技术。 光模块通道抗损技术。 流可视化与全流丢包检测技术。 大带宽传输技术。 波长级动态拆建技术。 高性能WSON技术。 告警压缩与根因识别技术等。
中国电信在北京开展了分布式智算中心无损网络试验,验证了跨数据中心合池训练的可行性。 提升了区域内智算整体的供给效率,解决了百公里长距跨机房大模型训练难题。
三、白皮书的影响与展望
影响:
该白皮书聚焦AI大模型下智算业务的需求和特征,对分布式智算中心无损网络方案和核心技术进行了深入研究。 通过实践验证了分布式智算中心无损网络的可行性和稳定性,为推动智算中心建设和发展提供了有益的参考。
中国电信将继续打造面向智算业务的新型基础设施,突破智能算力供给瓶颈。 未来分布式智算中心无损网络将在赋能智算基础设施方面发挥更重要作用,推动人工智能技术的快速发展和应用。