导语
大模型的训练过程需要数千张GPU卡协同计算数周或数月,这就要求智能计算网络能够提供更强大的性能和更高的稳定性与可靠性。因此,提供一种高速、低延迟且可扩展的网络互联方案成为了智能计算领域的重要课题。
2019年以来,网络技术突飞猛进,400G和800G技术应用范围的进一步扩大及1.6T技术的探索,预示着行业发展的新方向。为率先储备800G乃至1.6T的网络技术,以应对未来数据传输速度和网络带宽需求的迅猛增长,2024年,CDCC牵头组织、益企研究院参与编写《智算中心800G/1.6T网络布线技术白皮书》。
据悉,本白皮书将于2024年11月20-21日在“数据中心标准大会”上发布并赠阅,同期大会将举办“AIDC基础设施未来:关键网络”专场,该白皮书主笔人康普中国大中华区技术总监吴健将对白皮书进行解读,敬请期待!
扫码报名参会,现场领取白皮书
《智算中心800G/1.6T网络布线技术白皮书》由中数智慧信息技术研究院和美国康普公司主编、北京火山引擎科技有限公司、北京快手科技有限公司、上海哔哩哔哩科技有限公司、中国中元国际工程有限公司、中国移动通信集团设计院有限公司、华信咨询设计研究院有限公司、粤港澳大湾区大数据研究院、益企研究院、新华三技术有限公司、美国康宁公司、美国西蒙公司、Aginode安捷诺(原耐克森通讯系统)、泛达网络产品国际贸易(上海)有限公司、罗森伯格亚太电子有限公司、福禄克测试仪器(上海)有限公司、武汉光迅科技股份有限公司、长芯盛(武汉)科技有限公司参编。
白皮书将分析智算业务对网络的关键需求,介绍智算网络的架构设计以及智算中心网络特征,为读者提供建设面向大模型的智算中心网络设计和运维方面的参考。
白皮书大纲
向上滑动阅览
1 前言
1.1 智算中心概念
1.2 智算中心的网络要求
1.2.1 超大规模组网需求
1.2.2 超高带宽需求
1.2.3 超低时延及抖动需求
1.2.4 超高稳定性需求
1.2.5 网络自动化部署需求
2 智能中心网络架构和组网技术
2.1 数据中心网络架构
2.1.1 多层架构
2.1.2 Crossbar架构
2.1.3 CLOS架构
2.1.4 胖树架构
2.1.5 脊叶网络
2.1.6 常用架构得优缺点比较
2.1.7 典型智算中心网络架构和设备
2.2 智算中心组网技术
2.2.1 组网目标
2.2.2 NVLink交换系统
2.2.3 InfiniBand网络
2.2.4 ROCE无损以太网
2.2.5 DDC全调度网络
2.2.6 主流GPU集群组网技术总结
2.3 智算中心的设备组成
2.3.1网络交换机与网卡
2.3.2服务器主流训练机型
2.3.3 CPU与GPU配比
2.3.4 高带宽存储
3 800G/1.6T光通讯器件发展
3.1 800G/1.6T光通讯技术演进
3.2 800G可插拔光模块标准
3.3 800GPSM8100米进展
3.4 800GFR4组件和规范
3.4.1 800GFR4技术选择
3.4.2 800GFR4调制选择
3.4.3 800GFR4规范
3.5 串行800G前向纠错
3.5.1 光标准中的前向纠错
3.5.2 800GFR4的拉链码
3.5.3 主机FEC串联与终止的优势
3.6 800G/1.6T标准展望
4 800G/1.6T网络应用及布线设计
4.1 网络应用标准总览
4.2 光纤标准
4.2.1 单模光纤标准
4.2.2 多模光纤标准
4.3 800G网络设备接口标准
4.4 800G链路典型模型及性能要求
4.4.1 常见800G链路模型
4.4.2 800G链路损耗参考值
4.5 1.6T网络技术发展
4.6 多模光纤800G布线系统
4.6.1 多模800G直连应用
4.6.2 多模8芯并行光纤直连
4.6.3 多模8芯并行光纤结构化布线
4.7 单模光纤800G布线系统
4.7.1 单模800G直连应用
4.7.2 单模8芯并行光纤结构化布线
4.7.3 单模双工光纤直连
4.8 800G/1.6T分支应用
4.9 800G/1.6T连接器技术趋势
4.9.1 常用光纤连接器
4.9.2 800G/1.6T连接器
5 800G/1.6T网络布线测试
5.1 技术背景
5.2 800G/1.6T网络布线测试标准和测试内容
5.3 800G/1.6T光缆链路测试模型
5.3.1 MPO-MPO光纤链路损耗测试
5.3.2 采用双光纤测试仪测试
5.3.3 采用MPO端口的测试仪器测试
5.3.4 MPO光纤链路的OTDR测试
5.3.5 光纤端面测试
6 热点问题
6.1 传统数据中心与智算中心有那些主要区别
6.2 常见两种GPU组网技术之间有哪些差异和相同点
6.2.1 技术分析
6.2.2 比较总结
6.3 800G/1.6T的新型高速连接器技术有哪些
6.3.1基于陶瓷插芯技术的VSFF连接器
6.3.2 基于MT插芯技术的VSFF连接器
6.3.3 基于非接触扩束技术的VSFF连接器
6.4 1.6T光模块发展中LPO和CPO的技术比较
6.5 光通讯技术如何优化数据中心耗能问题
6.6 智算中心训练网络的关键要求有哪些
6.7 在智算中心中,网络因素对于训练的影响有多大
6.8 智算中心使用大量MPO跳线,现场如何做MPO跳线测试或验证
7 附录一:英伟达GB200网络架构简述
7.1 机架种类
7.2 组网种类
7.3 后端网络
7.4 前端网络
7.5 GB200NVL72互联拓扑
7.6 GB200NVL576互联拓扑
8 附录二:华为昇腾910B网络集群简述
8.1 组网总类
8.2 组网设计
9 符号和缩略语
关注我们获取更多精彩内容