近日,算力产业发展方阵(以下简称“方阵”)全体会议在合肥顺利举办,该方阵在工业和信息化部指导下,由中国信息通信研究院牵头成立。华为数据中心网络解决方案资深架构师林艺宏受邀参会算力网络工作组会议并发表“华为星河AI智算数据中心网络,释放AI时代高算力”主题演讲,与产学研用各界共同探讨人工智能时代网络面临的新挑战与技术创新方向。
华为数据通信产品线数据中心网络解决方案资深架构师
林艺宏发表主题演讲
林艺宏指出,随着大模型训练参数量的急剧增长,集群规模越来越大。超大规模集群数据中心网络面临单POD组网规模瓶颈、算卡等待造成算力浪费和网络可靠性不足导致训练中断等三大挑战。
华为星河AI智算数据中心网络,面向智能时代,打造超大集群规模、高算力效率和高算力可用率的新型网络基础设施,助力算力产业高质量发展。该方案基于DF+星织网络新架构,突破了AI集群的规模上限;通过跨集群拉远训练,可快速构建大规模集群能力;同时,采用独家网络级负载均衡NSLB算法,可实现网络吞吐率95%,AI训练效率提升10%以上;最后,依托光模块通道抗损、脏污检测和独家闪启技术,可使得网络可靠性提升超过10倍,实现设备异常重启/升级不断训。
值得一提的是,近日该方案凭借其卓越的创新能力和客户价值,从近百份申报项目中脱颖而出,斩获2024中国算力大会“创新先锋”大奖。
算力正在成为经济社会高质量发展的重要驱动力,运力升级助力算力流转,华为星河AI智算数据中心网络,以网强算,以高运力释放AI时代高算力,加速行业智能化。