9月11-13日,第25届中国国际光电博览会在深圳举行,在同期举办的“智算中心光技术创新发展论坛”上,中国信通院技术与标准研究所副所长赵文玉应邀作了题为《智算中心光互联技术发展探讨》的主题演讲。
赵文玉表示,我国出台系列政策布局算力基础设施快速发展,截至2023年底,全国在用数据中心机架总规模超过810万标准机架,算力总规模达到230 EFLOPS(每秒浮点运算次数),位居全球第二。智算与光互联双向赋能,高速率、低时延/低能耗、高可靠/高集成、智管理等多种光互联技术持续加速演进。
智算与光互联双向赋能 高性能智算中心网络构建成热点
赵文玉介绍,在大背景下,我国智能算力需求激增,高性能智算中心网络构建成为热点。2003-2024近二十年间智能算力需求增长百亿倍。AI大模型的突破性进展激发全球智能算力发展热潮,智算中心开始构建万卡规模集群进行AI大模型训练。同时,智算与光互联双向赋能,多种光互联技术持续加速演进。赵文玉表示,光连接作用日益突出。大型的人工智能模型需要100至10000个GPU,新型光互联技术逐步应用,模块/xPU比例将进一步上升。智算逐步成为光互联的重要应用。目前人工智能应用占比逐渐增,AI在以太网、InfiniBand、NVLink等中的应用还将推动光互联带宽跳跃式增长。预计用于人工智能集群应用的光模块的销售额将从2023年的12亿美元增加到2024年的30亿美元,2025年达到50亿美元。光模块数量和速率需求实现数倍提升,如何加速构建低能耗、集成化网络以支撑智能算力发展需求成为业界关注热点。
赵文玉表示,光互联技术以其高速率、低能耗/低时延、高可靠、智管理的特点逐渐成为智算的必需硬件。在高速率方面,数据/智算中心主导驱动光模块芯片提速革新,800Gb/s和1.6Tb/s光模块研发加速。赵文玉介绍,AI智算引入后数据中心迭代周期呈现缩短趋势,当前处于800Gb/s速率,预计未来1~2年进入1.6Tb/s速率,2030年3.2Tb/s将走向规模应用。在低能耗/低时延方面,LPO/CPO/OIO、新型光纤等技术持续推进低时延和低能耗。LPO光模块功耗和延时可大幅降低,满足AI大模型预训练的短距、大宽带、低延时互联需求;交换网络场景中的CPO技术、算存网络场景中的OIO技术,均可实现集成度的提升和比特能耗下降;超低损光纤适配400G+超高速长距离、C+L多波段大容量,成为智算中心间互联应用优配。在高可靠/高集成方面,光互联可靠性成为关注新热点。赵文玉表示,计算架构中的误码率要求比以太网中的更加严格,光互联的可靠性直接关系到计算集群的性能和维护成本。为实现更高的可靠性,一方面需提升激光器可靠性,另一方面需硅光技术结合微电子和光子优势,开辟“芯”赛道。在智管理方面,AI助力提升算网协同运维效率。当前,人工智能技术赋能智算中心网络智能化运维,网络运营者积极拥抱智能化运维,标准化体系初步建立。信通院协同业界积极开展自智网络、运维大模型评测等产业推动工作,推动面向智算中心网络等场景大模型应用落地。最后,赵文玉指出,面对数据中心与算力、AI及大模型等引发的诸多创新业务与应用承载需求,面向智算应用的高速互联技术应用远景和愿景可期。希望产学研用各主体协同聚力共推光通信技术与产业革新演进,赋能新质生产力发展。