会议观点 | 海思侯康:星云光模块助力智算中心加速发展,拥抱AI浪潮

创业   2024-11-20 18:05   上海  

9月11-13日,第25届中国国际光电博览会在深圳举行,在同期举办的“迈向800G~1.6T,打造智算中心超宽光联接”的技术峰会上,海思光电的资深产品规划专家侯康发表了题为《AI智算场景高速光互联方案演进探讨》的主题演讲。

侯康在分享中指出AI新业务及智算中心正快速发展,为了确保AI智算中心的运行效率与经济性,智算中心对光互联的可靠性和可用性均提出了新的挑战。星云光模块通过脏污检测、在线诊断等技术,实现极高质量、极简维护、极致可靠,提升智算中心运营效率。

展会现场,海思面向业界展示了星云光模块的故障预警与定界的动态功能,相关特性得到客户广泛认可,持续助力AI智算中心的高速发展。


Part 1
大规模集群算力中心持续演进,光联接重要性与日俱增

随着5G、云、AI等新技术的应用和普及,数据爆炸式增长,各行各业对数据中心算力的要求越来越高。


回归算力“第一性原理”,数据中心有效算力与单芯片算力、集群规模、有效算力率和可用性等因素强相关。因此,通过采用集群计算解决方案进一步提升数据中心算力成为行业重要方向。在大规模集群算力中心内,光互联扮演着至关重要的角色,它能够满足高带宽、低功耗、低时延、高可靠性和可扩展性等苛刻需求,是大规模集群算力中心中不可或缺的一部分。


Part 2
大规模集群算力中心需要高可用的光互联解决方案

相比传统数据中心,大规模集群算力中心通常采用多轨和无收敛的网络架构,通过大量的光模块进行联接。在算力中心建设过程中,光纤难免受环境影响出现虚接、脏污等异常,导致出现开局故障,影响业务上线;在运营过程中,AI训练业务闪断是目前影响训练效率的关键瓶颈,业务闪断后通常需要投入大量运维资源、耗费大量时间进行网络链路和互联的断点排查、故障定界及业务恢复。


海量部署的光模块作为网络互联的关键物理媒介,如能在开局和训练过程中针对光纤连接故障进行识别和预警、业务闪断异常提供快速问题定界和排障将极大提升AI智算中心的可靠性与可用性。


Part 3
星云光模块打造易维易用的光互联方案,助力智算中心持续高速发展

星云光模块正是在上述背景下产生的一种用于AI智算场景的、差别于传统通用模块的新产品。星云光模块可提供面向AI智算的增强型诊断运维功能,包括光/电口链路、模块本体诊断、业务压测和光纤虚接、脏污预警定位等特性,助力AI网络系统高效、可靠运行。


星云光模块中光纤虚接、赃污预警功能重点针对业务异常闪断问题设计,可提前识别90%以上的现网开局问题,并支持分段定位和定界诊断功能,大幅提升AI智算网络的可用度。


展望未来,侯康表示AI及AI智算中心正处于前所未有的加速发展阶段,海思光电打造的“星云”系列光模块将持续适配AI智算中心对光互联的关键需求,赋能高可用、高可靠的场景需求,助力AI智算中心的快速发展。





点分享
点点赞
点在看

CIOE中国光博会
中国国际光电博览会是全球极具规模及影响力的光电产业综合性展会,将于2025年9月10-12日在深圳国际会展中心(宝安新馆)盛大开幕。
 最新文章