引言
本文旨在帮助读者了解人工智能(AI)时代对光网络的影响和未来发展趋势。随着生成式AI应用的兴起和AI基础设施的大规模建设,光学行业正处于这场技术革命的最前沿。支持这一增长的关键在于改进光学互连,以缓解AI集群内部及更广泛范围内的带宽限制[1]。
AI对光网络的影响
在2024年光纤通信大会(OFC)上,AI对光网络的影响成为最热门的话题之一。根据LightCounting的预测,未来五年内AI集群应用的光收发器总销售额预计将达到惊人的520亿美元。
图1显示了AI集群用以太网光收发器的销售预测,展示了该市场领域预期的显著增长。
目前大多数注意力集中在AI集群内的短距离互连上,但AI的影响远不止于此。展望未来,我们必须考虑AI流量将如何影响更广泛的光传输环境,包括城域网、长途网,甚至更长距离的应用,这些领域都大量使用光相干传输技术。
从过去的应用中汲取经验
为了理解AI如何塑造数据中心之外的网络流量模式,回顾以往带宽密集型应用对传输网络的影响是有益的:
1. 搜索应用:
AI训练过程可以比作搜索引擎爬虫从互联网收集数据。虽然单个搜索查询可能不需要大量带宽,但累积效应会对整体传输流量产生影响。这包括用于区域和本地缓存的带宽以减少延迟,以及用户根据搜索结果采取行动而产生的后续流量。
2. 视频内容分发:
视频流媒体服务的增长给向终端用户传输高分辨率内容带来了挑战。内容缓存的实施减少了从分发源到终端用户的网络流量,并降低了延迟。同样,AI推理应用可能需要策略来确保用户查询和响应的最小延迟。
3. 云计算:
多云环境的兴起导致数据中心内部和数据中心之间的流量增加,因为工作负载跨分布式计算资源传输。AI应用可能会遵循类似的模式,训练数据分散在多个集群站点,推理模型分布在不同位置以减少终端用户的延迟。
随着AI应用的普及和复杂化,预计网络运营商将面临压力,需要扩大数据中心互连、城域网和区域网的容量。甚至长途和海底网络可能也需要扩展以满足AI相关流量的需求。
图2说明了由于设施电力限制,网络结构在物理上扩展,需要高容量光互连的情景。
功耗与延迟的平衡
支持AI基础设施的最大挑战之一是管理AI集群和数据中心的巨大功耗需求。这与过去云服务的经验相呼应,当时对本地廉价电源的需求影响了大型数据中心的选址。
然而,电力设施限制正推动分布式架构的采用。这些分布式网络依赖于数据中心之间的高容量传输互连来维持所需的网络架构。对于AI应用来说,这带来了独特的挑战,因为训练和推理过程都有特定的计算和延迟要求。
图3展示了AI集群在训练模式下对极低延迟的需求,而数据集收集可能不那么敏感于延迟。
AI功能的延迟考虑
在规划AI部署时,考虑AI网络结构的物理扩展如何影响AI功能非常重要:
1. AI训练:
虽然AI训练的地理分布并不理想,但设施电力限制可能会导致采用分布式AI训练技术。这些技术试图减轻引入延迟的影响。有趣的是,为训练集群获取数据集可能不那么敏感于延迟,受物理网络扩展的影响可能较小。
2. AI推理:
训练完成后,当推理模型准备就绪时,目标是最小化用户查询和结果传输之间的延迟。这种延迟是查询复杂性和推理模型与用户之间"跳数"的综合结果。
图4强调了最小化AI推理延迟的重要性,这是网络设计中的一个关键目标。
业界正在积极讨论如何在访问推理模型时减少延迟,以及如何有效地将训练和推理功能分布到集中式架构之外。这些讨论的驱动力是需要解决单站点电力限制,同时保持最佳性能。
权衡取舍
平衡功耗需求、获取廉价丰富电力和延迟的挑战对于带宽密集型应用来说并不陌生。最佳解决方案通常取决于具体应用,甚至可能因部署而异。
高容量相干传输可以显著影响这些权衡。正如我们在云架构中所看到的,使用相干高容量传输允许网络物理扩展,通过提供站点之间的高带宽链路来缓解电源限制。预计AI网络架构的扩展将出现类似情况。
对传输网络的连锁反应
虽然AI应用中高容量互连的初始焦点一直是AI集群内的短距离连接,但我们已经看到带宽需求正在超出这些范围。这种增长正在推动支持AI工作负载的数据中心之间需要额外的相干连接。
普遍认为,AI应用产生的带宽需求将转化为整个网络的流量增加。然而,我们仍处于理解网络特定部分将如何受影响的早期阶段。
数据中心之外的高容量传输相干光互连已经提供了性能优化的解决方案:
每波长1.2T的转发器解决方案
400G路由器到路由器波长
使用MSA可插拔模块的新兴800G解决方案
无论扩展的流量是在城域网、数据中心互连、长途路由还是全球网络基础设施的更远范围,这些技术将继续在支持AI应用中发挥关键作用。
结论
当我们站在AI驱动的网络革命的风口浪尖时,光通信行业在塑造传输网络的未来中扮演着关键角色。通过从带宽密集型应用的过往经验中学习,并解决AI工作负载带来的独特挑战,我们可以开发出强大、可扩展和高效的网络架构。
成功的关键在于在分布式AI基础设施中平衡电力限制、延迟要求和带宽需求。随着相干光技术的不断发展,将为未来的传输网络提供基础,能够支持AI应用的爆炸性增长。
参考文献
[1] E. Park, "Future Proofing Transport Networks for AI," Acacia Communications, Sep. 10, 2024. [Online]. Available: https://acacia-inc.com/blog/future-proofing-transport-networks-for-ai/ [Accessed: Sep. 15, 2024].
点击左下角"阅读原文"马上申请
欢迎转载
转载请注明出处,请勿修改内容和删除作者信息!
关注我们
关于我们:
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
http://www.latitudeda.com/
(点击上方名片关注我们,发现更多精彩内容)