引言
随着人工智能(AI)技术快速发展,支撑这些技术奇迹的基础设施也在迅速演进。本文探讨AI集群的世界,重点关注光连接在推动这些大规模计算网络中的关键作用。本文探讨推动AI训练的趋势,扩展这些系统面临的挑战,以及光通信行业面临的机遇[1]。
AI训练趋势
过去六年中,AI基础设施和训练的成本出现了惊人的增长,增幅超过四个数量级。这种指数级增长与训练AI模型所使用的petaFLOPs(每秒浮点运算次数)数量直接相关。
图1:AI训练成本随时间的显着增长,显示了petaFLOPs与训练费用之间的相关性。
这种增长的动机很明确:更大的语言模型(LLMs)通过增加参数数量(N)和训练数据集的大小(D)来提高性能。然而,这种改进是有代价的,因为随着模型规模的每次增加,计算需求也会大幅增长。
AI集群增长和网络需求
随着AI模型复杂度的增加,支持这些模型的集群也在不断扩大。训练这些模型所需的FLOPs(浮点运算)增长可以来自两个方面:每个GPU的FLOPs增加(通过更强大的加速器)和AI集群中GPU数量的增加。
图2:AI训练中模型参数、训练数据大小和计算成本之间的关系。
随着AI集群中GPU数量的增加,网络需求也相应增长。这种扩展为光连接解决方案带来了挑战和机遇。
分布式AI训练
现代AI训练经常采用分布式计算技术来处理所需的大规模计算负载。这种方法提供了并行性和更快的训练时间,但也带来了新的挑战,特别是在网络性能方面。
图3:分布式AI训练的概念,突出显示了GPU之间需要高带宽、低延迟通信的需求。
在分布式训练场景中,GPU必须保持紧密同步,这需要节点之间具有高带宽、低延迟的连接。这一要求对底层网络基础设施提出了重大压力,使光连接解决方案变得越来越重要。
AI系统需求的多样性
AI系统必须满足各种模型大小和计算需求,从相对较小的模型到具有万亿参数的大型语言模型。
图4:AI系统在各个维度(包括计算能力、模型大小和网络性能)的多样化需求。
这种多样性为系统设计者带来了挑战,因为很难创建一种适用于所有情况的解决方案。下一个创新前沿在于硬件/软件协同设计,网络架构师和AI研究人员合作创建针对特定AI工作负载优化的系统。
硬件可靠性和性能
在AI集群中,硬件可靠性变得更加重要。由于AI训练的并发性质,单个GPU故障可能会使整个任务停滞,导致重大的时间和成本影响。
图5:硬件故障对AI训练中作业进行的影响,显示中断如何导致显着的速度降低。
故障影响计算为恢复时间与集群每分钟运行时成本的乘积。随着集群规模的增大,故障率和相关成本都会增加,使可靠性成为AI基础设施设计者的关键考虑因素。
即使没有完全故障,性能下降也可能产生类似的影响。例如,单个GPU以60%的容量运行可能会使整个集群的性能降低40%,突出了对一致、高性能光连接的需求。
AI训练效率
实现高效的AI训练对于最大化昂贵硬件资源的利用至关重要。Meta公司Llama 3 70B模型训练的最新数据显示了令人印象深刻的效率水平。
图6:Meta公司Llama 3 70B模型的端到端有效训练时间,展示了95%的效率率。
这种高效率水平只有通过设计良好的网络基础设施才能实现,该基础设施能够跟上现代AI工作负载的需求。
AI集群中的可靠性挑战
随着AI集群规模的扩大,可靠性成为越来越重要的问题。硬件故障可能对训练工作产生重大影响,导致时间损失和成本增加。
图7:AI训练集群中观察到的各种硬件故障模式,其中GPU相关问题尤为突出。
常见的故障模式包括GPU脱离总线、GPU驱动程序问题和内存错误。网络线缆故障也很常见,突显了强大光连接解决方案的重要性。
光连接:挑战与机遇
在AI集群的光连接领域,可插拔模块发挥着关键作用。近期数据显示,虽然光学组件的"硬"可靠性仍然重要,但真正重要的是端到端的链路性能。
图8:200G和400G FR4光学模块故障模式的细分,表明在较新的模块中,普通制造问题有所增加。
有趣的是,大部分(约75%)链路故障调查结果显示可插拔模块供应商"未发现故障"(NTF)。这表明许多问题源于系统级交互而非组件故障,为改进诊断和系统设计提供了挑战和机遇。
线性可插拔光学(LPO)和未来方向
随着行业向更高数据率和更集成的解决方案发展,线性可插拔光学(LPO)正在受到关注。然而,LPO在诊断和故障排除方面带来了新的挑战。
图9:比较了重定时模块中可用的诊断功能与LPO中缺失的功能,突显了链路分类可能面临的挑战。
LPO模块缺少某些诊断功能可能会使识别和解决链路问题的过程变得复杂。这为驱动器和TIA(跨阻放大器)设计创新提供了机会,以开发新的诊断能力。
Meta的AI基础设施和未来展望
Meta作为AI研究和开发的领先公司之一,最近在AI基础设施方面取得了重大进展。该公司宣布了具有405B参数和128k token的Llama 3基础模型,以及两个为AI工作负载设计的24k GPU集群。
图10:Meta在AI基础设施方面对开放计算和开源的承诺,突显了近期的公告和未来的抱负。
Meta的方法强调开放计算和开源解决方案,基于Grand Teton、OpenRack和PyTorch等平台。这种对开放性和合作的承诺可能推动整个行业的创新。
展望未来,AI集群的增长预计将继续,主要由三个因素驱动:
更多GPU:增加每个集群的GPU数量,以处理更大的模型和数据集。
更多数据:扩大训练数据的体积,以提高模型性能。
更长距离:扩展网络范围,以高效连接分布式资源。
结论
随着AI集群规模的增长,光连接解决方案面临的需求正在迅速增加。AI集群的规模扩展网络正变得更加扁平、更短、带宽更高。这一趋势需要更可靠、性能更高的光链路来支持现代AI工作负载的大规模计算需求。
AI基础设施的未来在于光电共封装等集成解决方案,通过集成烤机(integrated burn-in)和测试,提高可靠性和稳定性。随着行业向前发展,重点将从单个组件可靠性转移到端到端网络连接,为光通信领域的创新提供了挑战和机遇。
参考文献
[1] D. Alduino, "Optical Connectivity in AI Clusters: Opportunity & Impact," presented at Lightcounting Webinar, July 30, 2024.
点击左下角"阅读原文"马上申请
欢迎转载
转载请注明出处,请勿修改内容和删除作者信息!
关注我们
关于我们:
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
http://www.latitudeda.com/
(点击上方名片关注我们,发现更多精彩内容)