LightCounting 预测未来5年 OCS和光模块将爆炸式增长 CPO/LPO大规模部署

文摘   2024-12-04 14:44   新加坡  

在最近的一次研讨会上 LightCounting 预测未来五年光收发模块和光电路交换机 (OCS) 出货量将显示出爆炸式增长,这种增长可能会在某个时候被放缓打断,但很可能在那之后很快恢复。目前AI集群光模块出货量每年达数千万台,预计2029年将接近1亿台;OCS出货量2023年已达1台,预计2029年将突破5台。

其实十多年前,谷歌就开始在其计算节点和 AI 集群中使用 OCS。该公司在最近的多份报告中介绍了支持 OCS 的架构的优势。其他几家大型 AI 集群厂商现在也开始使用 OCS(除了上述提到的google还有NvidiaMicrosoft),还有更多运营商正在认真考虑效仿的好处。

毫无疑问,对 OCS 的需求将会很强劲,未来可能会有更复杂的光交换应用。分组交换是有问题的,因为没有针对光缓冲区的实用解决方案,但大流量可以通过光学方式路由。

  早在2007 年,谷歌也是第一个在其数据中心使用光收发器的公司。尽管该公司对这项技术的采用因 2008-2009 年的金融危机而短暂中断,但它在 2010 年全面恢复。在过去十年中,许多其他云计算公司也效仿了谷歌的做法。 NvidiaMellanox)直到两年前还偏爱有源光缆(AOC),但它在 2023 年成为 400G/800G 收发器的最大消费者。

Nvidia 目前使用光收发器在服务器和交换机之间实现以太网和 InfiniBand 连接。该公司两年前还宣布计划使用光学器件实现 NVLink 连接,并在其内部构建的集群之一中进行了演示。NVLink 连接所需的带宽是 InfiniBand 9 倍,因此降低光学器件的成本和功耗是实现这一新应用的必要条件。

如下图2比较了 Google Nvidia 使用的AI 集群架构。Google 开发的 TPU 集群不需要以太网或 InfiniBand 交换机,而是使用 OCS。每个 TPU 都可以直接与其六个最近的邻居通信,OCS 可以扩展和重新配置这些紧密联系的网络。相比之下,Nvidia 的设计严重依赖 InfiniBand、以太网和 NVLink 交换机,需要比 Google 的设计更多的光连接。

AI 集群架构的这些差异导致 Google Nvidia 的光互连优先级不同,如图 3 所示。Google 使用 OCS 优先考虑更高的链路预算,以抵消 OCS 1.5 dB 光损耗。与 DR4/DR8 模块相比,多波长 FR4/FR8 收发器将 OCS 的吞吐量提高了 4 倍或 8 倍。

另一方面,Nvidia 优先考虑降低成本和功耗,以容纳其集群所需的大量收发器,并且非常支持线性驱动可插拔光学器件 (LPO) 和共封装光学器件 (CPO) 方法。Google LPO CPO 不感兴趣,因为它将继续使用平均每个TPU 仅使用 1.5 个收发器的设计,而 Nvidia 未来可能需要每个 GPU 使用多达 10 个收发器来支持光纤上的 NVLink

因此,Lightcounting预计 Nvidia 将在未来 2-3 年内部署LPO / CPO. 将功耗从10-15 pJ/bit 降低到 4-7 pJ/bit,从而实现光纤NVLink,如图 4 所示。Google 已在 TPU 之间使用光学器件进行核心间互连 (ICI)

扩展性能方面的挑战

AI 集群内所有组件的可靠性对于扩展这些系统至关重要;单个 GPU 或网络链路发生故障会使整个集群的效率降低40%,而缓解故障(通过软件)可能需要长达 10 分钟的时间。此类故障平均每30-45 分钟发生一次。对于基于更复杂的 GPU 和光学器件的大型集群,这个问题只会变得更糟。

5 (Source:Meta)显示了 200G FR4 400G FR4 模块的收发器故障分析数据。直接调制激光器性能下降是 200G 模块故障的主要来源。400G收发器中使用的外部调制激光器性能下降的问题比与印刷电路板组装和引线键合相关的一般制造问题要小。采用更集成的晶圆级设计和制造对于提高光学器件的可靠性至关重要。

预计到202X末,通过 CMOS、基板和封装方法、芯片架构以及更好的冷却技术的结合,GPU性能将大幅提升。管理这些超大芯片组件的散热是众多问题之一,因此,提高能效对于 AI 集群中使用的所有技术都至关重要。CMOS 确实有未来五年内从 5 纳米到 3 纳米和 2 纳米的部署,但光学互连仍在寻找提高能效的途径。

LightCounting 预计线性驱动光学器件将在未来五年内大规模部署,无论是作为可插拔收发器(LPO 或线性接收光学器件)或是作为 CPO。该行业将需要新材料和新设备来进一步提高功率效率。一些新技术的上市时间可能长达十年,但其中一些将在未来五年内被采用。这是一场军备竞赛,会有客户愿意承担更大的风险。

原文请参考最近一期的PHOTONIC INTEGRATED CIRCUITS



YoYo酱慢谈
杂说漫谈,科技前沿信息介绍与分享。
 最新文章