Hot Interconnects 2024 | 人工智能系统互连技术的未来:挑战与解决方案

文摘   科技   2024-11-21 08:01   四川  

引言

随着AI技术的持续进步,对更快、更高效计算系统的需求呈指数级增长。互连组件是这些系统的核心,负责处理单元之间的数据传输。然而,随着AI性能的提升,互连技术在维持所需带宽和能效方面面临着重大挑战[1]。


XPU性能和I/O带宽的扩展

AI加速器(通常称为XPU,即扩展处理单元)的性能预计在未来几年将显著提升。这一增长主要由芯片架构、工艺技术和基板技术的进步推动。

图1展示了预期的未来XPU性能,预计到2028年将比2022年提高50倍,如果有更好的散热技术,可能达到100倍的提升。


根据图表,可以预期从2022年到2026年,每两年性能将提高3.3倍,从2026年到2028年将提高5倍。XPU性能的这种指数级增长需要相应的I/O带宽增加,以避免数据传输成为瓶颈。


芯片级高速互连

为满足不断增加的带宽需求,芯片制造商正专注于改进片上和片外互连技术。

1. 片上芯片间接口:

  • 当前速度:32-64 Gbps NRZ

  • 能效:< 0.5 pJ/Bit

  • 前沿密度:5 -> 10 Terabits/mm


2. 片外高速SERDES:

  • 当前速度:224G-PAM4,正向448G-PAM4发展

  • 能效:5 -> 4 pJ/Bit

  • 前沿密度:1 -> 2 Terabits/mm


这些芯片级互连技术的进步对实现未来AI系统所需的高带宽极为重要。


AI网络带宽和功耗

随着XPU性能的提升,所需的AI网络带宽也必须相应扩展。然而,这种扩展在功耗方面带来了挑战。

图2展示了从2022年到2028年预期的AI网络带宽增长,显示了1600G端口的数量和相关功耗。


图2的表格显示,尽管带宽需求显著增加(从2022年的3200 Gbps增加到2028年的25600 Gbps),I/O的功耗仍然只占XPU总功耗的一小部分(约2.5%)。这表明SERDES I/O功耗在整体系统功耗中并不是一个显著的瓶颈。


高速SERDES的优势

高速SERDES(串行器/解串器)技术仍然是AI系统互连最实用的解决方案。其优势包括:

  • 通用电气接口兼容性

  • 支持铜缆、有源光缆(AOC)和各种类型的光学器件

  • 从112G到224G再到448G的明确发展路线图

  • 改善系统级密度

  • 与光学模块路线图一致(8通道光学从800G到1600G再到3200G)


机箱和机架级I/O扩展

在机箱或机架内,无源铜互连仍然是最具成本效益和能效的解决方案。液冷机架中XPU密度的增加(从64到128再到256个XPU)解决了大部分规模扩展需求,可能占市场需求的50%或更多。


机架之外:光互连技术和功耗挑战

对于机架之外的连接,光互连成为必要。然而,与铜互连相比,光互连技术带来了更高的成本和功耗。关键挑战是如何最小化这种损失,特别是对于AI集群扩展中常见的短距离链路(10到15米)。

图3比较了102.4T交换机中不同光互连技术的功耗:线性可插拔光学(LPO)、线性仅接收光学(LRO)和基于DSP的光学技术。


图表清楚地显示,与基于DSP的光学技术相比,LPO提供了显著的功耗节省,差异高达1600W或总功耗的50%。这凸显了为大规模AI系统开发更高效光学互连技术的重要性。


线性可插拔光学(LPO)

线性可插拔光学(LPO)成为解决AI系统中光学互连功耗挑战的有前景解决方案。LPO提供了几个优势:

  • 与基于DSP的光学技术相比,显著节省功耗

  • 保持可插拔模块的可维护性和易用性

  • 避免了与光电共封装(CPO)相关的制造和可靠性挑战


图4展示了线性可插拔光学(LPO)的概念,展示了其在不影响可维护性的情况下提供功耗优势的潜力。


LPO多源协议(MSA)汇集了12个行业领导者,旨在为线性可插拔光学定义规范,目标是使这项技术标准化以便广泛采用。


未来发展:224G和448G

随着行业向更高数据速率发展,224G-PAM4和448G-PAM4技术正在到来。这些进步带来了新的挑战和机遇:


a. 224G-PAM4:

  • 需要干净、低损耗的电气通道(理想情况下,芯片到模块的损耗<15 dB)

  • 可能需要飞跃电缆以减少通道损耗和干扰

  • 更高性能的TIA和线性驱动器正在开发中


b. 448G-PAM4:

  • 对电气通道提出了重大挑战

  • 可能需要新的可插拔模块连接器

  • 100+ GHz的光学带宽具有挑战性,薄膜锂铌酸盐(TFLN)是一个有前景的解决方案


先有鸡还是先有蛋的问题

在AI生态系统中引入新的I/O技术面临着先有鸡还是先有蛋的问题。虽然像较慢和更宽的光学技术(例如4G微型LED或32G-NRZ微环)提供了潜在的优势,但其采用面临几个障碍:

  • 开发和提升新光学技术产量的长周期

  • 高产量制造需要大量投资

  • 没有重大设计赢得的情况下,不愿意承诺使用未经验证的技术


图5展示了使用4G微型LED的1600G-OSFP模块的概念设计,说明了未来光学互连可能实现的低功耗。


为解决这些挑战,行业必须专注于分散风险并保持采用新技术的灵活性。


结论

随着AI系统不断发展并要求更高的性能,互连技术的作用变得越来越关键。虽然高速SERDES技术在可预见的将来仍然是最实用的解决方案,但像线性可插拔光学这样的新兴技术为解决功耗挑战提供了有前景的途径。


在这个快速发展的领域中,成功的关键在于平衡创新和实用性。通过专注于上市时间、分散风险和保持采用新技术的灵活性,行业可以确保互连技术跟上AI系统的快速进步。


参考文献

[1] Bechtolsheim, "Can Interconnects Keep up with AI? A System-Level Perspective," presented at Hot Interconnects 2024.


END


软件申请
我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。

点击左下角"阅读原文"马上申请


欢迎转载


转载请注明出处,请勿修改内容和删除作者信息!




关注我们



                      




关于我们:

深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。


http://www.latitudeda.com/

(点击上方名片关注我们,发现更多精彩内容)

逍遥设计自动化
分享特色工艺半导体(PIC/Power/MEMS)设计自动化解决方案及行业技术资讯,与广大业界朋友、专家共同交流!
 最新文章