光计算互连(OCI)

文摘   2024-10-24 08:03   上海  

引言

在人工智能(AI)和机器学习(ML)快速发展的背景下,对更快、更高效、可扩展的计算基础设施的需求正在飞速增长。随着我们不断突破AI的可能性边界,数据传输和处理方面的新挑战也随之出现。光计算互连(OCI)技术应运而生,这项突破性技术有望彻底改变我们构建和连接AI系统的方式[1]。


挑战:AI基础设施中的输入/输出瓶颈

随着AI模型变得越来越复杂和庞大,计算节点之间需要传输的数据量呈指数级增长。传统的电气互连难以满足这些需求,造成了限制AI系统整体性能的瓶颈。


图1:展示了计算网络互连带宽与AI应用需求之间随时间推移而不断增大的差距。


这张图清楚地显示了计算网络互连在历史上如何落后于AI应用不断演进的带宽需求。随着AI的持续发展,这一差距预计将进一步扩大,创造了对新解决方案的迫切需求。

解决方案:集成光电子技术和OCI

为了应对这些挑战,研究人员和工程师正转向集成光电子技术,特别是光计算互连(OCI)技术。OCI利用光来传输数据,相比传统的电气互连具有几个关键优势:

  • 更高的带宽密度

  • 更低的功耗

  • 更低的延迟

  • 更远的传输距离


图2:展示了不同互连技术的带宽密度和传输距离之间的关系,突出了xPU光学I/O的优势。


这张图描述了通过集成光电子技术实现的xPU光学I/O如何能够同时达到高带宽密度和更远的传输距离,相比传统的电气I/O和可插拔光模块具有明显优势。

OCI在AI基础设施中的应用

OCI技术在AI基础设施中有两个主要应用:

  1. 计算Fabric(AI/ML集群)

  2. 资源分解


计算Fabric(AI/ML集群)

在AI/ML集群中,OCI可用于连接基于CPU/GPU的服务器,可以是节点到节点的连接,也可以是交换式Fabric配置。这种应用提供了几个优势:

  • 为更大的集群提供增加的带宽

  • 相比铜线互连延长了传输距离

  • 更低的延迟

  • 降低功耗


图3:illustrating了OCI在AI/ML集群计算Fabric中的应用,显示了互连的XPU节点。


这个图表展示了OCI如何用于连接AI/ML集群中的多个XPU(CPU/GPU)节点,实现计算资源之间的高带宽、低延迟通信。


资源分解

OCI还能实现资源分解,允许在多个计算节点之间创建更大的共享资源池。这种方法提供了几个优势:

  • 将资源从封装和插槽限制中解放出来

  • 提高资源利用率和效率

  • 对延迟敏感的连接

  • 高带宽密度

  • 低功耗


图4:展示了OCI在资源分解中的应用,描绘了不同计算资源的分离和池化。


这个图表描绘了OCI如何实现各种计算资源的分解,如CPU/XPU、内存、加速器和存储,允许在AI基础设施中更灵活和高效地利用这些组件。

英特尔的OCI方法

英特尔在OCI开发的前沿,利用其在硅基光电子和先进封装方面的专业知识,为AI基础设施创造了可扩展的解决方案。他们的方法集中在三个关键领域:

  1. 在光电子集成芯片(PIC)上集成更多的光电子功能

  2. 使用先进封装技术将PIC与最佳的电子集成电路(EIC)集成

  3. 将光学Chiplet与主机(XPU,交换机)更紧密地集成


图5:英特尔OCI Chiplet概念图,展示了xPU与OCI模块的集成。


这个图表illustrates了英特尔的OCI Chiplet概念,将xPU(CPU或GPU)与OCI模块紧密集成,实现直接从计算单元进行高带宽、低延迟的光通信。

OCI和AI基础设施的未来

随着AI的持续发展和对更强大计算能力的需求不断增加,OCI技术将在实现下一代AI基础设施中发挥关键作用。英特尔的OCI发展路线图包括:

  • 扩展波长数量

  • 提高线路速率

  • 扩大光纤数量

  • 利用偏振技术


这些进步将使带宽、功率效率和可扩展性持续提升,最终实现更强大、更高效的AI系统。


图6:展示了英特尔OCI扩展路线图,illustrating了随时间推移预计的带宽增长。


这张图展示了英特尔对OCI技术扩展的宏伟计划,预计从2Tbps PCIe5/CXL到未来迭代中的16Tbps UCIe/DWDM,带宽将显著提升。


总结而言,光计算互连(OCI)技术代表了解决现代AI基础设施互连挑战的重大进步。通过利用集成光电子技术的力量,OCI有望提供下一代AI和ML应用所需的带宽、延迟和功率效率。随着英特尔等公司继续投资和开发这项技术,我们可以期待看到越来越强大和高效的AI系统,将推动人工智能的可能性向前发展。

OCI技术的具体实现

英特尔在OCI技术的实现上取得了显著进展。以下是一些关键的技术细节:

  • 集成光电子芯片(PIC)

  • 英特尔开发了一个完全集成的8Tbps光电子集成芯片,具有以下特点:

  • 密集波分复用(DWDM)光接口

  • 8个光纤对 x 8波长 x 64G,符合CW-WDM MSA标准

  • 每个方向4Tbps的吞吐量

  • 标准单模光纤输出,具有低数值孔径,用于无源对准的V形槽


图7:英特尔8Tbps集成光电子芯片的概念图,显示了主要特性。


这个高度集成的PIC包含了完整的光学子系统,包括片上激光源、高效微环调制器、锗光电探测器和半导体光放大器等。这种高度集成不仅提高了性能,还降低了成本和功耗。

异质集成

英特尔采用了晶圆级异质集成技术,将III-V族材料(如InP)与硅基光电子器件集成在一起。这种方法具有以下优势:

  • 性能:最小化耦合损耗

  • 可靠性:激光器可靠性 < 0.1 FIT

  • 可制造性:晶圆级到已知良好管芯(KGD)

  • 成本:无需昂贵的激光器后端

  • 可扩展性:高通道数,资源共享

  • 灵活性:多波长能力,备用


图8:异质集成技术的示意图,显示了III-V族材料与硅基底的集成。


这种异质集成技术已经在超过8百万个部署在超大规模云服务提供商处的PIC中得到验证,包含超过3200万个片上激光器。

OCI Chiplet

英特尔的OCI Chiplet是一个die堆叠,提供使用英特尔硅基光电子技术的光学I/O,可以与xPU共同封装。第一代OCI Chiplet的主要参数包括:

  • 主机接口:PCIe gen5 SerDes接口

  • 光学端:8光纤 x 8波长 x 32G NRZ,通过单模光纤的密集波分复用

  • 总带宽:4 Tbps(双向各2 Tbps)

  • 端到端比特错误率:< 1E-12

  • 能量效率:~5 pJ / bit


图9:OCI Chiplet概念图,显示了xPU与OCI模块的共同封装。


英特尔在OFC 2024上展示的概念CPU与共同封装OCI,展示了这项技术的实际应用。该演示显示,仅就光学链路而言,OCI技术在功率和密度方面分别比可插拔模块提高了3倍以上和5倍以上。

OCI技术的未来发展

英特尔对OCI技术的发展有明确的路线图,包括以下几个关键方向:

  • 波长数量的扩展:从当前的8波长增加到16波长,甚至更多。

  • 线路速率的提升:从32G NRZ提升到64G PAM4,未来可能达到128G或更高。

  • 光纤数量的增加:在保持小型化的同时增加光纤数量,提高总带宽。

  • 利用偏振技术:通过偏振复用进一步提高带宽密度。


这些进步将使OCI技术能够支持更高带宽、更低延迟和更高能效的AI和高性能计算应用。


结论

光计算互连(OCI)技术代表了AI基础设施互连领域的重大突破。通过利用集成光电子技术的优势,OCI提供了下一代AI和ML应用所需的高带宽、低延迟和高能效。随着英特尔等公司持续投资和开发这项技术,我们可以期待看到更强大、更高效的AI系统出现,推动人工智能领域的持续发展。


OCI技术不仅解决了当前AI基础设施面临的挑战,还为未来的发展提供了可扩展的解决方案。通过持续的技术创新和产业合作,OCI有潜力成为支撑下一代AI和高性能计算基础设施的关键技术。


本文详细介绍了OCI技术的原理、应用和发展前景,希望能为读者提供对这一新兴技术的全面了解。随着技术的不断进步,我们可以期待OCI在推动AI和高性能计算领域发展中发挥越来越重要的作用。

参考文献

[1] C. Urricariet, "Optical Compute Interconnect (OCI): A new class of optics for AI infrastructure," presented at LightCounting Webinar: "Special Requirements for Optical Connectivity in AI Clusters," Jul. 30, 2024.



- END -



软件申请
我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。

点击左下角"阅读原文"马上申请


欢迎转载


转载请注明出处,请勿修改内容和删除作者信息!




关注我们



                      




关于我们:

深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。


http://www.latitudeda.com/

(点击上方名片关注我们,发现更多精彩内容)







IT奶爸
实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。
 最新文章