引言
在人工智能(AI)和机器学习(ML)快速发展的背景下,对更快、更高效、可扩展的计算基础设施的需求正在飞速增长。随着我们不断突破AI的可能性边界,数据传输和处理方面的新挑战也随之出现。光计算互连(OCI)技术应运而生,这项突破性技术有望彻底改变我们构建和连接AI系统的方式[1]。
挑战:AI基础设施中的输入/输出瓶颈
随着AI模型变得越来越复杂和庞大,计算节点之间需要传输的数据量呈指数级增长。传统的电气互连难以满足这些需求,造成了限制AI系统整体性能的瓶颈。
图1:展示了计算网络互连带宽与AI应用需求之间随时间推移而不断增大的差距。
这张图清楚地显示了计算网络互连在历史上如何落后于AI应用不断演进的带宽需求。随着AI的持续发展,这一差距预计将进一步扩大,创造了对新解决方案的迫切需求。
解决方案:集成光电子技术和OCI
为了应对这些挑战,研究人员和工程师正转向集成光电子技术,特别是光计算互连(OCI)技术。OCI利用光来传输数据,相比传统的电气互连具有几个关键优势:
更高的带宽密度
更低的功耗
更低的延迟
更远的传输距离
图2:展示了不同互连技术的带宽密度和传输距离之间的关系,突出了xPU光学I/O的优势。
这张图描述了通过集成光电子技术实现的xPU光学I/O如何能够同时达到高带宽密度和更远的传输距离,相比传统的电气I/O和可插拔光模块具有明显优势。
OCI在AI基础设施中的应用
OCI技术在AI基础设施中有两个主要应用:
计算Fabric(AI/ML集群)
资源分解
计算Fabric(AI/ML集群)
在AI/ML集群中,OCI可用于连接基于CPU/GPU的服务器,可以是节点到节点的连接,也可以是交换式Fabric配置。这种应用提供了几个优势:
为更大的集群提供增加的带宽
相比铜线互连延长了传输距离
更低的延迟
降低功耗
图3:illustrating了OCI在AI/ML集群计算Fabric中的应用,显示了互连的XPU节点。
这个图表展示了OCI如何用于连接AI/ML集群中的多个XPU(CPU/GPU)节点,实现计算资源之间的高带宽、低延迟通信。
资源分解
OCI还能实现资源分解,允许在多个计算节点之间创建更大的共享资源池。这种方法提供了几个优势:
将资源从封装和插槽限制中解放出来
提高资源利用率和效率
对延迟敏感的连接
高带宽密度
低功耗
图4:展示了OCI在资源分解中的应用,描绘了不同计算资源的分离和池化。
这个图表描绘了OCI如何实现各种计算资源的分解,如CPU/XPU、内存、加速器和存储,允许在AI基础设施中更灵活和高效地利用这些组件。
英特尔的OCI方法
英特尔在OCI开发的前沿,利用其在硅基光电子和先进封装方面的专业知识,为AI基础设施创造了可扩展的解决方案。他们的方法集中在三个关键领域:
在光电子集成芯片(PIC)上集成更多的光电子功能
使用先进封装技术将PIC与最佳的电子集成电路(EIC)集成
将光学Chiplet与主机(XPU,交换机)更紧密地集成
图5:英特尔OCI Chiplet概念图,展示了xPU与OCI模块的集成。
这个图表illustrates了英特尔的OCI Chiplet概念,将xPU(CPU或GPU)与OCI模块紧密集成,实现直接从计算单元进行高带宽、低延迟的光通信。
OCI和AI基础设施的未来
随着AI的持续发展和对更强大计算能力的需求不断增加,OCI技术将在实现下一代AI基础设施中发挥关键作用。英特尔的OCI发展路线图包括:
扩展波长数量
提高线路速率
扩大光纤数量
利用偏振技术
这些进步将使带宽、功率效率和可扩展性持续提升,最终实现更强大、更高效的AI系统。
图6:展示了英特尔OCI扩展路线图,illustrating了随时间推移预计的带宽增长。
这张图展示了英特尔对OCI技术扩展的宏伟计划,预计从2Tbps PCIe5/CXL到未来迭代中的16Tbps UCIe/DWDM,带宽将显著提升。
总结而言,光计算互连(OCI)技术代表了解决现代AI基础设施互连挑战的重大进步。通过利用集成光电子技术的力量,OCI有望提供下一代AI和ML应用所需的带宽、延迟和功率效率。随着英特尔等公司继续投资和开发这项技术,我们可以期待看到越来越强大和高效的AI系统,将推动人工智能的可能性向前发展。
OCI技术的具体实现
英特尔在OCI技术的实现上取得了显著进展。以下是一些关键的技术细节:
集成光电子芯片(PIC)
英特尔开发了一个完全集成的8Tbps光电子集成芯片,具有以下特点:
密集波分复用(DWDM)光接口
8个光纤对 x 8波长 x 64G,符合CW-WDM MSA标准
每个方向4Tbps的吞吐量
标准单模光纤输出,具有低数值孔径,用于无源对准的V形槽
图7:英特尔8Tbps集成光电子芯片的概念图,显示了主要特性。
这个高度集成的PIC包含了完整的光学子系统,包括片上激光源、高效微环调制器、锗光电探测器和半导体光放大器等。这种高度集成不仅提高了性能,还降低了成本和功耗。
异质集成
英特尔采用了晶圆级异质集成技术,将III-V族材料(如InP)与硅基光电子器件集成在一起。这种方法具有以下优势:
性能:最小化耦合损耗
可靠性:激光器可靠性 < 0.1 FIT
可制造性:晶圆级到已知良好管芯(KGD)
成本:无需昂贵的激光器后端
可扩展性:高通道数,资源共享
灵活性:多波长能力,备用
图8:异质集成技术的示意图,显示了III-V族材料与硅基底的集成。
这种异质集成技术已经在超过8百万个部署在超大规模云服务提供商处的PIC中得到验证,包含超过3200万个片上激光器。
OCI Chiplet
英特尔的OCI Chiplet是一个die堆叠,提供使用英特尔硅基光电子技术的光学I/O,可以与xPU共同封装。第一代OCI Chiplet的主要参数包括:
主机接口:PCIe gen5 SerDes接口
光学端:8光纤 x 8波长 x 32G NRZ,通过单模光纤的密集波分复用
总带宽:4 Tbps(双向各2 Tbps)
端到端比特错误率:< 1E-12
能量效率:~5 pJ / bit
图9:OCI Chiplet概念图,显示了xPU与OCI模块的共同封装。
英特尔在OFC 2024上展示的概念CPU与共同封装OCI,展示了这项技术的实际应用。该演示显示,仅就光学链路而言,OCI技术在功率和密度方面分别比可插拔模块提高了3倍以上和5倍以上。
OCI技术的未来发展
英特尔对OCI技术的发展有明确的路线图,包括以下几个关键方向:
波长数量的扩展:从当前的8波长增加到16波长,甚至更多。
线路速率的提升:从32G NRZ提升到64G PAM4,未来可能达到128G或更高。
光纤数量的增加:在保持小型化的同时增加光纤数量,提高总带宽。
利用偏振技术:通过偏振复用进一步提高带宽密度。
这些进步将使OCI技术能够支持更高带宽、更低延迟和更高能效的AI和高性能计算应用。
结论
光计算互连(OCI)技术代表了AI基础设施互连领域的重大突破。通过利用集成光电子技术的优势,OCI提供了下一代AI和ML应用所需的高带宽、低延迟和高能效。随着英特尔等公司持续投资和开发这项技术,我们可以期待看到更强大、更高效的AI系统出现,推动人工智能领域的持续发展。
OCI技术不仅解决了当前AI基础设施面临的挑战,还为未来的发展提供了可扩展的解决方案。通过持续的技术创新和产业合作,OCI有潜力成为支撑下一代AI和高性能计算基础设施的关键技术。
本文详细介绍了OCI技术的原理、应用和发展前景,希望能为读者提供对这一新兴技术的全面了解。随着技术的不断进步,我们可以期待OCI在推动AI和高性能计算领域发展中发挥越来越重要的作用。
参考文献
[1] C. Urricariet, "Optical Compute Interconnect (OCI): A new class of optics for AI infrastructure," presented at LightCounting Webinar: "Special Requirements for Optical Connectivity in AI Clusters," Jul. 30, 2024.
点击左下角"阅读原文"马上申请
欢迎转载
转载请注明出处,请勿修改内容和删除作者信息!
关注我们
关于我们:
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
http://www.latitudeda.com/
(点击上方名片关注我们,发现更多精彩内容)