光计算互连（OCI）

文摘 2024-10-24 08:03 上海

引言

在人工智能（AI）和机器学习（ML）快速发展的背景下，对更快、更高效、可扩展的计算基础设施的需求正在飞速增长。随着我们不断突破AI的可能性边界，数据传输和处理方面的新挑战也随之出现。光计算互连（OCI）技术应运而生，这项突破性技术有望彻底改变我们构建和连接AI系统的方式[1]。

挑战：AI基础设施中的输入/输出瓶颈

随着AI模型变得越来越复杂和庞大，计算节点之间需要传输的数据量呈指数级增长。传统的电气互连难以满足这些需求，造成了限制AI系统整体性能的瓶颈。

图1：展示了计算网络互连带宽与AI应用需求之间随时间推移而不断增大的差距。

这张图清楚地显示了计算网络互连在历史上如何落后于AI应用不断演进的带宽需求。随着AI的持续发展，这一差距预计将进一步扩大，创造了对新解决方案的迫切需求。

解决方案：集成光电子技术和OCI

为了应对这些挑战，研究人员和工程师正转向集成光电子技术，特别是光计算互连（OCI）技术。OCI利用光来传输数据，相比传统的电气互连具有几个关键优势：

更高的带宽密度
更低的功耗
更低的延迟
更远的传输距离

图2：展示了不同互连技术的带宽密度和传输距离之间的关系，突出了xPU光学I/O的优势。

这张图描述了通过集成光电子技术实现的xPU光学I/O如何能够同时达到高带宽密度和更远的传输距离，相比传统的电气I/O和可插拔光模块具有明显优势。

OCI在AI基础设施中的应用

OCI技术在AI基础设施中有两个主要应用：

计算Fabric（AI/ML集群）
资源分解

计算Fabric（AI/ML集群）

在AI/ML集群中，OCI可用于连接基于CPU/GPU的服务器，可以是节点到节点的连接，也可以是交换式Fabric配置。这种应用提供了几个优势：

为更大的集群提供增加的带宽
相比铜线互连延长了传输距离
更低的延迟
降低功耗

图3：illustrating了OCI在AI/ML集群计算Fabric中的应用，显示了互连的XPU节点。

这个图表展示了OCI如何用于连接AI/ML集群中的多个XPU（CPU/GPU）节点，实现计算资源之间的高带宽、低延迟通信。

资源分解

OCI还能实现资源分解，允许在多个计算节点之间创建更大的共享资源池。这种方法提供了几个优势：

将资源从封装和插槽限制中解放出来
提高资源利用率和效率
对延迟敏感的连接
高带宽密度
低功耗

图4：展示了OCI在资源分解中的应用，描绘了不同计算资源的分离和池化。

这个图表描绘了OCI如何实现各种计算资源的分解，如CPU/XPU、内存、加速器和存储，允许在AI基础设施中更灵活和高效地利用这些组件。

英特尔的OCI方法

英特尔在OCI开发的前沿，利用其在硅基光电子和先进封装方面的专业知识，为AI基础设施创造了可扩展的解决方案。他们的方法集中在三个关键领域：

在光电子集成芯片（PIC）上集成更多的光电子功能
使用先进封装技术将PIC与最佳的电子集成电路（EIC）集成
将光学Chiplet与主机（XPU，交换机）更紧密地集成

图5：英特尔OCI Chiplet概念图，展示了xPU与OCI模块的集成。

这个图表illustrates了英特尔的OCI Chiplet概念，将xPU（CPU或GPU）与OCI模块紧密集成，实现直接从计算单元进行高带宽、低延迟的光通信。

OCI和AI基础设施的未来

随着AI的持续发展和对更强大计算能力的需求不断增加，OCI技术将在实现下一代AI基础设施中发挥关键作用。英特尔的OCI发展路线图包括：

扩展波长数量
提高线路速率
扩大光纤数量
利用偏振技术

这些进步将使带宽、功率效率和可扩展性持续提升，最终实现更强大、更高效的AI系统。

图6：展示了英特尔OCI扩展路线图，illustrating了随时间推移预计的带宽增长。

这张图展示了英特尔对OCI技术扩展的宏伟计划，预计从2Tbps PCIe5/CXL到未来迭代中的16Tbps UCIe/DWDM，带宽将显著提升。

总结而言，光计算互连（OCI）技术代表了解决现代AI基础设施互连挑战的重大进步。通过利用集成光电子技术的力量，OCI有望提供下一代AI和ML应用所需的带宽、延迟和功率效率。随着英特尔等公司继续投资和开发这项技术，我们可以期待看到越来越强大和高效的AI系统，将推动人工智能的可能性向前发展。

OCI技术的具体实现

英特尔在OCI技术的实现上取得了显著进展。以下是一些关键的技术细节：

集成光电子芯片（PIC）
英特尔开发了一个完全集成的8Tbps光电子集成芯片，具有以下特点：
密集波分复用（DWDM）光接口
8个光纤对 x 8波长 x 64G，符合CW-WDM MSA标准
每个方向4Tbps的吞吐量
标准单模光纤输出，具有低数值孔径，用于无源对准的V形槽

图7：英特尔8Tbps集成光电子芯片的概念图，显示了主要特性。

这个高度集成的PIC包含了完整的光学子系统，包括片上激光源、高效微环调制器、锗光电探测器和半导体光放大器等。这种高度集成不仅提高了性能，还降低了成本和功耗。

异质集成

英特尔采用了晶圆级异质集成技术，将III-V族材料（如InP）与硅基光电子器件集成在一起。这种方法具有以下优势：

性能：最小化耦合损耗
可靠性：激光器可靠性 < 0.1 FIT
可制造性：晶圆级到已知良好管芯（KGD）
成本：无需昂贵的激光器后端
可扩展性：高通道数，资源共享
灵活性：多波长能力，备用

图8：异质集成技术的示意图，显示了III-V族材料与硅基底的集成。

这种异质集成技术已经在超过8百万个部署在超大规模云服务提供商处的PIC中得到验证，包含超过3200万个片上激光器。

OCI Chiplet

英特尔的OCI Chiplet是一个die堆叠，提供使用英特尔硅基光电子技术的光学I/O，可以与xPU共同封装。第一代OCI Chiplet的主要参数包括：

主机接口：PCIe gen5 SerDes接口
光学端：8光纤 x 8波长 x 32G NRZ，通过单模光纤的密集波分复用
总带宽：4 Tbps（双向各2 Tbps）
端到端比特错误率：< 1E-12
能量效率：~5 pJ / bit

图9：OCI Chiplet概念图，显示了xPU与OCI模块的共同封装。

英特尔在OFC 2024上展示的概念CPU与共同封装OCI，展示了这项技术的实际应用。该演示显示，仅就光学链路而言，OCI技术在功率和密度方面分别比可插拔模块提高了3倍以上和5倍以上。

OCI技术的未来发展

英特尔对OCI技术的发展有明确的路线图，包括以下几个关键方向：

波长数量的扩展：从当前的8波长增加到16波长，甚至更多。
线路速率的提升：从32G NRZ提升到64G PAM4，未来可能达到128G或更高。
光纤数量的增加：在保持小型化的同时增加光纤数量，提高总带宽。
利用偏振技术：通过偏振复用进一步提高带宽密度。

这些进步将使OCI技术能够支持更高带宽、更低延迟和更高能效的AI和高性能计算应用。

结论

光计算互连（OCI）技术代表了AI基础设施互连领域的重大突破。通过利用集成光电子技术的优势，OCI提供了下一代AI和ML应用所需的高带宽、低延迟和高能效。随着英特尔等公司持续投资和开发这项技术，我们可以期待看到更强大、更高效的AI系统出现，推动人工智能领域的持续发展。

OCI技术不仅解决了当前AI基础设施面临的挑战，还为未来的发展提供了可扩展的解决方案。通过持续的技术创新和产业合作，OCI有潜力成为支撑下一代AI和高性能计算基础设施的关键技术。

本文详细介绍了OCI技术的原理、应用和发展前景，希望能为读者提供对这一新兴技术的全面了解。随着技术的不断进步，我们可以期待OCI在推动AI和高性能计算领域发展中发挥越来越重要的作用。

参考文献

[1] C. Urricariet, "Optical Compute Interconnect (OCI): A new class of optics for AI infrastructure," presented at LightCounting Webinar: "Special Requirements for Optical Connectivity in AI Clusters," Jul. 30, 2024.

- END -

软件申请

我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用，PIC Studio都可提升您的工作效能。

点击左下角"阅读原文"马上申请

欢迎转载

转载请注明出处，请勿修改内容和删除作者信息！

关注我们

关于我们：

深圳逍遥科技有限公司（Latitude Design Automation Inc.）是一家专注于半导体芯片设计自动化（EDA）的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件，提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio，分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务，广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作，推动特色工艺半导体产业链发展，致力于为客户提供前沿技术与服务。

http://www.latitudeda.com/

（点击上方名片关注我们，发现更多精彩内容）

IT奶爸

实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。

最新文章

聊一聊DDR（12）-DRAM的CS Training Mode(CSTM)

从Mooncake分离式大模型推理架构谈谈RDMA at Scale

聊一聊DDR（11）-DDR频率

液冷，网络，与整机柜 -- Intel IPDC 2024见闻

他山之石，集思广益 | IT奶爸文章奖励计划

英伟达，过热了么？

一文读懂 SFP家族

喜迎双11之月亮湖 -- 热辣薯条(Hot Chips 2024)

谷歌、康宁大超预期

Cerebras处理器架构细节

光计算互连（OCI）

AI 网络背景下 RDMA 的 Why， What & How 以及 Next

“E人”外卖小哥的“I人化”：Gaudi的RoCE优化实现

ETH-X项目及交换/计算节点结构散热设计介绍

近文小结与感谢 - 寄小读者

NVL机架的“中杯，大杯和特大杯”

热辣薯条(Hot Chips 2024)- 英特尔的至强D

RDMA与外卖小哥

英伟达在OCP，对于MGX机架的介绍

Load/Store over ETH乎？

先从一个基础的性能指标说起——CPU频率

CPU架构 -- Power

热辣薯条(Hot Chips 2024) - OpenAI的Scaling

热辣薯条(Hot Chips 2024) - 特斯拉的TTPoE

热辣薯条(Hot Chips 2024) - 博通的CPO

热辣薯条(Hot Chips 2024) - 英特尔的Gaudi

热辣薯条(Hot Chips 2024) - 英伟达的Blackwell

40+AI芯片/Chiplet/RISC-V企业已确认演讲！生成式AI时代最火AI芯片峰会9月举办

向左走，向右走 — 聊聊50亿美元的ZT收购

CPU架构 - CPU的各级缓存

NVL的硬件架构分析-（1）

Aurora Exascale Architecture（PPT）2024

暴力美学背后的细腻布局

Llama 3技术报告解读(1)- AI基础设施和并行策略

LLM推理需要什么样的硬件平台？（2）

LLM推理需要什么样的硬件平台？（1）

音乐，小说，与计算题 - 4： NVL72要出X86版本？！

再来谈谈大模型的分离式推理架构

Transformer架构详解文章与视频

H20跨入百万片俱乐部？

大模型的聚光灯照向以太网: ETH-X的scale up网络

大模型的聚光灯照向网络——当超节点遇上超节点

再谈谈三万亿的破绽

烈日下的绿色森林 —— 英特尔的能效核

暴力美学的show time —— 皮衣教主的Computex 2024 keynote

AI/ML中使用的集体操作（collectives），以太网卸载以及硬件实现

音乐，视频，与计算题 - 3

生成式AI的GPU网络 - 2

音乐，视频，与计算题 - 2

生成式AI的GPU网络

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉