XPU的应运而生
随着人工智能、大数据分析、高性能计算等领域的快速发展,传统的单一处理器架构逐渐暴露出局限性,无法满足多样的工作负载需求。为此,英特尔于2020年提出一个旨在提供跨平台的高效能处理能力的综合性计算架构——XPU。其核心优势在于其能够整合传统的CPU、高性能的GPU以及专用的加速器如AI处理器等,实现一种全新的、高度灵活的计算平台。
具体来说,XPU的主要技术优势包括:
更高的处理效率:通过在同一芯片或系统内部署多种处理单元,XPU能够在不同任务之间实现更高效的资源分配,大幅提升了系统的整体性能。
优化的能源消耗:XPU的设计注重能效比,能够在保证高性能的同时,降低功耗,延长设备的使用寿命,并减少散热需求。
对不同工作负载的灵活适应能力:XPU可以根据具体的应用场景,动态调整各处理单元的工作模式,确保在各种工作负载下都能保持最佳性能。
XPU技术不限于单一芯片的形式,它可以是集成在单一系统级芯片(SoC)上的多种处理单元,也可以是通过多芯片模块(MCM)技术组合的多个芯片。
XPU不仅是一种新的硬件单元,更是一种全新的计算架构理念。通过在同一芯片或系统内部署CPU、GPU、AI加速器等多种处理单元,XPU能够在保持各单元专长的同时,通过高效的交互与协调,大幅提升系统的整体性能和能效。
这种设计使得XPU特别适用于需要处理大量数据和复杂算法的现代计算任务,如大数据分析、机器学习、和高性能计算等。此外,XPU也支持Chiplet技术,即通过多个小芯片(Chiplets)的组合来构建更大规模的计算系统。
在全球范围内,许多领先的半导体公司已经开发了XPU或类XPU的解决方案。Intel推出了其XPU生态,通过oneAPI软件桥接不同类型的处理单元,旨在创建一个无缝、高效的开发环境。AMD推出的Instinct MI300系列、Apple的M1、M2芯片虽然没有明确使用“XPU”这个名称,但其产品融合了CPU、GPU等多种计算架构,符合XPU的特点。
现阶段,企业正在进一步探索能够支撑大规模XPU集成的先进技术。
F2F 3.5D封装技术
2024年12月,博通宣布专门为下一代AI XPU推出3.5D eXtreme Dimension System in Package(XDSiP)平台,采用了业界首创的面对面(Face-to-Face,F2F)的3.5D封装技术。该技术通过将3D硅堆叠与2.5D封装结合,实现了超过6000mm²的硅片和高达12个高带宽内存(HBM)堆叠集成。相比传统的面对背(F2B)技术在互连密度和功耗效率上都有显著提升。这种创新的堆叠方式直接连接上下晶片的顶部金属层,提供密集且可靠的连接,具有最小的电气干扰和出色的机械强度。3.5D XDSiP平台包括IP和专有设计流程,可高效地对电源、时钟和信号互连的3D芯片堆叠进行设计。
互联密度显著提升:相较于传统的F2B技术,3.5D XDSiP在堆叠芯片之间实现了信号密度的七倍增长。
功耗效率卓越:通过采用3D高带宽连接器(HCB)替代平面芯片间物理层(PHY),3.5D XDSiP在芯片间接口上的功耗降低了十倍。
延迟大幅降低:3.5D堆栈内的计算、存储及输入输出(I/O)组件之间的延迟得到了最小化。
封装尺寸紧凑:3.5D XDSiP使得中介层和封装尺寸得以减小,从而降低了成本并改善了封装的翘曲问题。
Custom HBM新型互连
与此同时,Marvell也在12月宣布联合三大HBM内存制造商Micron、Samsung和SK hynix面向超大规模数据中心客户,推出“定制HBM计算架构”,旨在通过优化HBM与XPU之间的互连方式,为下一代XPU提供更高的内存密度,并改进整体计算效率和功耗。
Marvell定制HBM计算架构图
HBM通过硅中介层上的标准线路与CPU或XPU连接,XPU通常包含两个或多个由DRAM堆叠和基底裸片组成的HBM堆栈。Marvell开发了一种新的自定义接口。这种接口占用较少的芯片空间,可实现同等空间内部署更多的HBM堆叠,增加芯片的内存带宽和容量,同时将接口功耗降低多达70%。
Marvell CHBM的优势
下一代超大规模AI集群将是100K GPU xAI Colossus集群的10倍甚至更多。因此,面向未来计算平台,无论是XPU还是Chiplet系统集成,都将更加注重系统级的集成与优化,走向大规模集成的未来。我们期待通过架构的创新与变革,开启一个全新的计算时代,为人类社会带来更加智能、高效、可持续的计算解决方案。
- END -