随着AI工作量及需求不断增加,尤其是参数数量每四到六个月翻一番(比摩尔定律快4倍),数据中心技术需要不断演进。当前的AI模型拥有万亿级参数,正将现有基础设施推向极限。因此,需要更大的容量、更多的资源和更快的互连。
根据Synergy Research Group的数据,为满足生成式 AI 的需求,未来六年,全球超大规模数据中心的容量将增加一倍以上。为跟上这一日益增长的需求,数据中心生态系统依赖PCIe、CXL、HBM等标准来为整个系统提供传输数据所需的性能、容量、带宽和低延迟的框架。
要想成功设计数据中心芯片,快速高效的互连和接口至关重要。设计人员需要实现更快的性能和零延迟、传输大量数据的能力,以及访问高级接口 IP。
为了满足这些要求,数据中心互连需要支持 PCIe 7.0。尽管该标准尚未获得正式批准,但鉴于如今芯片的生产周期长达一年以上,现在将支持PCIe 7.0的IP纳入芯片路线图中至关重要。下图强调了 PCIe 7.0 对于互连提供商的重要性,以及它如何能够为AI/ML架构中的每个互连提供动力。
PCIe 7.0 提供连接多个加速器所需的带宽和加载存储功能,使它们能够有效地处理大型、复杂的 AI 模型。
性能的下一次飞跃
PCIe 7.0 有望提供超大规模数据中心互连扩展所需的带宽。通过提供高达 512 GB/s 带宽的快速安全数据传输,PCIe 7.0基本上确保了数据中心带宽的未来适用性,以缓解数据瓶颈问题。
在接口 IP 的支持下,处理器、加速器、交换机等上的高速接口可以在CPU和加速器之间以及整个计算架构(包括重定时器、存储器、交换机、网络接口卡等)中移动数据。与 PCIe 6.0 相比,PCIe 7.0 增加了支持的通道数量,并将带宽翻倍。凭借更高的信号速率,PCIe 7.0 还降低了延迟,这对于 AI 算法中的实时处理和响应能力以及高性能计算中的高速数据处理至关重要。当然,PCIe 7.0 还保持了与前几代 PCIe 的向后兼容性,确保与现有硬件的互操作性,同时为未来的升级提供可扩展性。表1重点介绍了PCIe各代之间的变化。
表 1. PCIe 版本数据速率比较
保持关键的互操作性
互操作性(以及 PCIe 等成熟标准)的优点在于,它使不同生态系统中的一系列供应商能够协作,确保各自的组件/系统能够可靠地运行。在设计高速芯片时,确保长期无缝运行至关重要。当所有部件都可互操作时,就不必担心过多的停机时间或其他性能问题。
在设计系统之前,甚至在选择任何 IP 之前,设计人员都应该经过全面的评估。对于 PCIe而言,有许多规格、通道、介质、外形尺寸和范围等因素都需要考虑。例如,这些设计通常需要很多高速通道。多个 PCIe 通道同时切换会消耗大量电力,因此电源完整性是一个问题。如果同时切换过程中出现IR压降等问题,将抑制性能的充分发挥。信号完整性分析也很重要,因为系统中 AI 加速器和 CPU 之间传输的信号必须完整无缺。这反过来要求工程师具备电源和信号完整性的专业知识,以理解如何实现最佳性能。
PCIe 的高速数字信号需要进行严格的信号完整性分析,才能在首次流片时获得通过。
为什么现在需要 PCIe 7.0?
未来的 AI 集群必须能够同时部署加速器、交换机、网卡等,以实现数据密集型操作并缓解数据瓶颈。在标准批准之前尽早获得支持 PCIe 7.0 的 IP 对于公司来说至关重要,这样他们才能尽早开始下一代 HPC 和 AI 芯片设计,并确信当这些芯片部署时,将能够提供全球最快芯片所需的带宽和性能。
原文链接:
https://www.5gtechnologyworld.com/why-ai-chips-need-pcie-7-0-ip-interconnects/
【投稿】:SDNLAB原创文章奖励计划