计算引擎(核心)的性能提升显著快于内存子系统和I/O子系统的性能提升造成不可避免的剪刀差
如果我们能在两年或者更好的是四年内不再向机器中增加更快的计算引擎,服务器设计会有很大改进。这样我们就可以让内存子系统和I/O子系统赶上来,更好地利用这些计算引擎,同时也需要更少的内存组和I/O卡来维持这些计算引擎的需求。
当然,这种情况不太可能发生。
实际上,从2010年推出的8 Gb/秒的PCI-Express 3.0外围互连到本应在2013年推出但直到2017年才真正投入使用的16 Gb/秒的PCI-Express 4.0互连,这四年的延迟已经造成了计算引擎实际需要的I/O带宽和PCI-Express互连所能提供的带宽之间的不匹配。
这种不匹配一直被延续下来,导致PCI-Express始终落后。这反过来迫使公司为他们的加速器开发自己的互连技术,而不是使用通用的PCI-Express互连,这本可以开放服务器设计并平衡I/O竞争环境。因此,Nvidia不得不创造NVLink端口,然后是NV Switch开关,再到NVLink Switch fabric,以将GPU集群中的内存串联起来,并最终将GPU与其“Grace” Arm服务器CPU链接起来。AMD也必须创建Infinity Fabric互连来链接CPU,然后是CPU到GPU,这也被用于插座内部连接芯片。
据我们所知,英特尔在一些Xeon处理器上的集成PCI-Express 3.0控制器出现问题后,对PCI-Express 4.0的推出拖拖拉拉。但公平地说,跳转到PCI-Express 4.0还涉及到其他需要解决的技术问题,就像以太网路线图在超过10 Gb/秒时遇到的问题一样,它不能直接跳到100 Gb/秒速度,而必须经历40 Gb/秒的中间步骤,然后是基于相同的10 Gb/秒通道信号的高成本、高功率100 Gb/秒以太网实现,直到超大规模计算中心和云服务提供商(以及博通和Mellanox)说服IEEE采用更便宜的25 Gb/秒通道信号。
事情总是在发生,PCI-Express路线图就是经历了许多事情的一个例子。正如你在下面看到的,我们去年开始研究PCI-Express 7.0规范的工作:
已经有争论说,PCI-Express路线图中的外围卡、retimer重定时器和交换机的更新节奏需要与计算引擎发布的节奏相匹配,并进一步指出,根据规格,我们实际上需要PCI-Express 7.0今天就已经投入使用,而这个规格甚至要到明年才会被批准。但考虑到PCI-Express 6.0是首个使用PAM-4信号和FLIT低延迟编码的版本,直接从已经稳定的NRZ信号的PCI-Express 5.0跳跃到预期的PCI-Express 7.0的更快PAM-4/FLIT组合是不现实的。这种需求的迫切程度几乎和它的可行性成正比。所以这一块如果谁家可以快速突破就会吃下整个市场,赢家通吃,所以笔者认为大家一定要密切跟踪。
博通
没有人比Broadcom更了解这一点,该公司生产PCI-Express交换机和扩展铜线范围的重定时器,这得益于Avago在2014年6月收购PLX技术公司,以及Avago在2015年5月收购Broadcom。该公司正在准备推出其“Atlas 3”一代PCI-Express交换机和重定时器,这些设备基于“Talon 5”系列SerDes,实现了PAM-4信号。Talon 5 SerDes与在其“Tomahawk 5”和“Jericho 3-AI”以太网交换机ASIC家族中使用的“Peregrine” PAM-4 SerDes有关,但具有独特性,这是因为PCI-Express是一个绝对无损的协议,同时还具有更严格的低延迟要求。
为了帮助服务器制造商和外围设备制造商朝同一个方向努力,Broadcom开始公布其PCI-Express交换机和重定时器的路线图,这是一个好事。我们在下面展示了这一路线图,并在我们了解的地方添加了代号:
有趣的是,Broadcom原本打算退出重定时器业务,但最终因客户和合作伙伴的要求而重新投入其中,这次的故事主要是揭示了PCI-Express 5.0和6.0代中Vantage 5和6系列PCI-Express重定时器的一些细节。
“我们总是希望重定时器能作为交换机的伴侣芯片存在。”Broadcom数据中心解决方案组的副总裁兼总经理Jas Tremblay向《下一代平台》表示,“我们曾相信在PCI-Express第五代中,重定时器将成为一种商品,并且市场上会有三到四个供应商能成功推出这些产品。因此,我们将所有努力都集中在交换机和其他更复杂的PCI-Express 5.0产品上。但我们完全错了,客户因为重定时器的难度远超预期而回到了我们这里。我们必须确保交换机和重定时器的运作,并且它们非常稳定,但实际上我们还必须确保它们具备仪器监控功能,以便我们能帮助系统供应商和云服务提供商准确地了解设备中发生的情况。”
重定时器正在成为PCI-Express硬件和固件堆栈中越来越重要的部分。这充分说明了重定时器的重要性,在整个网络互联世界里,不管是DAC、AEC还是AOC都需要重定时器的存在。首先,服务器的复杂性在过去二十年里已经远超PCI-Express 3.0统治世界的时代,那时我们只需要(至少按照英特尔的说法)更多的通道而不是更快的通道。看看一台通用服务器和一台AI服务器在节点内的PCI-Express互连方面的差异:
我们已经从使用少量设备的点对点互连——一两个磁盘控制器、一个网络控制器,或许还有一些其他专用外设——挂在PCI-Express总线上,转变为一个用于连接CPU、加速器、网络接口、闪存存储,以及即将推出的CXL扩展内存的PCI-Express交换结构。未来,我们甚至可能会看到CPU通过运行CXL协议的PCI-Express链接相连,而不是使用专有的NUMA互连,或者更可能的是,像AMD和Broadcom正在为未来的CPU和GPU研发的基于PCI-Express/CXL之上的专有覆盖层。
但这里还有另一个问题,这就是重定时器的应用场景。
每当带宽翻倍时,PCI-Express信号能在铜线上传输的距离就会减半。这里就充分说明了在未来,光纤一定会取代现有铜线。那么在何时买入CPO相关的标的就值得思考了。重定时器用来延长铜线的长度;线越长,需要的重定时器就越多。由于延迟问题和PCI-Express作为CPU总线扩展的事实,你尽量不让这些线路过长。但如果你想要将PCI-Express结构延伸到几个机架,甚至是整行设备,对重定时器的需求将越来越大。
Broadcom最新的Vantage 5和Vantage 6重定时器只增加了6纳秒的延迟,以提升PCI-Express 6.0信号的长度,这看起来是一个相当低的开销,因为这样的PCI-Express结构可以避免在机架之间使用InfiniBand或以太网结构的需要。作为致力于使以太网超越InfiniBand的Ultra Ethernet Consortium的创始成员,以及其Jericho 3-AI深缓冲交换ASIC是这一努力的第一步,Broadcom希望在节点内部、可能是机架之间的节点之间实现PCI-Express交换,而跨机架和行之间则使用以太网。我们将看到客户将如何选择。看起来,很多事情将取决于重定时器和用于制造集群的交换层级——以及PCI-Express结构与InfiniBand和以太网相比的总体成本。
现在,让我们来看看现代AI服务器内部的复杂结构:
这是一张名为“Grand Teton”的AI服务器的方框图,该服务器是Meta Platforms在2022年10月作为Open Compute Project设计公开的,并于2023年在社交网络上投入生产。在Grand Teton服务器中,有一对PCI-Express交换机用于连接四个CPU与以太网NIC、闪存存储和CXL内存,重定时器增加了外设与交换机之间连接的长度。还有另一对PCI-Express ASIC用于连接八个GPU以共享内存。Grand Teton基于PCI-Express 5.0芯片,意味着使用了Vantage重定时器和Atlas 2交换ASIC。每个ASIC拥有114条PCI-Express 5.0信道,这提供了箱内所有设备的57 TB/sec的总带宽。这里有一个不同的——可能更准确的——方框图,展示了Grand Teton系统中交换机和重定时器的使用情况,来源于其OCP规格说明:
如你所见,重定时器实际上用于延长PCI-Express交换机与GPU之间的链接,而其他外设则直接连接到PCI-Express交换机。这与Broadcom图表所暗示的不完全相同。交换机和重定时器的数量相同,但它们的拓扑结构不同。此外,尽管有一个次级的PCI-Express 4.0交换机将GPU连接到其中一个PCI-Express 5.0交换机,可能作为管理互联或作为数据返回CPU的方式而不必再通过重定时器,NVSwitch互连仍用于连接GPU之间。这是一个有趣的示意图。
回到重定时器的话题。以下是与PCI-Express 5.0(“Atlas 2”)和PCI-Express 6.0(“Atlas 3”)交换ASIC配对使用的Vantage 5和Vantage 6重定时器的显著特性:
因为使用了64 Gb/sec的PAM-4信号,Vantage 6重定时器的运行温度略高于仅使用32 Gb/sec NRZ信号的Vantage 5重定时器。两种重定时器都使用相同的Talon 5 SerDes,这支持两种信号方式,而且两种Vantage芯片都采用台湾半导体制造公司的5纳米工艺刻制。
目前尚不清楚为何在连接到使用64 Gb/sec PAM-4信号的Broadcom SerDes时,没有为Vantage 6提供频道性能规格。也许Broadcom目前还在保留这些信息。显然,Broadcom希望为客户提供端到端的连通性——甚至希望有机会在某些设计中替换NVSwitch,可以想象的是,超级计算中心和云构建者以及全球的高性能计算中心也希望尽快使用PCI-Express来实现这一点。其实,时至今日已经有相当多的厂商在用PCIe来替代NVSwitch了。
PCI-Express芯片的组合使用其在重定时器和交换机上的Talon 5 SerDes提供了40%更大的传输范围,这比PCI-Express 5.0规范要求的信号提高了12 dB。Talon 5 SerDes的架构与缩小到5纳米的工艺相结合——相比竞争对手制造的PCI-Express交换机和重定时器使用的7纳米工艺——还降低了50%的功耗。
顺便说一下,Broadcom确实考虑过直接从PCI-Express 6.0跳到PCI-Express 8.0,完全跳过PCI-Express 7.0,以尝试使计算和I/O重新获得更好的平衡。但是,需要与Broadcom一起跳过这一长距离的计算引擎制造商、服务器制造商和外设制造商实在是太多了,这样做并不可行。如果Broadcom做了这样的跳跃,客户最终还是会在其PCI-Express 8.0设备中插入PCI-Express 7.0设备,并以较慢的兼容模式运行它们。
专注分享财经信息的专业社区,喜欢请点击下方名片关注。
免责声明:本文材料整理于公司公告、新闻、机构公开研报及社交媒体网络等,对文中所涉专业及个股均不构成投资建议。市场有风险,投资需谨慎。图文如有侵权或违反信批规则请后台留言联系删除。
文章精彩,防止走失,可关注、转发、投币打赏。