2024 Hot Chips|Enfabrica ACF-S 超大规模网络
科技
科技
2024-09-12 08:08
江苏
芝能智芯出品在2024年的Hot Chips会议上,Enfabrica推出了其最新的旗舰产品——ACF-S超级网卡(SuperNIC)。这款网卡以8 Tbps的吞吐量刷新了网络速度和带宽能力的记录,为未来数据中心和超大规模计算集群提供了更为强大的基础设施。Enfabrica ACF-S的技术特点和创新点,我们可以一起来看看。Enfabrica专注于解决高端网络和数据中心面临的瓶颈问题,随着数据密集型应用的普及,如AI、机器学习和大数据分析,对网络吞吐量和带宽的需求正以指数级增长,400GbE网络在处理这些工作负载时已显现出不足,即使即将到来的800GbE和1.6 Tbps网络在未来几年内也可能难以满足需求。为了解决这些问题,Enfabrica提出了革命性的解决方案:ACF-S超级网卡。这款产品不仅仅是对传统网络接口卡(NIC)的简单升级,而是彻底改变了网络与计算资源之间的通信模式,为下一代数据中心的建设奠定了基础。Enfabrica ACF-S的核心理念是结合纵向扩展(Scale-Up)和横向扩展(Scale-Out)的接口,形成一个多维度的高带宽域。传统网络架构通常依赖于标准以太网网络和PCIe交换机来实现扩展,但这种方式会遇到带宽瓶颈和延迟管理的问题。ACF-S通过将通信导向最佳路径,同时支持跨节点的高速内部通信(IPC)和远程过程调用(RPC),有效优化了数据传输效率。
与传统NIC不同,ACF-S采用多对多的通信模型。这种模型允许多个GPU、AI加速器和其他计算单元同时连接并通信,极大地提升了网络的灵活性和扩展性。
这种创新架构使得数据中心能够在单个设备上实现更大的吞吐量,并支持更复杂的计算拓扑。ACF-S的另一个显著特点是支持Compute Express Link(CXL)。这种新兴的互连标准为内存和计算资源提供了低延迟、高带宽的连接方式,使得不同计算单元可以共享内存资源,而无需主机参与。
ACF-S的这一特性使其在高性能计算、内存密集型应用场景中具有巨大的优势。数据的传输通过交叉开关、虚拟队列和多组缓冲区进行,这种设计不仅提升了数据传输速度,还有效降低了延迟。此外,基础设施CPU通过描述符来定义内存形状、标头字节和网络策略,使得数据流的处理更加灵活和高效。ACF-S使用了先进的5nm工艺制造,集成了大量的I/O接口。其设计包括32个100GbE通道,这些通道可以馈入交换机,并通过NIC管道将网络通信工作转化为内存操作。这种高密度集成使得单个ACF-S设备能够替代多个传统NIC和PCIe交换机,从而简化了数据中心的基础设施配置和管理。在传统网络架构中,单个交换层通常只能支持32个GPU,而ACF-S则能够在单一交换层上支持多达1024个GPU。更进一步,借助ACF-S的扩展性,其交换网络在两层拓扑下可以扩展到支持524,288个加速器。这为超大规模的AI训练集群和高性能计算提供了前所未有的支持。
ACF-S支持GPU和网络之间的多链路通信,这意味着如果一条链路出现故障,数据包可以通过另一条路径重传,从而提高了系统的整体可靠性和稳定性。这一特性对于那些关键任务和容错要求较高的计算任务来说尤为重要。对于云计算和数据中心应用,ACF-S可以显著提高资源的利用率和计算效率。通过将聚合点从传统的PCIe和网络交换机转移到更大的单一NIC设备,ACF-S减少了网络和计算资源之间的瓶颈,适用于需要高带宽、低延迟的环境。Enfabrica ACF-S的发布标志着网络架构设计的一个新方向,通过创新的多对多通信模型、对CXL的支持以及混合扩展架构,打破了传统NIC的局限,为未来超大规模计算系统提供了更具扩展性的解决方案。随着AI和大数据的持续发展,类似ACF-S这样的超级网卡将成为新一代数据中心的关键组件,为更多的创新和突破奠定基础。ACF-S的潜力用例可能包括不依赖主机的CXL内存池呈现,以及更复杂的异构计算环境的支持。随着技术的成熟和市场的接受度提高,这种超级网卡将在高性能计算、AI训练、大数据分析等领域发挥更大的作用。Enfabrica的ACF-S超级网卡是对未来网络架构的重构,很不错的想法。