并在其中采用基于Broadcom的Jericho-3-AI ASIC的全新开放联网白盒技术,这种开放式以太网解决方案包含DriveNets的Network Cloud-AI软件,和智邦基于Broadcom Jericho-3-AI和Ramon-3 DDC调度网络架构设计的白盒交换机。
该解决方案融合了DriveNets历经大规模组网考验的软件和智邦白盒,支持通过800Gbps接口连接可达3.2万个GPU的人工智能和机器学习集群。这些白盒基于OCP DDC(分布式解耦机箱)调度网络架构,可提供能够快速、简便部署且根据企业需求增长可扩展的解决方案。该架构已成功通过了多家Tier 1 AI客户的概念验证。该解决方案可以满足超大规模云运营商在搭建巨型GPU集群方面不断增长的需求,同时也可满足企业构建千卡级GPU组成的大型AI集群的需求。
DriveNets公司首席运营官(COO)Ryan Donnelly说:
智邦科技公司产品管理总监Mike Wong指出:
充分论证的解决方案
全新的智邦白盒包含:
NCP-5 (智邦ASA926-18XKE),基于Broadcom的Jericho-3-AI ASIC,支持18个800Gbps Network端口和20个800Gbps Fabric端口。 NCF-2 (智邦AS9936-128D),基于Broadcom的Ramon-3 ASIC,支持128个800Gbps Fabric端口。
在发布前,智邦科技在台湾实验室使用NCP-5、NCF-2、思博伦通信的AI工作负载仿真解决方案,以及运行BERT和ResNet模型的32个GPU的英特尔Gaudi服务器集群,对这些白盒执行了严格的测试。测试的结果表明,与以太网Clos架构相比,这些白盒的任务完成时间(JCT)缩短了30%以上。该测试充分证明,与其它以太网解决方案相比,该架构的DDC调度网络架构具备明显的优势,并可以媲美InfiniBand。
思博伦提供的业界首创的AI工作负载仿真解决方案产生基于RoCEv2传输方式大规模生成真实的AI流量模式,并提供集成的集体通信库(CCL)支持,能够定位可导致网络拥塞、高时延和较低吞吐率的各类问题。通过提供可重复的测试和可用于网络部署指导的各类指标,例如任务完成时间(JCT)、尾部时延、算法带宽和总线带宽,该解决方案降低了验证AI基础设施的复杂性和工作难度,能够以直观的方式 诊断出性能和效率方面的问题,而且与搭建真实的xPU系统相比,只需零头的时间便可完成验证工作。
10月15日至17日,DriveNets和智邦将在加州圣荷塞举办的 2024年OCP全球峰会上展示该测试及其结果。
“阅读原文”,进一步了解更多思博伦AI方案。
关于DriveNets
关于智邦科技股份有限公司