在AWS re:Invent 2024大会上,AWS公用计算高级副总裁Peter DeSantis向大家介绍了最新推出的网络创新——10p10u网络架构,专为AI工作负载优化而设计。
云计算的基石在于虚拟化计算,但数据的传输则依赖于强大的网络基础设施。面对AI技术的快速发展,AWS如何扩展其网络以满足这一挑战成为了业界关注的焦点。
10p10u网络架构是AWS网络更新的核心。这一创新专门设计用于支持AWS的UltraServer计算技术,该技术旨在运行大规模的AI训练工作负载。每台 Trainium2 UltraServer 都有近 13TB 的网络带宽,需要大规模网络架构来防止出现瓶颈。
DeSantis在主题演讲中表示:“我们称之为10p10u,因为它能够为数千台服务器提供高达10PB的网络容量,并且延迟时间低于10微秒。”“优秀的人工智能网络与优秀的云网络有很多共同之处,并且都在大幅升级,10p10u 网络是大规模并行、密集互连的,而且 10p10u 网络具有弹性,我们可以将其缩小到只有几个机架,也可以将其扩展到跨多个物理数据中心园区的集群。”
为了应对10p10u网络的复杂性,AWS在配线架和光纤连接方面进行了重大改进。他们开发了一种专有的中继连接器,将16条独立的光纤电缆组合成一个连接器,所有复杂的组装工作都发生在工厂而不是数据中心车间,大大简化了安装过程,降低了连接错误的风险,并将AI机架上的安装时间缩短了54%。
图中右侧的接线架使用的是光纤主干电缆,更加整洁,体积也更小。需要管理的连接和线路越少,错误就越少,这对于快速构建 AI 基础设施至关重要。
此外,AWS还推出了Firefly光纤插头,它可以充当微型信号反射器,允许 AWS 在机架到达数据中心楼层之前测试和验证网络连接。Firefly光纤插头还可充当保护密封件,防止灰尘颗粒进入光纤连接,确保网络性能的稳定性。
由于 10p10u 网络规模庞大,路由相对复杂。为了管理这种复杂的网络架构,AWS 开发了可扩展意图驱动路由 (Scalable Intent Driven Routing,SIDR),这是一种将集中规划与分散执行相结合的新协议。据 AWS 称,该协议使网络能够在不到一秒的时间内响应故障,这比其他方法快十倍。
NeuronLink 是一种专有的互连技术,可使多台 Trainium2 服务器作为单个逻辑服务器运行。NeuronLink 在服务器之间提供每秒 2 TB 的带宽,延迟仅为 1 微秒。据称,UltraServers 结合了 64 个 Trainium2 芯片,可提供比当前 EC2 AI 服务器多五倍的计算能力和十倍的内存。与传统的高速网络协议不同,NeuronLink 服务器可以直接访问彼此的内存。
当前AWS 正准备部署 Rainier 项目,这是一个庞大的 AI 训练集群,包含数十万个新的 Trainium2 芯片,将为 Anthropic 的下一代 Claude AI 模型提供支持,而10p10u网络架构的更新将在其中起到关键作用。
DeSantis强调,10p10u网络架构专为优化AI工作负载而设计,同时,日益增长的AI应用需求也在加速其采用。
参考链接:
https://www.networkworld.com/article/3617188/aws-upgrades-its-10p10u-network-to-handle-massive-ai-clusters.html
https://www.nextplatform.com/2024/12/03/aws-reaps-the-benefits-of-the-custom-silicon-it-has-sown/
【投稿】:SDNLAB原创文章奖励计划