揭秘 AWS 10p10u 最新网络架构！

科技 2024-12-05 17:40 江苏

在AWS re:Invent 2024大会上，AWS公用计算高级副总裁Peter DeSantis向大家介绍了最新推出的网络创新——10p10u网络架构，专为AI工作负载优化而设计。

云计算的基石在于虚拟化计算，但数据的传输则依赖于强大的网络基础设施。面对AI技术的快速发展，AWS如何扩展其网络以满足这一挑战成为了业界关注的焦点。

10p10u网络架构是AWS网络更新的核心。这一创新专门设计用于支持AWS的UltraServer计算技术，该技术旨在运行大规模的AI训练工作负载。每台 Trainium2 UltraServer 都有近 13TB 的网络带宽，需要大规模网络架构来防止出现瓶颈。

DeSantis在主题演讲中表示：“我们称之为10p10u，因为它能够为数千台服务器提供高达10PB的网络容量，并且延迟时间低于10微秒。”“优秀的人工智能网络与优秀的云网络有很多共同之处，并且都在大幅升级，10p10u 网络是大规模并行、密集互连的，而且 10p10u 网络具有弹性，我们可以将其缩小到只有几个机架，也可以将其扩展到跨多个物理数据中心园区的集群。”

10p10u 网络如何提高光纤网络密度

为了应对10p10u网络的复杂性，AWS在配线架和光纤连接方面进行了重大改进。他们开发了一种专有的中继连接器，将16条独立的光纤电缆组合成一个连接器，所有复杂的组装工作都发生在工厂而不是数据中心车间，大大简化了安装过程，降低了连接错误的风险，并将AI机架上的安装时间缩短了54%。

图中右侧的接线架使用的是光纤主干电缆，更加整洁，体积也更小。需要管理的连接和线路越少，错误就越少，这对于快速构建 AI 基础设施至关重要。

此外，AWS还推出了Firefly光纤插头，它可以充当微型信号反射器，允许 AWS 在机架到达数据中心楼层之前测试和验证网络连接。Firefly光纤插头还可充当保护密封件，防止灰尘颗粒进入光纤连接，确保网络性能的稳定性。

SIDR（可扩展意图驱动路由) 协议管理 10p10u 网络架构

由于 10p10u 网络规模庞大，路由相对复杂。为了管理这种复杂的网络架构，AWS 开发了可扩展意图驱动路由 (Scalable Intent Driven Routing，SIDR)，这是一种将集中规划与分散执行相结合的新协议。据 AWS 称，该协议使网络能够在不到一秒的时间内响应故障，这比其他方法快十倍。

NeuronLink：高速芯片间通信

NeuronLink 是一种专有的互连技术，可使多台 Trainium2 服务器作为单个逻辑服务器运行。NeuronLink 在服务器之间提供每秒 2 TB 的带宽，延迟仅为 1 微秒。据称，UltraServers 结合了 64 个 Trainium2 芯片，可提供比当前 EC2 AI 服务器多五倍的计算能力和十倍的内存。与传统的高速网络协议不同，NeuronLink 服务器可以直接访问彼此的内存。

当前AWS 正准备部署 Rainier 项目，这是一个庞大的 AI 训练集群，包含数十万个新的 Trainium2 芯片，将为 Anthropic 的下一代 Claude AI 模型提供支持，而10p10u网络架构的更新将在其中起到关键作用。

DeSantis强调，10p10u网络架构专为优化AI工作负载而设计，同时，日益增长的AI应用需求也在加速其采用。

参考链接：

https://www.networkworld.com/article/3617188/aws-upgrades-its-10p10u-network-to-handle-massive-ai-clusters.html

https://www.nextplatform.com/2024/12/03/aws-reaps-the-benefits-of-the-custom-silicon-it-has-sown/

【投稿】：SDNLAB原创文章奖励计划

SDNLAB

SDNLAB是专注网络创新技术的先锋媒体社区和实践应用平台，涵盖AI 网络、DPU/智能网卡、SD-WAN/SASE、Web3.0、零信任、云网融合等相关领域，提供新闻资讯、技术交流、在线实验、行业分析、求职招聘、教育培训等多元服务。

最新文章

未来网络研究与发展思考

为什么 AI 芯片需要 PCIe 7.0 IP 互连？

光联世纪：荣获双奖，引领企业数字化转型与网络安全升级新纪元

Meta 万卡 GPU 集群稳定性剖析与最佳实践

又有中国公司被列入实体清单！

大厂自研白盒交换机：是技术控的倔强，还是钱包君的呼救？

突发！英伟达被立案调查！

十年“变形记”，AMD 如何从英特尔的“平替”发展成强劲对手？

GPU 与 LPU：哪个更适合 AI 工作负载？

P4助力全调度以太网技术（GSE）创新与实践

揭秘 AWS 10p10u 最新网络架构！

2024年全国行业职业技能竞赛-第五届全国电信和互联网行业信息化系统管理员S（云网智能运维与优化方向）全国总决赛在宁圆满落幕

算网融合技术与产业白皮书（附下载！）

英特尔 CEO 帕特·基辛格宣布辞职

美国将136家中国实体列入实体清单（附完整名单）

传140家中国半导体公司被美列入实体清单！

写给小白的大模型入门科普

UEC 和 UAL 应该合并吗？

IDC ：未来 5 年 AI 基础设施支出将超 1000 亿美元

为什么 MPLS 仍是以太网传输技术的首选？

聊一聊算力调度

深度用云——释放企业潜能｜网络先行——云网络卓越架构设计

深度用云——释放企业潜能｜阿里云原生网络AIOps，助力企业深度用好云

阿里云孙成浩：简单易用的智能云网络，让客户专注业务创新

第七届SD-WAN & SASE大会专访——泰信天成刘昱：专注于SD-AIIT，NG-WAN融合算网，让AI为网络所用

从UALink近期发展再看GPU Scale Up的互连方向

天翼云领跑边缘安全加速赛道，斩获品牌、产品创新双料大奖!

狂飙！英伟达营收暴涨 94%！

第一线总经理陈姵妏：构建AI原生可信计算空间助企业加速驰骋智慧浪潮

微软“芯”力全开，首款自研DPU 曝光！

首颗全调度以太网（GSE）DPU芯片发布，中国智算网络发展的又一个里程碑

AI 浪潮下思科“翻船”？网络业务大幅下滑23%！

6G网络内生AI技术白皮书（附下载）

第七届SD-WAN & SASE大会暨云网络大会盛大召开！

倒计时 1 天！丨第七届SD-WAN & SASE大会暨云网络大会报名即将截止

智算网络集群的下一步？Scale-up与Scale-out融合架构成关键

倒计时 3 天！丨第七届SD-WAN & SASE大会暨云网络大会报名即将截止

Arista 财报：AI 后端网络“内卷”成功，前端网络“压力山大”！

参会指南丨第七届SD-WAN & SASE大会暨云网络大会报名倒计时

曝台积电7nm芯片将停供中国大陆！

从云计算技术发展路径看三十年市场用云需求变迁

园区全光网络技术路线：融合才是最优解

我国算力中心大盘点

2024年 SD-WAN & SASE 厂商大盘点!

美政府拟推动英特尔芯片设计业务与AMD或Marvell合并？

AI大模型智算集群高性能网络优化路在何方？

议程发布丨第七届SD-WAN & SASE大会暨云网络大会诚邀您参会

AMD 还需要多久才能超越 Nvidia？

超大规模下的以太网RDMA的局限与展望

一个数据包究竟有多大？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉