AI网络设计：常见误解规避及分析

科技 2024-10-12 07:51 四川

本文来自“《AI时代的网络：网络定义数据中心》”，在网络设计方面，避免常见的误解至关重要。一个普遍的误解是，改变端到端链AI 部署来说可能是可以接受的，但在现实中，这可能会导致时延增加和性能损失。在为 AI构建网络时，其他误解包括：新兴 AI 的持续发展、交换机基数是否关键、浅层和深度缓冲区架构、网络弹性技术。

底层网络最终定义了数据中心的运营级别以及预期的性能和效率水平；因此，必须消除这些误解，并采用性能均衡、具备安全性和灵活性的整体方法，以符合数据中心的使命，无论是 AI 云还是 AI 工厂。

新兴AI的持续发展

InfiniBand 满足了 GPU 加速器、服务器、存储系统和其他组件之间对更快、更高效的可扩展通信的日益增长的需求。InfiniBand 的架构允许引入新的特性和功能，而无需对技术进行彻底的改造。这种适应性使得出现新技术和技能成为可能，使其非常适合应对未来技术格局的挑战和要求。

直通式交换和端到端链路速度

以太网采用两种数据处理模式：存储转发交换和直通式交换。存储转发交换机在发送数据之前会等待接收整个数据帧，而直通式交换机会立即将数据发送到目的地。对于 AI 工作负载，首选直通式交换。

直通式交换需要相同的端到端链路速度。改变链路速度（例如从主机到叶交换机x 100Gb/s，到从叶交换机到脊交换机的 400Gb/s）的网络设计需要流量拆分和存储转发交换。这会带来时延损失，在处理AI训练中常见的大型数据帧时，时延损失变得更加严重。Spectrum-X 使用端到端直通连接来优化 AI 网络。

交换基数和AI 可扩展性

交换机基数，即交换机可以支持的逻辑 MAC 数量，传统上一直被用作交换机可扩展性的代表。对于给定数量的网络层次，交换机基数越大可以连接更多主机。

随着 AI的发展，这种范式已经发生了改变。有效带宽、时延和尾部延迟对于性能至关重要，而数量的与基数无关。较高基数的交换机可以将在相同数量的网络层次中连接更多GPU，从而降低网络价格，但其代价是应用程序性能降低和投资回报率降低。

交换缓冲区架构

虽然InfiniBand交换机在设计上是“浅层”缓冲交换机，但以太网交换机可以大致分为“深度”或“浅层”缓冲交换机。深度缓冲交换机的缓冲区大小以GB为单位，而浅层缓冲交换机(例如Spectrum以太网交换机)的缓冲区大小以MB为单位。深度缓冲交换机最初是为不同的目的而设计，例如路由和WAN;因此，它们的架构与传统的浅层缓冲区以太网交换机非常不同。深度缓冲区交换机系统通常采用模块化设计，具有更大的机箱交换机，并安装了线卡。

虽然深度缓冲区交换机功能丰富，并且支持数据中心互连(DCl)和电信网络所需的规模，但并未针对AI网络进行优化。深度缓冲区交换机可容纳额外的数据流量，并对微突发不太敏感，但较大的数据容量会导致更高的尾部延迟，从而导致平均时延增加和高抖动。这直接影响到依赖于最差时延的AI工作负载，从而延长作业完成时间，并增加训练时间。

对网络链路故障的恢复

NVIDIA Quantum InfiniBand交换机具有独特的自我修复功能。得益于这种自我修复自主性，在链路发生故障时，可以快速进行通信校正，从而节省由于链路故障而导致昂贵的数据重传的通信成本。

与通常在以太网上运行的传统应用程序工作负载不同，AI会生成异构流量，这种流量具有突发性，并且对网络故障高度敏感。例如，当从叶交换机到脊交换机的链路发生故障时，这会影响多个机架中的多个GPU节点，并显著降低All-to-All的性能。流行的基于以太网的冗余措施(例如EVPN Multihoming或MLAG)无法解决性能问题。

Spectrum-X为需要双轨/多轨主机设计(即用于实现完整硬件冗余的额外网卡端口)和交换机智能(根据链路故障检测调整负载均衡)的AI工作负载提供出色的恢复能力。Spectrum-X提供最佳环境，以满足对时延敏感场景的需求。

Al云管理

为数千用户提供服务的AI云数据中心需要依赖定制的云管理平台(CMP)来管理和自动化云基础设施，以确保高效的运营、监控、安全和资源分配。虽然该管理和配置生态系统通常是基于原生以太网的，但也可以与InfiniBand一起开发和集成，同样部署在AI工厂。

部署AI云不一定需要重新投资生态系统来进行资源调配、工作负载编排和用户访问控制。大部分情况下，重用支持虚拟化管理、跨云基础设施编排容器和服务，以及监控资源运行状况和性能等的生态系统通常很实用。在为以AI作为数据中心基石的情况下而选择网络类型时，通常会考虑这种方法。

结论

AI工作负载为数据中心网络架构带来了新的挑战和要求。网络定义了数据中心，并承担了AI基础设施的支柱功能。在为生成式AI和基础模型部署数据中心时，必须考虑网络的能力和端到端的实现。

关于CPU、服务器和存储详细技术及资料获取，请参考“下载提醒：服务器基础知识全解(终极版)”，“2023年服务器计算机CPU行业报告”、“2023年机架式服务器行业洞察”、“2023~2025服务器CPU路线图”、“2023服务器产业链及市场竞争格局”、“存储系统关键技术全解（终极版）”、“更新下载：存储系统基础知识全解（终极版）”、“存储芯片技术基础知识介绍（2023）”等等。

架构师技术全店资料打包汇总(全)

服务器基础知识全解(终极版)

存储系统基础知识全解

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

推荐阅读

更多架构相关技术知识总结请参考“架构师全店铺技术资料打包(全)”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新，现下单“架构师技术全店资料打包汇总(全)”包含服务器基础知识全解(终极版)和存储系统基础知识全解 pdf及ppt版本，后续可享全店内容更新“免费”赠阅，价格仅收249元(原总价439元)。

温馨提示：

扫描二维码关注公众号，点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。

http://mp.weixin.qq.com/s?__biz=MzAxNzU3NjcxOA==&mid=2650751610&idx=1&sn=b8df41e4ac18eb6bcfb9c72c6c8d07dc

架构师技术联盟

分享项目实践，洞察前沿架构，聚焦云计算、微服务、大数据、超融合、软件定义、数据保护、人工智能、行业实践和解决方案。

最新文章

AMD，超级计算杀疯了

超大规模集群：CPU&GPU部署与实践

算力网络基础知识全解（收藏版）

服务器内部揭秘（CPU、内存、硬盘）

干货解读：2024云计算白皮书

2024中国AI服务器产业链图谱分析（附产业链全景图）

AMD与Intel处理器综合对比分析

算力网络基础知识全解（收藏版）

AI芯片架构众多，谁会主宰算力芯片？

干货：标准RAG架构和落地实践

2024信创4大领域和15个产业现状调研

机架服务器设计和规格介绍

全国智算基础设施布局概述

交换机：从EOR到TOR架构变迁

SSD闪存技术基础知识全解（终极版）

大模型时代：交换机衡量指标、技术演变及性能分析

AI服务器核心部件产业链剖析（2024）

RAID软硬混战，怎样选最适合？

干货：白牌和品牌服务器之争

SCM新介质：未来方向思考和探讨

下载提醒：SSD闪存技术基础知识全解（终极版）

图解：72个机器学习基础知识点

十年一剑，TPU引领AI芯片时代

直播预告：阿加犀基于SiRider S1芯擎开发板的机器人应用分享

收藏：数据存储和保护技术(110页PPT)

GPU虚拟化：常见技术实现解析

Blackwell GB200：英伟达GPU重塑AI服务器

2024中国智能算力行业白皮书

GPU虚拟化：英伟达&AMD技术分析

大模型技术关键特性与发展趋势

收藏：存储和服务器基础技术

AI网络背景下RDMA的Why，What & How

一文读懂NPU是啥？

GDDR和HBM内存对比

干货：GPU训练和渲染技术

AI芯片算力基础及关键参数

Intel 2025服务器CPU路线图

鲲鹏CPU处理器芯片及架构

AI网络设计：常见误解规避及分析

存储系统基础知识全解（终极版）

国产CPU崛起：一文理解指令集概念

服务器基础知识全解（终极版）

2024年AMD CPU和GPU技术进展

2024中国AI Agent研究综述

服务器CPU：架构、性能及未来趋势

超异构计算技术趋势分析

VMware by Broadcom：虚拟化国产替换是否Ready？

详解服务器磁盘及网卡技术

深入浅出：服务器组成及架构之争

干货：InfiniBand核心技术功能答疑

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉