阿里云基础设施网络2024年创新总结

文摘   2025-01-20 17:12   浙江  


AI时代,大模型以前所未有的速度和广度重新塑造我们的数字世界。算法演进,数据挖掘和算力扩展,仍然是AI业务发展的三大飞轮。模型参数从数十亿增长到万亿级,推动互联网、自动驾驶、金融、医疗等领域的智能化发展。同时,预训练逐渐遇到数据墙,Scaling的边际效益开始递减,大模型正在从单纯追求模型规模扩展转向优化推理能力。长文本,MoE混合专家模型成为发展趋势。而随着OpenAI的o1/o3模型的发布,Self-play RL(自我对弈强化学习),CoT(Chain of Thought,思维链),Test-time Compute(推理时计算)等新范式逐渐涌现。大模型Scaling law仍在继续,并且在原有预训练基础上拓展到微调和推理。

对AI基础设施(AI Infra)来说,在大模型Scaling law的规模增长驱动下,性能和稳定性将面临更大的挑战。一方面头部基础大模型预训练所需要的算力依然在持续增长(从万卡到10万卡集群),同时推理正在成为算力增长的主要引擎,多机推理,集群化推理正在成为主流。随之带来的一个重要变化是训练和推理业务对于AI Infra的需求将会趋同,训推一体集群将会成为未来重要趋势。AI基础设施的核心工作将聚焦于统一平台上平衡训练与推理的性能、稳定性和成本,支撑大模型的可持续发展。


本文将盘点阿里云基础设施网络团队2024年在AI时代可预期网络的技术突破、学术成果、开源生态共建与重要会议技术布道等,与业界同仁一同探讨和展望AI时代的网络技术发展热点和趋势。






技术突破




阿里云基础设施网络团队在迈向AI的可预期网络关键技术领域持续深耕,不断创新,在过去的2024年HPN7.0训推一体架构EPOD上线,自研高性能网络协议栈Solar取得创新突破,落地业界首个UEC-ready 400G高性能智算网卡,端网融合的新型智算集群监控和故障快速定位系统大幅度提升了集群有效算力时间,通信库ACCL+C4D产品化,全链路通信效率提升超过30%,为智算集群互联而构建的新型DCI网络架构eCore开始大规模部署。




HPN7.0训推一体架构EPOD上线,模型推理通信性能提升100%



HPN7.0是阿里云为AI智算而设计的新型数据中心网络架构,成为国际网络通信顶级会议SIGCOMM录取的首篇AI智算集群架构论文,HPN7.0在2024年大规模部署的基础上,进一步演进支持训推一体,PD分离推理架构,实现训练推理潮汐资源复用,HPN7.0训推一体EPOD架构开始大规模部署,对集团模型推理场景的通信性能提升100%



自研高性能网络协议栈Solar创新突破,落地业界首个UEC-ready 400G高性能智算网卡,大幅度降低了网络拥塞,在拥塞场景下集合通信端到端性能提升18%



阿里云自研高性能网络协议Solar-RDMA采用混合虚拟化技术,高效支撑智算Serverless多租场景,Solar-RDMAv6技术充分发挥IPv6的地址空间和可编程能力,实现多租户隔离,简化了网络控制平面的实现,降低了流表复杂性,摆脱对特定硬件资源的依赖。Solar-RDMA是业界首个UEC定义的RDMA多路径技术在400G网卡规模部署落地,大幅度降低了网络拥塞,在拥塞场景下,集合通信端到端性能提升18%。在千卡规模对比测试中,整体性能优于行业内领先的商业网卡。



新型智算集群监控和故障定位系统,疑难故障定位时间由数小时缩短至分钟级



针对大模型训练过程中故障多定位难的痛点,阿里云基于大规模智算集群的运营经验沉淀,打磨出了一整套涵盖Infra层+集合通信层+框架层的监控和故障定位系统,将原来的数小时甚至天级的定位时间缩短至分钟级,大幅提高了大模型训练任务的有效算力,相关论文被国际网络系统领域顶级会议NSDI’25录取



通信库ACCL+C4D产品化上线,全链路通信效率提升超过30% 



通信库ACCL+C4D产品化上线,帮助PAI灵骏提升故障定位效率,提升AI计算集群的资源效率。通过协同Scale-out和Scale-up网络进行通信算子优化,在GPU 等多种硬件环境下,全链路通信效率提升超过30%;使用CopyEngine取代Streaming Processor进行Scale-up网络上的数据传输,降低通信算子对计算资源的消耗;结合MOE和推理拉远等新型业务特征,进行通信算子的定制优化,高效支持计算通信交叠。该成果被国际体系结构顶会HPCA 2025录取。



阿里云新一代智算数据中心互联(DCI)架构eCore大规模部署



阿里云eCore架构是阿里云首创的基于单栈单片(IPv6/SRv6协议栈,单芯片白盒路由器),多平面设计,全网服务化的下一代广域网架构,旨在根本解决现有基于几十年传统骨干网技术所面临的稳定性业务发展挑战。eCore是为了满足AGI时代算力普惠化,算力集群的大带宽高性能互联而设计的新型DCI网络系统,为阿里云智算网络长期竞争力奠定了基础。





学术成果




阿里云基础设施网络团队在AI智算等网络技术领域持续创新,2024年在国际顶会SIGCOMM/NSDI/OSDI/HPCA/OFC上发表和录取论文接近20篇,涵盖智算集群网络架构、高性能网络协议栈、通信库、Serverless、故障诊断、高性能存储网络、光通信等技术领域,其中HPN7.0斩获网络顶会SIGCOMM首篇AI智算网络架构论文,通信库论文Crux获SIGCOMM最佳论文优胜奖。




五篇论文被国际网络通信领域顶会SIGCOMM 2024录取



网络研发团队共5篇论文入选国际网络通信领域顶会SIGCOMM 2024(会议总共录取论文60多篇),其中,介绍阿里云最新一代智算集群网络架构HPN7.0的成果论文,成为SIGCOMM历史上在AI智算集群网络架构领域的首篇论文,正在成为AI Infra行业新范式。另一篇介绍阿里云智算训练集合通信优化调度系统Crux的论文斩获SIGCOMM'2024优胜论文奖(Honorable Mention),其中:


a. Alibaba HPN: A Data Center Network for Large Language Model Training. HPN介绍了阿里云最新一代智算集群网络架构。通过创新的双上联+多轨+双平面设计,实现两层万卡组网,将大模型训练任务性能提升14.9%


b. Crux: GPU-Efficient Communication Scheduling for Deep Learning Training. Crux提出集合通信优化调度器,首次提出通过衡量GPU使用强度这一概念来优化资源利用率,使整体群的GPU利用率提升高达14.8%


c. A General and Efficient Approach to Verifying Traffic Load Properties under Arbitrary k Failures. YU设计了大规模WAN的任意故障场景下的流量水位验证系统,通过一系列等价优化手段大幅降低验证开销。验证速度相比已有工作提升高达448倍,并已大规模用于阿里云的广域网稳定性保障中。


d. Relational Network Verification. Rela针对大规模网络难以通过形式化表达的难题,设计了针对网络变更的高级关系规范语言和对应的验证工具;可以实现在20分钟内完成对于超大规模网络80%变更的验证。



五篇论文被国际网络系统顶会NSDI 2025录取



网络研发团队三篇论文入选NSDI 2024, 另外五篇论文被NSDI  2025录取,主题涵盖AI训练故障诊断体系、高精度大模型集群训练模拟器、RDMA容器网络扩展性优化、GPU解耦型推理服务以及CDN智能拥塞控制优化,展示阿里云在AI智算网络技术领域的强大创新能力,其中:


a. Evolution of Aegis: Fault Diagnosis for AI Model Training Cloud Service in Production. Aegis全面展示了阿里灵骏网络在稳定性方面的系统性演进;将故障诊断耗时降低97%,顺利支持通义完成了多次模型版本的训练发布。


b. SimAI: Unifying Architecture Design and Performance Tunning for Large-Scale Large Language Model Training with Scalability and Precision. SimAI是业界首个全栈的高精度大模型集群训练模拟器,达成了端到端小于5%仿真误差的高仿真精度,在阿里云智算集群新机型、新架构的评估中发挥了重要作用。


c. Mitigating Scalability Walls of RDMA-based Container Networks. 针对容器化RDMA场景在表项卸载中存在的性能问题,ScalaCN提供了系统性的异常发现、根因定位与优化能力;实际高卸载压力场景下的网络吞吐提升高达40%


d. GPU-Disaggregated Serving for Deep Learning Recommendation Models at Scale. Prism介绍了阿里云GPU解耦型推理场景的全新方案设计;在实际潮汐推理流量下可以降低90%的GPU资源预留。


e. Learning Production-Optimized Congestion Control Selection for Alibaba Cloud CDN. AliCCS描述基于深度学习的智能CDN拥塞控制选择系统,在阿里云CDN大规模部署后,降低视频卡顿率9.31%,降低重传率25.51%以上。



存储EBS性能优化的论文被国际操作系统领域顶会OSDI 2024录取



网络研发团队与北京大学合作的块存储产品PLX在burst场景降低延迟的工作论文“Burstable Cloud Block Storage with Data Processing Units”被国际计算机系统顶会OSDI 2024接收,为EBS最新产品PLX提供强SLA保障的重要技术。



智算集群故障快速定位系统C4论文被体系结构顶级会议HPCA 2025录取



C4论文“Enhancing Large-Scale AI Training Efficiency: The C4 Solution for Real-Time Anomaly Detection and Communication Optimization”被体系结构顶级会议HPCA 2025录取。该文介绍了阿里在大规模训练集群运行效率方面所采用的的独特方法:C4(Calibrating Collective Communication over Converged Ethernet)一方面用于集群中故障节点的检测和定位,另一方面也用于降低网络通信的开销,从而最大化集群的计算效率。



四篇论文被全球光通信领域顶会OFC 2024录取



四篇论文被全球光通信领域顶会OFC2024录取论文主题包括开放解耦光网络(特邀)、光缆劣化对传输性能的余量影响、光网络不可用率分析以及基于神经网络的传输网性能分析。

 

a. The Evolution of Open and Disaggregated Optical Networks: From Open Line System to Open Box System概述了近十年光网络技术从封闭到开放的发展历程,探讨了开放线路系统向开放解耦MESH全光网络的演变,以及从单波段到多波段、从白盒系统到白盒设备的技术进步。这些进展支撑了云计算在网络带宽需求上的百倍增长


b. Employing Fiber Loss Degradation Statistics in SLA based Margin Calculation Method for Optical Network 介绍了首个光纤损耗劣化的统计模型,并通过缩短维护时间来提升资源利用率的策略。


c. Unavailability Analyses of Hyperscale Data Center Interconnect Optical Networks with Optical Layer Protection对城域DCI光网络的可用性进行了分析,为提升网络稳定性提供了指导。


d. QoT Estimation for Large-Scale Mixed-rate Disaggregated Metro DCI Networks by Artificial Neural Networks展示了与香港理工大学AIR项目的合作成果,提出了使用人工神经网络算法来精准估算开放城域DCI网络的传输质量(QoT),大幅提升了估算精度。





开源生态




阿里云基础设施网络团队在开源生态中持续引领技术创新与生态构建:牵头成立高通量以太网(ETH+)联盟并发布智算网络标准;入选国际超以太网联盟技术委员会,参与AI网络架构标准制定;担任互联网基础资源工作委员会副主任委员,引领行业创新。在SONiC社区发起“Phoenix Wing计划”,贡献SRv6优化代码;开源全栈AI集群仿真器SimAI与AICB基准测试,填补行业评估空白;推出UNP平台交换机硬件规范,加速硬件开发与生态构建,推动智算网络升级。




“开放包容、智算互联”,阿里云携同50余家会员单位,勇立智算潮头,构建高通量以太网(ETH+)生态



2024年由阿里云和中科院牵头成立的高通量以太网(ETH+)联盟首次对外公布联盟愿景及相关章程,并对外发布首个面向智算场景的网络标准:高通量以太网(ETH+)协议标准SPEC 1.0, 旨在构建覆盖Scale-Out和Scale-Up方向的一致性协议底座,并最终实现芯片化及生态构建。




阿里云入选超以太网联盟UEC技术委员会,牵头制定下一代AI网络架构标准



5月,在国际超以太网联盟(UEC)近期举行的技术咨询委员会(TAC)选举中,阿里云成功入选,成为13名TAC成员中唯一的中国科技公司,也是唯二的一家非美国公司,将参与面向AI时代的开放网络系统及核心技术的方向决策和标准制定。



阿里云当选“互联网基础资源工作委员会” 副主任委员,引领和推动我国互联网资源生态的繁荣与发展



11月,为了推动互联网基础资源的创新和高质量发展,由国家工信部指导,中国互联网协会发起的”互联网基础资源工作委员会“ 正式成立,阿里云副总裁蒋江伟受邀当选副主任委员。阿里云常年来在IPv6规模部署和技术创新,DNS全链路规模化服务、网络安全稳定,产学研合作等多方面的工作成果,受到了行业客户和主管单位的广泛认可,作为平台企业代表共创生态技术创新。




SONiC社区发布“Phoenix Wing计划”,加速SRv6技术在SONiC生态系统中的创新与应用



SONiC社区技术委员会副主席、阿里云资深技术专家阮弋星在北京正式启动了针对SONiC社区的“Phoenix Wing计划”,旨在将阿里巴巴在DCI(数据中心互联)网络中采用的先进SRv6特性及关键性能优化代码贡献给社区,共同加速SRv6技术在SONiC生态系统中的创新与应用。



行业首个开源全栈高精度AI集群仿真器 — SimAI,受到业界广泛关注,打造 “互惠共利”、“开放包容” 的开源社区



SimAI是业界首个开源的全栈高精度AI集群仿真器,论文被NSDI'25收录,当前Github总Star 430+(https://github.com/aliyun/SimAI)。10月 SimAI 全栈v1.0开源,支持10+功能场景,目前SimAI开源社区已汇聚超400位成员,吸引10+位技术专家加入维护者团队参与共建。



业界首个人工智能通信基准测试程序集AICB



8月,提出业界首个人工智能通信基准测试程序集AICB(Artificial Intelligence Communication Benchmark),弥补了AI集群网络缺少客观、准确评价标准的问题。AICB 1.0涵盖了大语言模型训练场景下典型的工作负载(包括GPT、LLaMA、MoE等算法和Megatron、DeepSpeed等训练框架),用户不仅可以通过直接运行这些工作负载评估物理集群网络的性能,还可以灵活生成各种训练规模、训练参数、训练框架下的工作负载,从而量化分析其通信特征。



智算网络交换机硬件开源UNP平台全面落地



阿里云网络研发团队开源多年来广泛部署的白盒交换机硬件SPEC,向开源社区推出UNP(Universal Network Platform)平台,智算集群51.2T交换机 UNP平台大幅度加速新硬件/新厂商的开发和引入进度,极大丰富了行业生态加速网络多芯战略落地,增强供应安全和进一步降低网络成本。






行业布道




2024年阿里云基础设施网络团队的专家活跃在各大网络行业会议,积极布道,持续引领AI网络全球合作与技术创新,包括SIGCOMM/APNET、OFC、OCP全球峰会、CCF高性能计算年会、CCF网络大会、CCF分布式计算大会、第四届网络开源技术生态大会、乌镇峰会下一代互联网论坛等。




SIGCOMM/APNET国际会议



2024年8月8日,在澳大利亚悉尼举办的国际网络通信领域顶会SIGCOMM落下帷幕,阿里云网络研发团队专家在会上演讲介绍五篇论文,其中一篇AI网络调度论文成果斩获SIGCOMM 2024优胜奖。同期APNet'24 Workshop上,阿里云基础设施网络负责人蔡德忠受邀与微软、Meta专家在Industry Spotlight(工业界聚光灯)进行主题报告,介绍阿里巴巴HPN7.0,用新一代网络架构革新人工智能基础设施。



国际OFC光网络会议



2024年3月24日-28日,全球规模最大、最具影响力的光通信顶会光纤通信学术研讨和产品技术展览会OFC(Optical Fiber Conference)在美国加州圣地亚哥举行。网络研发团队有多位专家参并分享阿里云在数据中心光网络等核心技术上的创新及对未来趋势的见解,内容涵盖400 Gb/s及以上光通信系统的设计,相干收发器,线性可插拔光学技术,高性能网络和光互联技术在AI的应用,以及开放解耦系统和数字孪生系统等领域。



开放计算OCP全球峰会



2024年开放计算OCP全球峰会与10月14日-17日在美国加州圣何塞召开,阿里云资深技术专家阮弋星等多位专家在AI网络架构和数据中心网络技术创新领域受邀参与四场技术报告,主题分别为“高密度AI集群下的51.2Tbps交换机液冷/风冷方案”, “阿里巴巴大规模计算集群的网络稳定性挑战与实践”, “阿里巴巴HPN:面向大模型训练场景的数据中心网络”和“Phoenix Wing计划:推动SONiC SRv6的广域网部署”。



中国计算机学会(CCF)高性能计算专委学术年会



中国计算机学会(CCF)高性能计算专委学术年会于9月24-26日中国(武汉)召开,阿里云基础设施网络负责人、高通量以太网联盟(ETH+ Consortium)主席蔡德忠做大会主论坛特邀报告,并与联盟共同主席孙凝晖院士、联盟技术委员会共同主席阿里云高性能网络负责人付斌章博士、联盟技术委员会共同主席中科院研究员王展博士,以及联盟核心代表一起共同对外发布首个面向智算场景的网络标准 - 高通量以太网(ETH+)协议标准(1.0), 旨在构建覆盖Scale-Out和Scale-Up方向的一致性协议底座,并最终实现芯片化及生态构建。阿里云HPN7.0荣获CCF HPC China技术创新奖。



中国计算机学会(CCF)

中国网络大会(CCF ChinaNet)



中国计算机学会互联网专委与数据通信专委年会于11月8-10日张家港召开,阿里云基础设施网络负责人蔡德忠受邀在大会主论坛做题为《规模x10驱动智算集群网络架构新一轮变革》的主旨报告。网络研究与创新工程团队负责人翟恩南,阿里云智算集群网络稳定性负责人张彭城,应用网络负责人秦超受邀在专题论坛做了多次技术报告。这些分享充分展示了阿里云在推动网络与人工智能深度融合方面的技术实力和行业领导力。



中国计算机学会(CCF)分布式计算大会



中国计算机学会分布式计算专委年会于7月26-28日长春召开,阿里云基础设施网络负责人蔡德忠受邀在大会主论坛做题为 《面向AI大模型时代的新型智算网络》主旨报告。该报告介绍了阿里云高性能网络(HPN)的端网融合的架构设计如何解决AI大模型带来的技术挑战以及阿里云全栈自研的核心技术和创新。此外,网络研究与创新工程团队负责人翟恩南在“面向算力网的异构算力抽象体系” 和“云际计算时代的网络挑战与机遇” 两个专题中分别做报告。


世界互联网大会乌镇峰会



2024年世界互联网大会领先科技奖在乌镇揭晓,阿里云面向AI的云计算基础设施(AI Infra)荣获该奖,成为世界互联网大会史上首个以AI基础设施整体获奖的科技成果,其中阿里云最新一代智算集群网络架构HPN 7.0是重要组成。


同期,在乌镇峰会“下一代互联网论坛”上,阿里云智能集团研发副总裁、基础设施网络研发负责人蔡德忠受邀参加受邀参与圆桌讨论,并就人工智能(AI)与下一代互联网的融合发展分享了前瞻性见解。


/ END /

阿里云基础设施
为了永不停机的计算服务
 最新文章