摘 要
随着大模型的高速发展,智算需求的增长速度远超芯片性能提升速度,计算集群方案和“DC as a Computer”概念应运而生,数据中心网络变得尤为重要。在大模型训练和推理时,集群对网络系统的稳定性要求极高。针对大模型业务特点,结合主流集群网络技术,研究了训练场景下的超大规模组网、超高吞吐和超稳定的新一代智算中心网络技术,以及推理场景下通过SDN+SRv6可编程算网一体智能调度和切片技术构建高品质的入算网络,并研究了DC间协同训练的技术难点和应对方案。
前 言
大模型的出现给国内电信运营商领域带来了技术创新的契机,更为其业务增长和竞争力提升提供了新的驱动力。本文旨在探讨大模型对运营商的影响,分析其在技术攻关、业务创新、产业升级的推动作用,探讨大模型如何助力运营商在算网融合进程中抓住机遇,并提出有效的应对方案和可持续发展的演进思路。
0 1
大模型发展趋势和方向
1.1 AI加速智能算力的发展
随着AI大模型能力的持续优化,更大的模型需要基于更海量数据集进行训练。OpenAI的GPT1模型曾在110亿样本的BooksCorpus数据集上训练,发展到GPT4,模型需要在总共13万亿样本的多个数据集上训练。由此可见,AI大模型预训练所需要的数据集数量飞速增长。2012年至2019年AI训练算力平均每100天就会翻倍,而GPU的单卡算力则需要2~3年才能增长一倍。由此可见,单卡算力的发展速度远远落后于模型发展的算力需求。近年来,随着各行各业都投入到AI大模型的研发中来,AI智算的算力规模增长迅猛。据IDC(International Data Corporation)预测,2023年中国的智能算力规模达到427.0 EFLOPS,超过通用算力规模,预计到2026年,智能算力规模将进入ZFLOPS级别,达到1 271.4 EFLOPS。
我国算力基础设施的发展正加速从“以通算为主的供给侧优化”转向“以智算为核心的需求驱动”,支撑经济发展新动能的作用日益凸显。根据工信部、赛迪发布的数据,2022年我国高性能算力占比近20%,大模型引爆了高性能算力指数级增长,2023年上半年我国新增的算力设施中,智算的占比超过了50%,整体算力规模达到197 EFLOPS,预计我国算力核心产业规模将突破2万亿元。
1.2 大模型对算力、数据、应用形成新需求
大模型参数规模的跨量级突破,数据集倍数增长,亟需海量算力进行承载,这推动了AI服务器性能的持续提升,智算布局呈现规模化、集群化的趋势。
一是单个服务器性能的提升可有效降低服务器间参数、数据量等传输时延,提升计算效率,预计2024年下半年将推出超越现有H系列的高性能GPU卡。二是依托高性能GPU卡搭建超级计算机(服务器集群),E级规模智算集群将成为主流。根据赛迪报告预测,到2024年年底,我国将有5%~8%的企业大模型参数从千亿级跃升至万亿级,算力需求增速将达到320%。
谷歌、微软等相继推出的大模型参数量向千亿、万亿级规模演进,着力打造面向大模型训练的E级智算集群。据公开统计数据,我国建成的超E级智算中心仅5家,预计2024年超大规模智能中心占比将稳步提升。
根据大模型三定律,即Scaling Law算力、数据、参数越大,训练效果会越好,大模型必须经过1022次浮点运算才会出现涌现。以GPT为例,GPT-3的参数为1 750亿,GPT-4则有1.8万亿参数。根据工程学的经验,千亿参数模型用千卡,万亿参数模型用万卡。
在B端企业服务应用中,类ChatGPT产品可嵌入原有企业服务进行升级,知识检索、数据分析、辅助编程、数字员工、交互硬件、数字人等企业级应用都将被重构。
1.3 大模型推动AI产业化和产业AI化
大模型推进AI技术向结构化、丰富化、产业化发展,AI产业具有千亿级的市场规模。智算中心以其强大的算力驱动AI模型对数据进行深度加工,为AI产业的发展提供了数据处理和智能计算支撑,作为算力基础设施激发了AI产业化创新活力。AI产业化包含自动驾驶、机器人、元宇宙等场景。以机器人产业为例,机器人首先在孪生世界里进行训练,获得决策、感知等能力,再在真实世界中进行互动交流、问答、决策等活动,智算中心的AI技术和算力支撑使机器人在孪生世界进行训练时获取的数据更多,决策准确度更高,为机器人行业的快速发展提供支撑。
产业AI化是指将人工智能与传统行业融合,使AI赋能各行业发展。一方面智算中心可根据企业自身业务需求将AI模型调整为合适的业务模型,另一方面,智算中心可联动产业链上下游,实现需求、供给匹配,促进产业高质量、智能化发展。从规模来看,“AI+产业”有着万亿级市场规模,具体应用场景包括智慧医疗、文娱创作、智慧科研等。
0 2
大模型对网络的需求和挑战
2.1 大规模训练对智算网络的需求与挑战
按照AI大模型训练的组网规模需求,DCN网络中的通信节点可达数万卡到10万卡规模,且训练过程中包含多种并行模式,集群内的通信数据模型呈现多点通信、大象流、同步效应等特征,广域网需要支持海量训练样本的时效性传输,这给网络带来了三大挑战。
2.1.1 智算网络实现算力100%无损释放
a)如何提升网络吞吐、降低计算通信时延是AI大模型智算中心充分释放算力的核心问题。传统数据中心所采用的负载均衡技术,如ECMP或LAG,在存在数量众多的“小流”的情况下,负载均衡和拥塞避免的效果较好。而在AI网络中,通常只有少数几个大的“大象流”占据大部分的网络带宽,如数据加载、模型初始化、权重同步等操作,流量特征的巨大差异导致传统负载均衡技术失效。测试数据表明,在不产生拥塞的情况下,传统的ECMP流级负载均衡会导致约10%的应用流完成时间指标是理想状态下的1.5~2.5倍,应用性能劣化明显。因此,在面向AI的网络中,需要网络支持更细颗粒度的负载均衡能力。
b)AI大模型应用对端到端通信时延和抖动性能提出了较高的要求,网络拥塞导致的动态时延是实现低时延通信的主要障碍。通信时延通常包含静态时延(硬件转发时延)和动态时延(通常由网络拥塞导致的排队时延)。典型数据中心交换机的硬件转发时延通常在500 ns~10 μs,在AI业务节点的端到端通信时延(通常都在几十甚至上百毫秒)中占比较小,而由拥塞导致的排队时延(动态时延)可以达到几十毫秒甚至亚秒级。以GPT-3模型训练为例,从理论估算模型分析,当动态时延从10 μs增长至1 000 μs时,GPU有效计算时间占比将降低10%,当网络丢包率为1‰时,GPU有效计算时间占比将下降13%。由此可见,网络拥塞导致的动态时延是导致时延指标达不到预期的主要原因。传统拥塞控制算法在AI高性能网络中均无法避免局部拥塞的问题,因此需要更精准、及时的拥塞控制机制。
c)AI大模型下的智算中心网络作为业务流量的调度中枢,其稳定性决定着整个集群的运行效率,尽可能减少训练中断带来的损失是提升训练效率的有效手段。由于AI大模型训练集群规模大,配置的复杂度进一步增加,这给运维带来挑战。有数据显示,Meta的OPT-175B最长稳定训练时间仅为2.8天,该模型有22%的故障来自于网络故障。因此,在大规模组网的情况下,提升隔离故障域、故障事件的感知和恢复能力、高效自动化部署配置是提升大模型训练效率的关键问题。
2.1.2 广域网络的数据传输时效性
为了训练准确可靠的模型,用户需要利用大数据量的样本进行训练,模型训练量普遍在百G~TB级。以人体基因组测序为例,每个基因样本数据量都超过100G,每天测序仪产生的总数据量超15T。而像大科学装置,如天眼、武汉某研究所每天产生的数据量都有十几T、几十T甚至上百T。通过线下快递硬盘等存储介质,是目前解决大数据迁移问题的主要途径。凭借完善的物流体系,硬盘快递的方式可在一定程度上缓解成本和效率的两难问题,但是仍然存在着运输成本高、时效性不足、拷入拷出复杂繁琐等问题。同时,因为硬盘等存储介质离线搬运,通过航空、铁路、公路等途径进行运输,面临数据损毁、数据泄露等安全风险。
基于传统专线的数据传输方式存在“高带宽用不起”“低带宽等不起”的问题,导致大量线上流量只能转向线下进行传输。当用户通过互联网传输或租用低带宽专线的方式进行传输时,传输成本企业可承担,但是在应对周期性、临时性大规模数据迁移任务时,通常传输所需的时长又无法满足企业需求。以10TB数据量为例,使用100M带宽进行传输,至少需要12天,而传输100 TB的数据时,时间将增大到121天,远超出用户承受极限。用户租用大带宽(如1G以上)专线能在一定程度上提升数据传输速率,但对大部分企业而言,数据传输通常为任务制需求,即周期性、临时性的大数据量迁移需求,而非全天候、规律性的,租用这类大带宽专线成本过高,无法承担。因此,用户需要网络具备弹性高吞吐和任务式服务能力,实现按需开通、时效可承诺。
2.1.3 跨DC协同训练和碎片化算力管理
a)按照大模型技术发展趋势预测,大模型参数每年以约30%的速度增长,其规模正从万亿迈向十万亿。以此速度计算,大约再过5年,大模型参数就有望突破十万亿。现阶段,常见的单体智算中心的算力规模通常在1~5万卡。以一个先进的单体智算中心为例,其算力上限约为6万卡。从技术层面看,当算力需求超过8万卡时,单体智算中心在供电稳定性、散热效率、网络带宽等方面都会面临巨大挑战。这些技术瓶颈使得单体智算中心越来越难以实现超大规模高算力的需求。
b)算力出租是算力服务商实现商业闭环的重要途径,但是碎片化算力闲置,资源无法有效利用。算力租赁可以为企业提供灵活的计算能力,相较于企业自建数据中心,租赁可以节省大量的时间和成本。企业可以根据自身需求,灵活地选择计算能力的大小,并且可以根据业务发展调整租赁规模,这使得算力租赁受到越来越多企业的青睐。算力服务通过提供IaaS、PaaS、MaaS等算力租赁模式实现智算算力的盈利。多租不可避免地会导致算力碎片化,使资源无法得到有效利用。
RDMA具有零拷贝、内核旁路、无需CPU干预、低延迟的优点,这使得RDMA成为智算流量的主力传输协议,但是有数据显示,0.1%的网络丢包会带来50%的AI算力损失,时延增加1 ms,训练效率会下降3%~5%。因此,探索多DC协同训练,构建广域无损传输能力,实现百公里到千公里级别的训练效率可容忍,是应对未来超大规模训练、实现“以网补算”的重要探索课题。
2.2 在线推理应用提出对网络架构的创新需求
2.2.1 算网边端协同训练和推理任务高效分发
对于模型训练用户和智算应用提供商,网络不仅要能够满足大规模样本数据传输的需求,还要能够适应多样化的计算任务,确保用户能够随时随地获取所需的AI算力资源,实现高质量的模型训练、在线推理和AI应用部署。为了满足应用所需的实时性要求,算力通常会部署在不同的层次,以车联网算力分层为例,根据不同场景的业务需求部署算力,典型部署方式通常分为4层:中心云〔提供网联信息和ADS训练等服务(99%的网络时延<100 ms)〕、区域云〔提供远程实时监控和驾驶指引等服务(99%的网络时延<50 ms)〕、边缘云〔提供远程接管和协同驾驶等服务(99%的网络时延<20 ms)〕以及近路边缘〔实现紧急情况下车辆协同机动(99%的网络时延<20 ms)〕。网络需要能够实现训练中心到推理节点的快速模型分发和部署。
2.2.2 推理服务对流量入口和网络调度的要求
对于推理用户而言,AI普惠将推动越来越多的算力服务问世。按照用户所需的体验要求,这些应用通常会被部署在网络的各个层级,如边缘资源池部署工业制造、人机协作类应用(时延<5 ms),区域资源池部署用户界面实时交互类应用(时延<30 ms),中心资源池部署文本交互类应用(时延为30~100 ms)、语音交互(时延为100~200 ms)等业务,网络需要在这些遍布各个层级的资源池和遍布各地的用户之间灵活调度,实现百万级用户的并发灵活接入。同时,针对高价值用户,需要构建差异化的入算保障能力。
运营商作为网络基础设施的主要提供者,要面向大模型时代的业务特点,对现有的网络架构进行调整,结合网络新技术的应用,满足大模型时代的业务发展需求。
0 3
应对方案
3.1 模型训练
3.1.1 以网强算,建设新一代智算中心网络
3.1.1.1 超大规模组网、低功耗,实现运得多
在大规模集群中,传统的多层网络结构可能会导致大量的端口需求,因为每一层网络都需要相应的交换机端口来连接下层网络。为了减少端口数量,可以采用千卡单层、万卡两层的组网结构。相比传统的三层结构,该结构可以有效减少所需的端口数量,同时降低功耗。这种优化策略能够在不牺牲网络性能的前提下,实现成本和能耗的双重节约。根据相关测算,相比传统的三层组网,一个18K集群的两层组网方案可以节省大约40%的端口数。此外,通过优化网络拓扑和使用更高效的通信协议,可以进一步提高网络的通信效率,使功耗降低20%,这对于构建可持续发展的数据中心和人工智能计算平台具有重要意义。
3.1.1.2 超高吞吐、高算效,实现运得快
由于AI训练时各节点间传输的数据量大,传统网络容易出现负载不均衡的问题,传统ECMP算法的有效吞吐约为50%。为了解决传统HASH算法的限制,需要专门为数据中心的AI训练网络设计算法,来优化网络流量的均衡分配和提高网络吞吐效率。近年来新兴的感知路由已普遍被行业认为是负载均衡算法的最佳实践之一。基于感知路由的负载均衡技术实际上是一个基于全局信息的负载均衡算法,能够根据整网交换机节点的流拥塞状态和全网拓扑进行全局算路,识别出最优路径,从而实现整网流量的均衡分布。通过优化以太网负载均衡机制,能够使整网吞吐效率提升至98%,显著优于传统技术的50%吞吐效率,特别适合处理AI训练场景下的大数据流,能够有效解决流数量较少时的HASH冲突问题,提供更好的网络均衡效果。
3.1.1.3 超稳定,易运维,月级训练不中断,实现运得稳
为了支撑AI大模型训练实现从天级到月级的稳定训练,需要网络具备自动化、智能化能力。
a)即插即用的自动化部署能力。AI大模型网络涉及拥塞控制算法、RDMA无损等复杂特性的配置,且涵盖网卡和网络交换机等数目众多的设备,复杂性高,对网络运维能力要求很高。采用传统开局方式时,需手工生成设备配置并下发,人工校验排查错误,由于客户需要租户隔离等业务部署,网络侧配置复杂,实际开局耗时长。通过配置的自动生成、自动加载,同时针对配置一致性、可靠性、业务性能等开展一系列自动化测试和验收的活动,实现即插即用。
b)智能可视的运维自动化能力。万卡集群涉及3万线缆/模块,模块/链路异常导致的问题时有发生,同时AI训练的流量大、性能要求高,由于卡间通信流量途径不可见,缺乏端到端运维手段,导致任务异常退出时需计算/存储/网络人工配合,逐台分析交换机告警/日志,实际定界通常需耗时1~2天。针对这些问题,需要运维系统能够快速诊断模块异常、采集上报高精度数据,覆盖90%及以上的故障场景,实现故障秒级定位;同时通过计算/存储/网络等相关领域的自动关联分析,实现TOP故障跨域定界时间减少到分钟级。
3.1.2 弹性调度,实现数据高通量极速传输
在大模型时代,数据的快速迁移和高效处理变得尤为关键。面对海量样本数据的在线迁移需求,传统网络专线服务因成本和效率问题已不再适用。因此,业界提出了网络数据快递“任务式服务”的概念,旨在提供更灵活、成本效益更高的数据传输解决方案。这种服务模式允许用户根据自己的需求自主订购服务,选择所需带宽,并实现传输服务的即时开启,同时保证传输速度,满足小时达、当日达、次日达等不同级别的服务需求。
为实现这种“任务式服务”能力,网络需要集成多项先进技术,包括带宽日历、弹性带宽和服务等级协议(SLA)可承诺等。带宽日历功能涉及到网络运力的预测和管理,支持用户进行任务预约和准入控制。此外,网络还需具备弹性服务能力,利用如SRv6多路径负载分担等技术来适应用户的不同带宽需求,并提升全网的吞吐量,从而更充分地利用网络资源。
同时,还需加强网络的流量调度和拥塞管理能力,以实现拥塞的秒级解除,确保SLA的可承诺性。这不仅提升了网络的响应速度,也保证了服务质量,满足用户对于数据传输速度和稳定性的期待。通过应用这些技术,数据快递服务能够为用户提供更高效、更可靠、更经济的数据传输体验,进一步推动数字经济的发展和“东数西算”等国家战略的实施。
3.1.3 算网协同,实现跨DC协同训练
当单个智算中心规模难以满足大模型训练对算力的需求时,跨数据中心(DC)协同训练是解决该问题的重要途径。针对跨DC协同训练时面临的建网成本、流量负载均衡以及广域RDMA无损的挑战,为了实现高效的跨DC协同训练,网络需要具备以下几个方面的能力。
a)流量N∶1收敛。在跨DC协同训练中,参数面网络数据需要在多个数据中心间进行处理。以一个万卡中心为例,单张网卡速率为200 Gbit/s,参数面网络最高突发可达2 000 Tbit/s,当前大模型算法需要GPU服务器之间实现数据同步,网络采用1∶1收敛设计,跨DC协同训练组网建设成本高昂。需改进现有大模型算法,实现协同训练网络流量N∶1收敛,减少数据中心间网络建设成本。
b)流级调度实现网络级负载均衡。传统的等价多路径(ECMP)哈希算法在处理大规模数据流时容易出现负载不均衡的问题。在多DC网络拓扑环境下,需要通过全局集中调优,结合流级调度,根据实际网络流量情况动态调整流量分配,实现网络级负载均衡,避免网络拥塞,全网数据传输效率可由50%提升到95%及以上,确保了训练过程的稳定性和高效性。
c)基于数据流的精准流控。在数据中心内,对于参数面RDMA协议,一般通过端口优先级流控(PFC)功能实现业务无损,传统的PFC机制容易出现头阻和误伤问题,导致数据传输效率下降。不同于PFC的端口队列级流控,基于数据流的精准流控以IP数据报文的五元组为粒度,可以实现流级的精准反压,流级流量峰值速率独立控制,可以有效解决上述问题,确保数据传输的稳定性和高效性。流级反压流控可以根据实际网络情况动态调整流控策略,避免网络拥塞,提高数据传输效率。
3.2 模型应用
3.2.1 构建算网一体的智能调度体系
在当前数字经济快速发展的背景下,随着人工智能、大数据、云计算等技术的广泛应用,企业与用户对算力资源的需求呈现爆发式增长。然而,现有的算网服务模式缺乏智能的调度系统,无法根据业务需求动态分配和调整计算、存储和网络资源,导致资源分配不够灵活和高效,难以满足现代化应用场景的需求。为此,算网一体调度体系的构建显得尤为重要,构建算网一体的智能调度体系是实现AI大模型高效应用的关键。
基于软件定义网络(SDN)和SRv6(Segment Routing over IPv6)可编程能力,可以实现算力资源连接的快速建立以及用户接入的快速开通和智能调整。具体来说,智能调度体系需要具备以下几方面的能力。
a)快速建立算力资源连接。通过SDN和SRv6技术,可以实现算力需求方与算力供给方的快速连接,确保用户能够及时获取所需的算力资源。
b)智能调整用户接入。智能调度体系可以根据用户业务的SLA需求和网络情况,通过SDN网络控制器端到端算路和SRv6 Policy动态调整用户策略,确保用户能够获得最佳的业务体验。
c)高效分发训练模型。智能调度体系可以实现训练模型的高效分发,确保模型能够快速部署到各个节点,提高整体训练效率。
d)灵活调度算力资源。通过智能调度体系,可以实现算力资源的灵活调度,确保资源利用率最大化,降低资源浪费。
综上所述,通过算网一体化编排调度体系,结合SDN技术形成算网能力的统一汇聚,实现资源的跨层跨域高效调度和一体服务,不仅能够提升智算中心计算资源的利用效率,还能显著改善AI大模型用户的业务体验。通过智能调度和资源优化配置,企业可以更好地应对复杂多变的市场需求,实现业务的快速响应和创新发展,推动数字经济的高质量发展。
3.2.2 构建高品质入算网络
随着大模型应用的飞速发展,大模型推理业务也逐步兴起,网络作为数据传输和交互的基础设施,其重要性日益凸显。大模型推理业务,如自然语言处理、图像识别、智能推荐等,对网络的带宽、时延、可靠性提出了极高的要求。这些需求不仅推动了网络技术的不断进步,也促使运营商加快构建更高品质的网络基础设施,构建高品质入算网络是实现大模型由训练到应用的关键。基于SRv6可编程能力,可以实现“一点接入、品质服务”。具体来说,高品质入算网络需要具备以下几个方面的能力。
a)业务敏捷。业务分钟级快速部署,确保网络服务的高效性和灵活性,为企业提供快速响应和高质量的网络体验。
b)带宽弹性。提供从0到100G的弹性带宽,根据实际业务需求动态调整资源,在数据流量波动时,网络资源能够即时响应,提供连续稳定的服务,支持企业的高速数据处理和算力服务体验。
c)超低时延。通过SRv6优化网络转发路径,减少数据包传输中的跳数,实现超低时延入算,确保数据传输和处理的极速响应,满足对时延敏感应用的需求。
d)灵活调度。实现业务路径的灵活调度和空闲链路带宽的高效利用,针对SLA要求高的算力业务,提供无阻塞转发路径,确保数据在任何时候都能被高效处理,无需等待;针对SLA要求低的业务,充分利用网络闲置带宽资源,确保带宽资源不浪费,提升网络的整体性能和服务质量,为算力业务提供稳定可靠的网络环境。
e)安全可靠。网络具备端到端的安全保障能力,通过加密和访问控制等手段,保护数据在整个传输链路上的隐私和完整性,数据传输和处理过程中端到端隔离,确保信息安全不泄露,为用户提供一个可信赖的通信环境。
f)运维可视。提供SLA丢包和时延随流可视能力,使运维人员能实时监控网络状态,确保问题的快速诊断和及时解决,提高网络的透明度和可管理性,保障网络服务质量和用户体验。
0 4
结束语
大模型时代运营商网络面临众多挑战,针对大规模训练能效低,样本上传慢、跨DC协同训练难问题,通过以算强网提供运得多、运得快、运得稳的智算中心网络,构建多路径聚合、带宽池化的弹性服务,以及算网协同来实现跨DC协同训练。在线推理应用存在算力获取难的问题,可引入SDN+SRv6可编程能力构建智能调度体系以及高品质入算网络。未来,还将探索更多DC间协同训练的场景,满足用户随时随地获取智能算力的需求,让人工智能普惠千行万业。
作者简介
陈斌,现任中国联通智网创新中心副总经理、高级工程师,享受国务院政府特殊津贴,主要从事5G、云计算、算网一体、大数据等工作,带领团队完成涵盖国家科技部863计划重大专项、国资委BDGG任务、国资委LHT等国家级、省级、集团级项目近百项;
裴培,高级工程师,主要从事运营商云网产品、IT系统的规划、设计、研发等工作;
许鹏,高级工程师,主要从事大型网络数智化总体设计、系统规划及研发工作。
推荐阅读
点击“阅读原文”,下载论文PDF
欢迎扫码关注
头条号|邮电设计技术
官方网站|http://ydsjjs.paperopen.com
编辑|李星初 审核|袁江