一文读懂智算异构混合并行训练技术（上）

学术 2024-11-22 23:37 北京

‍‍

以ChatGPT、LLaMA等为代表的大模型技术正持续推动社会变革，引发新一轮人工智能热潮。当前流行的大模型具有数千亿甚至上万亿参数规模，数据中心内同类型计算节点数量有限导致训练过程耗时巨大，需充分整合可调用的各类型算力资源进行分布式并行加速,满足训练任务动态扩容需求。

当前数据中心内可用的算力资源类型多样，既有不同厂家的智算芯片，也有同厂家不同代际的智算芯片，这些芯片在计算架构、软件栈、互联方式等方面存在着较大差异，异构智算芯片“资源墙”的存在限制了多厂商多类型资源的灵活协同，数据中心内多样性算力资源难以形成训练“合力”，使得训练集群整体资源利用率较低。同时随着智算集群由万卡向超十万卡规模演进，集群与单厂商绑定存在较大供应链风险，同时技术栈封闭，不利于构建良性智算生态。为充分利用各类型算力资源，构建智算融通生态，中国移动针对跨架构的混合并行训练技术进行了技术研究及开发实践。

大模型训练存在“资源墙”，异构智算资源集群难以聚合成池

大模型训练对算力有着极高需求，目前大模型参数量已达数千亿、上万亿规模，且数据量、参数量上升趋势仍未停止，因此在数据中心构建一个大规模资源池显得愈发重要。

当前针对特定模型训练任务构建单一类型芯片万卡集群已有相关探索，但面对日益增强的模型训练需求仍存在以下问题：一是投入-产出不均衡问题，面向特定业务构建大规模单一类型智算芯片集群需要大量人力、物力、资本等资源投入，集群建设周期长，而实际大模型业务收益相比较而言较少，大模型投入-产出-收益存在不均衡的现象。二是应用泛化性较差问题，当前建设大规模单类型芯片集群具有应用局限性，该类型集群无法根据业务需要迅速、灵活地迁移到其他模型训练场景，具有较差的泛化性。三是单类型算力集群技术栈封闭问题，当前模型训练正推进从单模态向多模态转变、序列由短序列向长序列发展、模型参数从万亿向十万亿增长、训练方式从人工反馈向自我对弈演进，由此带动算力需求成倍增长，构建万卡以上甚至超十万卡集群成为大模型技术发展必经路线，当前单厂商绑定现状存在技术栈封闭和供应链风险，对多样性算力大规模集群构建及使用提出要求。综上，研究如何充分利用数据中心已有各厂家、各代际的芯片，整合形成模型训练混合资源池成为提高数据中心各类智算芯片利用率、解决单厂商技术封闭及供应链风险的关键问题。

当前不同类型的芯片之间存在“资源墙”问题，即由于各类芯片之间存在架构设计、计算能力、数据支持类型、通信机制等差异，难以将不同类型计算资源组成一个大的混合算力资源池共同支撑大模型的训练任务，技术实现存在非均匀分布式并行设计、最优并行策略性能预测、异构算力数据高速通信等挑战。为突破“资源墙”限制，使不同智算芯片之间形成“合力”支撑更大规模模型训练，需要从异构资源合理负载均衡角度出发，从分布式并行方式、训练数据协同方式等多个方面进行详细研究。

异构智算资源软硬件差异大，混合训练面临多重挑战

传统基于同构的大模型分布式训练通常会使用多种不同的并行策略，常见有数据并行、张量并行、流水线并行、优化器并行等，实际场景中，往往会在Megatron、Deepspeed等框架中组合使用上述并行策略，从而达到最佳的并行训练效果。

此外，在通信机制方面，传统面向同构的分布式训练已有一套相对成熟的集合通信机制，包括拓扑感知、通信管理以及多种集合通信算法等。如NCCL是对Nvidia芯片适用的集合通信库，并在底层面向Nvidia硬件架构做了大量针对性优化。

然而，这些并行策略和通信机制设计局限于同架构算力资源，未考虑异构混合训练场景，要实现单一训练任务在异构资源上分布式执行，面临来自诸多方面的挑战：

一是异构混合算力集群非均匀计算任务拆解挑战。传统的分布式并行训练技术均面向单一类型智算集群，因此其对于计算任务的拆解也较为简单，只需根据集群和芯片数量对计算任务进行均匀统一拆解配置。然而对于异构混合训练场景，可能存在不同芯片之间浮点运算速度不同、支持数据类型不同等问题，因此如何对计算任务进行非均匀的拆解十分关键。

二是面向异构混合训练场景自动推荐最优并行组合策略挑战。传统分布式并行训练中，数据并行、张量并行、流水线并行等并行策略参数往往依赖于有经验的模型训练专家人为设定，其主要因为同构集群场景下，芯片数量、设备数量、芯片显存大小等影响策略参数的变量相对可控，有经验的专家可以很快估算出若干可选最优策略，并进行较少的单步训练即可判断最优配置信息。当场景变为异构算力混合时，由于变量激增、场景复杂，通过人工方式评估最优策略变得几乎难以实现，需通过预测算法求解这一NP难问题。如何通过性能预测的方式自动化得出最优的组合并行策略显得格外重要。

三是不同类型智算芯片数据高速通信协同挑战。不同厂家的芯片之间存在计算架构、互联方式等多重维度差异，而在分布式并行训练过程中，芯片之间需要进行参数同步等数据通信行为，由于异构混训场景下不同类型芯片无法互联互通，当前技术无法实现异构混训数据传输协同。因此需要综合考虑异构混训并行计算策略，设计一套面向多厂商的数据传输协同机制，实现异构混合分布式并行训练参数实时协同更新。

为解决上述诸多挑战，中国移动创新性设计并提出了一套通用的智算异构混合并行训练技术。

审稿：张昊 | 网络与IT技术研究所

本文作者

黄蕾 网络与IT技术研究所

就职于中国移动研究院网络与IT技术研究所，主要从事新型智算、机器学习系统、分布式并行计算等领域研究工作。

王升 网络与IT技术研究所

中国移动研究院网络与IT技术研究所技术经理，主要从事NFV/SDN、算力网络、新型智算等领域研究工作。

班有容 网络与IT技术研究所

就职于中国移动研究院网络与IT技术研究所，主要从事智算中心、网络云等场景平台技术方案研究。

王大林 网络与IT技术研究所

就职于中国移动研究院网络与IT技术研究所，主要从事机器学习系统、分布式系统等领域研究工作。

往

期

精

彩

关于我们：中移智库以中国移动研究院为主体建设，广泛汇聚数字经济研究力量，着力提升政策性课题研究的专业性和权威性，并扩大研究成果的影响力、公信力、传播力，为数字经济的高质量发展贡献智慧力量。

http://mp.weixin.qq.com/s?__biz=MzAwMTA3ODExOQ==&mid=2651746335&idx=1&sn=373c9bd6f211002aa10fd312ac88ffc6

中移智库

中移智库以中国移动研究院为主体建设，广泛汇聚数字经济研究力量，着力提升政策性课题研究的专业性和权威性，并扩大研究成果的影响力、公信力、传播力，为数字经济的高质量发展贡献智慧力量。联系我们：cminfo@chinamobile.com

最新文章

中国移动总经理何飚：打造卓著品牌共创新质未来

面向新型工业化的5G-A×AI 技术白皮书

智能体验感知技术之UE Logo

6G通感算智融合技术体系白皮书（1.0）

国际发展环境洞察（2024年第十期）

6G网络协作通感技术白皮书（2.0）

新一代信息技术经济月报（2024年第11期）

中国移动王晓云：商业价值既是6G的出发点，也是落脚点

检索增强生成（RAG）技术及应用浅析

一文读懂智算异构混合并行训练技术（下）

中国移动主办2024年世界互联网大会乌镇峰会数字化绿色化协同转型发展论坛

一文读懂智算异构混合并行训练技术（上）

5G消息产业发展分析与展望

6G：从通信到多能力融合的变革

时频统一全双工UDD关键技术

3GPP R18无线技术标准概览

大模型在有线家宽运维中的应用与思考

3D世界模型：引领人工智能迈向空间智能的新时代

HuggingFace与开源生态：引领人工智能创新的新动力

什么是“高质量”数据集？梧桐大数据探索构建人工智能高质量数据集评测体系

中国移动集团首席科学家冯俊兰：通用智能时代的思考

中移智库月度热文TOP10

对数据要素发展的思考与建议

全球卫星互联网季度观察（2024年11月）

银发经济月度观察（2024年10月）

无源物联核心网技术研究与标准推进

3D内容生成技术及应用场景探究

泛XR产业发展白皮书

提示工程——大模型中的提示词设计（下）

中国移动研究院多项成果入选国务院国资委课题成果集

提示工程——大模型中的提示词设计（上）

6G网络内生AI技术白皮书（1.0）

6G通感算智融合原生基座技术白皮书

NR ATG标准化概述

实时通信融合AI平台重构话音生态

OISA打造GPU卡间开放互联生态

中国移动杨杰：打造原创技术策源地提升信息通信话语权

“弈衡”多模态大模型评测体系白皮书

5G-A赋能绿色通信：节能标准进展，挑战与展望

一文读懂裸眼3D技术

AI赋能空天地海一体化网络资源管理

中国移动研究院张滨：骚扰电话治理关键要以“智”助“治”

新一代信息技术经济月报（2024年第10期）

国际发展环境洞察（2024年第九期）

SIM卡产业链国产化现状简析

品牌科技形象塑造经验及思考

5G小基站发展现状和发展趋势

移动研究院黄宇红：低空经济安全起飞，要牵牢通信这根“风筝线”

高精度工业视觉检测技术与应用白皮书（2024年）

数据生成技术在工业领域的应用与展望

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉