数智QA|万卡集群时代还有多远?

企业   2024-10-11 18:45   北京  


2020年,OpenAI发表论文提出了Scaling Law理论,被行业赋予了AI界“摩尔定律”的美名。该理论认为,对于Transformer模型来说,计算量、参数量和数据集量这三大要素,才是决定模型最终性能的关键。而且,参数量的增加比堆数据集大小更管用。


有了Scaling Law这盏明灯,大模型GPT-3的参数量从前一代的15亿增加到了1750亿,GPT-4更是达到了1.8万亿之巨,传说中的GPT-5参数量则可能膨胀到5万亿。


AI模型参数量的飙升,对计算能力的需求也呈现几何级数的暴涨趋势。还是以GPT模型为例,当年GPT-2模型还算“节俭”,只要33张GPU花费10天时间就能搞定。但到了GPT-3,10000张GPU愣是训练了92天。而GPT-4更是夸张,约用了25000张GPU,还花了90-100天时间才训练完成。预计GPT-5未来部署的时候,要使用20万-30万张加速卡才能支撑。



AI大模型的发展路径,深刻印证了“AI崛起,算力先行”这句话。数据显示,在AI热潮之下,大模型训练的算力需求已经加速到每3-4个月翻一番,平均每年算力增长幅度达到惊人的10倍。2023年,大模型应用占据了中国智能算力总需求的近六成。智算中心未来3-5年有望保持超30%的高速成长。千卡集群、万卡集群将是完成算力跃迁的重要跳板。


本期的《数智QA》,我们就来一起探讨算力集群如何加速AI应用落地进程,万卡集群建设又面临哪些机遇与挑战。


什么是万卡算力集群?

AI infrastructure

Q

A

算力集群指的是由多个计算节点组成的大规模计算系统。每个节点通常包含一个或多个CPU、GPU或ASIC等加速器。这些节点通过网络相互连接,形成一个统一的计算资源池,共享资源并协同工作,以提供强大的计算能力。算力集群已经广泛应用于多种领域,包括但不限于人工智能、大数据分析、机器学习、科学模拟、影视渲染等。



万卡集群则由万个以上包含GPU等加速器的计算节点构成,是当前智算中心建设的发展大势。它就像是一个超级运算大脑,用以执行基础大模型训练等计算任务。万卡集群能够以惊人的速度处理大量的数据和复杂的计算任务。在人工智能领域,尤其是大模型的训练中,万卡集群可大幅压缩大模型训练时间,以实现模型能力的快速迭代,并及时对市场趋势作出应对。


哪些企业在构建智算中心万卡集群?

AI infrastructure

Q

A

目前,能设计并有效运行万卡集群的企业仍集中在少数。在国际上,Google、Meta、微软等科技巨头正利用超万卡集群推动其在AI大模型、智能算法研发及生态服务等方面的技术创新。


在国内,通信运营商、头部互联网企业、大型 AI 研发企业等,也在积极推进万卡集群的建设和应用。特别是作为中国算力基础设施建设的中坚力量,各运营商正在加速推进超万卡集群智算中心建设。


国内在搭建大规模算力的智算中心时,主要采用国内外芯片“混搭”的集群模式。该模式的优势在于能够利用国际上先进的技术和资源,快速构建起高性能的异构智算集群。


然而,这种模式的挑战也不容忽视。由于不同厂商的芯片在架构、性能以及兼容性上可能存在差异,将不同芯片有效地集成在一个系统中对系统优化的要求极高。



万卡集群应用中存在哪些挑战?

AI infrastructure

Q

A

万卡智算集群在应用中面临着多方面的挑战,包括算力使用效率、数据处理、网络互联、AI训练中的稳定性与效率、高能耗高密度、软件生态等。


就拿算力使用效率的挑战来说,集群规模的线性提升并不能直接带来集群有效算力的线性提升。加速卡之间和计算节点之间的互联网络、软件和硬件的适配调优至关重要。当前业内MFU(模型算力利用率)普遍只有30%左右,顶尖的集群利用率也只能做到50%。



另外,集群规模的提升也会带来AI训练过程的稳定性与效率方面的问题。目前来看,业界顶尖厂商的千卡训练集群每月发生至少15次故障,每次恢复训练需要数小时,额外费用超过百万元。随着集群规模从千卡到万卡,故障中断次数及恢复所需时间呈指数级增长。例如,Llama 3 405B大模型在1.6万台集群训练过程中遭遇了高达419次意外组件故障,平均每3小时就发生一次,GPU的故障率更是比CPU高出了120倍。


联想化解万卡集群挑战有哪些优势?

AI infrastructure

Q

A

作为全球领先的AI基础设施和服务提供商,联想围绕“全栈AI”战略,构建了“一横五纵”战略框架。联想万全异构智算平台就是联想“一横五纵”战略框架的核心。该平台能够帮助客户解决通用计算、科学计算、智能计算算力管理与调度,另外还能满足数据治理与模型优化、训练精调和推理应用开发等多层次的需求。


面向AI时代,联想中国基础设施业务群更是在“一横五纵”战略助推下,面向传统以太网、IB网络、RoCEv2以太网络构建了健全的网络交换机产品线,成为“全能”选手。


今年以来,通过与锐捷网络全方位战略合作,联想网络基础设施更是全面囊括数据中心交换机、企业园区交换机、AI交换机等产品形态,全面覆盖千兆到800G,可满足大、中小企业及大型数据中心组网、智算、科学计算等不同场景网络需求。



具体来说,联想万全异构智算平台集成算力匹配魔方、联想集合通信算法库、GPU内核态虚拟化、AI高效断点续训技术、AI与HPC集群超级调度器等五大创新技术。平台可统一纳管异构算力,充分释放AI基础设施生产力,有效解决万卡智算集群应用中面临的多重挑战。


其中,算力匹配魔方实现了AI场景、算法、集群硬件三者的匹配关系。用户只需输入场景和数据,算力匹配魔方即可自动加载最优算法,并调度最佳集群配置。


而联想集合通信算法库可实现对多类型网络拓扑的实时感知,并以先进算法使数据在拓扑中以最佳路径进行传输。集成联想集合通信库后,在千卡集群中,网络通信效率就可提升超10%。随着集群规模越大,在万卡集群中提升效果更显著。


对于GPU内核态虚拟化,联想研究院开发了在GPU驱动层的内核态虚拟化算法。该算法可以将虚拟化造成的GPU算力损耗降到5%以下,极致情况可以降到1%以下,大幅提升GPU利用率。


特别值得一提的,是可以减少AI训练中断时间的AI高效断点续训技术。联想开发了预测AI训练故障的AI模型,实现“用AI来预测AI”。该模型可在断点前提前优化备份,由此能将断点续训恢复时间缩减到分钟级,大幅提升了训练效率。未来,联想将不断创新,把断点续训间隔优化到秒级,让宝贵的AI算力持续可用。


另外,在异构算力调度方面,联想AI与HPC集群超级调度器能够切换AI和HPC的调度沟通,全局监控任务和动态共享资源,使得用户可以充分利用基础设施的每一分算力。



目前,联想万全异构智算平台已经在国内多个智算中心项目中实现落地应用,覆盖科研、教育、金融、云计算等诸多领域。在9月底举办的2024中国算力大会上,联想万全异构智算平台也凭借五大核心技术创新,在众多项目中脱颖而出,荣获“算力中国·年度重大成果”奖。


在助力中国智算产业持续创新发展的征途中,联想将依托“一横五纵”战略,为客户提供高效稳定、绿色节能,且覆盖通用、AI、科学算力的全场景产品方案,不断推动千卡集群向万卡集群甚至十万卡集群的跃迁,为千行万业智能化转型筑牢“数字基石”。


推荐阅读

一起联想
专注于技术创新、场景创新、解决方案创新
 最新文章