本文作者
阿里研究院:周搏、袁媛
阿里巴巴集团公共事务部:星乔、刘明
一
“算力焦虑”下,GPU芯片研发与算力集群建设快速发展
随着大模型技术的快速发展,我国在GPU芯片研发和算力集群建设领域持续加速推进。国内AI芯片企业在芯片性能和能效比上不断优化升级,同时,我国多地纷纷规划建设规模大小不一的GPU算力集群,旨在为大模型训练和千行百业的应用提供充足的算力支持。
然而,当前我国也面临高端芯片获取受限的现实挑战。自主芯片在性能上仍然较国际主流水平有显著差距,且在产能上仍然存在较大的供给缺口。单靠硬件基础设施这“一条腿”单独走路,难以应对技术和产业应用的国际竞争。
二
“另一条腿” - 头部大模型厂商的软硬协同优化提升实践
当前在国家政策扶持和地方大模型产业布局上,更多的关注和资源在投向芯片硬件研发攻坚和算力集群建设。但同样不可忽视的是“软”的层面上的优化,即在充分了解芯片能力和集群建设运营基础上,面向大模型性能的全方位优化。在这方面,国内头部大模型厂商凭借其深厚的技术研发和业务实践积累,正在开展积极探索并展现出了明显的效能提升。
以国内几家头部大模型厂商的创新实践为例(节选),通过在集群架构、功耗散热、资源利用、网络通信、模型算法的综合优化,在模型训练和推理上实现了显著的效能提升:
● 阿里云的HPN [1](高性能网络)通过创新的非堆叠双ToR(顶部接入交换机)设计和双平面架构,有效提升了大型语言模型训练的吞吐量和可靠性。在功耗散热方面,通过优化的蒸汽腔散热器提高了冷却效率,使得51.2Tbps单芯片交换机能在全功率下稳定运行。HPN(高性能网络)部署在生产环境中超过八个月,显著提高了大模型训练的网络性能,数据传输效率提升14.9%。
● 字节跳动的MegaScale [2]系统采用全栈方法,从算法系统共同设计到3D并行通信重叠,显著提升了模型训练的效率和稳定性。通过混合并行策略和深度优化的数据流水线,MegaScale在12288个GPU的算力集群上训练175B参数的模型时,实现了55.2%的MFU(模型浮点运算利用率),比业界同尺寸模型的训练效率提升34%。
● 月之暗面的Mooncake[3]平台通过KVCache(键值缓存)中心化的调度策略,优化了大型语言模型服务的吞吐量和响应速度。在长上下文场景下,与基线方法相比,Mooncake平台在模拟场景中实现了高达525%的吞吐量增加,同时在真实工作负载下使模型推理能力提升75%。
● 深度求索的DeepSeek-V2 [4]模型引入了MLA(多头潜在注意力)和DeepSeekMoE(DeepSeek混合专家)架构,通过经济高效的训练和推理,显著减少了键值缓存需求,提高了生成吞吐量。在激活参数数量相同的情况下,DeepSeek-V2与前代相比节省了42.5%的训练成本,模型推理能力提高5.76倍。
头部大模型厂商是“懂模型”、“用模型”的真正的技术和业务实践者,同时具备对芯片架构和性能优化的深度理解,以及建设和运营超大规模算力集群的实操经验。在“另一条腿” - “软”的层面的优化提升上,正在以业界最佳实践做出卓越贡献。
三
模型与芯片(及算力设施)协同优化,促进大模型算力高效供给
大模型算力的高效供给,需要模型与芯片(及算力设施)“软硬兼施”协同优化,“两条腿走路”缺一不可。在这一过程中,头部大模型企业在算力基础设施持续优化和运营上的独特能力和优势不容忽视。它们在模型优化、系统设计和业务实践中积累的丰富经验,对于推动算力供给的高效化具有不可替代的作用。
结合我国的大模型产业现状:前沿芯片始终面对禁售危险和制造限制,各地大量资源投入万卡集群建设。我们更需要思考“软硬兼施”乃至“以软带硬”的技术路线:
● 以对模型算法和算力集群架构设计的全面优化,降低对前沿芯片的依赖,同步显著降低算力成本、优化算力供给;
● 以对模型发展路线和训练/推理算力需求的深入理解,给芯片发展更好的需求指引,以头部模型带动芯片设计和新路线选型;
● 避免以投资基建的思路来建设“万卡集群”,而是将算力集群视为模型与芯片协同优化的“练兵场”,给出验证芯片路线和优化集群效能量化任务。
在模型和芯片(及算力设施)高度协同的“两条腿走路”策略下,大模型算力供给才能得到有效的优化促进,而"算力焦虑"也将得到有效缓解,从而更高效的推进我国大模型产业的进一步发展,进而真正发挥“人工智能作为新质生产力重要引擎”的关键作用。
参考来源:
[1] Alibaba HPN: A Data Center Network for Large Language Model Training,2024.6,https://ennanzhai.github.io/pub/sigcomm24-hpn.pdf
[2] MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs,2024.2,https://arxiv.org/pdf/2402.15627
[3] Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving,2024.7,https://arxiv.org/pdf/2407.00079
[4] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model,2024.6,https://arxiv.org/pdf/2405.04434
智能算力系列文章:
版块介绍 — 产业之声
紧跟产业发展脉搏,我们汇集行业领袖与企业的真实声音,在算力基础设施的规划与布局、能耗优化、大模型能力发展、大模型评测体系、产业应用案例深入研究、新技术与应用趋势前瞻探索等方面,剖析成功案例背后的逻辑与挑战,并提供基于产业深度洞察的策略建议。同时,我们依托于阿里巴巴集团在人工智能领域的全面布局,分享阿里的AI产业生态和应用的实践落地,探讨技术如何重塑产业格局并推动社会经济的转型升级。
推荐阅读
Reading
2、观察|“兼济天下”与“产业繁荣”:从中法联合声明看中国的“AI力”
3、智能背后的电能保障:GPU算力集群能源挑战的全球视角与中国应对
4、产业之声 | 阿里调研:生成式AI在电商场景的应用、前景与挑战
6、阿里云内部全面推行AI写代码,未来20%代码由通义灵码编写
9、安全治理与能力发展兼顾并重,Claude 3对中国大模型发展有哪些启示
10、【“人工智能+”深度案例】从智能工厂到ChatBI,雅戈尔的“智能+”实践
14、《自然·医学》刊登中国科学家关键突破:癌症筛查的黄金时代准备就绪
- END -