产业之声 | “软硬兼施，以软带硬” - 缓解“算力焦虑”的模型与芯片协同优化策略

科技 2024-07-18 18:11 北京

本文作者

阿里研究院：周搏、袁媛

阿里巴巴集团公共事务部：星乔、刘明

一

“算力焦虑”下，GPU芯片研发与算力集群建设快速发展

随着大模型技术的快速发展，我国在GPU芯片研发和算力集群建设领域持续加速推进。国内AI芯片企业在芯片性能和能效比上不断优化升级，同时，我国多地纷纷规划建设规模大小不一的GPU算力集群，旨在为大模型训练和千行百业的应用提供充足的算力支持。

然而，当前我国也面临高端芯片获取受限的现实挑战。自主芯片在性能上仍然较国际主流水平有显著差距，且在产能上仍然存在较大的供给缺口。单靠硬件基础设施这“一条腿”单独走路，难以应对技术和产业应用的国际竞争。

二

“另一条腿” - 头部大模型厂商的软硬协同优化提升实践

当前在国家政策扶持和地方大模型产业布局上，更多的关注和资源在投向芯片硬件研发攻坚和算力集群建设。但同样不可忽视的是“软”的层面上的优化，即在充分了解芯片能力和集群建设运营基础上，面向大模型性能的全方位优化。在这方面，国内头部大模型厂商凭借其深厚的技术研发和业务实践积累，正在开展积极探索并展现出了明显的效能提升。

以国内几家头部大模型厂商的创新实践为例（节选），通过在集群架构、功耗散热、资源利用、网络通信、模型算法的综合优化，在模型训练和推理上实现了显著的效能提升：

● 阿里云的HPN [1]（高性能网络）通过创新的非堆叠双ToR（顶部接入交换机）设计和双平面架构，有效提升了大型语言模型训练的吞吐量和可靠性。在功耗散热方面，通过优化的蒸汽腔散热器提高了冷却效率，使得51.2Tbps单芯片交换机能在全功率下稳定运行。HPN（高性能网络）部署在生产环境中超过八个月，显著提高了大模型训练的网络性能，数据传输效率提升14.9%。

● 字节跳动的MegaScale [2]系统采用全栈方法，从算法系统共同设计到3D并行通信重叠，显著提升了模型训练的效率和稳定性。通过混合并行策略和深度优化的数据流水线，MegaScale在12288个GPU的算力集群上训练175B参数的模型时，实现了55.2%的MFU（模型浮点运算利用率），比业界同尺寸模型的训练效率提升34%。

● 月之暗面的Mooncake[3]平台通过KVCache（键值缓存）中心化的调度策略，优化了大型语言模型服务的吞吐量和响应速度。在长上下文场景下，与基线方法相比，Mooncake平台在模拟场景中实现了高达525%的吞吐量增加，同时在真实工作负载下使模型推理能力提升75%。

● 深度求索的DeepSeek-V2 [4]模型引入了MLA（多头潜在注意力）和DeepSeekMoE（DeepSeek混合专家）架构，通过经济高效的训练和推理，显著减少了键值缓存需求，提高了生成吞吐量。在激活参数数量相同的情况下，DeepSeek-V2与前代相比节省了42.5%的训练成本，模型推理能力提高5.76倍。

表1：头部大模型厂商的软硬协同优化提升实践（节选）

头部大模型厂商是“懂模型”、“用模型”的真正的技术和业务实践者，同时具备对芯片架构和性能优化的深度理解，以及建设和运营超大规模算力集群的实操经验。在“另一条腿” - “软”的层面的优化提升上，正在以业界最佳实践做出卓越贡献。

三

模型与芯片（及算力设施）协同优化，促进大模型算力高效供给‍

大模型算力的高效供给，需要模型与芯片（及算力设施）“软硬兼施”协同优化，“两条腿走路”缺一不可。在这一过程中，头部大模型企业在算力基础设施持续优化和运营上的独特能力和优势不容忽视。它们在模型优化、系统设计和业务实践中积累的丰富经验，对于推动算力供给的高效化具有不可替代的作用。

图1：模型与芯片协同优化，促进大模型算力高效供给

更进一步分析，在大模型技术的发展中，模型能力已成为最大的变量和可控量，芯片的架构设计和性能优化愈发需要匹配模型的演进路线。国外产业界已有大模型头部厂商和芯片创业公司，推出专门面向大模型算法深度优化设计的芯片产品。其中的新锐企业etched在推出自己的定制芯片时，更是算了一笔细账：“模型的训练成本达到10亿美金，模型的推理成本达到100亿美金。这样大规模的资源投入只要有1%的性能改进，就值得拿出5000万到1亿美金做专项优化。”

图2：业界实践，“以软带硬”-匹配模型算法的芯片设计

结合我国的大模型产业现状：前沿芯片始终面对禁售危险和制造限制，各地大量资源投入万卡集群建设。我们更需要思考“软硬兼施”乃至“以软带硬”的技术路线：

● 以对模型算法和算力集群架构设计的全面优化，降低对前沿芯片的依赖，同步显著降低算力成本、优化算力供给；

● 以对模型发展路线和训练/推理算力需求的深入理解，给芯片发展更好的需求指引，以头部模型带动芯片设计和新路线选型；

● 避免以投资基建的思路来建设“万卡集群”，而是将算力集群视为模型与芯片协同优化的“练兵场”，给出验证芯片路线和优化集群效能量化任务。

在模型和芯片（及算力设施）高度协同的“两条腿走路”策略下，大模型算力供给才能得到有效的优化促进，而"算力焦虑"也将得到有效缓解，从而更高效的推进我国大模型产业的进一步发展，进而真正发挥“人工智能作为新质生产力重要引擎”的关键作用。

参考来源：

[1] Alibaba HPN: A Data Center Network for Large Language Model Training，2024.6，https://ennanzhai.github.io/pub/sigcomm24-hpn.pdf

[2] MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs，2024.2，https://arxiv.org/pdf/2402.15627

[3] Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving，2024.7，https://arxiv.org/pdf/2407.00079

[4] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model，2024.6，https://arxiv.org/pdf/2405.04434

智能算力系列文章：

1、智能背后的电能保障：GPU算力集群能源挑战的全球视角与中国应对

2、产业之声 | 为AI供电-超万卡GPU算力集群的算电协同与零碳发展

版块介绍 — 产业之声

紧跟产业发展脉搏，我们汇集行业领袖与企业的真实声音，在算力基础设施的规划与布局、能耗优化、大模型能力发展、大模型评测体系、产业应用案例深入研究、新技术与应用趋势前瞻探索等方面，剖析成功案例背后的逻辑与挑战，并提供基于产业深度洞察的策略建议。同时，我们依托于阿里巴巴集团在人工智能领域的全面布局，分享阿里的AI产业生态和应用的实践落地，探讨技术如何重塑产业格局并推动社会经济的转型升级。

推荐阅读

Reading

1、被“套壳”割韭菜，是谁在制造AI焦虑？

2、观察｜“兼济天下”与“产业繁荣”：从中法联合声明看中国的“AI力”

3、智能背后的电能保障：GPU算力集群能源挑战的全球视角与中国应对

4、产业之声 | 阿里调研：生成式AI在电商场景的应用、前景与挑战

5、产业之声 | 生成式AI驱动的数据要素价值创造新模式

6、阿里云内部全面推行AI写代码，未来20%代码由通义灵码编写

7、安筱鹏：中国没有“百模大战”，也没有“十模大战”

8、达摩院AI助力农业育种，遗传学分析加速1000倍

9、安全治理与能力发展兼顾并重，Claude 3对中国大模型发展有哪些启示

10、【“人工智能+”深度案例】从智能工厂到ChatBI，雅戈尔的“智能+”实践

11、夸克：大模型时代，创造革新性搜索产品的探索之路

12、数字技术助力国产猕猴桃产业破解“即食”难题

13、AI驱动电商，淘天集团用科技定义商业

14、《自然·医学》刊登中国科学家关键突破：癌症筛查的黄金时代准备就绪

15、安筱鹏：制造业是AI大模型应用的主战场

16、【观点】阿里妈妈万相实验室首发上线电商进入AI上新新时代

17、数字时代组织管理工具“钉钉HCM”重磅发布

18、产业之声 | 生成式AI驱动的数据要素价值创造新模式

19、产业之声 | 生成式AI在电商场景的应用、前景与挑战

20、产业之声 | 为AI供电-超万卡GPU算力集群的算电协同与零碳发展

- END -

http://mp.weixin.qq.com/s?__biz=MjM5NTg0NDE1Mw==&mid=2652624724&idx=1&sn=fd964abc29099c470844ffb0f6bb4dc4

阿里研究院

依托阿里巴巴集团先进的AI科技能力、丰富的应用场景与负责任的技术生态，总结提炼科技发展的案例实践和治理经验，为产业政策制定实施提供科技企业的智识建议。

最新文章

价值之探 | 2024世界互联网大会乌镇峰会聚焦“以人为本，智能向善”

治理之智 | 梅夏英《复杂系统与智能涌现：未来数字法研究的范式图景》| 专论

产业之声 | 1个月砸入上亿元，智能驾驶进入算力游戏

治理之智 | 合成数据在生成式人工智能时代的价值与风险

陶哲轩神预言！Transformer破解百年三体难题，凭数学直觉找到李雅普诺夫函数

治理之智 | 周汉华：论我国人工智能立法的定位

招募 1024 个人来过节，不懂代码的优先！

具身智能系列 | 摆脱“地心引力束缚”-人形机器人进厂实习背后的产业发展逻辑

司南 OpenCompass 9 月榜单揭晓！开源模型首次占据榜首！

刚刚，我们一起登上国际顶级学术期刊《Cell》

域外之见 | 加州法案：起源、演进、否决与启示

域外之见 | 北美跨境电商“低值豁免”制度改革方案研判

阿里巴巴入选2024年《财富》“改变世界”榜单

治理之智 | 检索增强：解决企业“上云用模”的数据安全隐忧

重新定义开源AI的背后：解析模型开放框架的理论

具身智能系列 | “百人大战”来临，人形机器人产业发展需要“软硬并重”

多数据中心训练：OpenAI 击败谷歌 Infra 的大计（两万字精校）

产业之声 | 安筱鹏：超越AI大模型的“加拉帕戈斯”效应

《阿里云安全白皮书2024版》发布：国内首推“安全共同体”理念

云栖十问人形机器人：具身智能如何创造“图灵时刻”？

云栖Day1重磅合集！ Qwen2.5-72B成为全球最强开源模型

吴泳铭：AI最大的想象力不在手机屏幕，而是改变物理世界

治理之智 | 算法影响评估的三个基本问题：制度定位、机制模式与改革启示（下篇）

OpenAI o1大模型的技术、安全与应用简析 | 积跬步，虽未至千里，仍指引前行

治理之智 | 算法影响评估的三个基本问题：制度定位、机制模式与改革启示（上篇）

治理之智｜对“数据入表”的若干思考：重视数据意识能力，回归要素价值本源

大语言模型的“智能飞轮”！阿里最新综述全面解析大模型的自进化之路

LLM的范式转移：RL带来新的 Scaling Law

产业之声｜大模型问月：首个月球科学多模态专业大模型发布

具身智能系列 | 人形机器人会替代机械臂吗？- 人形机器人在制造业中的定位与价值分析

“形”“型”合璧，恰逢其会-人形机器人是大模型技术的高级呈现形态

逐际动力发布新一代通用人形机器人CL-2，在2024世界机器人大会展示其潜力

谷歌前CEO埃里克·施密特最新论AI崛起, 全球竞争与科技演变· 万字全文

产业之声 | 安筱鹏：智算集群的“三个不等式”

治理之智 | 合成数据：模型能力跃迁的必经之路

产业之声 | “软硬兼施，以软带硬” - 缓解“算力焦虑”的模型与芯片协同优化策略

模型开源不是智商税开闭源并非二选一

产业之声 | 为AI供电-超万卡GPU算力集群的算电协同与零碳发展

产业之声 | 生成式AI在电商场景的应用、前景与挑战

产业之声 | 生成式AI驱动的数据要素价值创造新模式

模型上云的数据安全保护——以Apple PCC为借鉴

大模型时代：消失的飞轮

如何应对“模型抄袭”？对“斯坦福抄袭中国大模型”事件的三重思考

价值之探 | 在生成式AI时代，我们还需要团队吗？

2024全球梦想家招募开启

价值之探 | 达摩院大模型入选AI for Good创新案例集

价值之探 | 全球首位AI胰腺癌早筛技术的受益者

治理之智 | 《大模型训练数据白皮书》在第七届数字中国峰会发布：大模型是数据要素价值释放的最短路径

治理之智 | 《国际论坛》贾开、俞晗之、薛澜：人工智能全球治理新阶段的特征、赤字与改革方向

域外之见 | AI 在非洲：中国社会科学院-南非金山大学走进阿里巴巴

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉