一本《异构智算白皮书》,半部智能算力的演进史

科技   2025-01-07 18:02   北京  

本文转载自科技正能量公众号

从去年开始,大模型的出现“一石激起千层浪”,将人工智能推到了前所未有的高度。
随着智能算力“流”入千行百业,越来越多的行业场景与人工智能相结合,从智慧医疗,智慧金融,智慧城市再到无人驾驶,智能化转型延伸到各行各业的方方面面。麦肯锡的报告也预测:到2040年,生成式AI每年可为全球经济带来2.6万亿至4.4万亿美元的增长。

越是巨大的市场机遇,越需要稳固的“底座”,否则就会成为“空中楼阁”。无疑,智能算力就是行业智能化时代的“算力底座”。

如何让这个“算力底座”发挥最大的能量,解决异构智算带来的诸多挑战就是当前的重中之重。由联想、中国智能计算产业联盟和异构智算产业生态联盟,共同出品的《异构智算产业趋势与技术白皮书》正是为此而来。



01

智算崛起,标准先行


智算时代,最典型的特征就是算力的异构化。

异构算力通常由CPUGPUFPGAASIC等不同的算力处理体系组成,这些不同类型的处理器各自具有独特的优势,能够满足不同场景中的应用需求。通过将它们组合在一起,可以实现计算资源的优化分配和高效利用,进而实现计算效力最大化。

换言之,要发挥智算的最大价值,就必然要走通异构算力体系的路。

异构智算,最大的挑战就是要构建开放的平台,能够适应和兼容各种技术体系。同时还要通过智算平台,能够把这些技术传递给上层应用,赋能千行百业。

联想中国基础设施业务群战略总监黄山
联想中国基础设施业务群战略总监黄山说:“在这本《白皮书》当中,联想起到的主要是协调的作用,我们邀请了各个权威机构的专家和生态伙伴,并从联想异构智算的案例集当中优选了十大案例,进行了集中的呈现,希望可以做到‘他山之石可以攻玉’,为智算产业的发展带来指引。”

《未来呼啸而来》中提出:未来的创新将不是单向式、重度垂直的,若干个重要领域的创新需求之间,会突然产生叠加效应,并改变我们的生活。智算生态,也是由产业链当中处在不同环节的标准机构和企业,将力量叠加,产生的“合力”推动了整个产业的发展。

中国电子技术标准化研究院云计算研究室副主任陈志峰
中国电子技术标准化研究院云计算研究室副主任陈志峰表示,“异构智算最终是要用起来。无论是要解决烟囱化,兼容性,还是软硬件融合等问题,标准的建立是非常重要的,从芯片层一直到应用层,所有的生态伙伴一起来群策群力,共同让智算的生态繁荣起来。”

英特尔首席云架构师胡明月
对于标准化,英特尔首席云架构师胡明月则强调,“不能忽略的一点是,如果在封闭的系统里,连接的成本其实很高,所以英特尔更强调系统的开放性,希望用通用的标准去实现连接。”

恰如所言,智算是一个与通用算力截然不同的赛道,在百花齐放的基础设施架构下,发挥算力的最大效能,标准先行的确是应时之举。从这个角度,《白皮书》的发布本身,也是希望通过推动标准的落地,以及相关行业内的标杆案例展示,为智算深入各行各业,成千上万的场景提供帮助。



02

如何解决

异构环境下的算效问题


根据IDC数据预测,2027年中国智能算力规模将达到117EFlops,是20242.3倍,增速将达通用算力2倍及以上,算力规模的扩大为智算带来了很多挑战。

联想万全异构智算平台专家郭晋兵
联想万全异构智算平台专家郭晋兵说:“大模型为智算带来了新的问题,就是它的集群规模会越来越大,一方面对智算的需求也变得大,另一方面也会带来了算力性能损失和算力多样化的问题。”

陈志峰也表示:“现在很多企业都在建万卡集群,甚至十万卡集群,在这么大的规模下,就一定会存在多种卡并存的情况,异构化的大模型智算集群已经是大势所趋,自然也会遭遇到统一管理、资源隔离、算力调度、任务分配等难题,所以异构智算的管理平台建设是一个关键。”

联想万全异构智算平台,正是为了解决这些痛点而来。“万全异构智算平台,不仅仅是为了解决异构智算统一管理的复杂性,也是为了发挥异构算力的最大价值,因为经过我们的观察,GPU卡作为系统中最贵的组件,实际的利用率并不高,目前平均只有30%左右。”黄山说。

引起智算效率普遍不高的原因,其实是异构算力软硬件融合情况不够好所带来的。

因为,过去芯片都是烟囱式的,都在构建自己的软硬件架构。但是,不同服务器类型、网络类型和存储类型之间的排列组合,会是一个复杂的矩阵。每个矩阵只有配置完整之后,才能顺滑的跑通上面的应用。而每个矩阵都有每一个矩阵的特性,用户需要在数百种配置当中去决策,无形中带来了很多困难。

据郭晋兵介绍,联想万全异构智算平台的五大能力之首,就是算力匹配魔方。基于海量的硬件评测和AI算子算法集成工作,联想构建了AI场景与算法与集群硬件三者匹配关系的算力魔方知识库。用户只需输入场景和数据,系统即可自动加载最优算法和调度最佳集群配置,极大地简化了选择验证过程。

除此之外,平台内置的GPU内核态虚拟化救赎,能够大幅提升GPU的利用率, vGPU的利用率可以从80%提升到95%。另外,集合通信算法库可以使训练效率提升10%15%;再有AIHPC集群超级调度器,能够在1小时内自动完成跨集群资源调度和共享。

“万全异构智算平台实际上要解决就是两件事:一是打破传统算力的烟囱式架构,二是超智融合,让算力在智算和超算两套系统中平滑迁移,并发挥最大效能。”黄山说。



03

生态共进

以智算为产业打造“长尾”


说到算力在不同算力系统中平滑流转,这与天数智芯的技术实践其实不谋而合。

天数智芯副总裁兼客户项目部总经理宋煜

天数智芯副总裁兼客户项目部总经理宋煜提出:“今天的数据中心当中,实际上会拥有不同厂商的通用GPU,或者同一家厂商的不同代际的GPU。无形中就出现一个问题:算力没有办法融合在一起,这就是算力孤岛或者资源墙。”

打破资源墙,让不同代际甚至不同厂商之间的GPU,联合在一起支持大模型的训练,就要建立一个异构、统一的计算底座,支持大模型在混合异构的集群里去做训练。一个关键的技术点,就是不同的GPU之间如何通信。

而天数智芯的解决方案就是要解决这个问题,在混合异构集群中兼容不同品牌的GPU,同时还要确保不同GPU之间的数据交互是准确的。那么如何去判断混合异构集群的性能不输于单一GPU集群?

宋煜给出了一个很好的解决方案:“比如有两个单独的集群,分别是NV集群和天数集群。单独训练时的峰值效率求和所得的百分之比,如果与各自集群原生算力的峰值效率相当,就解决了客户对混合异构集群算力效能的担忧。事实证明,我们的混合集群的峰值效率可以达到92%与单一GPU集群的效率相当。”

我们不难看出,在生态各界的携手之下,异构智算的前景一片光明。

谈到未来,黄山相信,“未来的推理市场会加速,这个市场选择的不再是大规模算力,而是垂直的方案,软硬融合的方案,这也是联想未来会持续去优化的方向。”

可持续发展性,则是胡明月更为关注的点,他提出,“随着集群规模越来越大,功耗也会越来越大。不可避免地就采取各种各样的制冷措施,我们和联想也会共同推动一些制冷的技术标准。”

宋煜表示,“联盟中所处不同位置的伙伴,看到的问题和需求是不同的,比如端侧的推理可能会有好的产品组合出现,我们也希望通过产品的迭代能够去参与到其中,和伙伴一起提供完整的解决方案,让客户能够享受到智算的红利。”

而对联想来说,“我们也希望能够针对不同行业的客户,模型的变化和应用的变化,去细分算力的需求,通过更为精细化的方式,与生态伙伴们共同去满足日益增长的智算需求。” 郭晋兵说。

我们认为,大模型的风口终将成为过去式,但由此引发的智算变革,乃至更为深远的行业智能化转型会是长期持续的进程,解决了异构智算的供需问题,就等于为整个产业创造了“长尾效应”。


点击下方图片,了解更多故事

点击阅读原文,了解联想ISG中国

联想基础设施业务群
科技赋能中国智能化转型。联想中国区基础设施业务群作为可信赖的“新IT”合作伙伴,致力于提供绿色、高效、敏捷的“新IT”智能基础架构。连续九次登顶全球HPC TOP 500榜单,是全球领先的高性能计算解决方案提供商。
 最新文章