四问四答,彻底看懂智算中心!

学术   2024-08-30 19:30   湖北  


作者:小枣君。
来源:鲜枣课堂,本文经授权转载发布


 到底什么是智算中心?

智算中心,就是以人工智能计算任务为主的数据中心。

数据中心通常包括三种类别,除了智算中心以外,另外两种分别是以通用计算任务为主的通算中心,以及以超级计算任务为主的超算中心。


2023年以来,以ChatCPT、Sora为代表的AIGC大模型横空出世,掀起了一股席卷全球的AI浪潮。

想要在AI浪潮中占据优势,就必须拥有强劲的AI算力支撑。智算中心,作为AI算力的核心基础设施,逐渐成为人们关注的焦点,也是行业重点建设的对象。

根据数据显示,我国目前已经有包括武汉、成都、长沙、南京、呼和浩特等在内的20多个城市建设了智算中心。到2025年,国内智算中心数量将超过50个。

南京智能计算中心

这些智算中心采用专门的AI算力硬件,适合高效运行AI算法。它们可以应用于计算机视觉、自然语言处理、机器学习等领域,处理图像识别、语音识别、文本分析、模型训练推理等任务。


 智算服务器,到底有什么不同?

智算服务器是智算中心的主要算力硬件。它和传统通用服务器最大的区别,在于算力芯片的不同。

传统通用服务器以CPU作为主要芯片,有的配置了GPU(图形处理单元)卡,也有的没配。即便配置了,也数量不多(1-2块),以完成传统图形处理任务(3D图形渲染等)为主。

智算服务器,为了保证的操作系统运行,也配置了CPU。但是,为了更好地完成AI计算任务,所以配置了更多的GPU、NPU(神经网络处理单元)、TPU(张量处理单元)等计算芯片(4块或8块),以这些芯片输出的算力为主。

这种“CPU+GPU”、“CPU+NPU”的架构,也被称为“异构计算”架构,能够充分发挥不同算力芯片在性能、成本和能耗上的优势。

GPU、NPU、TPU的内核数量多,擅长并行计算。AI算法涉及到大量的简单矩阵运算任务,需要强大的并行计算能力。

在实际使用中,GPU、NPU、TPU会做成板卡的形态,插入到智算服务器的插槽中。等服务器上电启动后,再根据调度执行计算任务。

安装了8块GPU卡的训推一体服务器(摩尔线程)

除了芯片不同之外,为了充分发挥性能以及保障稳定运行,AI服务器在架构、存储、散热、拓扑等方面也进行了强化设计。

例如,智算服务器的DRAM容量通常是普通服务器的8倍,NAND容量是普通服务器的3倍。甚至它的PCB电路板层数也明显多于传统服务器。

疯狂堆料,肯定也会带来两者之间的成本差异。一台智算服务器的价格,可能会达到传统通用服务器的数十倍以上。

不久前,中国移动公示了2024年至2025年新型智算中心集采中标结果,采购智算服务器总规模达到8054台,中标总金额达到了约191.04亿元人民币(不含税)。平均下来,每台的价格是237.2万元。通用服务器的价格,根据品牌和配置的不同,大约在1到10万元之间。

受算力板卡的影响,智算服务器的功耗也明显大于通用服务器。

以英伟达GPU为例,A100单卡功耗400W,H100单卡功耗700W。配置了8张GPU的智算服务器,仅GPU的热功耗就能达到3.2~5.6 kW。传统通用服务器的话,也就0.3~0.5 kW左右。

从外型上来看,智算服务器和通用服务器并没有很大的区别。两者都是标准架构,可以放入42U标准机架。如果内置了较多的AI算力板卡,智算服务器的厚度可能会稍微大一些,达到4U、5U甚至10U。

这里需要注意,根据工作任务的不同,智算服务器也会分为训练服务器、推理服务器或者训推一体服务器。这些服务器在架构和体型上会存在一些差异。一般来说,训练服务器会比推理服务器更庞大一些(AI算力板卡更多)。

智算(训练)服务器外观(中兴通讯)


 智算中心,会取代通算中心吗?

智算中心很火。很多人就会问,智算中心是否会取代通算中心?

答案当然是否定的。

AI智算现在正处于风口上,所以大家关注热度高,建设的规模也会比较大。

但实际上,大家要注意,我们目前整个社会的大部分计算任务,仍然是承载在传统通用数据中心上的。

我们平时聊微信、看视频、玩游戏,以及打车、购物、订票,都是基于传统通用数据中心的算力。

除了消费互联网以外,企业办公和生产所使用的各类IT系统(包括OA、CRM、ERP等),银行、保险、证券等金融机构处理客户交易、存储客户数据、提供在线金融服务的平台,医院、学校等单位的数字化系统,以及政府的电子政务相关平台,全部都是以通用数据中心为主。

通用数据中心广泛服务于国民经济的各个领域。我们对通用数据中心的需求是长期存在的,并不会消失。

通用数据中心

数据也可以说明问题。

虽然说AI智算发展迅速,但从机架数量规模来看,远远不如通算中心。

根据今年3月份国家数据局在青海绿色算力推介会上披露的数据,截至2023年底,全国在用数据中心机架总规模超过810万标准机架(包括所有类型数据中心)。

智算中心机架数,目前没有准确的数据来源。我们可以推算一下。

前面提到,到2025年,国内会有50个智算中心。以中国移动呼和浩特超大规模单体智算中心为例,部署服务器总规模约2950台,部署机架总规模为799架,算力板卡1.9万张,算力规模6.7EFLOPS。即便是50个智算中心都像呼和浩特这么大,也是50×800=40000个机架。还不到2023年全国在用数据中心机架总数的零头。

我们也可以从算力规模来计算。根据信通院的报告,到2025年,全国的算力总规模将达到320EFLOPS。其中,智算算力占比要达到35%,也就是说,112EFLOPS。按呼和浩特智算中心的数据,单机架平均算力是6.7÷800=0.008375EFLOPS。112EFLOPS就是112÷0.008375=13373个机架。

之所以会这样,还是因为AI智算服务器的算力比较强。虽然智算算力总体占比看上去高,但机架数量和数据中心数量占比并不会那么多,估计不会超过10%。


 通算中心改成智算中心,可行吗?

如今,在“双碳”政策的指引下,新建数据中心审批趋严,现有合规数据中心资产稀缺。那么,是否可以把通用数据中心改为智算中心呢?

答案是肯定的。

数据中心的使命,是为服务器托管提供稳定的制冷和供电环境。通算中心和智算中心都是数据中心,两者的主要构成基本上是一致的。

一般来说,服务器等IT算力设备以及交换机等通信设备,属于客户自有资产,由客户提供。数据中心服务商,负责建设和运维能够保证服务器等主设备正常运转的底层基础支撑设备(也叫配套设备)。

数据中心楼宇布局内的底层基础支撑设备设施,按照业界的划分,包括风(制冷)、火(消防)、水(防潮)、电(市电、不间断电源、柴发)四大部分。或者,也可以分为供配电系统、不间断电源系统、终端配电系统、电源辅助系统和空调系统等。

如下图所示:

图片来源:通信电源人

前面我们提到,智算服务器的功耗比通用服务器高。在智算中心,单机柜功率密度通常也就会高于传统数据中心。根据有关机构的数据,智算中心的单机柜功率密度需要超过30kW,甚至达到100kW以上,而传统数据中心的密度一般在6kW~15kW之间。

智算中心的单机柜功率密度高,改造为智算中心,要提前对数据中心的整体供电能力进行重新计算和设计。

如果不需要扩容,那就简单了。整个改造就以末端改造为主,就是撤掉传统通用服务器,重新上架智算服务器以及相关网络设备,重新布线。

数据中心电源设施

如果需要扩容,意味着同样的面积下,机柜产出更多,改造涉及到供电和制冷系统相关配套设备的采购和安装,会带来更多的工作量,也需要更长的改造周期。

扩容和改造肯定也会带来一些成本负担。是否需要将传统通算中心改造为智算中心,除了前面提到的限制新建等客观因素外,就是看投入产出比。也就是说,改造后的智算中心,是否能带来更大的经济效益回报。


 最后的话

数据中心是重要的ICT基础设施,也是整个社会的算力底座。它源源不断地输出算力,满足我们数字生活的需要,也支撑了千行百业的发展。

随着时间的推移,AI浪潮将会从狂热回归理性,智算中心的建设也会趋缓。如何充分利用好已有的智算资源,让AI产生价值回报,将会成为更重要、更迫切的任务。

合理布局通算、智算以及超算,构建多种算力类型协同发展的格局,将为数字经济的腾飞奠定更牢靠的基础,也会推动了整个社会加速迈入智能时代。

制信科技
e-works(制信科技)是我国专业的智能制造网络媒体和两化融合服务机构。本公众号每年独家放送:20多类智能制造品牌峰会论坛预告,上百种专业学术活动和资料下载!
 最新文章