算力谜题:是捉襟见肘还是闲置浪费?揭秘背后真相!

文摘   2025-01-15 08:10   湖南  

在过去的两年里,中国 AI 行业出现了一种奇特现象:众多原本与 GPU、算力行业毫无关联的上市公司,纷纷将智算中心视为业务转型、寻求新增长点的关键,试图借此进军 AI 领域。这些公司涵盖了多个看似与 AI 遥远的行业,比如生产味精的莲花控股、造染料的锦鸡股份,甚至是博彩行业的鸿博股份等。

然而,到了 2024 年底,形势急转直下。11 月 29 日,莲花控股发布公告称,其近 7 亿元的 GPU 服务器采购合同,仅交付了 12 台,剩余的 318 台因“存在不确定性”而终止合同。按英伟达 H800 服务器每台 210 万元的价格计算,该公司在智算中心转型上近两年的投入,仅带来了 2500 万元的营收。莲花控股并非个例,近期不少上市公司也纷纷宣布暂停或取消智算中心建设项目,甚至不惜承担合同违约的风险。

在过去两年 AI 行业热度高涨的背景下,国内智算中心的建设呈现出疯狂态势。截至今年上半年,国内算力规模已达到 246 EFLOPS,智能算力同比增速超过 65%,工业、教育、医疗、能源等多个领域的算力应用项目超过 1.3 万个。在这一波建设热潮中,上市公司的参与方式多样,有的直接出资投建,有的提供设备如 GPU、软件解决方案或算法模型,还有的则从运营服务等较轻的环节介入。

然而,从两年前的趋之若鹜到如今的热度骤降,国内智算中心究竟发生了什么?

智算中心的艰难盈利之路

近期,多位智算中心业内人士在走访国内各大智算中心后,对当前行业现状感到震惊。他们普遍表示,目前国内算力中心市场已陷入沉寂,机房的出租率普遍在 20%-30%之间,部分企业级智算中心甚至低至 10%左右

从商业角度来看,这显然不是一个健康的状态。一位业内人士详细分析了智算中心的成本构成:以一个由英伟达 H100 构成的千卡集群智算中心为例,前期投入成本包括购买算力设备约 3 亿元、网络设备成本约 2500 万元、存储和安全设备成本约 1000 万元、平台软件和液冷改造成本约 1000 万元,总计约 3.5 亿元。此外,智算中心在后续运转过程中,还需投入日常的电力、维护、人员等费用,每年支出大概在 5000 万元左右。也就是说,在国内搭建一个千卡集群规模的小智算中心,前期要支付 3.5 亿元的硬成本,每年还需投入 5000 万元来维持运转。

那么,这些智算中心建成后,算力输送给谁、如何盈利呢?目前,国内厂商解决 AI 算力的方式主要有两种:大互联网公司、资金充裕的 AI 公司以及细分赛道的龙头企业,通常基于安全考虑,会选择搭建自己的智算中心;而其他大部分需要 AI 算力的公司,则倾向于向第三方智算中心租赁算力。此外,这些智算中心也会在前三类玩家需要时,为其补充部分算力,以应对突发需求。

近两年智算中心建设热情高涨,部分源于虽然成本高昂,但有政府补贴的支持。最近两年,各地出台了多种多样的政策支持智算中心建设,包括资金补贴、税收优惠、土地供应等。例如,有些地方政策规定,当项目总投入在 1 亿元以上时,会按照实际投资额 5%-15%不等的比例进行补贴;在一些风/光资源丰富的省份,还会对投建智算中心的企业,赠与多余的光伏指标。一位业内人士表示,各地对于智算中心建设的支持政策,需要“一地一议”。

不过,补贴终究不在商业范畴之内。智算中心建成后,能否收回成本,主要取决于实际运作后的机房利用率和租赁价格。据《智能涌现》此前报道,一台英伟达 H100 服务器(8 卡)的租赁价格,从年初的 12-18 万元/月,降至目前的 7.5 万元/月,降幅达 50%左右。若以当前机房利用率 20%来计算,一个英伟达 H100 千卡集群智算中心每年的营收仅有 2300 万元(即 7.5 万元/月 × 12 个月 × 128 台服务器 × 20%),这意味着一个算力中心勉强维持经营,其收入基本只能覆盖正常运营成本的一半,更别提收回前期的重资产投入了。投建智算中心,目前是一笔艰难的账。

1.3 万个算力中心的回血困境

智算中心当前出现严重闲置的情况,核心原因在于算力中心投入应用后,大家发现 AI 需求并未如预期般快速增长,算力难以消纳。“此前大家预计,国内的算力租赁市场每年至少有 10%增长,结果目前看来,只有 5%左右。”因此,目前各个智算中心的目标都是努力覆盖运营成本,“回本甚至是最高标准、长远的理想”。一家智算中心产业链公司「智伯乐科技」的 CEO 岳远航说,经他们测算,一个智算中心即使设备出租率涨到 60%,至少还要花上 7 年以上才能回本。

除了 AI 需求未达预期之外,智算中心闲置还与其存在一定滞后性有关。一些智算中心在设计研究阶段,一般是根据当时的市场需求和硬件情况来设计,但等到真正落地时,往往已经过去了几个月甚至数年,而此时硬件产品可能已经迭代好几轮,市场需求也可能发生了剧变。

为了尽可能降低日常运营成本,目前一些智算中心采取了各种措施。有的智算中心直接关停租不出去的设备,“走进去机房里,发现灯都关了,也没有了嗡嗡的风扇散热声音”,岳远航表示。另外,也有的智算中心选择变卖英特尔、英伟达的旧设备,以缓解资金压力。对于一些还未建设完毕的智算中心,有的企业选择暂停建设中的项目,或者直接取消规划里的二期项目。一位业内人士甚至表示,因为智算中心项目中途暂停,导致其此前斥资千万高价购买的英伟达卡“砸手里”了。

显然,算力市场正在悄然转变为买方市场。在过去两年,行业里曾是“一芯难求”“算力难求”的情况,如今则完全相反。目前大部分 AI 公司更加倾向于节约算力,避免不必要的成本支出,一般会根据自身需求和预算选择合适的算力资源,比如要求更低的优惠价格以及更优质的服务。一些智算中心为了维持算力销售、争取市场份额,也不惜采用降价或提高服务(如提高运营能力,帮助下游优化模型等)等方式来吸引下游用户。

算力作为 AI 行业的关键资源,如同水电煤一般,牢牢掌握着行业的命脉,尤其是在当前国际形势不明朗的背景下。尽管算力中心在当前阶段是一笔艰难的账,但我们也很难简单地得出不应再建设的结论。

对于长远发展,有行业人士提出了一个值得思考的问题:“AI 算力消纳不了或许只是短期现象,你是现在暂时让算力中心闲置着好,还是等到未来 AI 应用爆发时,再匆忙上马建设算力中心好?”

在生物育种领域,也是如此。比如,未来育种不论基因组,还是表型组,必然都是高通量大数据采集、检测和分析,需要大量算力。但是就目前而言,还远没有走到要拼算力的阶段!什么时候开始建设合适?谁也不知道。





参考:《花几个亿建智算中心,八成的GPU租不出去 |智涌分析》

生物信息与育种
致力将生信、AI、大数据、云计算等技术应用于现代生物育种
 最新文章