利用率不足15%:算力荒,还是算力过剩?

科技   2024-11-07 09:45   北京  
结构不平衡,供需错位。


2022年11月,基于A100GPU系列训练的GPT3.5与ChatGPT迅速吸引了全世界对AI的想象,并开启了AI竞赛,之后一卡难求。而今,英伟达两款热门芯片租赁价在10个月内双双降了50%,多家产业链人士表示,算卡的价格已经贴近销售成本,AI算力供给端短缺情况缓解。与此同时,2024年前7月,国内出现140个智算中心项目,引发关于算力过剩的思考。
“整体上的算力不足确实是问题,但同时,算力的结构性短缺也是客观存在。也就是说,在算力供给紧张的同时,还有着大量算力未能得到有效利用。”赛迪研究院副总工程师安晖表示。
算力供给不足的三个原因

目前,我国算力发展存在算力供需的品种错位问题,算力规模虽不断增长,但面向人工智能、高性能计算等高端应用的算力缺口大。据有关报告,2023年,中国智能算力需求达到123.6EFLOPS,但供给规模仅为57.9EFLOPS,供需缺口显著。
在算力的使用过程中,由于现有的供给结构与用户实际的算力需求不平衡、不匹配,出现供需错位,这也导致了大量的算力闲置和浪费。其中,存在多方面错位。如品类错位,国内算力产业链企业相对分散,大多芯片厂商与AI技术企业的技术路径不同,造成了芯片与AI应用之间不匹配;空间错位,如我国中西部地区算力过剩,应用需求不足,导致供给失衡。
造成算力供给短缺的因素主要包括AI的发展、地区发展不平衡,以及核心技术缺乏等。随着AI大模型的广泛应用,原有的通用算力已无法满足高端、复杂应用场景的需求。智能算力等先进算力成为新的需求热点,但供给却未能及时跟上。
地区间的经济发展水平和产业结构差异也导致了算力需求的差异。东部地区由于数字化程度高,算力需求更为旺盛,而供给却相对不足,尤其是在高峰时段或特定应用场景下,算力短缺问题尤为突出。
我国在高性能计算和AI硬件方面存在的技术差距,也是算力供给短缺的重要原因之一。算力芯片作为算力基础设施的核心部件,其成本占据了服务器成本的绝大部分。然而,目前算力芯片领域,中国厂商在研发实力上与国外厂商相比存在一定差距,前期开发成本较高。这不仅导致算力服务售价昂贵,也使得算力供给难以快速增加。高性能GPU等AI硬件主要依赖进口,这增加了算力供给的不确定性。一旦进口渠道受阻或价格波动,将直接影响算力供给的稳定性。
算力利用率低

与算力供给不足相对应的是算力利用效率低的问题。据IDC数据,以企业为主要用户的通用算力中心利用率,目前仅为10%~15%,这表明小型或企业级的算力中心利用率相对较低。而国家级、大厂级的智算中心资源利用率也高低不一,例如,西安昇腾智能科技有限公司的人工智算中心算力使用率高达98.5%,国家超级计算深圳中心和国家超级计算济南中心的资源利用率也较高。但这些在我国算力中心只占少数。
业内人士分析称,大多数算力中心在“建设、应用、生态”三个维度上仍面临着“规模优先,架构单一;重视硬件发展疏忽软件建设,技术与场景需求割裂;兼容性与协同性不足”等问题,造成了我国近乎50%的算力中心算力分布管理不均,利用率难以跟上。
盲目投资是造成算力过剩的原因之一。一些地方政府和企业盲目投入智算中心建设,这些智算中心在建成后缺乏足够的应用场景和市场需求,导致算力资源浪费。在今年9月举行的中国高性能计算学术年会上,中国计算机学会 (CCF)副理事长陈健指出,如果只是一味地增加硬件资源而不考虑其实用效能,未能确保需求方能够方便快捷地获得优质的计算能力,那这样的做法无异于对资源和财力的巨大浪费。他表示,目前除了紧缺的单一大规模算力集群以外,用于AI推理的算力供给实际上可以满足或基本覆盖需求,关键在于如何更有效地开发和利用现有资源。
此外,算力租赁市场低迷,导致算力资源无法得到有效利用。一些企业因缺乏应用场景而闲置算力资源,造成浪费。例如,某云计算平台在初期投入大量资金建设了高性能计算集群,但由于市场需求不足,该集群的算力资源长期闲置。为了降低运营成本,该平台不得不将部分算力资源出租给第三方,但出租价格远低于成本价,导致盈利困难。
算力过剩是否成为常态?

算力过剩是否成为常态?业内人士分析,从目前的市场状况和价格趋势来看,算力市场总体上是过剩的。
这种过剩可能会在未来几年内导致价格竞争加剧,影响一些算力供应商的利润空间。
在具体的应用层面,如大型语言模型(LLM)的训练和推理中,目前的算力供应基本满足需求。一些规划中的算力中心可能最终不会完全投入使用,造成资源的浪费。在价格趋势方面,当前,算力卡的价格已经接近或低于其销售成本,这表明市场上的供应过剩。预计这种价格趋势将持续,导致一些算力供应商面临降价压力。
算力供需衔接存在困难,是未来算力发展的主要瓶颈。受我国经济、社会发展格局影响,全国范围内分散部署的算力资源与东部地区较为集约的算力需求不能完全匹配。同时,受算力节点通过网络灵活高效调配资源能力的制约,导致供需衔接不当,进而出现“资源闲置”和“算力难求”现象并存。
近日,青云科技CEO林源表示,大家最早的忐忑“算力会否过剩”,短期供需一定会有波动,所有的应用落地都需要时间,但中长期,它的上一轮供给一定是有需求的。AI的发展是有阶段的,最早的阶段比较简单粗暴,就是解决算力的问题。从去年第四季度开始,客户发生变化,客户要的不仅仅是资源,得有平台能把资源管理起来。
从更长远看,算力成为与水和电一样带动经济发展的重要因素,将不可逆。而需求和供给已经进入了互相推动的状态,算力的富足会让模型进步更快,模型的进步会需要更多的算力。局部、短时间、结构性的算力过剩或者紧张,将成为AI发展中的一段插曲。

THE END


免责声明

本微信号发布的内容部分来源于互联网上的公开信息(包括但不限于媒体、自媒体等公开渠道),转载或引用目的在于传递更多信息,我们将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。对于这些资料所引起的任何错误、不准确或遗漏,本微信号概不承担任何法律责任。

任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向我们提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本账号在收到上述法律文件后,将会依法依规核实信息,沟通删除或修正相关内容。


关于算力更多文章,可以点击订阅

超算百科
超算百科,致力于打造一站式超级计算机知识分享平台,为学术研究者、行业专业人士、科技爱好者以及广大公众提供关于超级计算机的前沿资讯、技术发展、领先品牌介绍、应用案例等丰富内容。
 最新文章