前言,从2023年初大模型技术的爆发,全球范围内掀起了疯狂的“智能算力”抢购狂潮,加之“芯片禁令”的影响,抢购NV GPU卡成为国内智算中心建设的“重中之重”,一时间得GPU者得天下,1年多的“喧嚣”过后市场回归冷静,H100 NVlink整机从330W回归到了220W左右,单台的租赁价格也从12-13w/月跌至7w/月左右,导致智算中心回本周期无限拉长,很多建好的“智算中心”利用率低到可怕(出租率10-20%的不在少数),一时间“算力过剩”的论调扑面而来,是真的算力过剩吗?背后的逻辑是什么?今天我们简单聊聊!
一、“算力过剩”和“算力不足”共存的现状分析
“算力过剩”的话题被大家广泛讨论,主要因为在算力规模急速扩大后,部分地区智算中心算力并未被完全消纳,源引“ 智能涌现”的一篇报道如下图,也暴露了智算中心运营和盈利模式中存在的问题。
但是从全球视角我国的AI大模型发展水平、智能算力规模(集群规模)依然和美国存在明显的差距,从长期与优质算力的角度“算力不足”也是存在的,两者看似冲突,其实属于“智算”产业发展必然要经历的过程。
二、出现“算力过剩”的5点原因(个人总结)
1、大型科技公司(如互联网和CSP等)和电信运营商等即使算力够用,也会超前建设,加上23年跟风建设的中小算力服务商正在降价出售闲置算力,会导致短期和局部“算力过剩”。
2、"百模大战"之后,大模型的训练需求趋于平稳(且大模型的训练也是周期性的,在完成训练工作后就会把训练算力资源释放出来),市场处于一个“训练算力”相对饱和的状态,加之现象级“推理应用”并未大规模爆发,供需也就不在紧张。
3、算力服务商之间差距明显,主要体现在算力的规模(千卡集群成为起步,小集群受众少)、服务和调优能力差距明显(跨界布局的公司技术储备不足)、价格竞争激烈(去年和今年设备采购成本差距巨大)和地理位置不同(部分客户指名要周边的,各个偏远地区的算力不受待见)等,优胜劣汰导致很多规模小和能力弱的服务商处于“算力过剩”的状态。
4、国产算力“匆忙”上马,生态成熟度低,用户的接受程度低,异构算力之间的协同调度不成熟导致资源闲置率居高不下。即使硬着头皮用了国产算力,也经常出现算效不高、稳定性差、恢复训练慢等各种问题。
5、算力资源布局不均衡和算力资源调度未成体系,导致大量算力未能得到有效利用和闲置的情况,于此同时我们也可以看到结构性的资源短缺(缺优质、高性价比、高能效和区域匹配的算力),从行业发展规律来看目前正处于“洗牌”的过程,能活下去(持续烧钱不倒闭)的玩家才能笑到最后。
三、缓解当下“算力过剩”的可能方式
1、需要精细化运营:看到朋友圈一句话说的很有道理,对于ToB算力租赁类客户而言“买算力就是买服务,而买服务就是买调优”,谁能运营的更好,调优能力强,算力更有性价比谁才有竞争力,运营能力才是成败的关键。
2、算力资源整合:前几个月“赛博房东”火爆一时,单纯的靠搞几台“4090八卡机”就躺着挣钱的时代过去了,“挖矿”不长久,“算力出租”没客源,因此成熟的算力“调度平台”至关重要,市面上也出现了类似“算力滴滴”的“算了么”平台可将小批量的闲置算力进行统一调度实现收益。从国家大的“算力网”建设层面也需要将现有分散、独立的“中小型”智算中心进行整合,让“需求”和“算力资源”有效匹配。
3、应用落地带动算力腾飞:没有真正应用,建再多的算力中心都是“0”,随着智能驾驶、人形机器人、各个行业垂直大模型的逐步落地,各个大模型技术的更新迭代算力的需求会稳步提升,智算中心的建设也从“粗放式”到“精细化”需要进一步考虑新技术、经济规律、市场需求等多方面因素,相信在国家政策的指导下,我们智算事业的发展一定会持续向好。
下面是广告,老张是讲师之一,想参与课程学习的朋友可以了解一下。
----老张会持续通过公众号分享前沿IT技术,创作不易,大家多多点赞和关注!