智算中心作为新兴的算力基础设施,正逐渐成为推动数字经济发展的重要力量,亦成为新建数据中心的“标配”。根据《中国综合算力指数(2024 年)》数据,截至 2024 年 6 月,我国在用算力中心超过 830 万标准机架,算力总规模 246EFLOPS(FP32)。智能算力规模 76EFLOPS,智算同比增速超过 65%。
对于很多IDC企业来说,智算已经成为必选项。但智算中心高昂的建设成本成为了制约传统IDC向智算转型的关键因素。那么,从TCO(总体拥有成本)的角度,IDC企业该如何跨越成本门槛,拥抱未来呢?
从“硬”到“软”的成本考验
智算中心的高成本众所周知,其中最大的一部分就是服务器成本。相比于传统数据中心,这些配备了GPU或者智算芯片等异构芯片的设备价格往往高出数倍,甚至数十倍。一台配置了8块GPU的智算服务器,其价格可能高达200万甚至300万元人民币以上,这还不包括与之配套的存储、网络等基础设施。
由于智算单元之间高速数据传输及低延迟通信的互联需求,智算中心需要部署先进的网络架构,如InfiniBand或RoCE等,这也是一笔不小的开销。此外,随着模型参数规模的增长,组网规模扩大带来的管理挑战同样需要额外的投资来解决。
智算中心的能耗和运维成本也是不容忽视的。由于使用了大量的高性能计算单元,智算中心的能耗远高于通用数据中心。一些智算中心的单机柜功率密度甚至达到了100kW以上,这意味着它们需要更强大的供电能力和成本更高的制冷系统——比如液冷来支持运行。
除了硬件投资外,维护大规模并行计算环境下的稳定性与效率需要专业的技术支持团队,并且随着软件栈变得越来越复杂,自动化运维工具的重要性日益凸显。如果提供更深层次的智算服务还需要部署商业软件等……由此带来的人才、软件成本都不容忽视。
价值创造:长期视角下的TCO考量
面对高昂的成本,不少从业者和用户对智算中心的投资回报深深抱有疑虑。然而,从长远来看,智算中心的业务前景广阔,其所带来的价值创造潜力是巨大的。因此,从TCO角度出发,如何优化运维能力,进行技术创新,从而降低TCO,获得更高的生产力和市场竞争力,是算力企业更应该考虑的问题。
运维优化是降低智算中心TCO的最直接手段之一。一方面通过智能监控和预警系统来及时发现和解决潜在问题,避免故障发生导致的损失。一方面可以通过智能运维微调整体运行环境,降低整体能耗,在长期的运行中实现成本的节约。
技术创新则是降低智算中心TCO的根本途径。通过研发更为高效、节能的硬件设备和算法,企业可以在保证性能的同时,有效降低硬件和能耗成本。比如通过优化硬件设计、提高集成度等方式来提高硬件的性能和能效比;尝试更高效的算法来加速AI应用,降低算力成本等。
从发展角度看,智算中心的成本问题最终还要依赖于生态建设的完善。特别是在国产智算生态中,可以尝试使用国产芯片等替代方案来降低成本。同时,积极推动制定统一的技术标准和规范,降低不同品牌产品的集成度,提升稳定性,进一步降低集成成本。
随着技术的不断进步和应用场景的不断拓展,智算中心有望在推动数字经济发展和产业升级方面发挥更为重要的作用。如何更好的发展智算生态,也将成为算力产业发展绕不开的话题。