AI潮涌,大模型加速迭代,算力成为改变世界的底层要素。能否拥有充足的算力资源,建设完善、成熟的智算生态,关系到能否抓住下一轮科技革命与产业变革的机遇。
秦淮数据集团山西灵丘数据中心园区鸟瞰效果图
秦淮数据集团CTO张炳华对21世纪经济报道记者表示,秦淮数据集团业务发展主要得益于数字经济与人工智能迅猛发展所催生的强劲需求,以及公司在超大规模数据中心建设模式的核心优势。
他分析道,“我们与其他数据中心服务商提供的‘超市/便利店模式’,或称‘零售模式’有所不同,零售模式以提供通用型的产品方案为主;秦淮数据集团则主要以头部客户的刚性需求为主,聚焦为客户提供大规模或超大规模定制化解决方案。除了能迅速响应客户需求外,还需要根据行业发展趋势提前进行资源布局。”
因此,秦淮数据集团会密切关注行业技术动态,比如英伟达的GPU芯片发展和技术要求,前瞻性地开展100kW以上高密度机柜的供电、冷却等方案研究,针对AI时代大模型业务场景开展系统架构全栈规划。
他还提到,“在当前算力服务市场比较‘内卷’、同质化竞争严重、部分区域资源趋于饱和的背景下,‘以需定供’可以有效减少无序发展带来的资源浪费,‘以供创需’则要求数据中心企业不断提升自身的技术、建设和运营实力,从而吸引更多需求,提升上架率。秦淮数据集团2023年已投运数据中心上架率达到87%,远高于行业平均水平。”
从通算到智算
伴随AI大模型快速迭代发展,当前市场对算力需求已由传统数据中心向智算中心转变。
张炳华对记者表示,传统通用计算采用的机柜单机功率相对较低,但异构(智能)计算对数据中心规模、单机柜功率密度、以及冷却方式均提出了更高的要求。
具体来说,首先是数据中心集群规模持续扩大,单个集群规模通常需达到30-50兆瓦以上;其次是单机柜功率密度大幅攀升,由每柜几个千瓦提升到几十个千瓦,以英伟达最新发布的Blackwell GB200 GPU异构计算为例,其单机柜功耗高达120千瓦,相当于CPU通用计算单机柜功耗的10-20倍;再次,随着单机柜功率密度提升,原来的风冷方案已经不能满足高功率密度冷却要求,冷却方案也逐渐从风冷转向液体冷却。
“在大模型计算过程中,集群规模越大、算力越强、计算时间越短、效果就越好。因此,我们对算力基础设施的设计规划、选址、运营都要做出相应的调整和优化。”他补充道,在此过程中对网络带宽、电力容量、供水能力等配套设施也需要同步升级。
另外,数据中心从通用计算跨越到异构(智能)计算,不仅是技术层面的改变,更类似于APP平台从iOS迁移到安卓,代表着整个生态系统都会全部重构。然而,在智算生态建设初期,各个方面不够成熟的情况下,GPU整体运行速度和性能可能暂时无法得到充分发挥。
Omdia云与数据中心研究首席分析师王珅还对21世纪经济报道记者分析,在转型升级过程中,技术上主要面临电力容量、冷却系统容量、供电和制冷架构效率不高等挑战;以及算力硬件供应不足和多种架构算力硬件融合统一的挑战。商业层面则主要是智算中心目前上架率不高的问题,这可能会影响商业模式闭环。
一名IDC分析师对21世纪经济报道记者指出,从传统IDC转向AIDC过程中门槛在提高。“简单来说,传统IDC服务商类似房地产公司提供毛坯房,这是一套已经流程化的工作,完成需求调研-建设-上架-运维等规范化流程即可。但AIDC需要更多能力加持,类似提供拎包入住的公寓式服务,这要兼顾PUE(数据中心能源效率的指标)和算力集群利用率等平衡,大幅提高了运营门槛。”
他进一步表示,智算中心建设需求将涉及更为复杂的技术和运维等挑战,“核心原因在于当前AI生态还不健全,但客户层面要求整体运营能力,导致IDC服务商可能面临很多试错成本。当然在此过程中也积累了更多能力,更好帮助他们从传统IDC服务商向算力运营商角色转型。算力租赁就是一个重要方向。”
张炳华对21世纪经济报道记者分析,目前大型AI模型尚未迎来大规模商业化阶段,因此现阶段AI训练的需求高于AI推理需求。预计约在2-3年后,AI推理需求将会显著增长。
他指出,未来商业模式和应用场景都可能发生变化,特别是在接近用户端,推理的需求将会大幅增长,因此,要根据业务场景、客户需求和政策因素等条件对数据中心进行规划和建设。
“未来的运维工作也将面临更多挑战。传统的风冷数据中心运维相对简单,但随着智能计算规模的扩大,数据中心的机柜功率密度、冷却方式和供电方案等方面都在不断演进。”他补充道。
例如,一些智算中心采用液体冷却机柜,包含冷板式液冷和浸没式液冷;其中,浸没式液冷会导致液体和服务器、网络设备之间产生耦合,改变数据中心的整个产业生态。这既增加了产品设计、工程建设、验收交付和运营维护的复杂性,也需要解决ICT设备抗腐蚀、液冷系统材料选择、施工工艺等新技术问题。
因此,如何保障不同冷却方式的数据中心更加安全稳定运行,如何根据不同的业务场景制定标准的运维操作流程、如何面对可能的故障场景制定紧急操作流程、如何快速响应客户变更要求保障SLA也变得更为重要,这也对服务商的综合实力提出了更高要求。
张炳华对记者表示,秦淮数据集团在数据中心业务选址中形成了“能源流”、“数据流”和“业务流”三流合一的原则,已分别在张家口和庆阳等“东数西算”枢纽节点落地部署。
从算力跨区域布局角度,面对目前还较难解决的传输过程中网络时延问题,他提出,新型AI的计算过程主要分为模型训练(离线计算)和在线推理两种类型。由于西部地区土地广袤且电价低廉,可考虑将东部产生的热数据输送到西部地区用于大模型的离线计算和训练;与此同时,靠近业务核心的东部区域数据中心则专注于在线推理任务,从而有效规避网络时延带来的数据传输问题。
此外,进一步推动“东数西算”工程需要从多个层面突破,包括但不限于直连网络建设、建立跨区域算力结算与交易机制、加强节点间过渡性桥梁建设、推动“源网荷储”一体化项目建设,以及持续优化算力基础设施服务等。
面对目前芯片短缺和性能问题,张炳华指出,可以通过扩大集群布局规模来改善,包括增加GPU卡数量和网络优化等手段,尽管这种方式对研发尖端大模型助力有限,但对开发垂域模型却能发挥积极作用。
秦淮数据集团马来西亚数据中心MY06鸟瞰效果图
不止于国内市场,第三方数据中心服务商也在积极出海,东南亚、“一带一路”共建国家均是投资热门地区。
在海外市场,秦淮数据集团已在马来西亚、印度、泰国有所布局,在印度尼西亚也有资源储备。据悉,公司已成功应用并推广大规模全预制数据中心技术,通过海外建筑钢结构建造+国内机电工厂预制的建造模式,全面实现了海外项目快速、高效、高质全预制交付模式。以马来西亚MY06项目四期为例,仅用时8个月就实现了从打桩、建设、测试到圆满交付业务。
文章转自:21世纪经济报道 点击“阅读原文”查看
识别下方二维码,了解更多秦淮数据集团资讯