报告连载 | 从专业计算到创新实践

企业   2024-10-21 19:10   北京  

最近,《2024数字中国万里行暨算力经济中国行考察报告》出版,我们将对报告内容开启连载模式。


PART III 技术演进 第五章 全栈数据中心理念落地,主要探讨了以下话题:


二.从专业计算到创新实践


数字中国万里行考察团队发现,走访的所有数据中心与智算中心都采用了液冷解决方案,部分甚至具备了冷板式液冷与浸没式液冷的双重方案,还有针对服务器、存储等不同基础设施的差异化液冷模式。比如,西部(重庆)科学城先进数据中心、长沙5A级智算中心、京东云华北廊坊数据中心、华南理工大学、北京大学、上海交通大学、华中科技大学协和深圳医院(深圳市南山区人民医院)、OPPO AI滨海湾数据中心、商汤科技临港AIDC等,都有液冷应用的落地案例。


西部(重庆)科学城先进数据中心肩负着重庆在“东数西算”工程中的重任,是全国一体化大数据中心成渝枢纽节点的重庆数据中心集群起步区之一。这里的单机柜功率为90千瓦,集成了120个节点服务器和相关网络设备,采用立体化机柜布局,高密集约,相对于传统机柜解决方案来说功率提升了10倍,效率更高。更出色的是散热表现,


得益于曙光全浸式液体相变冷却技术,可以做到服务器100%的液冷散热,让CPU电子元器件工作的环境更舒适。由于服务器整体无风扇,并与液冷换热设备分层布置,机房内十分安静。


西部(重庆)科学城先进数据中心


同样采用曙光液冷解决方案的还有长沙5A级智算中心。这是曙光首家以“立体计算”理念打造的智算中心,秉承了立体算力建设、立体应用赋能、立体生态共生的理念,加速算力转化为生产力。在现场可以看到,该中心采用了层次化、模块化、立体化的创新设计,采用浸没式液冷节点及通用架构,具备强大的性能和良好的生态适配性。同时,浸没式液冷技术也将智算中心的核心系统PUE值降低至1.04,同等算力情况下相比风冷节能超30%。值得一提的是,其命名中的“5A”代表了算力基础设施在“开放、融合、绿色、普惠、服务”五个维度上的能力优势,它们共同定义了当前智能计算中心建设的参考依据和建设标准,也成为了曙光“立体计算”的代表作。


在京东云华北廊坊数据中心,京东云部署了针对超大规模数据中心应用的、自主研发的J360 G3整机柜。该方案采用模块化设计,支持前后IO维护,可配置多元的供电方案,更通过风扇后置实现了热维护,也能够彻底解决通用产品出现的RV振动问题。J360 G3解决方案有多种磁盘和电源配置方式,尤其是前后IO维护可以适合不同机柜应用,更符合互联网快速迭代的实际业务情况。得益于模块化设计,J360 G3的物料复用率达到了70%,借助于规模效应可以使开发周期与开发成本同时降低60%。DC48V供电模式的引入还可以为单机柜年节省8500度电力,碳排放降低8.7吨。



J360 G3整机柜解决方案支持冷板式液冷散热,支持包括最新一代英特尔至强可扩展处理器在内的多平台,还支持Arm平台和其他国产化平台,最大支持750W芯片功耗。在现场我们看到,基于冷板式液冷散热的一排排机柜,这些液冷服务器的部署可以将数据中心的PUE控制在1.1,年碳排放节省2000吨,同时让数据中心的部署密度提升了28.6%,空间利用率更出色。如今,京东云也与英特尔共同推出了绿色数据中心的创新实践,实现行业赋能,帮助更多用户走上液冷之路。



为服务器等算力设备提供液冷已被用户所接受,但是在存储领域乃至网络领域,是否需要液冷解决方案呢?答案是肯定的。因为无论是服务器、存储还是网络都是在一个数据中心甚至一台机柜中,所以存储和网络设备同样需要液冷解决方案。



IDC发布的《液冷数据中心白皮书》显示,存储在数据中心系统能耗占比即将超过35%,比例仅次于计算能耗。也就是说,如果存储系统的PUE值降低,那整个数据中心的PUE值都会明显降低。在这种情况下,存算一体化已经不可避免,而使用液冷解决方案的存储系统也将成为行业的大势所趋。


正是看到这一点,华南理工大学在校内数据中心的建设中大胆使用了一栈式液冷解决方案,即选择计算液冷和存储液冷的全栈式方案,通过联想海神Neptune温水水冷服务器和曙光ParaStor分布式液冷存储系统的解决方案,算力建设达到双精度7.3P和AI计算94P,并将存储容量扩展了近25PB,数据中心PUE也降低到1.2以下。该方案为学校的科研数据存储和数据处理提供了坚定支撑,优化了运维管理,提升了应用效率的同时能耗降低了30%。


除了高校,医院对于数据安全的重视程度同样很高。根据《电子病历应用管理规范(试)》要求,门(急)诊电子病历由医疗机构保管的,保存时间自患者最后一次就诊之日起不少于15年;住院电子病历保存时间自患者最后一次出院之日起不少于30年。换句话说,医院对于数据可靠性、稳定性的要求极高,自然也就需要有强大的IT基础设施为数据保驾护航。


作为广东省医疗机构中的佼佼者,华中科技大学协和深圳医院(深圳市南山区人民医院,简称“南山医院”)年总诊疗量高达227万人次,这对后端数据中心的算力与存力都提出了严苛的挑战。为响应“十四五”中关于打造智慧医疗、推进“5G+医疗健康”新模式发展的要求,南山医院提出了以“12345+N”为架构体系的信息化建设方案,在综合现场环境与业务现状、充分考虑未来发展等需求之后,南山医院使用了液冷方案有效地解决数据中心散热难题。



考虑到原有设备利旧,南山医院借助曙光数创自产自研的冷板液冷散热套件将其他主流服务器厂家的风冷服务器改造为液冷服务器,不仅节约了新购液冷服务器的成本,还在机房内减少了风扇的使用,有效降低了PUE值,超过了深圳当地对PUE的政策要求。得益于液冷数据中心的支撑,南山医院的数字化医疗能够更好地了解患者的健康状况和就医需求,为制定个性化的诊疗方案提供科学依据。同时,还可以为医院的科研活动提供强大的计算能力和数据存储能力,推动医院在医学研究领域取得更多创新成果。


正如报告前面所提,生成式AI应用的崛起造成了数据中心性能与散热的双重压力。如今,该应用不仅仅只停留于后端数据中心领域。从2024年开始,AI PC和AI手机的概念逐步兴起,让越来越多人看到了大模型应用的新蓝海。


2024年2月底,手机厂商OPPO发布了AI手机,提出包括OPPO AI超级智能体和AI Pr智能体开发平台组成的OPPO 1+N智能体生态战略,旨在通过全新AI战略让AI从尝鲜到常用,为用户带来更高效、自在的下一代AI体验。


伴随着大模型应用的遍地开花,算力需求已经实现了前端与后端的协同,因此类似手机这样的产品线也需要强大后端数据中心的支撑。OPPO AI滨海湾数据中心位于粤港澳大湾区核心区域的东莞滨海湾新区,占地面积6.26万平方米,总建筑面积10.22万平方米,包括4栋数据中心大楼和1栋综合办公楼。数据中心规划建设6736个8千瓦机柜,单园区12万台服务器,未来将建成国内超大型数据中心。该数据中心与OPPO华南地区多处重要机房的网络时延低于2毫秒,能够协同OPPO滨海湾总部基地各类硬件创新实验室,提供安全、高效、可持续的数据实验算力资源。


面对算力提升带来的巨大散热压力,OPPO AI滨海湾数据中心部署了浸没式液冷集群,以应对未来激增的AI算力需求。至此,OPPO也成为了手机厂商中首家落地智能计算液冷技术并交付AI业务使用的厂商。



OPPO AI滨海湾数据中心采用了阿里巴巴的单相浸没式液冷散热解决方案。其浸没式液冷机房分布于数据中心的三层和四层,每层各可容纳6个Tank液冷机柜,单柜支持16台高性能高功耗的训练GPU服务器。浸没式液冷机房的暖通和供电均采用2N的冗余架构,暖通和电气单路故障均不影响业务连续性。这也使得该机房整套系统效率达到了PUE值1.15以下,相较目前主流的冷水机组系统,能够节省45%以上的能耗,并实现实际测试值约54dB的低噪音环境。


在绿色低碳领域,OPPO AI滨海湾数据中心100%采用了绿电,实现范围二整体零碳排放,并提出了“电力=算力+热力”的数据中心能源利用新等式,从废热利用的角度为数据中心构建了一种新的生态。即输入电力给服务器使用并生成算力,服务器废热又能够被回收利用,对数据中心的可持续发展具有重要意义。未来,机房服务器对废热回收利用产生的热水,可为园区人才房提供日常生活所需热水。同时,OPPO联合英特尔、埃克森美孚等多家厂商,在浸没式液冷机房开展了基于新型油类冷却液的部件及整机级别的兼容与性能测试。新型冷却液具备显著的低碳优势与成本优势,可满足数据中心低碳发展的多种需要。


CHAPTER V


时至今日,液冷解决方案已经成为数据中心有效降低PUE、提升利用率的必要手段,甚至可以说是唯一手段。2024年政府工作报告明确提出,要将“单位国内生产总值能耗降低2.5%左右”。这意味着节能减排已是大势所趋,各地不断出台的数据中心PUE控制标准也在事实上要求数据中心运营者与基础设施所有者最大限度地降低碳排放。这些都为液冷技术的应用与普及提供了先决条件。


液冷技术正在强化生态链的创新协同。从传统的双冷角度来看,数据中心的产品和交付界面非常清晰,基础架构和基础设施部门各自为战,但随着液冷技术的应用落地,这样的交付界面正在逐步被打破,传统数据中心的风火水电与IT基础设施呈现明显的融合趋势。如上述提到的整机柜液冷解决方案、浸没式液冷解决方案都可以管中窥豹。由此看来,随着应用的进一步落地与大面积普及,未来数据中心发展将呈现全新的协同趋势。


过去的2023年,我们已经看到液冷技术从之前的不温不火到积极部署。如今,冷板式液冷已经成为诸多用户采购服务器、搭建数据中心的首选项,部署容易改造成本也更低,占据了液冷应用的绝大多数场景。在这种趋势下,全栈液冷也已大势所趋,我们看到包括宁畅、联想、新华三、超聚变等多家企业已经将全栈液冷定义为未来的发展目标和,同时全栈液冷也为数据中心散热提供了新的思路与选择。


往期推荐:

 报告连载 | 算力即新质生产力(一)

 报告连载 | 算力即新质生产力(二)

 报告连载 | 算力即新质生产力(三)

 报告连载 | 算力数据驱动 智能驾驶进入下半场

 报告连载 | 多模态大模型促进技术变革

 报告连载 | 智能算力赋能自动驾驶

 报告连载 | 车能路云网融合发展加速落地

 报告连载 | 算力赋能产学研 助力高校技术创新

 报告连载 | 上海交通大学:优化应用部署,关注复合型人才培养

 报告连载 | 华南理工大学:以多元化液冷实践打造高效绿色算力

 报告连载 | 中国农业大学:花小钱办大事,算力强势增长

 报告连载 | 华中农业大学:释放多元算力价值,推动交叉学科应用

 报告连载 | 中国人民大学:升级算力应用,打造“玉兰 10B”大模型

 报告连载 | 北京理工大学:提升大模型价值,“墨子”全新升级

 报告连载 | CPU大小核的三条路径

 报告连载 | Chiplet之模块化CPU

 报告连载 | GPU:合纵连横

 报告连载 | DPU:由云向智(一)

 报告连载 | DPU:由云向智(二)

 报告连载 | DPU:由云向智(三)

 报告连载 | 服务器:重构升级(上)

 报告连载 | 服务器:重构升级(下)

 报告连载 | 全栈液冷技术新突破



扫描或者点击文末阅读原文

可下载报告电子版

如需纸质版请注明







关注

获取更多精彩内容






END





中研益企(北京)信息技术研究院有限公司(益企研究院)是面向数据中心、云计算、AI等信息科技领域最新技术和数字化应用的研究机构,长期致力于数据中心与云计算基础设施领域的新技术和新产品研究,帮助企业用户更快更好的接受新技术和新产品方案。通过研究、推广国内外领先的技术和方案,以及专业顾问、咨询等服务,降低市场和用户接受新技术、新方案的成本。在过去几年中发布的《2018中国超大规模云数据中心考察报告》《2021中国云数据中心考察报告》《算力经济时代·2023新型算力中心调研报告》《2024 数字中国万里行暨算力经济中国行考察报告》、参编的《国家“东数西算”工程背景下新型算力基础设施发展研究报告》《国家“东数西算”工程下算力服务发展研究报告》均广受业内好评。目前益企研究院已入驻多家平台,为安谋科技(Arm China)极术社区合作伙伴
看清科技,解读价值

扫描“视频号二维码”

获取更多的技术解析



E企研究院
E企研究院聚焦云计算、AI、数据中心等新技术研究,新产品解析,为厂商顾问,为用户咨询服务,降低用户接受新技术、新方案的成本。
 最新文章