联想郝京阳:拥抱液冷:联想推动AI产业绿色高质量发展

科技   2024-12-06 11:53   北京  

NEWS


11月20日,以“AI之光,照耀未来”为主题的2024第十二届数据中心标准大会在北京国家会议中心举行。本届大会聚焦转型与变革、算力发展、液冷技术、AIDC基础设施未来、智能管理、可持续发展、数据中心出海等前沿话题,深入探讨行业发展趋势,是一年一度数据中心领域的技术风向标。


在当天上午召开的“大算力 智未来”专场,联想中国服务器研发部加速计算产品开发部总监郝京阳“拥抱液冷:联想推动AI产业绿色高质量发展”为题发表主旨演讲,宣布了液冷系列产品和解决方案及其优势,发布了问天液冷白皮书,展示了液冷十大技术,深度阐述了联想集团智算能力+ESG绿色方案。






智算时代的联想液冷战略与解决方案




进入数字化时代和智算时代,算力已经演变成包括通用算力、科学算力、智能算力在内的多元算力,通过提供广泛计算能力、赋能海量数据、处理复杂模型,提供高性能计算资源,满足各类计算需求,推动市场需求快速增长。


随着算力需求的上升,CPU/GPU/MEM/NIC等算力关键部件功耗呈陡峭的上升趋势,新一代CPU达到600W,新一代GPU更是达到了1200W。而基于“双碳”战略,从工信部到地方政府以及行业大客户的要求越来越严格,PUE值从数年前的1.5降至到现在1.3,未来还将降到1.25、西部地区也会低至1.2。


面对如此严峻的挑战,液冷技术从数年前的可选变成了如今的必选,正在助力通用计算、智能计算和科学计算的高速发展。市场也佐证了这一点:互联网行业和电信行业已经率先大规模应用,其他行业应用也在快速普及。


联想在液冷技术上布局和深耕有着超过二十年的液冷技术积累。早在2005年,联想就发布了第一代液冷服务器,近年来又推出了著名的海神温水水冷技术并于近期发布了第六代液冷服务器,全球已有超过7万个节点的部署和长期应用。


凭借在服务器、液冷整机柜到数据中心的部署、运维各方面积累了丰富的经验,联想将在未来液冷技术上推出更多的成就,推动更多液冷应用市场的成长。




 联想液冷品牌重磅升级:

全场景液冷产品组合




联想液冷品牌“联想问天海神”,承载了联想多年在温水水冷技术、冷却液以及液冷通路材料与腐蚀科学、抗结构材料学方面的技术积累。针对中国市场,联想更加关注符合国家政策和标准,满足客户定制化的设计需求,兼容并扩大处理器硬件和软件的生态,以优秀的本地质量管控能力、本地交付和本地运维服务能力,更好地服务本地客户。



“联想问天海神”应用范围广泛,面向通用计算领域提供2U和1U的机架式服务器,科学计算领域提供包括海神温水冷超算产品SD/SC系列,智算领域也发布了8U大规模训练型服务器、8UOEM平台产品以及训推一体化服务器,所有产品均支持液冷方案,其中通用计算和智能计算产品所有关键核心部件支持冷板液冷散热,科学计算产品支持全覆盖冷板散热,广泛应用于全球各个国家和地区。


在性能方面,联想全线产品应用英特尔至强6能效核处理器,单处理器核数提升225%,实现两倍的AI工作负载性能提升,单机柜性能输出提升42%。


针对至强6能效核处理器,联想不仅提供创新的冷板设计,还提供单独的机械槽和防漏液套管设计,目前处理器冷板设计的进水温度为40度,可以使用通用UQD系列快速接头,辅以优秀的节点漏液检测功能。


在硬件方面,联想提供了内嵌智能引擎——联想易构智算平台。作为搭配服务器产品的新一代管理平台,它能跨所有服务器上层异构智算平台,自动匹配最佳算力,让数据中心算力的效率达到最高;AI训练的故障预测和断点续传集群,保证训练和推理工作不受故障影响而顺利进行,搭载的Lenovo Ops引擎也可以智能预警和规避,部件失效次数减少到50%。



伴随着品牌升级,联想发布了《联想问天液冷方案白皮书》。白皮书分为液冷技术分册、质量安全保障分册、服务保障分册三个部分。液冷技术分册覆盖冷板产品应用技术方案、生态建设、测试方法、性能测试、可靠性测试以及实际产品应用和未来应用展望等内容。


质量安全保障分册覆盖冷板和其他液冷部件,包括可靠性保障原则、部件选择方法、质量要求和保障方案等内容。


服务保障分册覆盖从前期客户的调研、踏勘到上架安装支持、项目管理和后期的运维服务,涉及液冷产品全生命周期。


值得注意的是,联想液冷方案除了提供服务器单节点方案,还包括端到端的一整套解决方案。




全栈液冷方案,赋能高效算力




联想全新一代液冷产品覆盖全部核心部件,包括CPU冷板、CPU+GPU冷板,CPU+DIMM冷板以及全覆盖式冷板。


针对近年来存储功耗以及后续存储密度持续上升的现象,联想也在规划存储冷板方面的冷板设计。全覆盖式冷板已经近100%的覆盖服务器接发热部件,PUE值远远小于1.1,优于其他普通冷板产品。


所有液冷产品采用系列接头,具备实时漏液检测功能。在冷板上还设有小型积液槽设计和防漏液套管,汇集管路上方轻微漏液,灵敏的漏液检测线可及时向系统报告漏液情况并进行处理。


1.成分剖析、细致选型,全面制定冷却液治理方案


防漏液的冷却液通过节点和二次侧长期循环流动。


在液冷循环管路水质方面,联想选择了传输性能最好、成本相对较低,无污染的去离子水,对pH值、菌落数、金属含量等水质参数都有明确和严格的规定。作为配套,联想选择了确保不会产生电化学腐蚀的管路材质。与此同时,联想还推荐客户按季度监测水质,确保管路循环过程中水质良好状态和冷板长期稳定地运行。


2.液冷整机柜交付


除了冷板方案,联想还提供整机柜交付方案。



上图显示,联想海神微制冷整机柜能耗已经从之前的Purely的76KW上升到明年上市的Burst Stream的168KW。为了支持如此高密度的整机柜安全交付和运行,联想执行了二次侧冷管预制方案:所有冷管由工厂预先焊接和阀门安装,客户机房现场只需进行拼接、打压以及清洗工作,避免机房环境污染,充分保障洁净度。


3.安全为重、质量为先,多手段护航高品质制造


冷板和液冷技术相对传统的风冷技术有着很大的改变和提升。对于业界非常关注的除了漏液安全风险,以及制造冷板的质量在长期运行过程中是否存在失效的风险,联想在白皮书中对相关风险提供了总结和规避方案;冷板焊接、焊钢或者焊片、焊接后的检验标准也都在白皮书中进行了描述。


此外,冷板组件焊好后的芯片检查、洁净度检查以及杂质的产生,冷板组件安装时是否折弯,或带来细微损伤,系统组装过程中是否产生结构干涉,组装及运输过程中如何避免由于振动和晃动可能造成的部件损伤,冷却液的流速和温度是否需要以及如何进行调整……所有这些联想在长期生产制造和运维过程中累积起来的经验,都经过三年上万台的大规模量产验证,确保产品安全可靠。


4.专业全面、深度定制的部署及运维服务


从一开始的调研和踏勘,机房的建设和制造到服务器的交付和安装,联想以“交钥匙”方式为客户提供了端到端全生命周期的服务,确保客户高枕无忧。对交付后包括服务方法和运维场景,漏液以及系统算力的调度、需要关注和分析的数据在内整个运维的管理,也都提供了完整的方案。




双轮驱动,共塑绿色新质生产力




从支持通用计算、科学计算、智能计算的三条液冷产品线,包括从节点交付、整机柜标准交付到整个数据中心一体式交付,联想构造了液冷解决方案全面、完整的交付能力,并且从绿色制造、绿色包装、产品包装、绿色物流、绿色建造、运营以及绿色回收全产品生命周期为客户提供了完整的ESG解决方案。


看得出来,联想问天海神液冷方案不仅为客户提供高效的算力,也提供绿色的算力。可以想见,联想智算能力+ESG绿色方案,将为千行百业客户提供更好的智能化和绿色低碳的数字化转型助力。


关注我们获取更多精彩内容


往期推荐

● 智慧金融 算力未来 | 2024中国金融行业数据中心发展论坛报名通道正式开启

● 最佳演讲人气王 | 阿里云任华华 一册在手 液冷不愁——《数据中心液冷系统技术规程》内容解析

● CDCC 2024数据中心标准大会胜利闭幕:七色光融合,精准映射AIDC发展蓝图

● 腾讯落地全国首个风光储一体化数据中心微电网项目

CDCC
数据中心标准、技术沟通交流平台
 最新文章