AI时代,如何升级你的智算中心?

企业   2024-11-06 15:52   北京  

“有一天,计算可能会被组织成一个公共事业,就像电话系统是一个公共事业一样。” 这是“人工智能之父”约翰·麦卡锡曾经提出过“Utility Computing”(效用计算)的概念。如今,随着大模型技术的落地,这一预言正在成为现实。同时,生成式AI,大模型正在成为数据中心基础设施发展最大的牵引力。


在此背景下,“维谛技术(Vertiv)360AI智算技术研讨会”在北京隆重举行。整个大会聚焦AI基础设施挑战,并邀请了国家级信息通信研究机构、通信运营商、算力中心服务商等多个领域专家,深入探讨AI时代对底层基础设施带来的诸多挑战,共同畅想AI算力的未来。



秦淮数据集团首席技术官(CTO)的张炳华出席此次大会并进行了相关分享,在他看来,ChatGPT的出圈,尤其是大模型的快速发展,对计算能力的需求急剧增加,同时国家对“人工智能”的全力推进,传统的数据中心和传统业务务必要寻求突破,传统IDC必须向AIDC转变这对于数据中心的建设模式、商业模式、技术方案以及应用场景都带来了全新的挑战。



那么,企业数据中心如何快速灵活地应对这些挑战呢?要实现这一目标,我们不妨来看下秦淮数据从IDC到AIDC的转变过程,以及维谛技术是如何通过技术创新帮助用户实现传统数据中心升级的。




01 AI时代 数据中心需要强化五大能力




2023年,大模型的爆发,快速搅动了智能算力市场。社会上对算力的需求,处于疯涨态势。根据IDC的统计,截至今年6月,政府参与建设并已投产的智算中心数量已超过200个。



对此,张炳华认为:“随着主流CPU、GPU芯片功耗不断增长,服务器节点及机柜功耗指数级增长,数据中心亟需进行技术创新和模式变革,要具备高算力、高弹性、大规模、智能化和高能效五大能力,才能应对人工智能大模型带来的算力供给和能耗挑战。”


首先,大模型越来越大,智算中心需要提供更高的算力。我们可以看到,从CPU到GPU,从通用计算到异构计算,数据中心的性能提升了很多倍,机柜的功率密度也达到21kW或更高,这就需要具备高性能的计算和数据处理能力,以支持复杂的人工智能算法和模型训练。


其次,满足智算中心多元化需求,智算中心需要更弹性。目前,智算中心总体在向高效、开放、环保、智能方向发展,这是发展必然路径。同时作为赋能人工智能发挥价值的核心底座,智算中心基础设施同样需要满足更多差异化、多元化的算力场景需求,要通过弹性设计同时兼容CPU和GPU等不同性能的计算和存储资源,也要灵活匹配不同的算力部署。


第三,满足人工智能算力的需求,智算中心规模会越来越大。未来单个AZ(可用分区)需能提供1~5万卡GPU大规模的算力和存储资源,要满足人工智能应用对数据和计算的需求,未来单个数据中心的IT容量规模将超上百MW。


第四,管理越来越复杂,智算中心需要更智能化的管理。复杂性和多样性的业务需求对数据中心运维工具系统提出了更高要求,传统运维工具对运维管理的提升构成了严重的制约,甚至在一定程度上影响着业务的稳定性和安全性。需要借助AI和机器学习的能力,实现数据中心的自动化管理和优化,包括智能监控、智能预测、智能散热、故障智能定位,提高运营效率。


最后,能源消耗和环境保护一直是数据中心的关注重点,在智算中心这个依然是关键指标。而且智算中心的节能环保已经被提升到了一个全新的高度。需要充分利用自然资源,采用融合式数据中心全栈式解决方案,通过优化设计和运营策略,降低数据中心的能源消耗,提高能效比。




02 从IDC升级到AIDC,既要高密还要高质高效




作为亚太新兴市场领先的中立第三方超大规模算力基础设施解决方案运营商,秦淮数据一直密切关注行业技术动态,在领先技术的加持下,秦淮数据构建了面向AGI时代的数据中心全栈式解决方案。


比如,秦淮数据前瞻性地开展100kW以上高密度机柜的供电、冷却等方案研究,针对智算时代大模型业务场景开展系统架构全栈规划。尤其在智算中心建设所需要的高密场景下的风冷、液冷解决方案在业界处于领先地位,能够充分满足大模型时代对更大计算所需的冷却需求,目前可支持高达150kW的高密度机柜。


由于预测到算力需求激增的趋势,秦淮数据集团不断升级迭代“磐石”数据中心架构,全面覆盖规划设计、建设交付、运营调优等全生命周期业务场景,高效支持人工智能算力集群的计算需求,为AI时代提供了全栈式解决方案,可充分助力客户业务快速发展与弹性扩容。


据了解,“磐石”系统架构由多个数据中心关键技术模块构成的坚实基础,其核心包括建筑模型、供电系统、冷却系统、ICT系统、智能控制系统等。这些模块不仅各自承担着至关重要的角色,而且通过协同作用,共同确保整个系统架构的高效运行与稳定性。


张炳华介绍说,秦淮数据智算中心全栈解决方案核心是以创新为驱动,依托前沿的技术方案与产品化理念,彻底革新传统模式。我们研发了模块化预制方案能够轻松应对智算等多种算力挑战,满足智算等不同算力需求,提升AI时代数据中心的快速交付能力和业务扩容能力。推动业务实现平滑升级。我们专注于满足日益变化的算力需求,为智能计算的未来打造坚实基石。


尤其是在冷却模块方面, “玄冰”系列产品全面解决了从风冷、冷板液冷、浸没液冷多种场景,可支持8kW至150kW单机柜功率。独特的“液侧冷板液冷和风侧磁悬浮相变”的风液冷却组合系统,成功克服能耗压力大、交付工期紧、项目所在地缺水少水等多重挑战。该系统能效表现卓越,在秦淮数据华北某基地,该系统负载平稳的机房实际运行PUE低至1.128,全年WUE预计仅为0.15,创造超大规模高密数据中心的能效标杆。此外,秦淮数据更是和维谛技术强强联手发布“玄冰”无水冷却技术,可实现WUE=0,解决了缺少地区发展数据中心产业的挑战。项目开创性地采用了软硬结合的方式,通过控制技术和感应技术高度协同,将制冷系统的输出与环境温度紧密相连,从而可以充分利用自然冷能降低数据中心能耗。有效构建出基于高密算力的绿色高效冷却新方案。


秦淮数据在迅速响应客户需求的同时,也根据行业发展趋势进行前瞻资源布局。在数据中心业务选址中形成了“能源流”、“数据流”和“业务流”三流合一的原则,已分别在张家口和庆阳等“东数西算”枢纽节点以及山西等环京津冀地区落地部署。


张炳华表示:“秦淮数据始终相信技术是迎接挑战、驱动发展的源动力。如今秦淮数据在亚太地区运营及在建数据中心的IT总容量已超过1600MW。秦淮数据集团通过技术创新,不断探索节电、节水及减碳解决方案,2023年,中国区年均运行PUE低至1.21,处于行业第一梯队。秦淮数据和维谛技术强强联合,在技术创新、产品研发等层面相互补充,围绕节能节水不断优化,逐步逼近电源使用效率(PUE)以及水资源利用率(WUE)的极限值。”




03 维谛技术联合秦淮数据夯实AI底座




事实上,正如张炳华所言,随着生成式AI、ChatGPT大模型正驶入加速发展的快车。随着企业级应用日趋普及势必将大幅提升算力需求的持续暴增,作为AI算力核心底座,传统的数据中心需要提升计算密度和加速计算等能力,在此趋势下,数据中心对性能、散热、供电等方面要求越来越高。


但传统数据中心升级到智算中心是一项宏大且复杂的工程,这需要多方携手并进,共同攻坚。秦淮数据拥有强大的技术创新能力、丰富的应用场景;维谛技术具有很强的技术研发落地、供应链整合能力,双方强强联手,将更好的助力数据中心升级智算中心。


维谛技术大中华区董事长李宁表示:“AI时代我们不仅要把握当下,更要着眼未来,以应对AI算力的巨大需求。维谛技术通过一系列战略性收购,不断提升旗下AI解决方案的技术水平,同时,联合合作伙伴,为中国智算行业注入新活力和新思路。


维谛技术大中华区董事长 李宁


不仅如此,除了联合合作伙伴推出数据中心解决方案。在此次大会上,维谛技术的多个技术专家也向与会者分享了他们对行业的趋势洞察及见解,并展示了多个在高端数据中心已经成熟应用的解决方案。


维谛技术大中华区市场营销与产品应用部高级总监 顾华


维谛技术大中华区市场营销与产品应用部高级总监顾华表示:“在AI时代,我们必须要解决高密情况下如何能更好的实现供电和制冷的稳定,而且要能够实现更高效的能源的供应,还要保证整个基础设施有更小的占地面积,以及整个的设施适配要能更快更灵活的部署。”


为了解决上述这些问题,顾华认为,我们越来越深刻的感受到供电和制冷不能被视作“单点问题”,而且融合的要求比过去的任何时候都要高,因为我们在任何解决其中一个单点问题的时候,不可避免的会在另一个地方出现新的问题。为此,维谛技术为AI发展提供端到端支持,从电网到服务器芯片供电链,以及从芯片到户外散热,保障AI基础设施的高效稳定运行。


维谛技术大中华区研发副总裁 田军


在谈到“AI计算如何突破传统界限?”这个话题时候,维谛技术大中华区研发副总裁田军表示:“AI的计算中心带来的技术挑战非常多的,有可能我们需要突破很多的原来的思维框架和边界去解决这些问题。”


解决这种问题,田军认为这需要跟客户走的更近,一起来解决这些问题,因为在AI计算这个领域,制冷和供电已经被史无前例的耦合在一起。维谛技术通过快速迭代和联合研发,实现大容量大电压的电力可靠性保障、液冷高精度控制和高洁净运行;同时维谛技术还打造千万级液冷可靠性验证实验室,并正在推进10MW级中压测试平台建设。


维谛技术全球专家 Simon Brady


来自维谛技术的全球专家Simon Brady也帮我们揭秘了搭建液冷解决方案的核心要素,他认为供液温度、流量、过滤要求、冷却液选择、配置和管理及故障预防和检测是液冷解决方案必须要关注的因素。维谛技术智算解决方案已在全球顶级数据中心有众多成功实践,如Google、亚马逊、Meta、微软、特斯拉等,并且维谛技术与英伟达和英特尔的战略合作更是推动了新一代液冷技术的发展。


Vertiv 360AI全链智算解决方案


为了更好的解决AI时代智算中心面临的挑战。维谛技术在此次大会还重磅发布了Vertiv 360AI全链智算解决方案,该方案以突破性创新满足AI负载前所未有的需求,赋予AI应用更大想象空间。方案包括Vertiv 360AI无缝融合电能管理、热管理、软件、端到端的全生命周期顾问及专业服务,为AI智算中心提供一站式解决方案;Vertiv 360AI从芯片到户外散热完整解决方案,满足40kW~132kW单机柜高密散热需求;Vertiv360AI满足设施/户外、房间/列间、机柜/服务器的电力切换和分配、末端配电全链需求。可以说,维谛技术能够从供电、到散热到端到端的全生命周期为智算中心客户提供帮助。


在主题为《拥抱AI时代 引领智算未来》分享中,张炳华剖析了AI时代背景下,AI应用的迅猛发展如何催生了前所未有的算力需求。他表示,在这个由数据驱动、智能引领的新纪元,AIDC(人工智能数据中心)全链条协同合作不仅是一个战略选择,更是推动行业进步的关键所在。唯有通过构建更加紧密、高效的协同合作机制,才能在激烈的市场竞争中脱颖而出,把握AI时代的脉搏,引领智算未来的发展方向。


总结


AI时代让我们看到了未来世界的无限可能,但也给数据中心带来了诸多挑战。维谛技术正以全新的姿态引领智算中心走向更加美好的未来。随着AI技术的不断突破,维谛技术将继续与合作伙伴携手合作,共同推动AI时代的技术前沿探索和应用落地,为中国数字经济的发展创造更大的价值。



关注

获取更多精彩内容








END





中研益企(北京)信息技术研究院有限公司(益企研究院)是面向数据中心、云计算、AI等信息科技领域最新技术和数字化应用的研究机构,长期致力于数据中心与云计算基础设施领域的新技术和新产品研究,帮助企业用户更快更好的接受新技术和新产品方案。通过研究、推广国内外领先的技术和方案,以及专业顾问、咨询等服务,降低市场和用户接受新技术、新方案的成本。在过去几年中发布的《2018中国超大规模云数据中心考察报告》《2021中国云数据中心考察报告》《算力经济时代·2023新型算力中心调研报告》《2024 数字中国万里行暨算力经济中国行考察报告》、参编的《国家“东数西算”工程背景下新型算力基础设施发展研究报告》《国家“东数西算”工程下算力服务发展研究报告》均广受业内好评。目前益企研究院已入驻多家平台,为安谋科技(Arm China)极术社区合作伙伴
看清科技,解读价值

扫描“视频号二维码”

获取更多的技术解析



E企研究院
E企研究院聚焦云计算、AI、数据中心等新技术研究,新产品解析,为厂商顾问,为用户咨询服务,降低用户接受新技术、新方案的成本。
 最新文章