最佳演讲人气王 | 郝玉涛:百度AIDC高算力基础设施创新实践

科技   2025-01-03 11:40   北京  

摘要


2024年11月,为期两天的数据中心标准大会在北京国家会议中心圆满举行。大会以“AI之光 照耀未来”为主题,汇聚了国内数据中心产业链的权威专家、关键企业领袖及行业精英,共同探讨AI在数据中心领域的变革与未来发展前景。百度智能云IDC建设运维部副总经理 郝玉涛,受邀出席会议并以《百度AIDC高算力基础设施创新实践》为题发表演讲。现将演讲内容整理如下,供广大数据中心从业者参考。


在技术发展道路上,从来都不是一帆风顺的,都会有一些挫折和挑战,我今天代表百度IDC团队为大家分享一下整个百度AIDC高算力基础设施创新实践。

百度AIDC技术演进

百度文心一言正式发布后不久,在百度内部由数据中心牵头联合了服务器、网络、规划以及业务方面建立了AIDC联合项目组,主攻算力基础设施后续发展以及给百度文心一言支持以及后续发展。

一开始有一个疑问,IDC和AIDC最大的区别在哪儿?有的人会认为,芯片不一样,芯片确实不一样,但还有一个AI差别,整体的功率也不一样。从百度内部来讲,从IDC到AIDC最大的区别是算力数据中心核心逻辑发生了变化。

AIDC时代的关键要素已经发生了变化,从传统IDC的以电定量,有多少电力出多少机柜,到AIDC时代,以算为核心,多少万卡,配置多少电力,以及制冷形式。

在这基础上,结合业务本身的特性,以及我们服务器的套餐,百度内部所有的业务都会进行服务器套餐测试,包括功率、性能、功耗波动,同时还要结合物理机柜空间,包括之前的48U,现在是52U机柜,以及考虑整体的功耗波动,整体来确定单机柜功率,这是IDC时代整体逻辑。

百度从2010年到现在,功率探索了很多,最开始13A机柜,2.86kW,20A机柜4.4kW,包括还有一段时间用的32A机柜,7.04kW,这些功率甚至在同一个时期并存。

百度使用40A机柜8.8kW,是在2014年开始,一直到现在还在用,这些功率针对百度业务以及百度服务器套餐以及物理空间达到最佳平衡,8.8kW在十年前算是高密,到2022年也算中高密,但是在GPU时代这个平衡被打破,原因是服务器的功耗、GPU功耗超过了传统单台机柜功耗,在这个基础上,我们通过原有弹性设计,勉强满足峰值12kW(单台GPU峰值功率在11.5kW左右),实现传统IDC基本可用。

但随着算力规模发展,加上GPU并行运算特性,传输的时延导致算力损失,这个损失不可估量。同时,随着集群规模越大,浪费或者损失越凸显,在这种情况下,我们必须要解决这个新问题。算力越聚集,算力带来的机柜密度越高,带来整个优势才会支持更大的算力效率,所以说传统IDC是难以满足,风冷已经到了30kW,单机柜最高弹性到33kW,已经到了极限。再往上,10万卡网络要求和算力效率,那要面临巨大挑战。

我们内部一直在讨论,从3万卡、5万卡到10万卡怎么解决这个问题?必须面临技术重构,所以说我们引出了要解决的挑战。

百度AIDC面临的挑战

● 空间网络

业务侧,互联效率既然是影响GPU算力重要因素,传输时延随着规模增大损失会越来越大,同时由于国内外芯片性能差距,迫使我们在国内规模上其实是不断扩大,堆卡,才能达到整体算力输出。

在这一块必须解决网络传输效率问题。当然用高性能芯片,用高性能网络传输设备,线材以及用整体路由架构这都是。

● 能源供给

单台服务器超过传统机柜,放大到单个建筑,电力增加2-3倍。从整个园区,更是变化非常大。

在国家对能源利用率要求不断提升情况下,能源利用效率,我们要把它用在刀刃上,尽可能多的用在算力上,这样能源消耗才有它的价值。

● 散热方式

风冷,现在已经做到了30多kW大规模落地,散热效率和性能已经达到极限。

传统设计无法满足GPU大集群的运行。

液冷相关技术,已经有所发展,百度最开始从2015、2016研究冷板式液冷,但是液冷相关技术在这个场景下,在近期还需要更快更创新的发展。就像风冷时代,整体解决方案、生态、产品百花齐放,这也希望全行业液冷各位同仁努力,解决风冷散热以及液冷百花齐放的场景。

除此以外,还有不确定性和确定性。

确定性,就是GPU和CPU的混布,对百度多业务来说存在一定不确定性。我们考虑它整体兼容性,它怎么去又满足CPU,不确定什么业务情况下,怎么建机房,提供什么样的解决方案。

另外,就是风冷和液冷形式,风冷整体芯片供给情况下,我们预判到在液冷芯片供应情况下,如果我按照液冷建设,到时候液冷芯片来不了怎么办?这个问题我们必须要面对。在这种情况下也存在不确定性。

确定性指的是随着规模不断扩大,整体可靠性难度增加了,运维稳定性是终极目标,如果说我们为了算力需求把故障域放大,无法满足稳定性的要求,我们技术方案是失败的,所以这是一个确定性的因素,但是它有难度。

另外是集群扩展性要求。传统IDC时代,有多少电有多少机柜,扩展性可以随时扩。但随着万卡、十万卡集群建立情况下,集群一定提前考虑到扩展性,因为涉及到整个建筑,整个园区电容量太大,这也是确定性的。

针对以上问题,我们可以看到,芯片的发展以及业务发展它的迭代速度已经远远超过了IDC的设备和整体技术方案迭代速度。后续我们不希望遇到业务发展对数据中心技术提出颠覆性的要求,这是失败的,我要付出代价改造,再去整体重新建设,时间和金钱成本是不可估量的。所以我们必须要解决这些问题。

空间结构优化方案

刚才讲在IDC整个算力性能上,用高算力芯片,用高性能的网络架构以及它的设备是能够提升的,但是从IDC基础设施层面,我们能够解决其实就是互联距离,离得近肯定是有好处的,而且能一定程度上提升网络性能,特别是高性能网络的互联时延。

传统以电力为基础的平行电力结构,是以电为核心来规划的,可以节省点缆的成本。但在算力时代,肯定是不适配的。在这个基础上,优化了向心结构,单层方案和多层夹心结构。

在这基础上,一定程度上对于常见的单层1万平米或者单层4-5千平米的多层建筑,可以实现风冷1.6万卡、3万卡甚至更高的解决方案。

目前为止,我们进行了很多改造,包括左边这个机房,拿到以后,首先把中间四个配电室拿掉换成核心层核心机房,合作伙伴一开始不太理解,但后来发现布线以后还是比较认可,这个方案一定程度上给设计院同事、合作伙伴为未来建设建筑提供一定的参考,采用向心结构,最大限度缩短网络互联距离,为算力贡献一部分力量。

供电系统解决方案

供电方面,刚才提到园区级的供电,要把资源用在刀刃上,在这方面我们结合整个园区,整个园区级规划,提出了常备储微电网弹性供电架构,园区级的电力实现了池化,提升了可靠性和资源利用率,从GPU本身机柜弹性以上,实现列级、模块机到房间级、系统级、集群级,希望整个园区池化,满足业务弹性。GPU一旦运行起来,整体负载率的差别还是很大。在这个基础上还要兼顾未来绿电要求,目前我们已经在执行一些,包括把整个园区柴发连起来互备。

另外,针对后续园区级选址,要求自有变电站,在一定程度上解决电力按集群或者按建筑去分配的灵活性。如果说按传统,电从市政引完以后,再重新引是比较难的,后续选址要求变电站一个或者两个变电站。

另外,在整个层面上,采用了一体化电源系统,也希望在整体建筑面积上有一些节省,提升效率,同时提升可靠性。

供电系统解决方案探索实践

下边我介绍一下百度在供电方案方面的一些探索和尝试,这个探索尝试一直都在做。2011年,百度最先用的市电+UPS,2014年市电+UPS的ECO,和市电和HVDC offline和市电+市电+分布式锂电也有尝试。

今年针对高密度高性能解决方案我们提供了“瀚海”直流电源,对比原来传统方案,原来就是散状,从中压柜一直到UPS、高压直流到列头柜到供电设备,为了解决刚才提到的一体化电源它的优势,从整体的预制化、模块化、节省面积、现场工艺提升,一体化电源包括电力模块目前应用非常广泛,包括输出海外也非常多,在这个基础上我们进行了一部分的优化,这两个方案它的供电最后到末端都是220V和240V高压直流。

“瀚海”在这个基础上提升到750V,更好支持高算力集群高比用电需求,它的优势高密高效,能支持单机柜100kW,并且它的效率提升大概2%-4%,比传统一体化电源要高,另外简化配电路径,高度集成。

同时,它兼顾240V高压直流供电,并且为未来推动服务器电源模块发展起到一部分作用,希望支持整体服务器电源模块负载。

制冷系统解决方案

针对传统制冷,故障域是一个问题,随着算力规模越来越大,我们针对于传统的冷冻水系统,现在已经有很多机房还有冷冻站,我们采用分布式冷站,这是一个常规操作,把冷站分成多个进行母联的连接、容量互备和弹性冗余。

另外,2020年百度发布冰川相变系统,采用分布式架构,它的优势在于整体分布式,故障率比较小,但它的局限性,放置在屋顶需要面积比较大,针对大平层会比较适用一些。

针对于现在规模应用的30kW机柜整体空调来讲,我们末端目前针对于30kW峰值采用常规的就是热通道封闭,但我们把距离加大,双侧送风,采用房级空调以及风墙空调模式,这比较常规,目前有一部分机房采用这种形式。由于它是双侧对吹,距离比较短,整体运行效果还不错。

但在这个基础上,为了适应未来5万卡、10万卡,逐步推广列级风墙,我们把它整合成一个模块,模块内有整体风墙包括热通道封闭以及整体框架,和机柜解耦,可以把机柜直接推走,未来液冷系统来了之后,直接可以推过来,这是我们想应用的一个场景。

针对于液冷,整体的单机柜风冷的功率也是到30kW,结合列级风墙,实现不同列级的风液混布,比如说机房先按照风冷建设,支持风冷最高30kW,旁边列预留整体液冷的接口,可以实现液冷100kW单机柜功耗,实现更多的灵活性和弹性,这方面我们目前也在逐步迭代和推广。

冰川是2020年发布,应用非常广泛,采用液泵和气泵组合运行模式,采用不同的工况,优势无油压缩,不受现在高差距离限制,并且分布式,对控制故障率非常有效,并且预制化。目前应用比较多,后续也对这一代产品进行优化迭代,能适应更高密的应用场景,并且希望能跟整个液冷系统有一部分的结合。

“灵溪”液冷是2023年发布的,从2016年开始,百度针对自研的X-MAN AI液冷服务器集群,配套冷板液冷技术持续迭代,2023年推出全栈式冷板液冷解决方案,作为AIDC先进算力集群高效散热方案,具备高密高效、安全可靠、弹性灵活以及敏捷部署等多重优势。能与百度冰川相变冷却系统高度耦合,实现风液同源设计,并通过自适应的"风液比"调节机制、AI智能散热算法以及节水防漏设计,确保系统的高效稳定运行。此外,该系统支持100kW+超高功率密度机柜的散热需求,年均CLF值低至0.06。

它采用分布式架构比较灵活,风液可以同源自主调配,针对风冷比例和液冷里,可以适当自主调配。另外,它能够敏捷快速部署,实现灵活和弹性。

实践案例和总结

目前为止,风冷峰值30kW的高密机柜已大规模应用,2024交付规模的60%以上都是风冷30kW方案。液冷也在路上持续迭代优化,等整体液冷服务器规模部署,IDC技术也能支持。

日前,百度发布了百度百舸AI异构计算平台4.0,明确表明支持十万卡大集群的训练,并且解决了一云多芯混合训练等技术难题。在基础设施层面,我们同样也具备了10万卡集群的技术能力,按照这种趋势,我相信在不久,国产10万卡算力集群即将到来,也希望敬请期待。

关注我们获取更多精彩内容


往期推荐

● 最佳演讲人气王 | 抖音井汤博 数据中心技术矩阵和产品套餐化研发策略

● 最佳演讲人气王 | 阿里云任华华 一册在手 液冷不愁——《数据中心液冷系统技术规程》内容解析

● 最佳演讲人气王 | 吉利智算张国林:大模型时代传统数据中心应对多样化算力场景的成功实践

CDCC
数据中心标准、技术沟通交流平台
 最新文章