从“泡水”的550W,看AI超级计算机的“浸没式液冷”

文摘   2023-05-09 07:58   广东  

本文同步自胶我选APP应用数据库 诚挚感谢 

Y先生 W女士 项先生
通信及材料应用专家  赵仁哲博士
中国赛宝实验室  张莹洁女士
 给予本文的专业意见
核心提示
“相变氟化液”和“单相合成油”是当前两种最主流的浸没冷却液。但它们一个面临环保政策的不确定性,另一个则存在材料的兼容性风险。
而材料大厂陶氏借助分子杂化技术给出了新的解决方案,他们于近期开发出了性能更为均衡的全新单相浸没冷却液——陶熙TMICL-1000


01

2058年的“热管理”方案‍‍‍‍‍‍‍‍


   记得大刘在19年《流浪地球1》刚上映那会儿接受过一个采访,当时他就说:


“科幻”不是“玄幻”,不管写小说还是拍电影,都应该根据真实的科学理论来讲述“可能实现的”未来……

(http://www.chinawriter.com.cn/n1/2019/0224/c404030-30898790.html)


现在看来这话显然是被郭帆导演听进去了——


到了拍摄《流浪地球2》的时候,他不仅拉来了众多现实中的高技术厂商做背书,更是力求在电影中出现的各种“未来科技”都尽量参照相关领域的技术路线图来做设定。


当然最后出来的效果也的确非常“炸裂”,大量炫酷又不失严谨的“黑科技”极大提升了电影的质感。


那台泡在的AI超级计算机550W无疑就是诸多未来黑科技当中最“硬核”的一个!



《流浪地球2》中的550W服务器


要说剧组能想到把550W设定成这种“泡水”的形态说明还真是做足了功课。因为这里面涉及到了一个外行人士根本就注意不到的问题——

“强人工智能”实在是太费电了


别说图丫丫这种具有完整一生的“数字生命”了,就算还只是处在“会聊天”层次的ChatGPT,现在训练它一次微软的Azure云就要动用上万枚英伟达的A100 GPU,同时消耗掉超过19万度电


如此巨量的功耗,意味着系统的降温散热工作也会变得极其繁重。


(https://www.huxiu.com/article/811823.html)


然而偏偏当前主流的服务器“热管理”方案还都停留在风冷水冷板的阶段,虽说它们也都能有效降低芯片的温度,但这些设备本身消耗的电量就足够惊人了!

有资料就显示,在目前的数据中心里,真正干活的IT设备其实只用了45%的电;反倒是给IT设备降温的散热系统,耗电量竟然高达总能耗的43%


如此低效的“热管理”方案别说用在2058年的550W了,就算是用在今天的ChatGPT上也会让微软对巨额的电费感到“肉疼”吧!


(中国液冷中心发展白皮书_赛迪顾问)


正是基于这样的认知,电影才将550W设定成了那个泡在“水”里的形态。而它的技术原型,就是当前产业界颇为关注的一种新型“热管理”方案——


相变氟化液 浸没式液冷


要说这种方案的思路倒也非常简单——既然风冷和水冷板太费电,那就把它们都“砍”掉;至于计算机里那些滚烫的发热组件嘛,直接“泡”在“氟化液”材质的冷却液里不就完事了~

“相变”氟化液浸没式液冷的工作方式
(https://www.gigabyte.com/tw/Glossary/immersion-cooling)


因为“氟化液”这种材料不仅绝缘性好,而且化学惰性也很强,电路板泡在里面不会有任何问题。


最关键的是它的相变点(其实就是沸点😝)可以低至40~50℃所以一旦泡在其中的芯片开始发烫,它周围的氟化液就会立刻沸腾,进而以液气“相变”的方式极其高效地带走芯片的热量!


“相变”浸没式液冷的工作方式
(https://www.gigabyte.com/tw/Glossary/immersion-cooling)

从近一段时间头部服务器大厂们的测试数据来看,这种采用了“相变”氟化液的浸没式液冷方案还真是相当给力——


原本占据了半壁江山(43%)的热管理能耗被急剧压缩到只剩个零头(3%);而宝贵的电能,也终于最大限度地(96%)作用在了正经的算力上!👇


(https://www.sugon.com/product/226.html)


只不过,既然都被设定成了2058年的“未来技术”,那么也就意味着至少是在现阶段,这个相变氟化液的浸没式液冷方案还不是谁都能驾驭得了的!

别说那些散落在民间的普通用户了,就连不差钱也不差高科技的某个美国“大机构”,之前在尝试了这种方案之后都“翻车”了……
‍‍‍‍

02

“氟化液”的是与非


事情的源头还要追溯到2010年。当时哥本哈根世界气候大会刚开完,美国就带头出台了一系列节能减排的新法令。


一方面是为了响应环保号召,另一方面也的确是计算需求增长得很快,所以当时美国某个经常在全世界呼风唤雨的“大机构”就计划对自家的数据中心来一个升级改造。


而在众多改造方案里,他们一眼就相中了这个热管理效率极其给力的“相变氟化液浸没式液冷方案!


“相变”氟化液浸没式液冷计算机

(Immersion Cooling of Electronics in_Henry Coles)


但让人意想不到的是,项目在运行一年后,“验收报告”给出的结论却让人喜忧参半——


喜的是“相变”氟化液的确在热管理上很有一套。本来他们的目标只是将能效提高50%,但没想到最后这套浸没式液冷系统以73%的成绩超额完成了任务!


而忧的,则是“相变”氟化液的损耗也远远超出了他们的预期……😓

(Immersion Cooling of Electronics in _Henry Coles)


从传感器的记录来看,在300天的时间里氟化液的高度一直在下降,如果刨去中途的补充,最终损失掉的“相变”氟化液高达87升

这一方面是因为计算机每次维护都要打开液冷箱,而箱体内“相变”成蒸汽的氟化液就会趁机大量逃逸;

另一方面则因为氟化液的表面张力极低,属于极易泄露的液体,一般等级的密封方案根本就“封”不住它……
‍‍


(数据来源:immersion cooling of Electronics in_Henry Coles)


再加上氟化液本身就比较“金贵”,每升成本高达75美元,所以300天下来有价值6525美元的“相变”氟化液就这样白白“跑掉”了!


反观这期间计算机的耗电量是19667度,每度电0.09美元,满打满算正经的电费也才花了1770美元而已……

这不就是妥妥的“主角”还不如“龙套”开销大的节奏了吗!😅


(数据来源:immersion cooling of Electronics in_Henry Coles)


更让人挠头的是,那段时间整个氟化工行业好像都处于“水逆”之中——


先是氟类产品重要的上游原物料PFOA(全氟辛酸)被爆会致癌,并且在2015年被美国环保部门全面“封杀”!


紧接着2016年,更上游的PFAS(全氟和多氟烷基物)也同样被发现可能致癌。甚至有媒体爆料,当时已经有超过1600万美国人民受到了这种氟化工产品的“毒害”……

2016年氟化液的重要原物料PFAS的毒性开始受到关注

(https://www.pbs.org/newshour/science/pfas-toxic-chemical-millions-peoples-drinking-water)


但问题是,这个PFAS可称得上是整个氟化工行业的基础原物料,如果它也“塌房”那影响可就真的大了去了!


别说浸没式液冷用的“氟化液”了,到时候估计就连做饭用的不粘锅都买不到了吧!😓

PFAS是几乎所有氟材料的基础原物料
(https://zhuanlan.zhihu.com/p/159280196)


于是乎,出于对这种环保政策风险的担忧,再加上“氟化液”使用起来的整体成本也的确不低,


所以到了2017年,当这家美国“大机构”准备继续升级自家更多数据中心的时候,就义无反顾地从“难搞”的“氟化液”,转向了另一种主打“健康环保又便宜”的材料方案——


单相合成油 浸没冷却液!
‍‍‍‍‍

03

“单相”合成油的“小问题”‍‍


和“相变”氟化液比起来,“单相合成油浸没式液冷方案看着就非常接地气了——


一堆电路板静静地泡在“油槽”里面,完全没了550W那种炫酷的“科幻”感。

模块化数据中心的“单相”浸没式液冷

(https://www.grcooling.com/learning-center/usaf-containerized-data-center)


而它的原理也同样接地气——


就和我们夏天买了西瓜要泡在水里“冰镇”一下的思路一样,都是让低温液体流过高温物体表面带走热量。


因为它的沸点远远高于芯片的工作温度,自始至终只会以“液相”这一个状态示人,所以就被称为了“单相合成油


“单相”浸没式液冷的工作原理
(dow.com)


由于“单相”合成油是一种由石油精炼出来的中短链烯烃,本质上和我们平常保养汽车用的“机油”是同一种东西,所以它既不会有明显的挥发,也几乎没有毒性


再加上介电强度足够大,用它来“平替”氟化液是妥妥的没问题!

“单相”合成油可以近似理解为超低粘度的“机油”


当然,“单相”合成油也有自己的短板,它的能效基本上处在PUE1.02~1.09的水平,和“相变”氟化液的PUE1.01~1.02比起来还是有一点差距的。

(https://www.gigabyte.com/Article/two-phase-and-single-phase-liquid-immersion-cooling)


不过这样的热管理效率对于那个美国的“大机构”来说已经完全够用了。


他们更关心的是数据中心的日常维护省不省心,以及在遇到突发事件的时候能否在24小时之内就快速部署到各种复杂的环境中去!‍‍


毕竟他们需要经常飞赴全球各地处理各种事务,如果数据中心的架设和维护还要花很多时间可就要耽误事了~

模块化数据中心的“单相”浸没式液冷
(https://www.grcooling.com/learning-center/usaf-containerized-data-center)


而“单相”合成油也的确没让他们失望——


因为不需要“相变”氟化液那种复杂的密封和冷凝设备,所以整个单相浸没式液冷系统就简单了很多,无论是搭建难度还是维护成本都随之大幅度降低。


更重要的是,虽然在合成油里“泡”了整整三年,但各种电子元器件的性能依然保持了很好的状态,整数据中心的故障率接近于0%


(Reliability Considerations for Oil Immersion-Cooled Data Centers_Jimil M. Shah)


唯一的“小问题”,就是印在元器件表面的字被合成油冷却液给“泡没了”……


合成油溶解了电路板的印刷字‍‍‍
(Reliability Considerations for Oil Immersion-Cooled Data Centers_Jimil M. Shah)

其实这个情况人们早有心理准备,毕竟烯烃类的“单相”合成油也是一种有机溶剂,“溶解”掉一些同为烯烃体系的聚合物是再正常不过的事情。


(Reliability Considerations for Oil Immersion-Cooled Data Centers_Jimil M. Shah)


只不过大家心里也很清楚,类似这种问题的定性属于“可大可小”——


如果单看印刷字溶解消失的确是“小“问题;但是如果考虑到诸如线缆之类的橡塑材料也同样可能被溶解的话,那问题可就“大”了!


(https://www.grcooling.com/learning-center/usaf-containerized-data-center)

比如大量用在连接线上的PVC护套,它之所以柔韧有弹性,主要是因为里面添加了增塑剂


但是有研究发现,增塑剂在遇到合成油冷却液之后是会慢慢溶解出来的。直接的影响就是PVC的模量缓慢升高,时间一久就会变得又硬又脆


这种状态下的线缆如果一直保持静止状态倒也不会有什么问题,但就怕哪天数据中心又要重新布线,那么线缆外层的PVC护套在外力的作用下就很可能出现开裂……

(Reliability Considerations for Oil Immersion-Cooled Data Centers_Jimil M. Shah)


而对于这个问题,现在也终于有了解决方案。


在明天(4月13日)开幕的“慕尼黑上海电子生产设备展”上,我们大概率会在陶氏的展台看到一款全新的“单相”浸没冷却液。


陶氏将于2023慕尼黑上海电子生产设备展展出的“单相浸没式液冷”方案

 

这就是专门针对“单相”合成油的兼容性”问题的开发出来的冷却液新产品——


陶熙TMICL-1000“单相”浸没冷却液!



04

陶熙TMICL-1000单相浸没冷却液


话说材料之间之所以会有“兼容性”问题,无非就是“相似相容”原理在发挥作用。


比如烯烃类的“单相合成油能溶解相同体系的EPDM橡胶,但是却与硅橡胶相安无事;反过来硅油对于其他体系的各种橡胶都非常安全,却唯独会“泡烂”有机硅体系的硅脂垫片


既然如此,陶氏开发陶熙TMICL-1000的思路也就很清晰了——


将其它体系的材料和有机硅“嫁接”起来,创造出一种与现有材料体系都不一样的“全新”冷却液!



经过为期一年的测试,各种数据都验证了陶熙TMICL-1000优良的兼容性:


比如他们曾将一款2200μF电容分别浸泡在了“单相”合成油和陶熙TMICL-1000之中,结果发现“单相”合成油中的电容重量出现了一波明显的起落

与之相对的就是浸泡在陶熙TMICL-1000中的电容重量的曲线一直保持了非常稳定的走势。👇


(陶氏内部测试数据)


这是因为这款电容的密封用的是EPDM橡胶,这种橡胶在遇到合成油后会吸收并“溶胀”,电容自然也就随之变重;但随着时间的流逝EPDM橡胶开始“溶解”流失,所以电容的重量就又出现了回落。


反观陶熙TMICL-1000,因为它不会与EPDM橡胶发生任何“纠葛”,所以电容的重量自然也就没有什么太大的波动了!


此类实验随后有覆盖到了计算机中经常出现的多种材料,最后得出结论——


陶熙TMICL-1000冷却液对绝大多数高分子聚合物都有很好的“兼容性”!


(陶氏测试数据)

当然了,光是“兼容性”好是不够的,做为一款冷却液它的“热管理”性能也同样重要。


从产品规格书看来,“嫁接”出来的陶熙TMICL-1000冷却液不仅保留了合成油的低密度低粘度,而且通过更高的导热率获得了一个更高的传热优值


(DOWSIL ICL-1000及某单相合成油冷却液TDS数据)


因此可以说,与“单相”合成油、“相变”氟化液对比起来,陶熙TMICL-1000“单相”浸没冷却液在几乎各个重要指标上都取得了相对不错的平衡!



正因如此,在2022年11月发布的R&D100 Awards榜单中,这款陶熙TM ICL-1000单相浸没冷却液也就名正言顺地光荣入选!


考虑到这个奖项只颁发给那些“技术意义重大,而且已经商业化”的产品,那么我们应该可以认为,这是一款足以代表当前“浸没式液冷”技术最高水平的冷却液了吧!


(https://www.rdworldonline.com/rd-100-2022-winner/dowsil-icl-1000-data-center-immersion-cooling-fluid/)

世界正在飞速地变化,距离震惊世人的ChatGPT3.5首次亮相不过刚刚过去几个月,没想到更加让人震惊的GPT-4就马不停蹄地面世了!


按照这个节奏,没准2058年还没到,现实中的“550W”就已经将具有完整一生的“图丫丫”带到了我们身边了吧。


而此时陶氏的陶熙TM ICL-1000横空出世,也算是“浸没式液冷”这个超级计算机的“好基友”正努力跟上时代脚步的一个小小佐证吧!

篇幅所限,本文到此为止。更多详细资料敬请扫描作者微信二维码索取!


【版权与免责声明】本内容为作者个人独立观点,不代表「胶我选」立场。我们致力于保护作者版权,部分图片及信息来自互联网,如果发现本站有涉嫌侵权的内容,欢迎后台留言,本站将立刻删除涉嫌侵权内容。合作事宜请后台留言或联系 pingtaiwangkai@hotmail.com

精彩往期


胶我选
用科普的姿势,聊材料与应用
 最新文章