来源 | IEEE
01
背景介绍
随着机器学习和人工智能的兴起,近年来数据中心的用电量不断增加,对交换机的带宽需求也在不断增长,这凸显了数据中心对高带宽I/O的需求。为了满足高速、高带宽数据交换性能和高性能计算的需求,出现了一种新的结构,即共封装光学(CPO)。通过将光模块安装在更靠近开关芯片的位置,可以将高速电信号损耗和阻抗不连续降至最低。CPO技术的本质是将光模块和专用集成电路(ASIC)集成到同一衬底中。这释放了来自服务器可插拔接口的压力,缩短了连接之间的距离,降低了延迟和功耗。然而,尽管共封装光学技术具有优势,但这种架构也带来了许多新的问题。在热管理方面,将许多电气和光学芯片集成到一个小区域中,必然会造成散热问题。如何高效、可靠地散热成为阻碍CPO技术大规模商业化的主要挑战。
02
成果掠影
近日,中国科学院微电子研究所薛海韵团队针对共封装光学(CPO)技术的热管理技术取得最新进展。该文探讨了12.8Tbps以上CPO系统的液冷散热技术,设计了一种散热结构来满足CPO系统的特殊散热需求,并通过仿真和实验验证了该结构的优异性能。仿真值合理,与实验结果吻合。在290W输入功率下,ASIC的测量结温为51°C,16个光学芯片的温度范围为28°C至29°C,最大温差为0.6°C,证明了该设计的效率和可靠性。与国内外现有案例进行了比较,证明该结构具有优良的散热性能。研究成果以“Liquid-cooled Heat Dissipation Technology for Copackaged Optics over 12.8 Tbps”为题发表在《IEEE Xplore》期刊。
03
图文导读
图1. CPO系统总体布局。
该团队设计了一个12.8 T带宽的CPO系统,系统由一个12.8 T带宽的ASIC和8个1.6 T的光模块组成,包含4个DSP(数字信号处理)芯片、4个DRV芯片、4个TIA芯片和4个PIC(光子集成电路)。光模块部分尺寸为45mm × 40mm, HDI-PCB尺寸为170mm × 170mm。CPO系统总体布局如图1所示。
在PCB的中央有一个大功率专用集成电路(ASIC)ASIC,周围是8个光模块,每个光模块由16个芯片组成。这种结构带来了许多散热问题。CPO冷却系统面临的主要挑战如下:(1)随着技术的进步,中心ASIC的功耗不断增加,ASIC的热流密度将非常高;(2)ASIC的高热流密度可能与周围的光模块产生热串扰;(3)光模块中的光芯片对温度变化敏感,为了保证光模块之间的温度均匀性,光芯片之间的最大温差应小于8℃;
对于光模块部分,液冷结构设计需要注意以下几点:
(1)结构不能阻碍光芯片与光纤阵列的连接;
(2)由于在一个小区域内集成了许多芯片,因此芯片的高度不同;
(3)应避免光电芯片之间的热串扰;
(4)光芯片之间的最大温差应小于8℃,所有芯片都需要在低温下工作;
因此,冷板设计为只贴合电芯片,通过热源和传热路径的“热阻挡”,避免了光电芯片之间的热串扰。该设计还为光芯片与光纤阵列的连接预留了空间。其次,为不同高度的切屑设置“阶梯式”接触式冷板。离散冷却结构如图2所示。
采用6SigmaET软件对设计进行仿真,环境温度设为27℃(300 K),标准大气压下环境换热系数为10 W/ (m2K)。接下来对系统进行建模,并将材料属性附加到每个电子芯片,光学芯片以及相应的BGA和PCB板上。芯片相当于硅,导热系数随温度变化;BGA相当于典型焊料;PCB板部分相当于一块8层FR4 (0.3 W/ (m K))材料板,平均覆铜率为70%。此外,在每个芯片表面附着一层0.1 mm的导热系数为15 W/ (mK)的TIM材料。每个散热结构均采用386 W/ (mK)铜。然后,我们输入芯片参数。各芯片参数如表所示。将进口温度设置为室温(27℃),将流量设置在1 L/min至6 L/min之间(目前大多数服务器的进口流量小于7 L/min),并使用去离子水作为冷却剂。
图3. ASIC结温随入口流量的变化。
一般用Re来判断流体是否为层流,公式如下:
其中u为流速,µ为粘度,L为特征长度。
L的表达式为:
式中A为横截面积,P为周长,W和H为截面宽度和高度。由式(1)和式(2)可知,进口处Re小于2300,为层流状态。因此,选择其解方程作为层流状态方程。在完成CPO系统的建模后调整了入口流量,得到了ASIC和PICs的仿真结果。
当流速为1 L/min时,ASIC结温为66℃,当流速为6 L/min时,结温为59.8℃。随着流量的增加,ASIC结温显著下降,但下降趋势逐渐放缓,如图红色虚线所示。在6 L/min的流速下,ASIC芯片结温已经低于60℃。进一步增加流量不会显著降低结温,但会增加泵功率,潜在地导致系统功耗增加。因此,6 L/min是本设计的最佳流量。此外,光芯片结温随流量的增加而降低。流量为3 L/min后,光芯片结温在30℃以下,更接近室温。随着流量的不断增大,下降趋势逐渐减小。当流量达到4 L/min时,PIC的温度差稳定在0.5℃,证明本设计的光芯片可以实现温度均匀化,光路可以正常工作在DWDM系统中进行信号传输。
图5.测试平台。
图6. 不同进口流量下ASIC温度的实验与仿真结果比较。
将流量为6 L/min时ASIC芯片结温随功耗的实测结果与仿真结果进行对比,如图7所示。在290W输入功率下,ASIC的模拟结温为51℃,而测量结果为52.6℃,误差为1.6℃。计算出的差值在3%~4%之间。ASIC结温随功耗增加的趋势表明,当ASIC芯片达到900 W时,结温将稳定在105℃。OIF组织预测,102.4 T带宽的ASIC芯片的功耗将达到900w,这表明这种设计可以有效地冷却带宽超过100t的cpu系统。16个光芯片的温度范围为28 ~ 29℃,最大温差为0.6℃,温度均匀性好。
——推荐阅读——
部分素材源自网络,版权归原作者所有。分享目的仅为行业信息传递与交流,不代表本公众号立场和证实其真实性与否。如有不适,请联系我们及时处理。欢迎参与投稿分享!
电话:13345749273(微信同号)
邮箱:flake@polydt.com