科学家预测,到2040年,计算消耗的电力将占全球总量的50%。
超导体提供了大幅降低能源消耗的可能性,因为在传输电流时,它们不消耗能量。的确,超导体只能低温条件下工作,冷却需要一些开销;但作为交换,它们可以提供几乎零电阻的互连,所具备的基于极短脉冲的数字逻辑只需要极少能量,而且它们易于实现3D芯片堆叠,可以实现惊人的计算密度。
这些优势足以克服低温冷却的成本吗?我们的研究表明,确实能。随着计算资源规模的增长,冷却开销的边际成本变得越来越小。我们的研究表明,从每秒约10亿亿次浮点运算开始,超导计算机在节能方面轻松地超越了传统超级计算机。而这正是当前高性能计算机的运算规模,因此,超导超级计算机的时代已经到来。
过去两年,我们在比利时微电子研究中心(Imec)致力于开发可以使用标准互补金属氧化物半导体(CMOS)工具制造的超导处理单元。由此制成的处理器的节能效率将是当前节能高效芯片的100倍,这种计算机可以将一个数据中心所需的计算资源压缩到一个鞋盒大小的系统内。
为了推动这项技术走出实验室,朝着可扩展设计方向发展,并在现实世界中具有竞争力,我们不得不改变自己在比利时微电子研究中心的研究方法。我们没有采用自下而上的方式(从物理实验室中的可行性工作开始,然后推动技术的实用化)来发明系统,而是以自上而下的方式开展设计,即从必要的功能开始,直接与互补金属氧化物半导体工程师和全栈开发团队合作,确保其可制造性。团队不仅研究制造工艺,还研究软件架构、逻辑门,以及逻辑和内存元件的标准单元库,构建完整的技术。
实际上,高效节能计算的基础理念可以追溯到1991年。传统处理器消耗的大部分电力和散发的热量源自信息在逻辑单元之间或逻辑与内存元件之间的传输,而不是来自实际操作。然而,由超导材料制成的互连不会耗费任何能量,这些导线的电阻为零,因此,处理器在内部移动比特时基本不需要能量。这种能量损耗极低的特性即便在非常高的信息交换频率下也是成立的,而在普通互连中,能量损耗会急剧增加。
超导计算机内部的逻辑实现方式也进一步节省了能源。超导逻辑的基本元素不是晶体管,而是约瑟夫森结。
约瑟夫森结就像一个三明治:一片薄薄的绝缘材料夹在两个超导体之间。连接这两个超导体,就形成了一个约瑟夫森结环路。
正常条件下,约瑟夫森结这个三明治中的绝缘“肉”夹层非常薄,不会阻碍超电流,因为整个三明治作为一个超导体来运行。而如果电流超过阈值,即“临界电流”,绝缘材料周围的超导“面包片”就会短暂地脱离超导状态。在此期间,约瑟夫森结会发出一个微小的电压脉冲,仅持续1皮秒、消耗2×10-20焦耳能量,相当于在传统闪存中写入1比特信息所需能量的千亿分之一。
关键在于,超导环路中有一种被称为“磁通量子化”的现象,这使得这个脉冲始终是完全相同的,被称为单磁通量子(SFQ),其值固定为2.07毫伏皮秒。在约瑟夫森结环路内放置一个电感器,电压脉冲将驱动电流。由于环路是超导的,这种电流将在环路中无限循环,且不需要任何的能量。
超导计算机中的逻辑运算是通过操纵这些微小的量子化电压脉冲来实现的。具有单磁通量子持续电流的约瑟夫森结环路表示为逻辑1,而没有电流的环路表示为逻辑0。
为了存储信息,CPU缓存中基于约瑟夫森结的静态随机存取存储器(SRAM)也使用单磁通量子。要存储1比特数据,需要将两个约瑟夫森结环路相邻放置。左侧环路中具有持续电流的单磁通量子是存储逻辑0的存储元件,而左侧没有电流、右侧有电流的环路是逻辑1。
在材料层面,我们不得不放弃之前实验室常用的超导材料铌。虽然铌易于成型并且在可预测的实验室条件下表现良好,但它很难缩小。铌对工艺的温度和周围材料都很敏感,因此不适用于标准的互补金属氧化物半导体工艺。所以我们改为使用铌钛氮化物作为基础超导材料。铌钛氮化物可以承受互补金属氧化物半导体制造过程中的温度,不会失去超导能力,并且它与周围各层的反应也少得多,是一个更为实用的选择。
此外,我们采用了一种新的材料作为约瑟夫森结的“肉”夹层:非晶硅,或称α硅。传统的约瑟夫森结材料,特别是氧化铝,不能很好地缩小规模。使用铝是因为它能够“润湿”铌,使表面变得光滑,并且氧化物可以在受控良好的条件下生长。然而,为了达到超高密度目标,我们必须使用非常薄的氧化物,这在实际生产中很难实现。而在相同的临界电流下,α硅允许我们使用较厚的阻挡层。
我们还必须设计一种新的方法,为能够缩小到芯片尺寸的约瑟夫森结供电。以前,实验室超导计算机使用变压器向电路元件供电。然而,在每个电路元件旁边放置笨重的变压器是不可行的。为此我们另外设计了一种方法,利用整块芯片上散布的特有电容搭建谐振电路,一次为芯片上的所有元件供电。
在电路层面,我们不得不重新设计整个逻辑和内存结构,以充分利用新材料的能力。我们设计了一种新型逻辑架构,称为“脉冲守恒逻辑”。脉冲守恒逻辑的关键是元件的输入与输出数量相同,并且单磁通量子的总数保持不变。逻辑操作通过约瑟夫森结环路和电感器的组合,将单磁通量子路由到适当的输出,产生逻辑“或”和“与”。为了补充该逻辑架构,我们还重新设计了兼容的基于约瑟夫森结的静态随机存取存储器。
但也存在一些显著差异。首先,芯片大部分都被浸入液氦中冷却至4开尔文。这包括安装在插入板上、依赖于超导逻辑而不是互补金属氧化物半导体的超导处理单元和静态随机存取存储器。然后,有一个玻璃桥通往温度为77开尔文的中温区,这里安放的是动态随机存取存储器。动态随机存取存储器没有采用超导技术,而是采用了传统的硅,由室温冷却下来,使其更加高效。自此,通过定制连接器与室温部分交换数据。
摩尔定律的核心是在同一空间放入越来越多的计算资源。随着晶体管小型化越来越困难,半导体行业正在转向芯片3D堆叠,来保持密度的增加。在基于互补金属氧化物半导体的传统技术中,芯片内部会消耗大量功率并散发热量,将计算芯片上下相互堆叠在一起非常具有挑战性;而在超导技术中,消耗功率很少,热量很容易被液氦消除,逻辑芯片可以使用先进的3D集成技术直接堆叠在一起,实现芯片之间更短、更快的连接,并且占用的空间更小。
要实现这一点,可以直接将多块3D超导芯片板堆叠在一起,之间只留下很小的间隙。我们通过建模对100块这样的芯片板进行堆叠,都在同样的冷却环境中运行,装在一个体积为20厘米×20厘米×12厘米的空间中,大致相当于一个鞋盒的大小。我们计算出这个堆叠可以实现每秒20百亿亿次浮点运算的速度(使用BF16数字格式),这是目前最大的超级计算机的20倍。更重要的是,该系统的总功耗仅有500千瓦,这意味着其能效是目前最高效的超级计算机的100倍。
到目前为止,我们的约瑟夫森结和互连尺寸已经连续缩小了三代。接下来,比利时微电子研究中心的路线图包括解决3D超导芯片集成和冷却技术。对于第一代,路线图设想的是堆叠大约100块板,目标性能达到20 百亿亿次浮点运算。然后逐渐堆叠越来越多的逻辑芯片,同时减少板的数量。这将进一步提高性能,同时降低复杂性和成本。
此外,借助这项技术,我们可以建设占地面积很小的数据中心。急剧缩小的数据中心可以放置在靠近目标应用的地方,而不必位于一些遥远的、足球场大小的设施中。
这种变革性的服务器技术是科学家的梦想。它打开了用真实数据对人工智能模型进行在线训练的大门。真实数据是急剧环境变化的一部分,以极具潜力的机器人农场为例,如今,训练这些模型是一项具有挑战性的任务,因为所需的计算能力只能从遥远、耗电量大的数据中心获得。而有了近距离的微型数据中心,就可以即刻处理数据,使人工智能了解农场的当前情况。
同样,这些微型数据中心可以散布在能源电网中,在每个节点即时学习,更加高效地在世界各地分配电力。此外,智慧城市、移动医疗系统、制造业、农业等领域也有望从相关人工智能学习者的即时反馈中受益,从而实时优化和改进决策。
作者:Anna Herr, Quentin Herr
IEEE Spectrum
《科技纵览》
官方微信公众平台