首台超级计算机突破百亿亿次级算力大关,更多超级计算机有望问世丨Engineering

学术   2024-06-17 12:37   北京  

本文选自中国工程院院刊《Engineering》2023年第4期

作者:Mitch Leslie

来源:First Supercomputer Breaks Exascale Barrier,with More Expected Soon.Engineering,2023,23(4):10‒12.


编者按

世界公认的计算速度最快的超级计算机Frontier,重达269 000 kg,世界上首台算力突破百亿亿次级大关的计算机。该超级计算机目前位于美国田纳西州橡树岭国家实验室(ORNL),在半年一次的超级计算机性能TOP500排名中,以超过1 exaflop(每秒百亿亿次浮点运算)的速度独占鳌头。


中国工程院院刊《Engineering》2023年第4期发表《首台超级计算机突破百亿亿次级算力大关,更多超级计算机有望问世》一文。文章介绍了首台超级计算机Frontier突破百亿亿次级算力大关以及此次突破带来的重要意义,分析了百亿亿次级计算机研发面临的工程挑战,展望了超级计算机的未来发展前景。


图1. Frontier超级计算机的外观视图,可以看到组成这台超级计算机的74个Cray机柜中的几个,每个机柜重达3600多千克。该机器搭配2.0 GHz的中央处理器(CPU)以及1.7 GHz的图形处理单元(GPU),均由Advanced Micro Devices公司制造。

来源:橡树岭国家实验室(CC BY 2.0)。


世界公认的计算速度最快的超级计算机Frontier,目前坐落于美国田纳西州橡树岭国家实验室(ORNL)的一栋大楼中,占地372 m2(图1)。2022年5月,这台重达269 000 kg的庞然大物成为世界上首台算力突破百亿亿次级大关的计算机,并在半年一度的超级计算机性能TOP500排名中,以超过1 exaflop(每秒百亿亿次浮点运算)的速度独占鳌头。Frontier的最高速度为1.1 exaflops,是排名第二竞争对手的两倍多。在2022年11月下半年TOP500排名中,Frontier继续稳居榜首。


Frontier的速度纪录也昭示着百亿亿次级计算的激增。美国不久将会推出另外两台百亿亿次级计算机,而一个位于欧洲的国家联盟也正在打造自己的超级计算机。尽管目前还没有证据证实中国拥有百亿亿次级超级计算机,中国也没有选定机器参加近期的TOP500评估,但中国可能已经拥有一到两台百亿亿次级超级计算机。据预测,到2025年中国在运行的百亿亿次级超级计算机数量可能多达10台。


“突破百亿亿次级计算大关”是一个全新的升级,英国布里斯托尔大学高性能计算教授Simon McIntosh-Smith说道。他和其他专家预测,这种数字运算能力的暴增将会彻底改变各科学领域,使研究人员能够开发出更详细、更现实可行、更全面、更有信息量的数学模型和计算机模拟。能够因此受益的领域包括气候预测、材料科学、天体物理学、能源研究以及疫苗研发和测试。“模拟驱动今日的科学发展。”美国田纳西州诺克斯维尔市田纳西大学计算机科学教授、TOP500榜单背后的专家之一Jack Dongarra表示,“我们需要百亿亿次级计算来帮助推动科学的发展。”


Dongarra从20世纪70年代便开始对超级计算机的性能进行追踪,并编写出了一系列线性方程组,被称为Linpack基准,该基准被用来衡量机器的计算能力。1993年,当他和同事们推出TOP500榜单时,最快的超级计算机为CM-5,来自现已倒闭的Thinking Machines公司;该计算机的算力略低于60 gigaflops(每秒十亿次浮点运算)。Dongarra表示,超级计算机的速度从彼时起已经提高了大约九个数量级。


尽管如此,开发一台可用的百亿亿次级计算机“从每个层面来说无疑都是一个巨大的工程挑战”,McIntosh-Smith说道。Frontier的速度如此之快得益于一些设计特点。该机器包含9408个中央处理单元(CPU),每个单元拥有64个内核,或单独的子处理器。计算机科学家称这种设计为大规模并行(massively parallel)——每个核心都可以用来处理某个问题的一部分,从而加快计算速度。Frontier 配置的37 632个图形处理单元(GPU)也是它能拥有创纪录性能的重要原因。GPU最初的设计目标是为电子游戏等应用提供高端视觉效果,后来证明它在科学处理方面表现出色,能提供“比最快的CPU快五到十倍的数字计算能力”,McIntosh-Smith说道。Frontier比其同位于ORNL的前身Summit多出大约10 000个GPU。Summit是一台速度为200 petaflop(每秒千万亿次浮点运算)的计算机,保持了大约18个月的最高计算速度纪录。并非所有的超级计算机都配备GPU。TOP500榜单上排名第二的Fugaku超级计算机来自日本神户的理研计算科学中心(Riken Center for Computational Science),配备了约159 000个CPU。而Frontier速度比Fugaku快了2.5倍,原因之一便是它配备了GPU。


如果无法访问所需的数据,那么即使最快的内核也会表现不佳。对于超级计算机而言,“计算瓶颈往往是数据传输。数据传输速度比计算速度要慢好几个数量级。”位于美国弗吉尼亚州布莱克斯堡的弗吉尼亚理工大学的工程学教授Dimitrios Nikolopoulos说道。Frontier的几个硬件功能克服了这一点。GPU自带了128 GB的高带宽内存,可改善数据访问。此外,高速链接元件可将CPU与GPU连接起来,让数据穿梭于超级计算机的每个刀片(容纳两个CPU和八个GPU的处理单元)之间。


由于使用了大量的处理器,Frontier的设计团队与其他超级计算机的设计者一样,不得不面对两大挑战。第一大挑战是散热。为了不出现过热情况,Frontier的冷却系统每分钟可在机器中循环超过151 000 L水,然后把水引到冷却塔进行散热(图2)。


图2. Frontier冷却系统的局部图。该系统每分钟可在机器内循环超过151 000 L的水,效率比其前身超级计算机Summit的冷却系统高出30%~40%。

资料来源:橡树岭国家实验室(CC BY 2.0)。


超级计算机需要大量电力来支撑——Frontier的年耗电量为40 MW,大约相当于30 000套房子的年耗电量。Frontier的设计人员采取了一些措施来减少电力消耗,比如要求水在进入计算机冷却系统之前只需冷却到29 ℃——某些超级计算机使用的冷却水温为15 ℃。McIntosh-Smith表示,Frontier对GPU的依赖也省了不少电,因为GPU比CPU更节能,“这让(我们)在建造百亿亿次级超级计算机的同时不必在附近为它建造一个配套发电站。”设计师们对省电的执着也让Frontier成为TOP500名单中能源效率最高的超级计算机,其效率可达每瓦52 gigaflops。


更多的百亿亿次级超级计算机应该很快便能开始投入计算工作。位于美国伊利诺伊州拉蒙特(Lemont)的阿贡国家实验室(Argonne National Laboratory)将于2023年上线美国第二台百亿亿次级超级计算机Aurora,其最高计算速度可达2 exaflops。第三台百亿亿次级超级计算机El Capitan将出现于美国加利福尼亚州的劳伦斯·利弗莫尔国家实验室(Lawrence Livermore National Laboratory),并将于十年后开始运行。欧洲首台百亿亿次级超级计算机JUPITER目前正在德国进行建造,预计将于2023年投入使用。而速度更快的超级计算机也在规划中。McIntosh-Smith表示,美国正在计划建造Frontier的继任者,该机器的计算速度将可达到5~10 exaflops,而日本正在计划在2030年之前打造一台能够实现20 exaflops的超级计算机。


Dongarra表示,研究人员花了14年时间将超级计算机的速度提高了1000倍,从1 petaflop提高到到1 exaflop。他预测,要想突破下一个大关,即zettaflops或1000 exaflops,需要更长的时间,因为计算机芯片的改进速度正在减缓。Nikolopoulos同意该看法:“我们正逐渐看到传统半导体计算机的能力极限。”而建造这些超级计算机所花费的成本如同天文数字,这也可能会减缓它们的改进速度。Dongarra表示,建造三台百亿亿次级超级计算机将会花费美国约18亿美元。


无论超级计算机的未来发展如何,研究人员都迫不及待想要知道他们能够利用即将上线的计算机做到什么。美国的两台超级计算机将通过竞争性研究拨款向公众开放。Dongarra表示,科学家将可以提交提案,使用这些超级计算机进行科学研究。劳伦斯·利弗莫尔国家实验室的超级计算机将被用于进行机密研究。


百亿亿次级超级计算机可赋能模拟能力,使科学家能够对潜在的新能源(如核聚变)进行探测,并研究设计出效率更高的太阳能电池板和风力涡轮机。在医学方面,百亿亿次级超级计算机可以让研究人员对严重急性呼吸综合征冠状病毒2(导致2019年新冠肺炎的病毒)新变种的疫苗的重新配制进行虚拟测试,大大缩短疫苗研发时间。而通过创建更好的地球气候和天气模型,研究人员可以更好地了解气候变化所带来的影响。


Nikolopoulos表示,随着更多国家加入到超级计算机的建造行列中,美国成为第一个突破百亿亿次级运算大关的国家——至少据TOP500的排名来说是这样——这一点已经不那么重要。“真正重要的不是第一台机器由谁建造,而是谁可以最好地去利用这些机器来造福社会、造福人类。”



注:本文内容呈现略有调整,若需可查看原文。


☟  需阅读全文,点击文末阅读原文”

☟  更多相关阅读,点击以下链接查看

美国空间基础设施领域一体化发展的经验及启示

大数据知识工程发展现状及展望

面向新兴产业和未来产业的新材料发展战略研究






注:论文反映的是研究成果进展,不代表《中国工程科学》杂志社的观点。


中国工程科学
中国工程院国家高端智库学术期刊
 最新文章