中国工程院院士郑纬民:互连和互通是算力网络的两大关键问题

文摘   2024-11-19 07:30   黑龙江  
关注“学术世界”   让科研变得更轻松
中国工程院院士郑纬民:互连和互通是算力网络的两大关键问题(根据录音整理)

今天有老朋友,也有新朋友,我讲讲这两个问题。算力网络大家都很了解,应该说是国家重大的发展机遇,也是一个战略,为什么要把这么多机器连在一块做这件事呢?
提到算力,刚才几位领导发言已经提到了已经成为了新质生产力,算力网络建设情况怎么样呢?应该说有京津冀、长三角、粤港澳、成渝、内蒙古、贵州、甘肃、宁夏,八个地区已经有很多的计算机联网了,已经取得了很多成绩。我们国家的算力应该是很不错的,占世界第二位,除了美国,我们占第二,第一跟第二相差也不是很大。
存储器也很重要,一个存储容量很大,到2023年6月底的时候是1080EB,还有一个指标,整个存储器有硬盘和新的eCSB,这里有25%已经是新型存储器了,这两个总容量是新的,还有一个网络,网络现在也是光纤了,也很好,我前面讲的一件事情就是算力很大,第二位,存储器也很大,网络也不错,但是要做算力网络这件事情还有需要解决的问题,是哪两个问题呢?我觉得一个是互连,一个是互通。我先说说互连。
我们过去说你把它连在一块叫互联网,这个互联网一种叫互联网,把异地的机器连起来,不是一个房间里的机器连起来,另外一种是一个房间里的,这一台大机器把部件连起来,过去我们都这样讲,一个是联系的联,一个是连上的连。一个房间把一万个CPU连在一起,这个带宽已经做的很高了,40GB,1个us。这是我理解的,算力网络两种应用场景对网络的要求,哪两种情况呢?
第一个场景是把数据和软件从东边传到西边,不一定是东边西边,北边传南边也行,反正换两个地方,一个地方传到另外一个地方去,这是最起码的,这需要很高的带宽,目前的状况怎么样呢?拉一根专线比较快,价钱300万人民币一年,用不用都300万,这个线就是你的了,我们大多数人都不用专线,付不起这么多钱,就用一般的网。传4个T的数据,从一个地方传到另一个地方,网络不出错是最好的一般的线5天,一个地方传到另外一个地方要5天时间才能到,不出错,一出错就没准儿了,这是一种情况。第一种情况是对网络推迟5天,这肯定是没人用,不喜欢用,你说从北京传到无锡要5天才能到,那就不愿意用无锡这台机器了,太费劲了。这是第一种情况。
第二种是什么场景呢?怎么办呢?我们都刻成盘,快递过去送,第二天下午到,比网络快多了,这是第二种情况。第二种情况原来想象是这样,一个大任务,把它分成5份,一份给北京,一份上海,一个贵州,一个内蒙,一个宁夏,联合做一个题目,这件事情不但要带宽高,还要延迟低。我不说五个城市了,我们一个房间的高性能机器由一万个CPU组成的,问题来了,你想象当中把这个问题分成一万份,一个CPU算其中一万份之一,希望比原来快一万倍最好了,但是实际上很多问题是不行的,它到中间要交换数据,一交换数据不是一万了,9000了,越交换加速比就下来的,交换次数多了加速就下来了,为什么下来呢?就是带宽延迟,这两个很重要的影响因素。如果带宽延迟基本没有那也是一万倍,我们现在这个机器做的一个房间的假期带宽是4GB,延迟小于1us。明明一万个CPU,只用100个算,就是因为交换次数比较多,100个CPU比一万个CPU还快,交换次数太多了就慢下来了。我没仔细算过,如果你把带宽最高延迟最小,有可能就1000个CPU,最小一万个CPU都用起来。
告诉大家这么一个结论,即使一个房间的,4个GB,小于1us延迟了,我们一万个CPU都不行,就是延迟带宽造成的。现在算力网络了,不是一个房间了,一台在北京,一台在上海,一个内蒙,一个贵州,一个兰州,这情况下大家看延迟是多少?不是us,最起码几十毫秒,几百毫秒出来了,做不成这个事,不知道怎么做这个事。这是我们一般算的情况下是大模型。
大模型对网络延迟的要求,我们看大模型有串行和并行两种,现在串行没有,一块怕太小,就并行,100块卡,1000块卡,一万块卡做并行,并行对网络也提出了很高的要求,跟刚才的并计算是一样的要求。
我们大模型大概有几种并行方式,数据并行、模型并行、专家并行还有其他的,每一种并行方式对网络提出要求,包括数据并行。什么叫大模型数据并发的数据?比如说100机器做大模型训练,是数据并行的,什么意思?把大模型软件100台机器每台机器都装一套,就是100台机器整个软件都装,每个都装一套,训练的数据分成100份,每个机器只装1%数据,这种情况下开始训练。
我只告诉一个结论,这种情况下100台机器,两两之间通信非常频繁,一频繁效率就下来了,如果你的带宽很高,延迟很低,频繁的很频繁问题也不大,如果你的带宽很高,延迟很大那就麻烦了,效率就下来了。100块卡希望有100倍的训练效率,做的不好只有20倍、30倍、40倍,不是100倍的,这个问题也出现在带宽跟延迟上。
说了半天,实际上就是带宽跟延迟,互连有一个模型,并行计算的网络延迟带宽是不可忽略的指标,不管是一台大机器的,或者几台不同地方的算力网络,这个问题都是适合的,也就是说带宽要高,延迟要低。带宽高这件事情,我们跨计算中心的带宽怎么上去?跨计算中心的延迟怎么下来?还是一件非常麻烦的事,技术上有问题,盈利赚钱方面也限制了这件事,以至于这件事情做起来很费劲。不管训练对网络提出很高的要求,要带宽高,延迟低,否则效率就差,是这么一件事,这是互连。
什么叫互通?这个互通是指这个软件在北京算的,在这台计算机上算的,太忙了,贵州有空的就送到贵州算,贵州能算就叫互通,贵州算不了就叫不互通。我们硬件软用不管什么软件,老袁他们做的也好,我们做天气预报的也好,一定要机器硬件跟操作系统、环境绑定的,特定给它写的。意思是北京九研九所老袁他们有一台机器,太忙了,贵州一台机器空着呢,你把这个东西送到贵州算去,一定找一台跟老袁九研九所一样的机器算,否则算不了,一般大软件十个人连,这个本事很大的人,十个人连。现在硬件不一样,软件环境不一样,软件基本上是互通不了。因此大家看到这个算力网络。
第二个应用背景,最好这地方忙了,到那里算去,这里做起来费劲了,刚好那里也有一台一模一样的机器。我们这个程序到贵州去算,我们想办法又把它做统一的编程方式,统一的玩法,大家按照统一的规定来做,这件事情就能做好。我们不但要软件移过去能转,能运行,性能也要移植。这里特别讲统一的编程方式,特别是现在国际上做这件事的,有人做这件事,我们国内也在做,我们国内做这件事比国外还费劲,为什么?国产架构复杂多样,美国没这么多花样,我们种类太多了。开始的时候袁院士科协副主席,这么多砍掉了,他也不敢说,现在是发展之机,大家竞争,说不定哪天他自己的会死。不管怎么样,花样很多我们做起来更费劲,多一个花样多一个麻烦的事情,因此我们说性能移植很难,功能移植还好一点,性能这么高,把它移过去,因此这件事情我觉得互通还是可以做的,为什么这么受呢?现在我们清华大学团队联合了计算所、56所、国防科大几家单位一块做,我估计做两年三年,至少这个软件在北京算,北京太忙了,送到广州算是可以的,这个事情做得到的,最多就是性能移植不太好,功能移植是没问题的,这个事情经过两三年就可以了,科技部有一个项目我们正在做。
但是前面的互连比较麻烦,互连两个指标,一个是带宽,一个是延迟,带宽好一点,一根线不够,拉一百根线,他们正在做。延迟这件事情比较麻烦,从北京到贵州好像2000多公里,什么别的东西没有,光是30万公里,我们学物理的每秒钟30万公里,这个时间是改不了的,我们这个地方一定要把数据打包,校验码形成,路上30万公里定死的,因此比较麻烦,这个不太好做。我不知道以后有什么招儿没有。
最后,我做一点总结。互连要做好,高带宽、低延迟。第二个,互连互通这两件事不弄好,算力网络做起来,我总觉得很费劲,你怎么做呢?比较麻烦。这是一个事。
算力异地这件事情做起来很麻烦,带宽还能高一点,怎么解决延迟问题?很麻烦,延迟太大了,这件事情做不成。这是我们算的,大模型训练也是一样类似的问题,现在经常说是异卡联合训练,异地联合训练,我觉得做起来也很费劲。刚才说的需要交换数据的次数也多,异地这个东西很费劲,异卡训练也很费劲。
我们做高性能机器人这次买了1000块英特尔的CPU,就是普通CPU。我做1000个CPU一模一样的,做芯片比较容易,过两年英特尔又出了新的芯片,我又买1000个新的芯片,这两个1000个芯片合在一块做事情,我们都不怎么做。这应该说是互通的,它指令完全是兼容的,但是麻烦在哪儿呢?你看我这1000个老的CPU,分成1000份比较好办,因为每个CPU本身一样大,分成平均算就可以了。新的又来1000个,现在2000个了,你分的时候就很麻烦了,怎么分?1000份大的,1000份小一点的,这是静态的。
动态的更麻烦了,以至于我们说基本的是1000个CPU老的,1000个CPU新的,自己管自己算就完了,合在一块算相当于2000个老CPU了,是这么一个情况。我们现在国内的计算中心都不这么算,我们做很多卡联合训练,这件事情非常难,做做实验可以,真正用起来还是挺费劲的,还是互连互通这件事情。还有互通的问题,不同的卡还有互通问题,更复杂了。
我们想办法把算力网络,把“东数西算”做好它,一个是互连,一个是互通,这两件事情一定要做好。互连,连起来省事儿,高带宽也有办法。低延迟不知道怎么解决,互通我们也有办法,功能互通容易,性能互通也挺难的。
我就讲这么多不一定讲得对,就给大家讲一下算力网络的东西已经取得的很多成果,但是这两个事情不解决至少还差一个劲。

中科国鼎数据科学研究院

   

微信号:学术世界          

长按识别二维码关注我们

温馨提示:除特别注明原创授权转载文章外,其他文章均为转载,转载文章只为学术信息传播需要,不代表我公众号所持观点,版权归原作者或平台所有。如涉及版权问题,请联系后台,我们将及时处理。欢迎点击页面下方“写留言”发表评论,期待您的参与!欢迎转发!


学术世界
发布学术信息,传播学术成果,促进学术转化,共建学术世界。
 最新文章