中国工程院院士郑纬民：互连和互通是算力网络的两大关键问题

文摘 2024-11-19 07:30 黑龙江

关注“学术世界” 让科研变得更轻松

中国工程院院士郑纬民：互连和互通是算力网络的两大关键问题（根据录音整理）

今天有老朋友，也有新朋友，我讲讲这两个问题。算力网络大家都很了解，应该说是国家重大的发展机遇，也是一个战略，为什么要把这么多机器连在一块做这件事呢？

提到算力，刚才几位领导发言已经提到了已经成为了新质生产力，算力网络建设情况怎么样呢？应该说有京津冀、长三角、粤港澳、成渝、内蒙古、贵州、甘肃、宁夏，八个地区已经有很多的计算机联网了，已经取得了很多成绩。我们国家的算力应该是很不错的，占世界第二位，除了美国，我们占第二，第一跟第二相差也不是很大。

存储器也很重要，一个存储容量很大，到2023年6月底的时候是1080EB，还有一个指标，整个存储器有硬盘和新的eCSB，这里有25%已经是新型存储器了，这两个总容量是新的，还有一个网络，网络现在也是光纤了，也很好，我前面讲的一件事情就是算力很大，第二位，存储器也很大，网络也不错，但是要做算力网络这件事情还有需要解决的问题，是哪两个问题呢？我觉得一个是互连，一个是互通。我先说说互连。

我们过去说你把它连在一块叫互联网，这个互联网一种叫互联网，把异地的机器连起来，不是一个房间里的机器连起来，另外一种是一个房间里的，这一台大机器把部件连起来，过去我们都这样讲，一个是联系的联，一个是连上的连。一个房间把一万个CPU连在一起，这个带宽已经做的很高了，40GB，1个us。这是我理解的，算力网络两种应用场景对网络的要求，哪两种情况呢？

第一个场景是把数据和软件从东边传到西边，不一定是东边西边，北边传南边也行，反正换两个地方，一个地方传到另外一个地方去，这是最起码的，这需要很高的带宽，目前的状况怎么样呢？拉一根专线比较快，价钱300万人民币一年，用不用都300万，这个线就是你的了，我们大多数人都不用专线，付不起这么多钱，就用一般的网。传4个T的数据，从一个地方传到另一个地方，网络不出错是最好的一般的线5天，一个地方传到另外一个地方要5天时间才能到，不出错，一出错就没准儿了，这是一种情况。第一种情况是对网络推迟5天，这肯定是没人用，不喜欢用，你说从北京传到无锡要5天才能到，那就不愿意用无锡这台机器了，太费劲了。这是第一种情况。

第二种是什么场景呢？怎么办呢？我们都刻成盘，快递过去送，第二天下午到，比网络快多了，这是第二种情况。第二种情况原来想象是这样，一个大任务，把它分成5份，一份给北京，一份上海，一个贵州，一个内蒙，一个宁夏，联合做一个题目，这件事情不但要带宽高，还要延迟低。我不说五个城市了，我们一个房间的高性能机器由一万个CPU组成的，问题来了，你想象当中把这个问题分成一万份，一个CPU算其中一万份之一，希望比原来快一万倍最好了，但是实际上很多问题是不行的，它到中间要交换数据，一交换数据不是一万了，9000了，越交换加速比就下来的，交换次数多了加速就下来了，为什么下来呢？就是带宽延迟，这两个很重要的影响因素。如果带宽延迟基本没有那也是一万倍，我们现在这个机器做的一个房间的假期带宽是4GB，延迟小于1us。明明一万个CPU，只用100个算，就是因为交换次数比较多，100个CPU比一万个CPU还快，交换次数太多了就慢下来了。我没仔细算过，如果你把带宽最高延迟最小，有可能就1000个CPU，最小一万个CPU都用起来。

告诉大家这么一个结论，即使一个房间的，4个GB，小于1us延迟了，我们一万个CPU都不行，就是延迟带宽造成的。现在算力网络了，不是一个房间了，一台在北京，一台在上海，一个内蒙，一个贵州，一个兰州，这情况下大家看延迟是多少？不是us，最起码几十毫秒，几百毫秒出来了，做不成这个事，不知道怎么做这个事。这是我们一般算的情况下是大模型。

大模型对网络延迟的要求，我们看大模型有串行和并行两种，现在串行没有，一块怕太小，就并行，100块卡，1000块卡，一万块卡做并行，并行对网络也提出了很高的要求，跟刚才的并计算是一样的要求。

我们大模型大概有几种并行方式，数据并行、模型并行、专家并行还有其他的，每一种并行方式对网络提出要求，包括数据并行。什么叫大模型数据并发的数据？比如说100机器做大模型训练，是数据并行的，什么意思？把大模型软件100台机器每台机器都装一套，就是100台机器整个软件都装，每个都装一套，训练的数据分成100份，每个机器只装1%数据，这种情况下开始训练。

我只告诉一个结论，这种情况下100台机器，两两之间通信非常频繁，一频繁效率就下来了，如果你的带宽很高，延迟很低，频繁的很频繁问题也不大，如果你的带宽很高，延迟很大那就麻烦了，效率就下来了。100块卡希望有100倍的训练效率，做的不好只有20倍、30倍、40倍，不是100倍的，这个问题也出现在带宽跟延迟上。

说了半天，实际上就是带宽跟延迟，互连有一个模型，并行计算的网络延迟带宽是不可忽略的指标，不管是一台大机器的，或者几台不同地方的算力网络，这个问题都是适合的，也就是说带宽要高，延迟要低。带宽高这件事情，我们跨计算中心的带宽怎么上去？跨计算中心的延迟怎么下来？还是一件非常麻烦的事，技术上有问题，盈利赚钱方面也限制了这件事，以至于这件事情做起来很费劲。不管训练对网络提出很高的要求，要带宽高，延迟低，否则效率就差，是这么一件事，这是互连。

什么叫互通？这个互通是指这个软件在北京算的，在这台计算机上算的，太忙了，贵州有空的就送到贵州算，贵州能算就叫互通，贵州算不了就叫不互通。我们硬件软用不管什么软件，老袁他们做的也好，我们做天气预报的也好，一定要机器硬件跟操作系统、环境绑定的，特定给它写的。意思是北京九研九所老袁他们有一台机器，太忙了，贵州一台机器空着呢，你把这个东西送到贵州算去，一定找一台跟老袁九研九所一样的机器算，否则算不了，一般大软件十个人连，这个本事很大的人，十个人连。现在硬件不一样，软件环境不一样，软件基本上是互通不了。因此大家看到这个算力网络。

第二个应用背景，最好这地方忙了，到那里算去，这里做起来费劲了，刚好那里也有一台一模一样的机器。我们这个程序到贵州去算，我们想办法又把它做统一的编程方式，统一的玩法，大家按照统一的规定来做，这件事情就能做好。我们不但要软件移过去能转，能运行，性能也要移植。这里特别讲统一的编程方式，特别是现在国际上做这件事的，有人做这件事，我们国内也在做，我们国内做这件事比国外还费劲，为什么？国产架构复杂多样，美国没这么多花样，我们种类太多了。开始的时候袁院士科协副主席，这么多砍掉了，他也不敢说，现在是发展之机，大家竞争，说不定哪天他自己的会死。不管怎么样，花样很多我们做起来更费劲，多一个花样多一个麻烦的事情，因此我们说性能移植很难，功能移植还好一点，性能这么高，把它移过去，因此这件事情我觉得互通还是可以做的，为什么这么受呢？现在我们清华大学团队联合了计算所、56所、国防科大几家单位一块做，我估计做两年三年，至少这个软件在北京算，北京太忙了，送到广州算是可以的，这个事情做得到的，最多就是性能移植不太好，功能移植是没问题的，这个事情经过两三年就可以了，科技部有一个项目我们正在做。

但是前面的互连比较麻烦，互连两个指标，一个是带宽，一个是延迟，带宽好一点，一根线不够，拉一百根线，他们正在做。延迟这件事情比较麻烦，从北京到贵州好像2000多公里，什么别的东西没有，光是30万公里，我们学物理的每秒钟30万公里，这个时间是改不了的，我们这个地方一定要把数据打包，校验码形成，路上30万公里定死的，因此比较麻烦，这个不太好做。我不知道以后有什么招儿没有。

最后，我做一点总结。互连要做好，高带宽、低延迟。第二个，互连互通这两件事不弄好，算力网络做起来，我总觉得很费劲，你怎么做呢？比较麻烦。这是一个事。

算力异地这件事情做起来很麻烦，带宽还能高一点，怎么解决延迟问题？很麻烦，延迟太大了，这件事情做不成。这是我们算的，大模型训练也是一样类似的问题，现在经常说是异卡联合训练，异地联合训练，我觉得做起来也很费劲。刚才说的需要交换数据的次数也多，异地这个东西很费劲，异卡训练也很费劲。

我们做高性能机器人这次买了1000块英特尔的CPU，就是普通CPU。我做1000个CPU一模一样的，做芯片比较容易，过两年英特尔又出了新的芯片，我又买1000个新的芯片，这两个1000个芯片合在一块做事情，我们都不怎么做。这应该说是互通的，它指令完全是兼容的，但是麻烦在哪儿呢？你看我这1000个老的CPU，分成1000份比较好办，因为每个CPU本身一样大，分成平均算就可以了。新的又来1000个，现在2000个了，你分的时候就很麻烦了，怎么分？1000份大的，1000份小一点的，这是静态的。

动态的更麻烦了，以至于我们说基本的是1000个CPU老的，1000个CPU新的，自己管自己算就完了，合在一块算相当于2000个老CPU了，是这么一个情况。我们现在国内的计算中心都不这么算，我们做很多卡联合训练，这件事情非常难，做做实验可以，真正用起来还是挺费劲的，还是互连互通这件事情。还有互通的问题，不同的卡还有互通问题，更复杂了。

我们想办法把算力网络，把“东数西算”做好它，一个是互连，一个是互通，这两件事情一定要做好。互连，连起来省事儿，高带宽也有办法。低延迟不知道怎么解决，互通我们也有办法，功能互通容易，性能互通也挺难的。

我就讲这么多不一定讲得对，就给大家讲一下算力网络的东西已经取得的很多成果，但是这两个事情不解决至少还差一个劲。

中科国鼎数据科学研究院

微信号：学术世界

长按识别二维码关注我们

温馨提示：除特别注明原创授权转载文章外，其他文章均为转载，转载文章只为学术信息传播需要，不代表我公众号所持观点，版权归原作者或平台所有。如涉及版权问题，请联系后台，我们将及时处理。欢迎点击页面下方“写留言”发表评论，期待您的参与！欢迎转发！

学术世界

发布学术信息，传播学术成果，促进学术转化，共建学术世界。

最新文章

985，成立重磅新学院！

中国科学院院士梅宏、北京大学教授黄罡：可信数据空间，数据产业高质量发展的新动力 | 数据对话

地方大学校长，进京履新

冯登国：网络空间安全未来发展思考

祝贺！又一院士名单公布！

苏州大学新任一位副校长

多位院士入选！何梁何利基金2024年度科学与技术奖评选结果揭晓

尊师惠师 | 教育部等七部门印发《进一步加强尊师惠师工作的若干措施》

211高校，迎新副书记！具有多岗位工作经历

5所高校，获批国家重大项目！

重磅！2025年IEEE Fellow名单出炉：戴琼海、程学旗、梁吉业、张艳宁、姜大昕、尹首一、翟广涛、肖亮、褚晓文等人入选

重磅：2024年全球高被引科学家名单出炉！内地1405人入选 | 附全名单

“211工程”高校校长调整

哈工大助力长征十二号成功首飞！

中国科学院与科睿唯安联合发布：2024年11大学科领域110个热点前沿和15个新兴前沿！

关于发布《工程教育认证标准（2024版）》的通告

多所高校同日官宣：更换“一把手”

985大学，新学院揭牌成立

李德毅院士：认知机器的结构和激活

北京计算机学会、黑龙江省计算机学会联合发布《关于举办“编程解题训练冬令营”的通知》

教育部官宣！“101计划”，新增16所高校

直击港科大！沈向洋院士对话英伟达黄仁勋，解答你最关心的AI三大问题（附视频）

中国工程院院士、鹏城实验室主任高文：低空经济离不开算力支撑，鹏城云脑总算力投资超118亿元

75后院士，任C9二级学院院长！

51位专家当选！一会士和外籍会士遴选结果公示

清华大学，成立4个新学院！

多所高校实现书记、校长“双院士”配置

19位科学家、196项成果！2023年度北京市科学技术奖正式公布

教育部明确：第三轮“双一流”，扩容！

中国工程院院士郑纬民：互连和互通是算力网络的两大关键问题

国务院发布！这类博士，不用写传统学位论文！

重磅！《国家自然科学基金条例》正式发布，2025年1月1日起施行

国务院任免！大学原校长，任正部长级职务

陈杰同志任哈尔滨工业大学党委书记

教育部首批公布的「人工智能+高等教育」18个应用案例展播

211高校，领导班子调整

首次明确！国务院: 博士学位论文，不再非写不可

2024 TechWorld | 冯登国院士：人工智能安全的思考与认识

新增6所985！教育部公布自主审核单位

985，迎来新校长！

自然科学基金委交叉科学部2024年度重大项目评审会议召开

CCF召开第十三届理事会第一次会议，增选四名常务理事

【动态】Nature发布中国《SCI黑名单》专访

中国数学会2024年学术年会开幕式及颁奖典礼在嘉兴隆重举行

戴建君任中国药科大学党委书记

期刊动态 | 13本检索期刊遭剔除！10月WOS期刊目录已更新

科睿唯安：111本期刊已被剔除！（2024年至今）

国家自然科学基金迎来重大调整！

科技部：加强人工智能领域人才引进力度，在人才计划中重点向海外高层次人才倾斜！

周济院士：智能制造是推进新型工业化的主要技术路线（附PPT）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉