郑维民|算力的互联与互通

文摘   科技   2024-04-13 10:38   上海  

算力是计算能力,不仅是技术问题,也数字经济时代的新生产力,支撑着数字经济的发展。本文记录了(选择部分)郑纬民院士在复旦大学的报告“算力的互联与互通”,有些更详细的内容参考了郑老师在网上的公开演讲内容。

算力为什么存在互联和互通的问题?这是因为现在的计算世界里存在三类算力,郑老师归纳如下。

(1)超算就是超级计算机。超算算力是指能够进行大规模科学计算和模拟的算力,具备强大的计算能力和存储能力,能够处理复杂的科学计算问题。中国排名前十的超级计算机是:

  • 神威太湖之光,是第1台峰值速度超过10亿亿次每秒,目前是12.5亿亿次每秒的计算机,主要用于医疗研究和预防自然灾害等项目。算力的常见单位,PC大概为G级别。
  • 天河2号主要用于天气预报,电子商务,云计算和大数据等内容。
  • 派-曙光用于国产卫星数据的计算机系统,能够分析全球大气系统,它的峰值速度达到了每秒8189.5万亿次。
  • 天河1号用于航天,气候预报以及海洋环境模仿等领域。
  • 神威E型计算机最高的速度超越百亿亿次的计算量级。
  • 星云用于科学计算互联网智能搜索等领域。
  • 神威蓝光计算机应用于海洋领域,气象预报,以及金融分析等领域。
  • 深腾X8800装配了45度温水水冷,大大减少了散热的成本。
  • 曙光5000A为石油,钢铁,海底隧道等领域提供了重大贡献。
  • 银河系列巨型计算机最早诞生于1983年,是中国第1台,每秒钟运算达1亿字以上的计算机。
https://baijiahao.baidu.com/s?id=1769291750648414526&wfr=spider&for=pc

世界排名如下,最快者进入了E时代:

这些超级计算机主要分布于14个国家级超算中心。

(2)AI算力

AI计算具有计算密度高、需要大量低精度计算的特点。这是一个大力出奇迹的时代,AI算力由GPU、FPGA、ASIC提供。

英伟达硬件性能好编程生态好,大家都喜欢用,现在已经一卡难求国产AI芯片存在生态不好的主要问题,要改变这个局面,郑院士指出就要做好十个软件编程框架、程加速、通信库、算子库AI编译器、编程语言、调度器、内存分配系统、容错系统、存储系统。

正如超算一样,随着国内人工智能产业快速发展,包括西安、武汉、成都、沈阳等在内的20多个城市陆续启动人工智能计算中心建设。

(3)数据中心算力(基础算力)

以 CPU 提供算力。适合复杂逻辑运算,通用应用:办公、数据库、数值计算。这是我们最常用的算力。

       数据显示,截至2022年底,中国总算力规模排名全球第二,既然这么好,我们是否可以用超算的算力来支持我们大力出奇迹的AI计算吗据悉,郑纬民院士团队在国产E级高性能计算机上训练了一个170万亿参数的超大规模预训练模型,模型参数可与人脑中的突触数量相媲美。但是,整体上还很可惜,目前还很多问题因为它们源于各自不同的计算需求,计算架构和平台差异很大。就只看超算这类,就存在很多问题。国产超算平台架构多样,加剧了应用在移植和优化上面临的困难;不同系统需要单独编程与优化;相同的应用需要在不同平台单独编程和优化;编程复杂度高;异构架构在负载均衡、同步上需特殊考虑。

为此,就有了算力互联互通的问题。

郑纬民重点强调了算力互联的概念。他表示,算力的互联互通是实现“东数西算”的一项基本条件,更是数据中心算力发展的必由之路。郑纬民表示,在当前的应用场景中,带宽不足导致的低延迟是算力互联无从避免的局限性。他提出,要对现状做出改善,一方面要提高算力输送效率,通过并网实现高带宽、低延迟的算力互联;另一方面,可以屏蔽异构基础设施,通过统一编程框架和编译的资源管理与调度软件实现算力的互通。

互联网大数据与安全课题组

互联网大数据处理技术与应用
互联网大数据与安全相关的各种技术,包括爬虫采集提取、大数据语义、挖掘算法、大数据安全、人工智能安全、相关技术平台以及各种应用。同时也会分享相关技术研究和教学的心得体会。
 最新文章