华中科大谢长生教授：AI高端存储的发展逻辑与技术特征

科技 2024-11-14 14:18 北京

编者按：由DOIT传媒主办，中国计算机学会信息存储专委会、武汉光电国家研究中心、百易存储研究院支持的2024中国数据与存储峰会，2024年11月8日，在北京新云南皇冠假日圆满举行。

在当天下午召开的“高端存储与分布式全闪创新”分论坛上，中国计算机行业协会信息存储与安全专委会会长、华中科技大学武汉光电国家研究中心谢长生教授，以“AI高端存储的发展逻辑与技术特征”为主题发表精彩分享。

以下内容根据演讲速记整理，未经本人审定。

谢长生：大家下午好，今天聊一聊我关对AI高端存储系统的发展逻辑与技术特征的一些思考。

图灵机表达了宇宙的一切规律

是谁描绘了信息革命的千里江山图？

我在博士生的课程上讲了十几年，但是在行业性的会上很少讲，这是信息革命的起点，缘由是一个德国数学家希尔伯特在1900年的世界数学家大会上提出的一个哲学问题（提出问题比解决问题其实更重要）：是否存在解决所有数学问题的一般算法？他感觉到是有，但不确定。

过了36年，图灵为了回答这个问题构造了一个机器，这个图灵机其实很简单，一个无限长的带子，还有一个磁头，要么是写0，要么写1，使它发生变化，这个带子左右移动。图灵证实说，就这样的机器，所有的数学问题都可以理论上解决。

为了回答这个问题的操作，一下子就开启了信息革命的原点，所有后面的故事就此开始。

后来又有一个先驱，元胞自动机科学家说他能证明图灵机模型可以表达宇宙的一切规律。这个问题虽然没有像解决数学问题一样得到证明，但我很相信这个道理的。

图灵机有三个部分，一个是计算部分，读写头机器控制，第二部分是存储，无限长的带子，上面都是数据，这就是存储，三是磁带，带子的移动就是传输。

现在回过头来看，人家早就说明了，整个数字信息设施就是这三样东西，现在所有数据中心跑不出这三个东西，计算设施、存储设施，传输设施（网络）。

定义一下这三项内容。计算就是在有限规则下对数据的序列变换；存储是数据跨越时间的传递，老子写一本书，跨越两千多年传到我们，这就是跨越时间的传输，打个电话就是空间的传输。这三件事情现在简称算力、存力、运力，它们表达了一个简单的真理：只要对数据进行计算、存储、传输，就能表达宇宙的一切规律。

这是非常伟大的发现。

图灵机既是一个伟大的发现，又是一个伟大的发明，几个简单的动作表达世界的一切客观规律，构造成了计算存储传输基础性的发明，用一种开天辟地的方式开启了信息时代，用计算来开辟一个和人脑智力不一样的模式，但是可以表达世界运行规律。

图灵机可以表达世间的一切规律，这是它的理论能力；但是到底能表达多少，取决于算力到没到那个点。从计算机系统结构的来看有两大措施，在集成电路技术体系下，一个是并行，一个是更多的角度，最早有指令级的并行，流水线、多发射，数据并行，还有多核，同构多核到现在的异构多核，然后是大规模的并行，云计算中心、超算中心、智算中心等等，计算力就是一个系统上跑，这就是计算原理所决定的，如果算力无穷大，那就什么事都能做。

从最开始的大型机到小型机、PC，PC从只能处理文字到图像、视频，这是算力在进步。算力要靠数据来喂，要传输，要存储，所以就发展了互联网、智能手机和移动互联网、云计算等。

在AI这个点上，人们觉得现在很先进，但其实后面的路还长着呢，后面是宇宙一切规律，离那个点还远的很。所以图灵是一眼望到了宇宙的一切规律，现在正在AI这个时间点上。

信息革命一波波的浪潮，目前都还在图灵的手掌心当中。刚才说了这么多成就，其实就像是孙悟空翻的跟头十万八千里，停下来看还在图灵的手掌心中，还是在图灵的模式下工作。图灵早就认识到计算机是可以思考，所以他1950年发文，计算机学习智能，提出了著名的图灵测试，通过图灵测试才算完成人工智能。

图灵机是可以表达宇宙的一切规律，人类的智能是关于思维的规律，在宇宙一切规律之内，所以图灵机可以表达人类思维。

图灵机和AI的逻辑

从逻辑推断，AGI（通用人工智能）可以表达人类的思维，可以达到人类的水平。好几个大咖都预测在2027年左右就可以做到跟人类一样聪明，这是通用人工智能。

图灵机可以表达宇宙的一切规律，那么存不存在于高于人类的智慧？其实比比皆是，很多东西人根本就想不出来，其实就存在于我们的视野当中。任何一个生物的细胞很多机制，从微观来看那种设计简直是太精巧了，可人的智慧设计不了那个东西，有人觉得这是上帝的安排。如果是靠进化出来的，这个其实是很难理解的，所以很多人说有比人类更高智慧的存在。

图灵机按照这个进度一定可以超越人类智能，这也是符合逻辑三段论的，这就是AI中的超级人工智能，叫做ASI。一个大集合是宇宙的一切规律，通用人工智能其实是一小部分，参与人工智能就是又一个更大的集，很多人都说人类智慧是不可能被机器超越的，有一个著名的企业家和马斯克辩论，说人类有创造力，机器不可能超越，马斯克说其实人类很多事情做得非常愚蠢，好端端的一个地球老是打来打去，没有一个好办法避免战争。

图灵的成就抵得上10个诺贝尔奖

图灵的成就开启了信息时代。

我认为图灵的成就比得上十个诺贝尔奖，图灵启动了信息革命。晶体管和激光二极管是做传输的，巨磁阻效应（硬盘）是做存储的，很多科学家都是在图灵的框架下得到诺贝尔奖，今年的诺贝尔奖两个都是用人工智能得了物理学奖和化学奖，所以图灵的成就绝对顶十个诺贝尔奖。

AI需要什么样的算力？

图灵奖的获得者派乐森讲了一个重要的原理，就是Make the common case fast就是加快经常性事件，也就是耗时最多/频度最高的事件。15年前，两个大学教授辩论说以后发展计算机，是单个处理器发展的是强而少好，还是弱而多好，类似推断发展几头牛好还是发展一大群鸡好。这就要看经常性的事件是什么，AI的经常性事件就是它的Commo case是什么，是巨大数量的矩阵运算，加成运算占它的绝大部分。以前是单个CPU非常强的那条路好，如今每个计算单元都很弱，但数量巨大，这适应了AI的计算的Commo case经常性的事件，所以GPU适用于这个。

经常性事件就是这样的，像一头牛拉一个很重要的东西，它很厉害，但假如说你一场地都是稻子，放一千只鸡去吃，肯定比牛吃得快。所以现在GPU就像一大群鸡，速度就特别快，这就是GPU或者是TPU、MPU一类的算力成为计算的主力的原因，CPU反而只成了一个调度而已。

AI基础设施带来巨大的商机，存储能分多少？

AI的三个要素是算法、算力和数据。

AI是算力的吞金猛兽，所以GPU为代表的算力设施急剧增长，成为商业的最大赢家，现在一搞就是万卡，马斯克搞一个超算中心就是10万卡，要花几十亿美金才能建一个，国内外都是如此，所以英伟达赚翻了；国内不论是浪潮还是华为，他们卖服务器也赚了很多。

存储的商机在哪里？好像并没有得到与算力成正比的增长。

一是要加强AI真正的应用。现在各地大力建设智算中心，但很多都是政绩工程，建好后是不是用了，不得而知。假如真正落实，存储的商机会大大增加。国外的存算比比国内高很多，国内因为还没有用起来，没有足够多数据存。算力越高，它的存储也要跟着高，现在叫做以存配算，以存强算，也有很多积极的技术，有些技术做得很好，特别是用存储加强计算的能力，有很多的研究。

第二个因素是数据，大模型的参数量激增，AIGC几行字就可以产生一个视频，所以它的数量也会剧增；算法也会带来机会，可以以存来代算，所以以存强算、以存代算都可以扩大存储的需求。只要加强这些，存储就有商业机会。

图灵机对存储的直观启示

图灵机对存储的直观启示是什么？

第一，它要有足够大的容量，就那个无限长的带子，预示将来对容量有无止境的需求，因为数据量在不断的增加，现在AI训练就靠要数据，所以足够大的容量是从图灵机上就可以看出来的。

第二，提供数据机的速度必须与计算速度相匹配，就是磁头在0变1、1变0的时候所需的数据可以到达该到的地方，所以存储必须有两点来保证，一是传输速度，光比电快这是介质特性，越近就越快、越并行越快、越简单越快，GPU、显存离的非常近就是这个原因；二是读写速度要快，从寄存器到SRAN到高带宽的DRAM和HBM或者SSD、HDD到光盘等，算力、存力、运力必须平衡。所以设计存储系统一定要遵循最基本的道理。

有时候看问题，把图灵机一看就知道，原来技术发展大思路是很简单的，就是要做到算力运力存力要平衡。

AI高端存储的设计原则

高端存储就是与AI算力相平衡的存储。

以前AI算力就是以GPU为核心的算力，平衡就是能供得上就是高端存储，那么设计原则还是加快经常性的事件。这里有两个技巧，一是要辨识现在AI的算力对存力的需求特征，要仔细的分辨哪些算法对IO的行为，经常性事件的辨识，二是设法加强存力，存力理论上就是性能和容量这两个方面，

把握好了这个原则再设计存储系统，大方向就不会错。但是存力如何衡量？比如说带宽IOPS这些简单的指标能不能反映存储系统用于真实使用时候性能就高，比如达到了什么百万级的IOPS，是不是一个指标就可以反映用到AI训练和AI大模型真正就是最快的？不一定。

真正反映存储系统性能的是运行实际程序的存算平衡度，要去拿一个真实的AI的负载评价存储系统，无论是戴尔的，是浪潮的，还是华为的，就跑一个正确的程序，看谁先做完，光谈带宽可能个别的高，真正来比这个。所以建立一个AI存储的benchmark至关重要。

AI存储的Benchmark如何建立？

来看看Benchmark如何建立。要挑选有代表性的、真实的程序，把它合在一起做成一个Benchmark。这还面临一个困难：AI的进步太快，前年还在说AIGC，去年讲大模型，明年还不知道变成什么。应对这些不一样的模式，挑选的应用变化太快。但总要有一个开头，所以从去年开始成立了一个协会，得图灵奖的戴维牵头联合谷歌、斯坦福大学和哈佛大学发起一个ML Commons协会，选了一些真实、典型的AI负载，把运行成果系统拿过来看谁领先。

AI大模型发展迅猛，助力各行各业

AI大模型应用发展很迅猛，对算力的提升和对存储都提出挑战，一个是参数量越来越大，对存储的容量提出了空前挑战，二是算力的猛增使它吞吐率猛增，存储墙更加严重，现在存储墙有内存瓶颈和IO瓶颈两个，如何克服，三是大模型的分布式对传输的带宽和延迟提出空前的要求，四是复杂的分布式算存传结构对协议栈、文件系统等提出了新的挑战，需要在存储软件层面上进行变革。

AI高端存储的技术特征

高端存储技术特征，一是存力与算力的特征要匹配和平衡，图灵机已经说清楚了，二是分级存储的调度策略与AI算法紧密相关，二是性能型的存储容量急剧扩大，对大内存和大显存需求越来越大，要容量型存储价格、能耗要急剧降低。

大模型强大能力的背后是庞大的参数量。大模型参数量以年均400%复合增长，大模型能力和模型参数量成正相关，例如，GPT-4模型的参数规模超过万亿，很快会到10万亿。

蓬勃发展的AI大模型迫切需求存储技术的革新。如何应对AI大模型对存储提出的挑战？

一个是硬核科技。国内有一些突破，长江存储是值得骄傲的一个企业，如果没有长江存储，国内所有的介质和数据都还在国外，别看系统做得挺好，介质中硬盘没有一块国产、磁带没有一盘是国产。好在有了长江存储，而且他们有自己的技术优势，水平应该说和国际水平很接近，这是硬核科技，不是一个创业公司可以做的。今年9月，在长江存储的支撑下，新存科技和华科大合作推出3D堆叠相变存储器，将国外做到4层后做不下去的类似Xpoint技术做到了8层，容量也实现了64Gb，这个产品比NAND要快，而且容量还大、擦写次数更多、寿命更还长。

二是容量突破。华中科技大学在一片光盘上存10个T的技术，现在在实验室已经实现了，有待于产业化，在体系结构上和存储软件上也有很多技术要做，同时在研发超大容量、低成本的五维玻璃存储，在一个玻璃盘片存10个PB，可以永久保存，这个也是在华中科技大学实验室进行，微软现在跟着在做。对中国而言，价值更大，全产业链都可在国内解决。

其他方面，如华中科技大学团队和华为合作的一个文件系统，能把华为的全闪存阵列数据能很快提到内存中，因此两次获得国际IO500十节点榜单第一，这个文件系统关键的技术是学校首先提出。推出之前，华为用自己的文件系统获得第七名，采用后提升为第一，而且比第二名快了十几倍。

总体而言，数据存取的效率成为影响大模型训练性能的核心要素之一，计算硬件的快速发展需求更高的存储性能，而计算和存储模块发展存在鸿沟。

总结

AI的发展仍在图灵机的范畴之内，并遵循其普遍规律。

神经网络并不是说真正结构上跟大脑神经一样，而是完全不一样但可以表达的东西，这就是它的厉害之处，技术发展仍在图灵机的范围之内，但可以做到比人类智慧更高。不过它并不是一个最佳的途径，人脑才消耗多大一点能量，而它要数十亿投资建设数据中心，耗费巨大的电能才能完成。

蓬勃发展的AI大模型迫切需要存储技术的革新，高端存储就是与AI算力相平衡的存储；现在以存强算，以存代算会带来很多商机，设计逻辑就是加强经常性事件，以及性能型存储和容量型存储。

END

11月8日，2024中国数据与存储峰会于北京圆满落幕，近百位业界专家、多场专题论坛精彩呈现，聚焦数据存储与人工智能等前沿技术及应用实践，共同探讨如何通过数据驱动的创新推动企业数字化转型，敬请关注会后报道。

敬请关注会后专题

http://mp.weixin.qq.com/s?__biz=MzUzNTk1MTc1MA==&mid=2247543035&idx=2&sn=b184e7813b6e830a2ad1ce80bab03320

DOIT传媒

百易传媒官方订阅号，专注于数据存储、云计算、服务器、数据中心等技术领域以及行业数字化转型。

最新文章

知道异构算力，但你知道异构存力吗？

AI“大风”起兮，创业者如何抓住风口？

英伟达 GB200 NVL4 超级芯片登场，性能狂飙！

预告 | 了解AIGC+行业数据，可以从RAG AI开始

从联想问天海神液冷品牌发布看绿色算力的大势所趋

斩获2024“鼎革奖”三项大奖：海亮集团的数字化、智能化与国际化实现飞跃式发展

从愿景到现实：Solidigm的QLC战略在AI时代开花结果

专业分析师带你看懂Gartner十大战略技术

清华大学舒继武：大模型时代下的存储系统挑战与技术发展

吴晨涛教授：大规模闪存系统迫切需要故障预测技术

移动云分享面向万卡AI集群场景的高性能文件存储实践

Solidigm 推出超大容量 122TB PCIe SSD，强化AI产品组合领先优势

华中科大谢长生教授：AI高端存储的发展逻辑与技术特征

Alluxio汤文军：构建大模型时代的高性能AI数据底座

内外兼修，Tenable的现代网络安全防护指南来了！

新华三关天舒：数智聚能、重构AI时代数据存储平台

2024中国数据与存储峰会嘉宾金句第二波

荣膺 AI 存储产品金奖丨Alluxio 重磅发布高性能缓存一体机 X-Cache A1

收藏 | 2024中国数据与存储峰会第一波金句

“智数据 AI未来”：2024中国数据与存储峰会圆满收官

2024年度存储风云榜重磅发布

DOIT传媒发布2024数据云图，揭示数据与存储行业全新发展趋势

倒计时1天 | 2024中国数据与存储峰会参会指南奉上！

直播指南 | 2024中国数据与存储峰会就在明天！

天翼云专家肖夏敏将带来HBlock在智算时代的实践分享

2024中国数据与存储峰会主论坛日程一览

中国信通院专家将解读《对象存储技术和应用白皮书》

张广艳教授将分享“智能计算平台中的数据高效访问方法研究”

预告——“智数据 AI未来”中国数据与存储峰会将于11月8日启幕

数据与存储峰会 | AI+存储协同发展论坛日程公布

数字化为基：恒安集团从传统制造企业转型现代化

数据与存储峰会 | 高端存储与分布式全闪创新论坛日程公布

演讲预告 | 华科谢长生教授将出席2024中国数据与存储峰会

移动云演讲预告| 面向万卡AI集群场景的高性能文件存储

邀请函 | 11月8日，2024中国数据与存储峰会即将开幕

拥有10万块英伟达H100的数据中心长什么样？

大普微发布64TB QLC SSD，大容量固态盘新选择

生成式AI原来可以这样用

华科大玻璃存储技术荣获2024全国颠覆性技术创新大赛最高奖！

舒继武教授将分享AI大模型场景下的存储系统技术

阿里云专家将在大模型数据存储应用论坛分享技术洞察

演讲预告 | 腾讯云Data Platform探索智能存储未来

英伟达推出企业AI工厂参考架构

观察 | AI大模型发展面面观

希捷郑万成：存储已经成为人工智能的重要基础

焱融科技将亮相2024数据与存储峰会，以分布式全闪加速企业AI转型

特斯拉想花50亿买SSD，Solidigm大容量盘受追捧

吴晨涛教授将在存储峰会解析大规模固态硬盘故障预测技术研究成果

预告 | 焱融科技将分享AI 驱动下的高端全闪存解决方案

生成式AI的五大发展趋势

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉