清华大学舒继武：大模型时代下的存储系统挑战与技术发展

科技 2024-11-15 19:31 北京

【编者按：由DOIT传媒主办，中国计算机学会信息存储专委会、武汉光电国家研究中心、百易存储研究院支持的2024中国数据与存储峰会，2024年11月8日，在北京新云南皇冠假日圆满举行。

大模型离不开数据，在大模型技术快速发展的时代，存储系统如何应对海量数据的处理需求，成为技术发展的重要课题。峰会主论坛上，清华大学长聘教授、闽江学院院长舒继武带来了关于《大模型时代下的存储系统挑战与技术发展》的主题分享。】

清华大学长聘教授、闽江学院院长舒继武

舒继武：各位好，很感谢DOIT给我这个机会跟大家一起来交流.我给大家交流的题目是”大模型时代下的存储系统的挑战与技术”.

刚才宋主编介绍了AI大模型时代存储系统技术的重要性，我主要讲存储系统到底对这些有哪些挑战。

背景与趋势

大模型现在发展很快很热，不管是从工业界还是学术界，大家都在讨论。

从工业界角度可以看到，大模型的市场规模很大。虽然目前的规模不算很大，但是升的很快，2023年达到国内147亿人民币，预计到2028年过千亿。学术界发表的论文，也是很大量的、跳跃式的往上涨，非常受关注。

为什么大模型如此受关注？这与政策和需求相关，政治、经济、文化、社会的各个领域可以产生很大的定力，产生很大的影响，成为国家战略的支撑。

大模型发展，得益于参数规模很大、上涨速度很快。因为规模很大，所以对存储的需求就不一样了。最左边的图，在训练期间，它的参数已经级别很高，一般都是TB级的数据，在训练阶段它要保持这些参数之外，它的很多中心接口都要保存，这里面也是TB级的数据，以GPT-3为例，如果说大小为8，一个系列长度是128KB，至少每产生一次中间接口就需要7个TB的数据等。

大模型的训练计算要求很高，消耗大量的计算量，这么高的数据量只有GPU可以胜任，GPU成为大模型训练的范式。左边的几个图可以看看，在大模型计算过程中计算量是翻457倍，通过一些测试可以看到，每一次大模型的颁布，GPU的销量马上就呈一个跳跃。

GPU计算量很丰富，但存储形成的容量有限，而又是强耦合的，一块GPU的卡计算量、存储量都是绑定的、数据是易失的，所以大模型的应用带来一系列的问题。计算量要求很高，但是存储的容量每两年才增加2倍，所以这个是严重不匹配。

挑战与思路：以GPU为中心的模型数据存储服务

以GPU为中心，或者GPU成为一种模式，这种受众模型的存储带来了哪些挑战？

第一，大模型推理利用 KV Cache 保存上下文信息，其随序列生成不断增长。这意味着有大量的显存碎片并被保存下来，而且碎片还有内部碎片，必须在模型中开辟预留空间，但预留多少容量，每个请求的长度与最终生成的序列长度等都很难预测，另外，GPU卡有很多的请求，但它们之间很难完整分配。

第二，异构存储资源难利用。GPU服务器还离不开大量丰富的存储资源，DRAM、SSD，但GPU没有很强的耦合性，所以扩展起来也存在挑战，如访问时链路、延迟的问题、带宽的问题等等。

以训练阶段来说，计算过程可能只需要10秒左右，但是要把TB级的数据传输过来，耗费的时间可能需要几十秒，大量的时间用在等待，推理阶段也一样。

第三是容错。大模型训练时间长、GPU数量多，这会增加故障次数，Meta团队在训练OPT-175B时就出现了百余次故障。另外，显存是易失存储介质，GPU故障会导致训练所得的参数丢失。大模型的分布式训练模式会导致故障扩散到整个集群中，而且大模型的容错开销高，可达训练时长的70%。

如何破局？

在碎片管理方面，有很多的方法。可依据大模型训推模式，细粒度管理GPU显存的分配，提高GPU显存利用率，以支持大规模训推模型数据的存储。如在推理过程中，将用于存放KV cache的显存划分成定长的块（block），并随着生成序列的增长，按需分配显存块。

在异构资源的利用方面。对策之一是，基于流水线并行的显存扩容，在不支持NVLink的GPU服务器上（如消费级GPU 服务器），上述方案中频繁的GPU间通信会带来巨大的开销（IO时间占训练总时长的70%），流水线并行模式下，单卡仅需向相邻GPU传输少量激活数据。清华大学团队在探索如何在流水线并行模式下卸载模型参数至DRAM，将数据传输开销引入流水线并行中的模型切分算法，即通信开销最低的流水线切分方案，将数据传输与模型计算并行化，以掩盖数据传输带来的开销。对策之二是减少GPU与异构存储介质之间的KV Cache传输量，例如，KV Cache语义感知的数据压缩，或者存算协同卸载，但由此也带来缺点：前者损失了精度，后者对存储侧的计算资源需求高。

大量的推理需要用到终极的结果KVCache。如何减少KVCache传输过程中的传输量，清华大学基于隐藏状态的KV Cache恢复方面展开研究，核心思想是在推理时保存每层输入隐藏状态至DRAM或SSD中，之后的推理过程中仅传输隐藏状态至GPU，并在GPU侧通过矩阵乘恢复KV Cache，其优势是不影响推理精度，对存储侧的计算无要求，而且传输体积相较卸载KV Cache减少一半，计算开销仅为重计算的1/6。

在容错层面，采取冗余计算与故障后重定向的方式，以多张GPU中冗余计算多份相同的模型数据，如果发生故障，冗余的模型参数已是最新版本的参数，不需要重复对数据集训练，无需重新对数据集进行开始，或者将故障GPU上计算任务直接路由到带有冗余数据的GPU上。

以上讲的就是以GPU为中心的模型存储服务、碎片的管理、资源的利用和开销的挑战等内容，有很多的破局思路值得参考和借鉴。

总结和展望

时下大模型火热，需要重点关注以下几个问题。

一是大模型全周期绿色云存储问题。市场上用云做了很多大模型的训练和推理，导致大量的存储和缓存产生，碳排放的问题也暴露出来，因此应在训练阶段和推理阶段来解决存储的量，另外如何采用低价值的存储，既满足训练和推理阶段新的需求，还能够降低成本，降低排放量。这个说起来容易，但是有很多实际问题需要解决。

二是云端协同的存储。训练阶段存在很多个性化的微调，如何降低成本；在推理阶段如何把单侧端发挥出来，并有效保护用户的隐私。有很多问题要讨论，如任务的切分，哪些在单侧做，哪些在云端做，传输开销等的问题。

三是系统与算法的协调设计问题。很多的训练是在特定的系统上进行，如果将训练、算法和系统的设计结合起来，效率会更高更好。由于现有系统里有大量的新兴硬件，可编程硬件里面有很多的计算、存储功能，涉及到感存算或存算的问题，需要在现实中结合起来把新兴硬件特点发挥出来。同时，针对大模型的算法特性重新设计领域专用的训推硬件和系统，从而提高大模型训推性能。

在这些方面，清华大学开展了一些代表性的探索工作，例如样本的存储，海量文件系统包括存储IO的加速，训练和推理阶段的扩容管理等，也发表了相关的论文，有些工作还在继续推进。

总之，大模型训推对数据存储需求高，以 GPU 为中心的大模型训推已成为范式。但是GPU是显存计算和存储强耦合的，有易失、增长远低于大模型数据存储需求的增长等特点，而且大模型推理中显存资源利用不充分，难以利用GPU服务器中所包含的大量异构存储资源，大模型训练数据容错需求高、容错开销大，满足不了当下存储需求，即使万卡的集成，这些问题依旧存在。

如何顺利集成和推理集成存储资源，降低成本、容错等一系列挑战，需要重点关注面向大模型推理的显存资源管理、基于异构存储介质的显存扩容以及低IO开销的数据容错等挑战。

谢谢大家！

（以上内容根据速记整理，未经本人审定）

END

11月8日，2024中国数据与存储峰会于北京圆满落幕，近百位业界专家、多场专题论坛精彩呈现，聚焦数据存储与人工智能等前沿技术及应用实践，共同探讨如何通过数据驱动的创新推动企业数字化转型，敬请关注会后报道。

查看活动详情

http://mp.weixin.qq.com/s?__biz=MzUzNTk1MTc1MA==&mid=2247543082&idx=1&sn=81a3365922819ec181a2154d3d155bb5

DOIT传媒

百易传媒官方订阅号，专注于数据存储、云计算、服务器、数据中心等技术领域以及行业数字化转型。

最新文章

知道异构算力，但你知道异构存力吗？

AI“大风”起兮，创业者如何抓住风口？

英伟达 GB200 NVL4 超级芯片登场，性能狂飙！

预告 | 了解AIGC+行业数据，可以从RAG AI开始

从联想问天海神液冷品牌发布看绿色算力的大势所趋

斩获2024“鼎革奖”三项大奖：海亮集团的数字化、智能化与国际化实现飞跃式发展

从愿景到现实：Solidigm的QLC战略在AI时代开花结果

专业分析师带你看懂Gartner十大战略技术

清华大学舒继武：大模型时代下的存储系统挑战与技术发展

吴晨涛教授：大规模闪存系统迫切需要故障预测技术

移动云分享面向万卡AI集群场景的高性能文件存储实践

Solidigm 推出超大容量 122TB PCIe SSD，强化AI产品组合领先优势

华中科大谢长生教授：AI高端存储的发展逻辑与技术特征

Alluxio汤文军：构建大模型时代的高性能AI数据底座

内外兼修，Tenable的现代网络安全防护指南来了！

新华三关天舒：数智聚能、重构AI时代数据存储平台

2024中国数据与存储峰会嘉宾金句第二波

荣膺 AI 存储产品金奖丨Alluxio 重磅发布高性能缓存一体机 X-Cache A1

收藏 | 2024中国数据与存储峰会第一波金句

“智数据 AI未来”：2024中国数据与存储峰会圆满收官

2024年度存储风云榜重磅发布

DOIT传媒发布2024数据云图，揭示数据与存储行业全新发展趋势

倒计时1天 | 2024中国数据与存储峰会参会指南奉上！

直播指南 | 2024中国数据与存储峰会就在明天！

天翼云专家肖夏敏将带来HBlock在智算时代的实践分享

2024中国数据与存储峰会主论坛日程一览

中国信通院专家将解读《对象存储技术和应用白皮书》

张广艳教授将分享“智能计算平台中的数据高效访问方法研究”

预告——“智数据 AI未来”中国数据与存储峰会将于11月8日启幕

数据与存储峰会 | AI+存储协同发展论坛日程公布

数字化为基：恒安集团从传统制造企业转型现代化

数据与存储峰会 | 高端存储与分布式全闪创新论坛日程公布

演讲预告 | 华科谢长生教授将出席2024中国数据与存储峰会

移动云演讲预告| 面向万卡AI集群场景的高性能文件存储

邀请函 | 11月8日，2024中国数据与存储峰会即将开幕

拥有10万块英伟达H100的数据中心长什么样？

大普微发布64TB QLC SSD，大容量固态盘新选择

生成式AI原来可以这样用

华科大玻璃存储技术荣获2024全国颠覆性技术创新大赛最高奖！

舒继武教授将分享AI大模型场景下的存储系统技术

阿里云专家将在大模型数据存储应用论坛分享技术洞察

演讲预告 | 腾讯云Data Platform探索智能存储未来

英伟达推出企业AI工厂参考架构

观察 | AI大模型发展面面观

希捷郑万成：存储已经成为人工智能的重要基础

焱融科技将亮相2024数据与存储峰会，以分布式全闪加速企业AI转型

特斯拉想花50亿买SSD，Solidigm大容量盘受追捧

吴晨涛教授将在存储峰会解析大规模固态硬盘故障预测技术研究成果

预告 | 焱融科技将分享AI 驱动下的高端全闪存解决方案

生成式AI的五大发展趋势

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉