移动云分享面向万卡AI集群场景的高性能文件存储实践

科技 2024-11-15 19:31 北京

先进存力的高性能、高可靠、数据安全等能力可保障 AI 系统稳定运行，为 AI 大模型的发展提供了强大的存储支撑。作为特邀嘉宾，中国移动云能力中心云存储系统架构师闫林林在2024中国数据与存储峰会“大模型数据存储应用论坛”分享了移动云面向万卡 AI 集群场景的高性能文件存储相关探索与实践。

为什么要面向万卡AI集群？背景是这两年整体的趋势都是AI。

AI场景的存储需求与挑战

首先，这两年一个主体的背景，更多我们关心的就是先进存力的建设。一个是国家近两年制定了一系列宏观政策，千亿AI基础设施的发展，一个就是工信部的180号文件，存储总量超过1800EB，先进存储容量达到30%以上。而在重点行业重点数据覆盖率达到百分之百。另一个制造行业正在促进整个先进存力的快速发展，美国大概是1.1TB/GFlops，中国0.42，中国的存力相对不足，存在重算力轻存力。当前先进存力占比24%，智算先进存力要求30%，所以未来几年先进存力应该会有长足的发展。

接下来从两个视角，宏观视角和微观视角和大家聊一下AI和存储的关系。

宏观视角，典型的大模型训练由训到全流程中各阶段对于针对存储语义存在多样性。不管人工智能、机器学习，技术正在推动存储系统既有能力的提升，推动了整个底层技术的革新。左图是对大模型各环节对存储系统的需求拆解，数据存储处理、模型开发、训练、推理基本抽象出来更大的容量，更大的吞吐，更高的性能。这里面我们总结大概跟传统的存储性能相比，存在有变化性和不变性，不变性并没有新的存储方式新需求出来，依然以文件对象形态为主。变动性，数据灵活流动，需要消除数据烟囱式的变化。

二是AI的出现，数据集在持续增长，首先也是存在两点变动性，多模态趋势下使数据规模大幅增长，依然是驱动存储技术的革新。从微观视角看一下AI与存储，我们完全从技术角度做一下分析。

其实存储系统性能直接关乎着GPU的使用率和整个智算，整个AI大模型整体效率和成本直接相关。第二，存在复杂的混合读写模式，性能要求非常高，所以说我们分别针对高性能存储对MSSU的重要意义做了两点变动性的考虑，一个就是目前软硬结合的性能优化，需要突破冯诺伊曼架构下的数据流动的瓶颈。第二个就是性能的超高弹性，比如说Checkpoint等阶段，另一个大模型各环节典型的有各种不同的I/O模型、模式、包括数据准备、训练、推理阶段包括各种各样的随机读写、大小I/O、顺序读写，就是各种模型在AI智算各个环节都是混合的。所以说它存在两种变动性，一个就是多种模式混合的情况下，我们如何去节省资源流转，做更好的资源调度。第二，训推核心模式下我们如何去降低延时提高吞吐？

所以总结下来，需求和挑战，整个AI智算需要更大的容量，也就是说每年据Gartner分析每年需要50%的高速增长，需要超大容量存储空间，单个大模型的训练数据可达PB级，存储服务需要具备良好的扩展服务能力。需要更高性能，AI场景中需处理千亿级别的小文件，需要文件存储系统提供十万级IOPS能力。为保证断点续训，需读写TB级CKPT文件，要求文件存储系统具备百GB以上带宽。需要更低成本，AI项目需要处理和存储大量数据，存储成本是重要考虑因素。AI场景下数据会有明确的冷热转换，需要提高数据管理效率、优化，需要更多协议，AI平台需要与多种工具、技术及上层业务集成，AI项目在数据采集、处理、训练、验证、发布过程中亦涉及多种访问协议，存储系统需要融合存储能力。

移动云文件存储面向AI解决方案

这是我们面向AI场景去设计的一个高性能文件存储的方案，首先我们分了四层，分别是计算资源层、接入协议层、存储能力层、高性能的原数据层和高性能的数据层。

接口协议层：对外提供POSIX、NFS、CIFS、S3的访问接口，支持1000+计算客户端，负责文件语义解析以及对象语义到文件语义的转换。

存储能力层：作为存储集群的核心模块，负责文件切片、多池纳管、冷热分层、文件分池治理、IO分流、小IO聚合等一系列核心存储能力实现。

高性能元数据引擎：利用高性能分布式键值存储维护文件和目录的树状视图，实现元数据的动态分片管理、全局负载均衡。

全闪高性能数据引擎：负责随机写到顺序写无损语义转换，高效管理数据索引，同时支持TCP和RDMA，支持副本和纠删码间的无感数据流动。

分别介绍一下整个架构里面具体的几点功能实现。

第一，我们提供统一命名空间与冷热分级。我们通过左图跨池统一命名空间设计，可以做到PB级文件系统的弹性扩展。第二根据支持用户自定义的存储优先级，满足不同场景的存储需求。右图是数据流转模式，在read/write有冷池、热池和温池，因为支持AI全流程数据生命周期的管理，可以优化存储成本，提高存储效率，同样也是支持自定义的流转规则，做到数据迁移过程中使业务无感。

第二，智能缓存加速与IO智能流转。

左边是缓存是在多协议网关与数据存储和原数据存储之间假设了一层分布式缓存能力，通过全闪缓存加速，使用SPDK无锁队列、RDMA网络卸载技术，避免了进程上下文切换、锁抢占问题，加速全链路IO。构建内存、SSD的多层缓存机制，逐层对IO进行聚合加速，全面提升系统IO性能，单PB提供近百万 IOPS、近百GB/s带宽能力。

另一个数据跨池分布、大小IO分流。多副本的能力，EC的能力，因为EC更适合处理一些大的文件，或者大的IO，具有一些低成本的优势，三副本在一些小IO小文件上，性能是提升比较明显的，所以说我们针对这个做了一些数据跨池分布，大小IO分流处理，在保证集群性能的前提下，压缩20%存储成本。

第三，统一数据底座与多协议互通能力。左边就是数据底座和多协议互通基本架构，首先数据通路从下到上分别是TAIHU、通用语义层、网关层。传统解决方案从数据采集到模型发布、推理，面临多次数据拷贝和流转，一份数据存储效率低，流转效率低，工具语义较为割裂，使用体验比较差。通过TAIHU解决方案，我们可以做到数据全池互通，消除数据的烟囱式分布，提高整个训推效率。

性能收益与应用场景

性能收益上还是针对整个大模型AI处理，做一下各阶段的分析。首先是针对数据归集和预处理上面，因为传统的烟囱式的存储解决方案处理时间较长，数据归集、数据较为分散，我们针对此用智能数据流动能力可以进行快速的数据加载，高效存储、高效流转，整体大概缩短35%的准备时长。

模型训练阶段，因为模型训练最重要的还是Checkpoink和恢复阶段，这两个CPU并不能完全使用，而浪费算力。我们用我们提供的极致的读写能力，高IOPS和并行大带宽，大概提升整个GPU利用率近45%以上。

整个训推过程中，算力或者算力集群存在着稳定性比较差的情况，就存在数据中断，所以由此我们也是做到了多级故障隔离，业务持续化在线，完全可靠。

综上，高性能文件存储基于对智算全流程需求分析，针对痛点全面优化，高效支撑万卡集群的大模型训练，使训练时长降低20%以上，GPU利用率提升近15%。

应用场景：人工智驾需要高吞吐量和低延迟加速自动驾驶模型训练，提升数据处理速度，确保车辆具备实时决策能力，增强安全性与行驶效率。

高性能计算：基因测序，单个文件挂载点可承载数亿小文件，实现跨区域、跨租户数据共享，满足海量基因数据高效处理的高带宽需求。媒体娱乐：影视渲染，按需按时计费，多维付费模式：优化调度效率，按需供给资源，大幅降低成本。

高性能共享服务能力：提供超高带宽、百万级IOPS的高性能存储，支持千余客户端并发，渲染时长降低70%，业务量增长近3倍，经济效益提升近3倍。

我们针对面向AI万卡集群的高性能文件存储可提供大容量、高吞吐、低时延、多协议访问能力，支持高性能计算、人工智能及媒体娱乐等多种应用场景，全方位满足各行业多元化需求。

（以上内容根据速记整理，未经本人审定）

END

11月8日，2024中国数据与存储峰会于北京圆满落幕，近百位业界专家、多场专题论坛精彩呈现，聚焦数据存储与人工智能等前沿技术及应用实践，共同探讨如何通过数据驱动的创新推动企业数字化转型，敬请关注会后报道。

查看活动详情

http://mp.weixin.qq.com/s?__biz=MzUzNTk1MTc1MA==&mid=2247543082&idx=3&sn=233567bab3fc18e9a9a8c68eba9d3bb3

DOIT传媒

百易传媒官方订阅号，专注于数据存储、云计算、服务器、数据中心等技术领域以及行业数字化转型。

最新文章

知道异构算力，但你知道异构存力吗？

AI“大风”起兮，创业者如何抓住风口？

英伟达 GB200 NVL4 超级芯片登场，性能狂飙！

预告 | 了解AIGC+行业数据，可以从RAG AI开始

从联想问天海神液冷品牌发布看绿色算力的大势所趋

斩获2024“鼎革奖”三项大奖：海亮集团的数字化、智能化与国际化实现飞跃式发展

从愿景到现实：Solidigm的QLC战略在AI时代开花结果

专业分析师带你看懂Gartner十大战略技术

清华大学舒继武：大模型时代下的存储系统挑战与技术发展

吴晨涛教授：大规模闪存系统迫切需要故障预测技术

移动云分享面向万卡AI集群场景的高性能文件存储实践

Solidigm 推出超大容量 122TB PCIe SSD，强化AI产品组合领先优势

华中科大谢长生教授：AI高端存储的发展逻辑与技术特征

Alluxio汤文军：构建大模型时代的高性能AI数据底座

内外兼修，Tenable的现代网络安全防护指南来了！

新华三关天舒：数智聚能、重构AI时代数据存储平台

2024中国数据与存储峰会嘉宾金句第二波

荣膺 AI 存储产品金奖丨Alluxio 重磅发布高性能缓存一体机 X-Cache A1

收藏 | 2024中国数据与存储峰会第一波金句

“智数据 AI未来”：2024中国数据与存储峰会圆满收官

2024年度存储风云榜重磅发布

DOIT传媒发布2024数据云图，揭示数据与存储行业全新发展趋势

倒计时1天 | 2024中国数据与存储峰会参会指南奉上！

直播指南 | 2024中国数据与存储峰会就在明天！

天翼云专家肖夏敏将带来HBlock在智算时代的实践分享

2024中国数据与存储峰会主论坛日程一览

中国信通院专家将解读《对象存储技术和应用白皮书》

张广艳教授将分享“智能计算平台中的数据高效访问方法研究”

预告——“智数据 AI未来”中国数据与存储峰会将于11月8日启幕

数据与存储峰会 | AI+存储协同发展论坛日程公布

数字化为基：恒安集团从传统制造企业转型现代化

数据与存储峰会 | 高端存储与分布式全闪创新论坛日程公布

演讲预告 | 华科谢长生教授将出席2024中国数据与存储峰会

移动云演讲预告| 面向万卡AI集群场景的高性能文件存储

邀请函 | 11月8日，2024中国数据与存储峰会即将开幕

拥有10万块英伟达H100的数据中心长什么样？

大普微发布64TB QLC SSD，大容量固态盘新选择

生成式AI原来可以这样用

华科大玻璃存储技术荣获2024全国颠覆性技术创新大赛最高奖！

舒继武教授将分享AI大模型场景下的存储系统技术

阿里云专家将在大模型数据存储应用论坛分享技术洞察

演讲预告 | 腾讯云Data Platform探索智能存储未来

英伟达推出企业AI工厂参考架构

观察 | AI大模型发展面面观

希捷郑万成：存储已经成为人工智能的重要基础

焱融科技将亮相2024数据与存储峰会，以分布式全闪加速企业AI转型

特斯拉想花50亿买SSD，Solidigm大容量盘受追捧

吴晨涛教授将在存储峰会解析大规模固态硬盘故障预测技术研究成果

预告 | 焱融科技将分享AI 驱动下的高端全闪存解决方案

生成式AI的五大发展趋势

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉