大会预告
01 核心问题
02 大模型AI计算时代存储的挑战与应对策略
数据规模庞大:需要处理来自多种来源(文本、图像、视频等)的PB级数据。 数据格式多样:原始数据通常以不同格式存在,需进行转换和标准化处理,以便用于训练。 数据稀疏性:数据常具有稀疏性,大部分数据为零值,导致存储和计算开销大。 预处理复杂:数据预处理包括清洗、特征提取、增强等多个步骤,耗费大量计算资源和时间。 资源瓶颈:数据摄取和预处理过程中,存储、网络、计算资源可能成为瓶颈,影响GPU等计算单元的利用率。
优化数据流水线:优化数据存储与检索机制,减少数据移动和复制,提高数据处理效率。 计算型存储:将部分数据预处理任务卸载到存储设备上(如数据过滤和转换),减少计算节点的负担,提高处理效率。 数据去重与压缩:使用去重技术减少冗余数据,减少存储需求,并通过数据压缩降低传输与存储成本。
模型规模巨大:AI模型的参数量急剧增加,如LLaMA 3 405B模型拥有4050亿个参数,加载和存储这些模型是巨大的挑战。 数据量庞大:1TB参数的AI模型,通常需要约800TB的训练数据。这对存储系统提出了高吞吐量和高IOPS的要求。 高内存需求:模型参数、激活值和训练数据常需要存储在内存中。对于LLaMA 3 45B模型,单纯存储模型和激活值可能需要数十TB的内存。 GPU利用率低:由于数据加载、同步等问题,GPU常处于空闲状态,无法充分发挥计算能力。比如,使用16K个GPU训练LLaMA 3 45B模型时,模型FLOPs的利用率仅为41%。 网络瓶颈:GPU与存储服务器之间需要频繁的数据交换,增加了网络负担,可能导致训练效率下降。
优化数据加载:采用并行I/O、预取技术、零拷贝等策略,减少数据加载时间,提高GPU利用率。 近存储计算:在存储层进行计算(如数据格式转换、过滤等),减少数据移动并降低网络负载。 高性能网络:使用低延迟、高带宽的网络技术,如RDMA、NVMe-oF、100Gb以太网等,缓解网络瓶颈,提高数据传输效率。 内存优化:采用内存池、内存复用等技术,优化内存使用,减少内存占用,提高内存带宽。
高存储开销:训练过程中需要频繁保存模型参数、优化器状态、梯度等信息,随着模型和数据规模的增大,检查点存储需求呈指数级增长。例如,LLaMA 3的每个GPU检查点大小在1MB到4GB之间。 高频率:为了提高容错性,必须频繁保存检查点,特别是在大规模集群环境中,故障间隔时间(MTBF)较短,需要频繁进行检查点操作,增加存储负担。 同步操作:传统的检查点机制是同步的,所有GPU必须等待最慢的GPU完成检查点操作才能继续训练,降低训练效率。 网络拥塞:检查点保存操作产生的网络流量会导致网络瓶颈,影响训练性能。
异步检查点:采用异步检查点机制,使GPU能够在其他GPU保存检查点时继续训练,提高GPU利用率和训练效率。 优化检查点数据存储:使用数据压缩、去重等技术减少检查点数据大小,降低存储需求。 分布式检查点:将检查点数据分布到多个存储节点上,减少单点故障风险,提高存储系统的吞吐能力。 优化网络传输:采用高效的网络传输协议(如RDMA、NVMe-oF等)减少网络延迟,提高检查点数据的传输效率。
低延迟要求:AI推理对响应时间要求极高,如语音识别、图像分类等应用要求系统在毫秒级响应,因此存储系统必须提供低延迟的数据访问。 高并发需求:AI推理通常需要处理大量并发请求,尤其在在线服务、推荐系统等应用中,这要求存储系统具有高吞吐量和可扩展性。 模型更新:AI模型需要频繁更新,存储系统必须支持快速部署新模型,保证服务的高可用性和无缝切换。
高性能存储:采用NVMe SSD、NVMe-oF等高速存储系统,提供低延迟、高吞吐量的存储服务。 分布式存储:采用分布式存储架构,将模型和数据分布在多个存储节点上,提高可扩展性和容错性。 缓存机制:通过内存缓存常用数据和模型,减少存储访问延迟,提高推理响应速度。
数据规模:RAG和VectorDB需要处理海量的多模态数据(文本、图像、视频等),对存储系统的容量和性能提出严峻挑战。 实时处理:这些系统要求进行实时的数据摄取、索引和检索,这要求存储系统具备高吞吐量和低延迟。 高维数据:VectorDB处理高维向量数据,增加了存储和检索的难度。
高性能存储:利用NVMe SSD、NVMe-oF等高速存储系统满足大规模数据存储和快速访问需求。 近数据处理:将部分计算任务卸载到存储设备上,如在存储层进行向量相似性搜索,减少数据传输并提高处理效率。 专用硬件:使用GPU、FPGA等专用硬件加速RAG和VectorDB的计算任务,提高吞吐量。 分布式架构:采用分布式存储架构,增强系统的扩展性和容错能力。
统一存储平台:构建统一的存储平台,满足AI流水线不同阶段的需求,支持多种存储协议和接口(如NVMe-oF、S3等),确保与计算和网络设备的兼容性。 端到端GPU优化:对基础设施进行GPU端到端优化,涵盖计算、存储、网络等方面,确保GPU的高效利用。优化GPU与存储系统之间的数据传输路径,如RDMA、NVMe-oF等,最大化GPU利用率。 领域特定设计:根据具体AI应用的特点,设计并优化存储系统。例如,针对特定计算任务使用专用硬件,采用分层存储架构,以满足不同数据类型的存储需求。 降低数据熵:减少不必要的数据移动和复制,优化存储和访问策略,降低“数据熵税”。通过去重、压缩等技术,减少数据传输和存储开销。
1. Gartner (February 14, 2024): Top Storage Recommendations to Support Generative AI. Available at: (https://www.gartner.com/en/documents/5196363)
2. Engineering at Meta (March 12, 2024): Building Meta's GenAI Infrastructure. Available at: (https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/)
3. Zhao, Mark, et al. (2022): Understanding Data Storage and Ingestion for Large-Scale Deep Recommendation Model Training. Proceedings of the 49th Annual International Symposium on Computer Architecture. Available at: (https://arxiv.org/abs/2108.09373)
4. Zhao, Mark, et al. (2023): RecD: Deduplication for End-to-End Deep Learning Recommendation Model Training Infrastructure. Proceedings of Machine Learning and Systems 5: 754–767. Available at: (https://arxiv.org/abs/2211.05239)
5. Dubey, Abhimanyu, et al. (2024): The Llama 3 Herd of Models. arXiv preprint. Available at: (https://arxiv.org/abs/2407.21783)
6. Qian, Kun, et al. (2024): Alibaba HPN: A Data Center Network for Large Language Model Training. Proceedings of the ACM SIGCOMM 2024 Conference. Available at: (https://ennanzhai.github.io/pub/sigcomm24-hpn.pdf)
参考资料:
—END—
点击下方名片
即刻关注我们