项目背景
西云算力自成立以来,一直致力于数据中心的建设和运营。2019年,公司在中卫市建成了中国大脑绿色数据中心,成为该市五大数据中心之一。随着国家“东数西算”战略的发布,西云算力积极转型,启动了人工智能专用智算平台建设项目,计划投资数十亿元,为大模型训练、云渲染等提供专用算力服务。
AI大模型训练的挑战
AI大模型训练对存储系统提出了极高的要求。数据治理和流转的困难、GPU利用率低下、存储集群分散不易管理等问题,成为制约大模型发展的主要瓶颈。西云算力需要一个能够提供高带宽、低延迟、高IOPS性能的存储解决方案,以满足AI大模型训练的严苛需求。
数据治理和流转困难
GPU利用率低
存储集群分散
超云之道
超云为西云算力提供了CS13000-G全闪分布式存储和HDR200G无损网络的高性能存储建设方案。这一方案不仅提供了240GB/s的高带宽和1000万IOPS的性能,还能随着业务增长同步扩展容量与性能。此外,通过采用NVIDIA® MagnumIO GPUDirect®技术,显著降低了GPU服务器内的CPU占用率,提升了存储带宽,降低了延迟。
CS13000-G 并行文件存储系统专为IO密集型工作负荷设计,能够应对大文件与小文件的高性能并发读写要求。依靠X86服务器,为AI用户提供了容量和性能均可无限水平扩展的分布式文件存储,满足AI训练中对高带宽、低延时小文件访问的需求。
客户价值
智能数据管理
存储集群具备智能识别冷热数据与高价值数据的能力,能够依据实际需求进行存储策略的优化调整,从而强化数据治理的效能。此外,存储集群支持数据的无缝流转,有效消除了数据孤岛现象,整个流转过程完全自动化,无需人工干预,从而极大提高了工作效率。
效率提升
通过软硬件的深度协同,实现了极致的性能表现,有效降低了GPU资源的占用率。在处理数百亿规模的文件时,无论是元数据操作还是小文件访问,性能均保持稳定,没有出现任何衰减。这使得单个训练任务的完成时间从周缩短至天,训练效率提升了300%以上。
全生命周期存储平台
构建了覆盖存储全生命周期的平台,专门用于优化模型训练流程,进一步提高了整体的工作效率。通过客户端的全方位监控功能,管理员能够实时监控集群性能,并迅速发现并解决性能瓶颈,确保存储系统的高效运行。
在线扩展功能
存储集群具备在线扩展功能,使用户能够根据业务需求和规模的增长,轻松进行存储容量和性能的扩展。这种设计为用户提供了强大的灵活性,为业务的持续发展和扩展打下了坚实的基础。
展望未来,超云将继续研发更先进、更智能的存储技术,为用户提供高效、可靠、安全的数据存储服务,推动数字经济的繁荣发展。西云算力与超云的合作,不仅为AI大模型训练提供了强有力的支持,也为整个行业树立了新的标杆。
长按识别二维码 关注超云