300%效能飞跃|超云携手西云算力引领AI存储新革命

文摘   科技   2024-07-23 17:31   北京  

随着人工智能技术的飞速发展,AI大模型已成为推动行业进步的关键力量。AI大模型的成功不仅依赖于先进的算法,更需要强大的硬件支持,包括高效的存储系统和算力资源。宁夏西云算力科技公司(简称“西云算力”)正是在这样的背景下,与超云合作,共同打造了高性能的分布式存储集群。


项目背景

西云算力自成立以来,一直致力于数据中心的建设和运营。2019年,公司在中卫市建成了中国大脑绿色数据中心,成为该市五大数据中心之一。随着国家“东数西算”战略的发布,西云算力积极转型,启动了人工智能专用智算平台建设项目,计划投资数十亿元,为大模型训练、云渲染等提供专用算力服务。

AI大模型训练的挑


AI大模型训练对存储系统提出了极高的要求。数据治理和流转的困难、GPU利用率低下、存储集群分散不易管理等问题,成为制约大模型发展的主要瓶颈。西云算力需要一个能够提供高带宽、低延迟、高IOPS性能的存储解决方案,以满足AI大模型训练的严苛需求。


数据治理和流转困难


AI训练集涉及的文件数量庞大,从成千上万到亿级甚至百亿级别。传统的“烟囱式”存储集群架构导致了数据孤岛现象,数据在不同流程间的转移需要人工操作,效率极低。冷热数据和高价值数据难以被有效识别和管理,数据治理面临重重困难


GPU利用率低


AI大模型训练通常依赖多机多卡的并行计算模式。在这种模式下,由于故障率高,对存储系统的IO性能和带宽提出了极高的要求。尤其是在模型加载和断点续训时,存储系统的响应速度直接影响到计算效率。对于大规模的千卡集群,平均每天可能发生一次故障,而长时间的断点恢复过程会导致巨大的资源浪费和效率损失。


存储集群分散


传统的存储方案中,多个存储节点会被划分成规模较小的独立存储集群,管理复杂性高;传统软硬件分离的建设方式中,存储集群的可靠性和带宽性能较低。这种分散的架构在面对大规模数据处理时显得力不从心。

超云之道

超云为西云算力提供了CS13000-G全闪分布式存储和HDR200G无损网络的高性能存储建设方案。这一方案不仅提供了240GB/s的高带宽和1000万IOPS的性能,还能随着业务增长同步扩展容量与性能。此外,通过采用NVIDIA® MagnumIO GPUDirect®技术,显著降低了GPU服务器内的CPU占用率,提升了存储带宽,降低了延迟。

CS13000-G 并行文件存储系统专为IO密集型工作负荷设计,能够应对大文件与小文件的高性能并发读写要求。依靠X86服务器,为AI用户提供了容量和性能均可无限水平扩展的分布式文件存储,满足AI训练中对高带宽、低延时小文件访问的需求。

客户价值


智能数据管理


存储集群具备智能识别冷热数据与高价值数据的能力,能够依据实际需求进行存储策略的优化调整,从而强化数据治理的效能。此外,存储集群支持数据的无缝流转,有效消除了数据孤岛现象,整个流转过程完全自动化,无需人工干预,从而极大提高了工作效率


效率提升


通过软硬件的深度协同,实现了极致的性能表现,有效降低了GPU资源的占用率。在处理数百亿规模的文件时,无论是元数据操作还是小文件访问,性能均保持稳定,没有出现任何衰减。这使得单个训练任务的完成时间从周缩短至天,训练效率提升了300%以上


全生命周期存储平台


构建了覆盖存储全生命周期的平台,专门用于优化模型训练流程,进一步提高了整体的工作效率。通过客户端的全方位监控功能,管理员能够实时监控集群性能,并迅速发现并解决性能瓶颈,确保存储系统的高效运行


在线扩展功能


存储集群具备在线扩展功能,使用户能够根据业务需求和规模的增长,轻松进行存储容量和性能的扩展。这种设计为用户提供了强大的灵活性,为业务的持续发展和扩展打下了坚实的基础。

展望未来,超云将继续研发更先进、更智能的存储技术,为用户提供高效、可靠、安全的数据存储服务,推动数字经济的繁荣发展。西云算力与超云的合作,不仅为AI大模型训练提供了强有力的支持,也为整个行业树立了新的标杆。

长按识别二维码 关注超云

超云 SuperCloud
让数据中心更简单。
 最新文章