300%效能飞跃|超云携手西云算力引领AI存储新革命

文摘科技 2024-07-23 17:31 北京

随着人工智能技术的飞速发展，AI大模型已成为推动行业进步的关键力量。AI大模型的成功不仅依赖于先进的算法，更需要强大的硬件支持，包括高效的存储系统和算力资源。宁夏西云算力科技公司（简称“西云算力”）正是在这样的背景下，与超云合作，共同打造了高性能的分布式存储集群。

项目背景

西云算力自成立以来，一直致力于数据中心的建设和运营。2019年，公司在中卫市建成了中国大脑绿色数据中心，成为该市五大数据中心之一。随着国家“东数西算”战略的发布，西云算力积极转型，启动了人工智能专用智算平台建设项目，计划投资数十亿元，为大模型训练、云渲染等提供专用算力服务。

AI大模型训练的挑战

AI大模型训练对存储系统提出了极高的要求。数据治理和流转的困难、GPU利用率低下、存储集群分散不易管理等问题，成为制约大模型发展的主要瓶颈。西云算力需要一个能够提供高带宽、低延迟、高IOPS性能的存储解决方案，以满足AI大模型训练的严苛需求。

数据治理和流转困难

AI训练集涉及的文件数量庞大，从成千上万到亿级甚至百亿级别。传统的“烟囱式”存储集群架构导致了数据孤岛现象，数据在不同流程间的转移需要人工操作，效率极低。冷热数据和高价值数据难以被有效识别和管理，数据治理面临重重困难。

GPU利用率低

AI大模型训练通常依赖多机多卡的并行计算模式。在这种模式下，由于故障率高，对存储系统的IO性能和带宽提出了极高的要求。尤其是在模型加载和断点续训时，存储系统的响应速度直接影响到计算效率。对于大规模的千卡集群，平均每天可能发生一次故障，而长时间的断点恢复过程会导致巨大的资源浪费和效率损失。

存储集群分散

传统的存储方案中，多个存储节点会被划分成规模较小的独立存储集群，管理复杂性高；传统软硬件分离的建设方式中，存储集群的可靠性和带宽性能较低。这种分散的架构在面对大规模数据处理时显得力不从心。

超云之道

超云为西云算力提供了CS13000-G全闪分布式存储和HDR200G无损网络的高性能存储建设方案。这一方案不仅提供了240GB/s的高带宽和1000万IOPS的性能，还能随着业务增长同步扩展容量与性能。此外，通过采用NVIDIA® MagnumIO GPUDirect®技术，显著降低了GPU服务器内的CPU占用率，提升了存储带宽，降低了延迟。

CS13000-G 并行文件存储系统专为IO密集型工作负荷设计，能够应对大文件与小文件的高性能并发读写要求。依靠X86服务器，为AI用户提供了容量和性能均可无限水平扩展的分布式文件存储，满足AI训练中对高带宽、低延时小文件访问的需求。

客户价值

智能数据管理

存储集群具备智能识别冷热数据与高价值数据的能力，能够依据实际需求进行存储策略的优化调整，从而强化数据治理的效能。此外，存储集群支持数据的无缝流转，有效消除了数据孤岛现象，整个流转过程完全自动化，无需人工干预，从而极大提高了工作效率。

效率提升

通过软硬件的深度协同，实现了极致的性能表现，有效降低了GPU资源的占用率。在处理数百亿规模的文件时，无论是元数据操作还是小文件访问，性能均保持稳定，没有出现任何衰减。这使得单个训练任务的完成时间从周缩短至天，训练效率提升了300%以上。

全生命周期存储平台

构建了覆盖存储全生命周期的平台，专门用于优化模型训练流程，进一步提高了整体的工作效率。通过客户端的全方位监控功能，管理员能够实时监控集群性能，并迅速发现并解决性能瓶颈，确保存储系统的高效运行。

在线扩展功能

存储集群具备在线扩展功能，使用户能够根据业务需求和规模的增长，轻松进行存储容量和性能的扩展。这种设计为用户提供了强大的灵活性，为业务的持续发展和扩展打下了坚实的基础。

展望未来，超云将继续研发更先进、更智能的存储技术，为用户提供高效、可靠、安全的数据存储服务，推动数字经济的繁荣发展。西云算力与超云的合作，不仅为AI大模型训练提供了强有力的支持，也为整个行业树立了新的标杆。

长按识别二维码关注超云

http://mp.weixin.qq.com/s?__biz=MjM5NzgxMTc0MQ==&mid=2651679776&idx=1&sn=02a606236a49633ca15bb2badb71521d

超云 SuperCloud

让数据中心更简单。

最新文章

超云智慧算力赋能零假设科技共筑AI医疗行业新生态

算力时代 | 超云助力济宁产教融合示范园数字化公共赋能平台建设

超云荣膺三项大奖闪耀2024中国IT用户满意度大会

行业突破！超云入围中国电信服务器集采项目

超云液冷服务器斩获第五届“省长杯”工业设计大赛奖项

中国服务器市场迎来“超云”速度

超云与天融信强强联合，共筑数据中心新生态

聚力合作共绘蓝图 | 超云与四方杰芯签署战略合作协议

IDC报告：中国服务器市场新趋势超云半年增速强势摘得榜眼

算力时代 | 超云助力某智能电网行业客户存储资源扩容

超云携国产化服务器亮相中国银行数智峰会斩获信创产品卓越成就奖

超云携手全新英特尔至强W产品释放企业“新智”生产力

沉浸式体验超云 FS5000 OS 软件平台

超云携手统信软件共启信息技术创新新篇章

超云亮相AI赋能新型工业化活动展示智算硬实力

携手发力国产GPU服务器超云与象帝先签署全面战略合作协议

超云AI PaaS平台与星融元完成兼容性互认证

超云超融合软件与飞腾完成产品兼容性互认证

超云亮相2024光合组织领导人大会展现国产算力平台新高度

300%效能飞跃|超云携手西云算力引领AI存储新革命

超云与北京化工大学联合实验室揭牌共筑科技与人才高地

深度解读|AIDC基础设施建设白皮书引领智算发展新篇章

强强联合 | 超云与燧原科技完成产品兼容互认证

推理之巅超云为先｜超云亮相2024世界人工智能大会

超云荣膺“北京市通用人工智能产业创新伙伴计划”算力伙伴

WAIC 2024大会开幕倒计时，超云将携全栈AI产品重装亮相

推理之巅超云为先｜2024中国智算中心全栈技术大会，超云引领AI算力新趋势

智算时代的创新先锋 | 超云邀您共聚 2024智算中心全栈技术大会

共筑安全新生态超云安全行业私享会圆满落幕

超云新品来袭 | 集中式存储全线革新，开启高效存储新篇章！

算力时代 | 超云赋能中国人寿打造金融行业数字化转型标杆

深度解读 | 超云AI IN ALL战略及新品解析

新品发布 | 超云强势推出国产高性能服务器新星

超云再度闪耀C3安全大会，共赴安全AI未来

共创智算新纪元，2024人工智能基础设施峰会暨超云新品发布会成功召开

新华网专访 | 超云总裁房玉震做客新华网，分享“人工智能算力基础设施释放新质生产力”话题

超云引领智算未来：2024人工智能基础设施峰会即将召开

增速冠军 | 超云AI与信创实践典范，引领IDC中国服务器市场

超云助力西云算力腾飞，荣膺2024全国“人工智能+”创新案例百强

中国服务器市场新动向：AI市场表现突出，超云引领行业增长潮流

超云新品发布 | 国产AI服务器R3418开启多元自主可控新篇章

AI+HPC融合新篇章 | 超云受邀出席英特尔人工智能高性能计算研讨会

超云AI产品方案闪耀智慧高校CIO论坛，荣膺综合实力卓越奖

论数青城，向新而行｜超云受邀出席空间智能软件技术交流会

超云迎经开区工委书记张强一行调研开年成绩获认可

新质生产力时代，超云高性能分布式存储为AI提供坚实数据存力

两会速览 | 从政府工作报告看算力产业发展机遇与挑战

同芯•共赢 ▏超云 AI 服务器闪耀 2024 AMD EPYC 合作伙伴峰会

英特尔高层来访超云 | 共谋AI未来，开创智能算力新篇章

超云荣膺“亦城卓越创新企业”称号彰显科技创新领导力

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉