近日,在华为全联接大会2024上,华为数据存储与联通云共同发布面向通智超一体化的全场景存储最佳实践。通过联通云自研存储引擎和华为OceanDisk软硬协同创新,联合打造高性能、高可靠的算力存储底座,助力联通云提供更优质的云服务,加速各领域数字化转型!
华为分布式存储领域产品副总裁徐育林(左)
联通云CTO过晓春(右)
“当前,计算领域多元化需求日益显著。比如,通用计算中混合类型业务的性能需求差异较大,智算对I/O性能的要求极高,而超算则需要兼顾高性能、大容量与TCO的均衡。” 联通云CTO过晓春表示,“为此,云服务必须实现通智超一体化场景覆盖,数据底座的创新成为关键突破口。”
面对行业挑战,华为与联通云携手应对如下三大痛点:
1、业界传统采用的分布式存储软件+通用服务器架构极易出现性能瓶颈,导致智算GPU空置等待时长,无法充分发挥效能,限制业务开发效率。
2、随着智算集群不断扩大,逐步迈入万卡、十万卡级别,集群的故障率也随之指数级激增。以万卡规模为例,平均每两天会出现一次故障,导致计算进程受损、核心数据丢失。
3、各行业智能化的深入,让数据来源变得更加广泛,大规模计算所调用的数据集往往分散在多个数据中心、不同设备中。海量数据的跨地域、跨设备访问,增加了数据同步的难度。
作为中国联通五大主责主业布局中的统一算力基座,联通云依托其“联接+感知+计算+智能+安全”的算网一体化服务,携手华为,利用双方优势资源,构建了面向通智超一体化场景的热、温、冷存储分布式存储系统。该系统基于联通云自研存储引擎与华为OceanDisk智能盘框,实现了以下显著优势:
| 全局数据“一盘棋”视图:通过打造广域元数据中心,将全国的物理集群信息、数据归属信息进行了统一管理,通过打造智能调度,可以做到统一入口,按照调度策略,将数据上传到任一物理集群,构筑了构筑广域异构聚合、数据跨域流动的全局数据视图。
| 极致GPU利用率:智算时代,谁能充分利用GPU,谁就是赢家。基于华为OceanDisk智能盘框单框高达70GB/s的极致带宽,通过算存联动,创新地实现了训练任务编排与数据流动时间预测的结合,确保数据在训练任务开始前到位,减少了GPU闲置时间,实现GPU利用率10%的提升。
| 极致可靠:基于华为OceanDisk智能盘框双控A-A架构、硬盘故障预测等多级可靠性设计,同时通过AI赋能存储,设计了SPL(磁盘、性能、环境)多源数据采集、处理、存储、训练与推理的系统架构,集成故障预测与状态监控功能,降低故障率30%,同时实现计算集群故障后秒级恢复。
华为数据存储将持续深化与伙伴及客户的创新合作,助力应用生态的繁荣发展,推动行业数字化转型进程,为我国数字经济建设注入源源不断的强劲动力。