在数字化浪潮席卷全球的当下,算力需求如同生活中的水电一般,不可或缺且愈发多样。
如果你是一位银行的风险管理员,利用通算能力(通用计算)可以快速分析客户交易数据,就像你日常检查家中的水电账单,确保每一笔交易都安全合规,精准风控就如同你维护家庭财务的稳定与安全。
又假如你是一位科研工作者,探索宇宙奥秘或新药研发,超算(高性能计算)就如同你拥有了一台超级显微镜,让你可以深入微观世界,处理复杂到难以想象的计算任务,就像你观察家中的每一个细节,发现隐藏的奥秘。
再或者你是一位智能制造的工程师,智算(基于AI的计算)就如同你的智能助手,帮你实时监控生产线,优化生产流程,提高生产效率,就像你利用智能家居系统,自动调节家中的温度和照明,让生活更加便捷高效。
从金融行业的精准风控,到科研领域的复杂计算,再到智能制造的实时控制,各行各业对算力的需求日益多元化和复杂化。然而,传统的算力建设模式往往难以兼顾这些多样化的需求,通算、智算、超算各自为政,资源无法共享,导致算力效率低下,成本高昂。
联通云引领变革
“通智超一体化”为突破算力瓶颈提供有效路径
面对这一挑战,联通云作为中国专属云服务市场的头部领跑者,凭借其在云计算领域的深厚积累,提出了通算、智算、超算一体化的建设理念。其核心是统一管理和智能调度算力资源,实现多元算力高效汇聚与利用。联通云旨在让算力如水电般普及便捷,用户“一跳入云,随取随用”,享受高效、灵活的算力服务。
为了实现这一目标,联通云在技术上进行了大胆创新,并在极致存储、先进算力和无损网络三大领域取得了显著突破。
在极致存储方面,联通云协同华为数据存储,构建了面向通算、智算、超算一体化的全场景存储系统,基于自研存储引擎和华为OceanDisk智能盘框软硬协同创新,实现了算存联动、全局数据视图管理、GPU利用率提升10%、故障率降低30%,打造了存力新高地。
在先进算力方面,联通云自研的“星罗”先进算力调度平台实现了混合异构算力的适配和服务编排,能够将不同业务的计算任务分配到最合理的资源节点。“星罗”先进算力调度平台可提升80%并行计算效率;实现100GBps吞吐亚毫秒级时延、1.6Tb宽带吞吐us级时延。
在无损网络方面,联通云致力于打造低延迟、高带宽的网络环境。通过采先进的网络技术和架构如RoCE技术保障,实现数据在网络中的高效传输和无缝对接。
以存强算
华为OceanDisk加速联通云通智超一体化全场景算力释放
算力发展离不开存力的坚实基础。在通、智、超多元化场景中,存力面临新考验:通算不同类型业务性能需求差异大且成本敏感,智算要求极高IO性能以最大化GPU算力,超算则需平衡预算、性能与容量。但传统的分布式存储与服务器架构存在性能不足、集群规模增大故障率激增及数据跨域访问难等问题,导致GPU空闲等待数据时间长、训练任务中断和数据无法及时训练。
面对行业挑战,联通云携手华为数据存储,基于自研存储引擎和华为OceanDisk智能盘框,构建了面向通智超一体化场景的热、温、冷存储分布式存储系统,实现了以下显著优势:
广域数据管理:通过打造广域元数据中心,整合全国物理集群及数据归属信息,实现统一的数据入口和按策略写入到任一物理集群。同时依据设备、电力、机房、性能、容量及成本等多维度,构建统一图谱,支持全方位策略调度,如东数西存、爆仓保护及联动调度等,确保数据在超算、智算、通算间自由流动,充分挖掘数据价值。
极致GPU利用率:基于华为OceanDisk智能盘框单框高达70GB/s的极致带宽,通过算存联动,创新地实现了训练任务编排与数据流动时间预测的结合,确保数据在训练任务开始前到位,减少了GPU闲置时间,实现GPU利用率10%的提升。
极致可靠:为应对训练任务因故障中断的挑战,联通云依托华为OceanDisk智能盘框双控A-A架构及硬盘故障预测等多级可靠性设计,实现AI赋能存储,通过算法训练大量盘的健康数据、性能数据、故障历史等,能够提前预知故障,将计划外的故障变为计划内的变更,从而将故障率下降了30%。
展望未来,“通智超一体化”算力智联网将赋能更多行业,为全球经济社会的蓬勃发展注入强劲动力。联通云与华为数据存储将继续在通算、智算、超算一体化领域深耕创新,以存强算,共同见证一个全新的算力时代的到来。