深化布局,智算中心各地多点开花
中国移动以“N+X”布局为指引,积极开展“技术领先、绿色节能、服务全局”的智算中心建设。当前,中国移动已在内蒙古、黑龙江、京津冀、长三角、粤港澳大湾区、成渝、湖北等地完成13个智算中心节点上线,全网智能算力规模总体超过26 EFlops(FP16)。
其中,中国移动智算中心(呼和浩特)节点,实现全球首个400GE全光骨干传送网规模商用,入选“2023年央企十大超级工程”;运营商最大单集群智算中心——中国移动智算中心(哈尔滨)节点,实现AI芯片100%国产化,单集群可提供超1.8万卡6.9 EFlops智能算力,满足万亿参数级大模型训练高效、稳定、安全可控的算力需求。
系统化能力突破,构建高质量智算集群
移动云突破大规模集群管控调度、全栈加速及智算集群稳定性保障三大关键技术,构建高质量智算集群。算网存资源一体化管控调度技术升级,具备10万卡多元异构算力的统一纳管、万卡GPU容器资源秒级调度拉起能力;自研AI加速套件,提供计算加速、网络加速及存储加速能力,有效提升智算中心算效,在国产万卡集群训练千亿大模型实现46%的MFU(模型算力利用率),达到业界领先水平;自研智算管控平台,通过系统级集群资源的统一监控及AI任务训前、训中、训后的全链路保障,实现千卡集群连续训练超过25天。
一站式人工智能平台,让AI应用触手可及
移动云聚焦AI全生命周期,打造一站式人工智能平台,实现从数据处理到模型开发,从模型训练到模型推理的全流程工具体系,全方位助力AI开发及应用。移动云提供弹性自适应断点续训能力,能够实现秒级故障发现、分钟级故障点替换。同时,打造异构芯片混合训练能力,混训效率达到90%以上。通过MaaS商店,汇聚移动云针对国产智算芯片适配优化的30余款大模型。
依托算网大脑,构建训推一体算力体系
作为算力网络的智能中枢,中国移动算网大脑历时三年研发,实现“三个规模化”。实现算网资源规模化纳管,实时监测通算8.2EFlops、智算26.5EFlops,并网算力3.4EFlops,纳管25万+网络链路,构建多维算网地图,实现算力、存力、运力、能力的一体感知;实现算网产品规模化供给,提供100+云产品、解决方案,20+任务式服务,包括数据快递、中训边推、东数西算、云电脑漫游等,累计业务调度超亿次;实现算网应用规模化落地,广泛应用于能源、交通、医疗、科研等领域,助力长三角、京津冀等多个枢纽节点算力调度平台落地,助推全国一体化算力体系建设。
引领产业合作,共创AI未来新生态
移动云致力于构建一个深度融合开放的AI产业链合作体系。通过联合业界多家芯片领军企业,移动云创立智能芯片开放实验室,打造未来智算“芯”生态。此外,移动云推出OpenCOCA开源项目,构建开放融通的高性能算力基座,并打造规模最大、最开放的模型生态,促进模型的广泛流通与深度融合。移动云紧密携手教育、医疗、政务、工业等多个领域的领先企业,共同探索多元化AI+应用。
未来,移动云将以先进的智算中心为基础,持续精进产品技术服务能力,为千行百业数字化转型与智能化升级提供坚实的算网能力底座,推动迈向繁荣、智能的新时代。
温馨提示
因公众号平台调整推送规则,大家可将移动云公众号设为星标,并“点赞+在看”,确保文章能第一时间推送给您。
编辑:郑峰山 | 执行主编:朱轩玉