华为全联接大会2024期间,中国移动集团首席专家、研究院网络与IT技术研究所所长张昊出席数据存储峰会,并发表“以存强算,引领万卡集群新基建”主题分享,与华为数据存储产品线副总裁谢强强共同发布智算中心超大规模集群AI存储解决方案。
张昊提到近年来,大模型技术正在快速向更大规模、更强能力发展,大模型技术发展趋势总体仍然遵循Scaling Law,参数已迈进万亿甚至十万亿规模,从单模态走向多模态;OpenAI、字节跳动、中国移动、Meta等国内外大型科技公司正积极投建万卡/超万卡集群智算中心,建设一批万卡、超万卡集群成为新基建的“暴力美学”。但是随着大模型规模越来越大,尤其是万卡集群处理海量非结构化数据时,传统存储系统面临高吞吐性能、多协议处理、数据管理效率等多方面挑战。
面对万卡集群数据读写效率低等挑战,中国移动在哈尔滨万卡超大规模智算集群首次大规模部署多协议融合存储,存储集群可得容量达150PB。基于华为OceanStor AI存储,依托“并行客户端、高密全闪介质、冷热数据自动分级、GSE全调度以太网”的高性能融合存储系统,中国移动大幅提升大模型训练效率,打造高吞吐性能、冷热数据自动分级的先进AI存储底座,支撑千亿/万亿级参数规模大模型高效训练。
同时,基于在哈尔滨智算中心的最佳实践,中国移动集团首席专家、研究院网络与IT技术研究所所长张昊与华为数据存储产品线副总裁谢强强共同发布智算中心超大规模集群AI存储解决方案。超大规模AI集群是国之重器,也是千行百业发展新质生产力的基石,对数字经济高质量发展具有重要意义。让我们抢抓人工智能历史新机遇,打造自主创新的AI智算中心可靠底座。
展望未来,大模型的竞争热潮正在驱动智算中心从千卡集群向万卡甚至超万卡集群演进。中国移动与华为等合作伙伴一起应对超万卡集群建设和运营带来的前所未有的挑战,共同推进国产智算基础设施的实现又一次跨越式发展。