11月12日,中国人工智能产业联盟第十三次全会在北京召开,华为数据存储联合中国信通院、工信部人工智能关键技术和应用评测实验室、工商银行、中国移动、中国联通、百度、阿里云、腾讯云、蚂蚁集团等正式发起“大模型基础设施高质量发展行动计划”,该计划从需求角度出发,以提升大模型基础设施的质量与效能为目标,共同加快布局“高效计算调度+高性能AI存储+高通量网络+高效能开发平台+智能化运维平台”,助力大模型工程化落地。
华为闪存存储领域总裁黄涛参与启动仪式,并作为推进计划代表发表《构建先进AI存储,助力AI大模型高质量发展》主题演讲。
人类利用数据在AI领域取得长足发展,数智时代是数据的黄金时代,随着数据规模爆炸式增长、数据价值不断攀升,但同时我们面临xPU与存储的带宽不足、算力集群可用度低、推理时延长等挑战,这对存储提出更高要求。黄涛提出,具备极致性能、高扩展性、数据韧性、可持续发展、新数据范式以及数据编织能力的新一代AI存储是通往AI数智时代的必由之路。
华为闪存存储领域总裁黄涛
| 以存强算,AI集群可用度提升30%
随着AI集群规模的扩大,故障率也随之变高,目前业界千卡以上的AI集群可用度往往不足50%,这意味着,即使我们不断增加xPU的数量,其可用度却呈反比降低,这对于成本高昂的AI集群来说是极大的资源浪费,而提升训练集群存储性能可以大幅缩短数据集加载时间,实现秒级CKPT(检查点)保存,分钟级断点续训,有效提升算力集群可用度。
| 数据编织,实现跨域数据高效归集,数据全局可视可管
随着大模型的规模法则(Scaling Law)不断演进,无论是在进行CKPT的并行保存与加载、多模态数据的收集与清洗、全局数据的Shuffle(混洗)与模态对齐,还是AI算法的调优以及大规模集群的运维诊断跟踪,都迫切需要一个全局对等共享、单一命名空间、且具备高性能并行读写能力的大型文件系统。这样的系统能够避免多文件系统和多集群之间联邦式的低效堆叠,从而显著简化大规模集群环境下的数据调度和数据管理流程,进而持续提高数据供应的效率。
| 以存代算,长记忆内存型存储提升推理体验并降低系统成本
AI推理是企业实现AI应用商业化的先决条件,长上下文处理技术不仅显著提升了模型在多样化任务中的表现,而且为模型在实际应用中的广泛应用打下了坚实的基础。显然,Long Context(长上下文)处理技术已经成为推理技术未来发展的主要趋势。然而,在实际应用中,长上下文处理面临着成本高昂和体验不佳的双重挑战,尤其是在推理过程中KV-Cache存不下问题尤为突出。迫切需要解决KV-Cache的全局共享和推理记忆的持久化问题。因此,将KV-Cache实现分层缓存,并确保其高性能访问,通过长记忆内存型存储以存代替算来提升推理性能和成本效益,已成为技术发展的主流方向。
中国的AI存储快速发展,华为与清华MADSys联合的存储方案,在24年首次获得MLPerf Storage测试全球第一,2节点AI存储性能高达679 GB/s,性能指标达到第二名的2倍,在单位空间内可以提供更多的性能。
存储系统存在于大模型生命周期的每一环,是大模型的关键基座,先进AI存储能够提升训练集群可用度,保障数据安全,降低推理成本提升用户体验。黄涛表示,在数据的黄金时代需要AI原生存储,产学研用需要加强合作引领AI原生存储发展方向,助力AI大模型高质量发展。