人工智能高速发展的背后,是算力需求的爆发式增长,其中,数据存储的重要性日益提升。“数据要素和人工智能是我国目前(算力产业)重要的发展方向,在此背景下,先进存力正在展现新特征。”中国信通院云大所总工程师郭亮对《中国存力发展报告(2024年)》内容进行解读。
据IDC、Gartner等第三方咨询机构预测,到2025年中国存储产业规模将大幅增长,预计上游产业链产值超过2600亿元,中下游产值超过8000亿元。这一数据表明,中国存储市场正处于高速增长期,具备巨大的发展潜力。因势利导,顺应先进存力发展的最新趋势和特征进行布局,无疑将为我国算力的高质量发展注入新动能。那么,当前先进存力发展有哪些新趋势、新特征值得我们关注呢?
数据要素化:
2020年4月发布的《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》将数据列为与土地、劳动力、资本、技术并列的生产要素,并视为国家基础性战略资源。《中国存力发展报告(2024年)》提出,先进存力的高质量发展是实现数据资产有效积累与要素价值充分释放的前提保障。在数据要素背景下,先进存力需要具备更大容量和数据编织能力。
首先是更大容量。大家耳熟能详的就是手机,从早几年存储空间多为64G,到如今资深手机摄影发烧友普遍使用1T的存储空间。放眼社会更是如此,随着数字经济的迅猛发展,涉及千行百业支撑的数据海量爆发,数据的规模和多样性已成为推动知识发现和技术创新的关键,因此,存储技术必须与时俱进通过提供PB级甚至EB级的横向扩展来满足海量数据的存储需求。
更大容量的存力不仅能够确保数据的完整性和可用性,还能够为深入的数据挖掘和分析提供充足的空间,从而促进数据要素的充分利用和价值转化。随着数据量的持续增长,更大容量的先进存力成为实现数据要素化、推动经济社会发展的重要基础。
据统计,我国企业中有高达38.93%的数据自产生以来从未被有效利用,数据治理门槛高筑,如何激活数据价值成为重大挑战。此外,数据的分散存储限制了数据的互联互通、多场景应用及多主体间的复用,导致数据复用增值率仅为8.3%,数据要素价值亟须释放。数据存力集约建设是推动数据资源高效管理和利用的关键措施,通过集约化管理,可以降低数据存储和处理的成本,提高数据资产的利用效率,促进数据要素的流通和交易,进一步激发数据市场的活力。根据梅特卡夫定律,资源的汇聚互联能够激发其内在价值的指数级增长,形成显著的“规模效应”。因此,积极推进存力中心建设,促进数据的规模沉淀与集中融合,是解锁数据价值、实现数据要素价值最大化的关键路径。
其次是数据编织能力。这个直观来说,就是数据的条理性和可使用性。
随着数据量的爆炸性增长,海量数据往往分散在不同的数据中心,形成所谓的“数据孤岛”,这不仅阻碍了数据的流通和共享,也降低了数据的利用效率。为了解决这一问题,先进的存储必须集成数据编织能力,即能够对分散的数据进行有效的归集与管理。数据编织涉及构建统一的数据视图,实现数据的整合和调度,从而使数据能够被快速地发现和访问。这一过程要求存储系统不仅要有高容量和高性能,还要具备智能的数据管理功能,包括自动化的数据分类、元数据的丰富描述以及高效的数据检索算法。数据编织能够打破“数据孤岛”,实现数据的流动性和可用性,从而促进数据驱动的决策制定。
要求先进存力具备极致性能和支持新数据范式
目前生成式人工智能被业界普遍认为是通往通用人工智能的有效途径。作为数据价值释放的主要场景,生成式人工智能时代先进存力需要具备更高性能和支持新的数据范式,包括极致性能优化数据吞吐以提升AI算力集群整体性能。
首先,为适应大模型训练与应用的复杂需求,先进存力需具备亿级IOPS的更高性能。先进存力的更高性能可表现在提升数据预处理效率、加快海量小文件读取速度、提升大文件大带宽的读写性能三个方面。在优化数据预处理效率方面,数据预处理环节占据时间约为大模型训练过程的30%以上,优化数据清洗、去重和预处理流程对于缩短训练周期、提升训练效率至关重要。在加快海量小文件的读取速度方面,鉴于大模型训练涉及图片、文本、表格等多种异构数据,加快这些数据的读取速度是实现全局数据可视化、可管理化和流动性的关键,从而为大模型训练提供充足的语料。在提升大文件大带宽的读写性能方面,提升大文件大带宽的读写性能对于提高大规模AI训练集群的稳定性和效率至关重要,快速的Checkpoint写入和读取能力能够减少训练过程中的等待时间,确保训练的连续性和模型的可靠性。先进存力的高性能特性对于支持大模型的高效训练、优化数据处理流程以及提升整体AI应用的性能表现具有重要意义。
其次,必须使用新数据范式实现近存计算,提升AI训练推理效率。大模型训练与应用阶段对数据处理效率有极高要求。在传统的数据处理流程中,数据需要在存储介质和处理器之间频繁移动,这不仅耗时而且效率较低。为了适应当前人工智能技术的发展,特别是大模型的计算需求,先进存力必须支持新的数据范式,即通过近存计算将数据预处理功能卸载到存储设备中,从而减少数据搬运的开销,提高数据处理的速度和效率。这种范式变革意味着存储系统不再仅仅是数据的静态仓库,而是成为数据处理和分析的活跃参与者。同时,向量知识库作为一种高效的数据格式,能够将原始数据以向量、张量或RAG形式存储,从而实现快速的数据检索和模型推理。
因此,先进存力的发展必须与新的数据范式相适应,通过集成近存计算能力和优化数据格式,来满足人工智能对数据处理的高性能要求,进而推动人工智能技术的进步和应用的广泛部署。
在三个方面展现六大新特征
在数据要素与生成式人工智能的双重牵引下,《中国存力发展报告(2024年)》认为,先进存力正在三个方面展现出六大新特征。
基础方面,“大容量、高性能”是指PB级别横向扩展的更大容量,亿级IOSP数据吞吐的更高性能,同时支持海量数据管理。
支撑方面,先进介质是指以SSD为代表的闪存介质,高效架构是指以数据为中心,包括数据编织、新数据范式等应用架构以及Diskless、存算分离等系统架构。
关键方面,持续强调开放生态、绿色低碳和安全可靠。开放生态指存储支持与数据空间、多云和容器的对接,实现数据共享与流动;绿色能效指硬件高密、数据压缩;安全可靠指存储自主安全可信,提供防勒索、国密加密、数据安全流转等原生安全能力。
因此,先进存力是以“大容量、高性能”为基础,以“先进介质、高效架构”为支撑,以“开放生态、绿色低碳、安全可靠”为关键,可用于更广泛的关键场景的企业级先进数据存储能力。
随着《关于构建数据基础制度更好发挥数据要素作用的意见》的发布、国家数据局的组建,以及《生成式人工智能服务管理暂行办法》等10余项政策文件陆续印发,我国数据要素化进入新阶段,数据价值释放更充分,人工智能技术与产业融合更深入,先进存力将打造坚实的数据存储底座,加速千行百业智能化转型。