10月24日,在2024嘉定数字城市体验周系列活动——数据要素赋能新质生产力主题论坛上,华为数据要素和存力中心首席科学家万耀华带来《构建先进存力中心 迸发海量数据价值》主题演讲,分享了华为在存力中心建设实践中的经验及成果,并对基于存力中心构建数据共同体基础底座提出未来展望。
分享嘉宾|万耀华 华为数据要素和存力中心首席科学家
从工业时代迈向信息时代,如今进入数字时代后,数据的重要性日益凸显,华为在发展算力中心的基础上,将存力及存力中心提升到新的高度。近两年,华为和鸿翼携手打造新型数据基础设施——存力中心,这一举措紧密契合了国家东数西算、数字中国以及数据要素市场化配置等一系列重大工程的需求,是顺应时代发展潮流的必然选择。
存力中心并非简单的磁盘或存储设备,它的定位是数据要素汇聚开发中心。“存”的目的是为了促进数据的进一步的流通,因为只有存下来、存得好、治理好,数据才具备定价的基础,才具备流通的基础,所以我们也说没有存就没有算。
当前,数据进入到 2.0 时代,在新产业、新业态、新模式下,数据发生巨大变化,催生新型数据基础设施。具体来看有以下几点:
第一,中国数据资源富集,我国数据生产量稳居世界第二,但我们不得不承认,中国目前还并非数据强国。最大的原因是大量数据未能得到有效的留存,数据留存率仅为 2.9%。在这种情况下,数据作为新的生产资料和战略性配置资源,其数量的不足严重制约了相关产业的发展。
第二,随着人工智能技术的飞速发展,历史数据的价值得到了前所未有的重视。以华为盘古气象大模型为例,该模型在研发过程中利用了欧洲气象局长达 45 年的历史数据。历史数据是洞察未来的重要依据,若缺乏对历史数据的积累和运用,人工智能的预测将可能面临诸多不确定性和偏差。
第三,在 AI 大模型蓬勃发展的时代背景下,非结构化数据的重要性日益凸显。AI大模型能够直接从海量的非结构化数据中挖掘出数据之间的内在关系和价值逻辑。原始的非结构化数据因其蕴含着丰富的未被挖掘的信息,成为了推动 AI 技术发展的重要动力源泉。
第四,数据的分布关系是影响数据价值释放的很大的一个因素。数据从分散,走向联邦、集中,最终实现融合。大模型在这一过程中扮演着重要角色,它通过实现跨维度数据融合,促进了交叉知识的涌现和智能的产生。
因此,我们一定要关注数据的预处理工作,包括各类数据的质量治理以及合规治理等方面的处理,这些处理环节实际上并不在算力流程之中。我们要清楚地认识到,数据不是为了存而存,其核心目的是为了实现流通。
接下来我们讲讲数据关系。在以往的模式中,业务、责权利和数据紧密耦合在封闭系统内,这种情况下数据的对外供给变得极为困难。因此,无论是推进数据空间建设、数据共享,还是数据流通交易,都需要在源头实现业务、责权利和数据一定程度的解耦,只有这样才能促进数据在跨主体、跨维度领域的一个共享。
在当前的数据时代,数据中心呈现出CPU云中心、GPU算力中心、DPU存力中心三大中心并存的格局,其中,DPU 存力中心占据着核心的地位。从投建运的演进模式来看,要从传统IDC房地产、单纯算力中心的建设,走向存力中心为先,构建存算并举、数算用一体化模式转变。基于此,华为与贵安产控、鸿翼携手合作,共同打造了第一个以数据为驱动的数算一体、存算并举的存力中心。
在考虑数据中心建设时,我们必须认识到一个完整的数据链的存在。许多地方在建设数据中心的过程中,虽然先后建立了算力中心和交易中心,但却面临着 “无数可算,无数可交易” 的尴尬局面。其根源在于上游无法为下游提供充足的数据支持,导致算力中心空载率高,交易所场外交易频繁且缺乏持续性。通过存力中心解决投建运节奏、结构比重失衡问题,有序激活数据价值和产业链构建,这是我们在贵州项目中逐步摸索出的路径。
从系统架构来看,存力中心的存储底层和网络底层的基础能力,来保障海量数据的流转、可信、安全、高效。在其架构之上,设立了数据授权运营平台、治理平台、生态聚合平台等。从数据和业务流架构来看,存力中心能够促进数据的协同、复用和融合,推动数据要素化、产品化和市场化进程。
展望未来,我们希望基于存力中心3+1级节点,共建全国统一大市场数据共同体基础底座。数据产业作为一个具有万亿级规模潜力的领域,华为和鸿翼等企业在其中只是众多参与方的一部分。要实现这一目标,还需要更多的合作伙伴共同加入,携手推动数据要素产业的繁荣发展。
演讲内容已做精简
如需获取完整版视频实录和PPT
请扫码添加鸿翼小助手获取