文 | 中国科学院院士 梅宏,北京大学教授、数据空间技术与系统全国重点实验室主任 黄罡
数字经济作为继农业经济和工业经济之后的新经济形态,源于互联网、大数据和人工智能等新一代信息技术的高速发展和深度应用,当前正处于成形期,其主要特征之一是数据成为新的生产要素并衍生出数据产业新业态。在此背景下,国家数据局发布《可信数据空间发展行动计划(2024—2028年)》(以下简称《行动计划》),这是国家层面首次针对可信数据空间这一新型数据基础设施进行前瞻性的系统布局。行动计划紧紧抓住数据要素市场化配置改革这一主线,以打造数据空间中国方案——可信数据空间为关键着力点,全力加快培育全国一体化数据市场,进而为推动数据产业迈向高质量发展注入强大动力,可谓意义深远。
数据空间是网络空间新形态,推动实现数据价值最大化释放
大数据的出现,为人类认知世界带来了全新的思维视角,同时也提供了探索客观规律、改造自然与社会的全新工具和方法,例如,2024年诺贝尔化学奖获得者就是基于大数据,使用深度学习来预测蛋白质结构。理论上讲,在足够小的时间和空间尺度上对现实世界数字化,便可构建出一个蕴含现实世界运行规律的虚拟数字映像。在具备充足计算能力和高效数据分析方法的前提下,对该数字映像进行深度分析和挖掘,将有望揭示现实复杂系统的运行状态、行为乃至规律。显然,构建和运用这一虚拟数字映像是数据价值最大化释放的一种理想形态,其前提是实现互联网上各类数据的广泛互联、共享和流通,特别是一般不对外公开的私域数据。
互联网的设计初衷是为了支撑不同计算机之间的协同工作。在传统的计算机应用中,信息系统通常是按照特定的业务需求来设计的,数据则根据系统功能被紧密地组织并耦合在应用之内。在这种情况下,互联网主要扮演了一个数据传输通道的角色,使得运行在不同计算机上的计算任务能够相互通信和传输数据。因此,在现有互联网技术体系下,数据全生命周期均由互联网上的信息应用系统所控制,数据并非互联网上可直接管理的独立资源。基于互联网的数据共享流通需要在应用之间进行协同,复杂性高、灵活性差、总成本高。
为了支撑数据的高效共享流通,需要将数据与应用解耦,并拓展现有的互联网技术体系,使得数据成为互联网上可独立标识、定位、发现和访问的资源。在此基础上,为了支撑各类数据应用,需要面向具体的领域和业务场景,按照数据所对应的物理实体的结构、关系来对数据进行管理和组织,使数据实体、数据活动(包括数据的感知、传输、存储和处理等)及其相互之间的关系构成一个物理世界的数字映像或孪生,即“数据空间(Data Space)”。数据空间可视为网络空间在人机物融合发展趋势下衍生出的新形态,是围绕现实世界的人或物所构建的全量数据集。数据应用运行在特定数据空间内,以满足各类场景化需求,实现数据价值最大化释放。
可信数据空间是畅通数据资源循环的重要载体
数据产业高质量发展的核心关键在于确保数据资源循环能够顺畅无阻地运行,使得数据价值通过数据空间实现最大化释放。《行动计划》紧密围绕个人、企业、行业、城市、跨境等五大关键场景,牢牢抓住价值共创、资源交互、可信管控等数据空间三大核心能力建设,全力促进数据要素合规、高效地流通使用,加速推动数据产业高质量发展新格局的构建。
价值共创是数据资源循环运用的主旨。应构建能够支持多主体协同合作、资源整合以及场景创新的先进技术平台和科学合理的体制机制。例如,在重点行业的数据空间建设中,积极探索创新数据使用、收益分配、治理体系等共建共治共享机制,促进产业链从源头到终端的数据共享流通利用,探索数据驱动的科研范式创新应用,推动产业链从传统的链式关系向更为复杂和高效的网状生态关系转变。
资源交互是数据资源循环运用的基础。应将不同来源的数据资源、产品和服务进行封装,形成统一的数据模型,实现数据的统一发布、高效查询以及跨主体之间的互认,提升数据共享共用的整体效能。例如,在城市数据空间建设中,充分发挥公共数据资源的引领和“点睛”作用,积极推动公共数据、企业数据、个人数据之间的深度融合应用,构建城市数据资源体系,为城市建设、运营以及治理体制改革提供强有力的数据支撑。
可信管控是畅通数据资源循环的保障。需对数据空间内的主体身份、数据资源、产品服务等进行严格的可信认证,对数据流通利用全过程实施动态监管、实时存证以及结果追溯等措施,切实保障数据空间参与各方的合法权益,维护数据市场的公平竞争秩序。例如,在跨境数据空间建设中,需要建立起高效、便利且安全的数据跨境流动机制,有效降低企业数据跨境成本和合规风险,积极促进国际化的数据有序流动与广泛合作。
可信数据空间是面向数据要素市场化配置改革的中国方案
我国在全球范围内率先将数据确立为生产要素,需要破解数据要素市场化配置改革这个世界级难题。数据空间的概念自2005年提出至今,核心目标主要聚焦私域数据跨域互联(发布和发现数据)、互通(传输和调度数据)、互操作(访问和使用数据)。所谓的“域(domain)”从最初相对单一的数据管理系统领域,逐步延伸至业务域、管辖域、信任域、时空域等多个维度和层次。从数据要素市场化配置改革的视角看,跨域就是数据供方、需方、服务方等参与主体在业务、管理、信任等方面形成共识规则。实现这些规则的相关技术应当以基础设施的形式呈现,以便各方能够以低成本、高效率、可信赖的方式加以运用。这种聚焦可信(trusted)、基于共识规则、联接多方主体、实现数据资源共享共用的数据空间,是过去20年形成的各种数据空间技术与系统的荟萃与融合,可称之为“可信数据空间”。
鉴往知来,回顾互联网的发展历程,“internet”(开头字母为小写)泛指采用特定技术和协议连通不同计算机网络而形成的更大的网络,而“Internet”(开头字母为大写)特指基于TCP/IP协议的全球网络基础设施。显然,当前以及过去的数据空间(data space,开头字母为小写)类似“internet”,泛指采用特定技术实现私域数据跨域互联互通互操作的信息系统。我们相信,为了构建现实世界的虚拟数字映像,各种数据空间技术和系统将在数据产业长期的高质量发展中竞争与融合,最终有望形成,也应该形成私域数据全域可信流通利用的全球一体化的数据空间(Data Space,开头字母为大写)。《行动计划》提出到2028年建成100个以上可信数据空间,形成一批数据空间解决方案和最佳实践,基本建成广泛互联、资源集聚、生态繁荣、价值共创、治理有序的可信数据空间网络,可视为面向数据要素市场化配置改革,探索形成全球一体化数据空间的“中国方案”。
习近平总书记深刻指出,构建新发展格局最本质的特征是实现高水平的自立自强。数据空间作为网络空间技术体系转型的一种新形态,由“以计算机为对象”转向“以数据为对象”,蕴含着变革性重大科技问题和创新机遇。因此,需要全面加强对数据空间领域科技创新的体系性部署,集合产学研用优势资源,在可信数据空间运营、技术、生态、标准、安全等体系取得突破,支撑培育全国一体化数据市场,立足全球视野谱写数据产业乃至数字经济发展新篇章。
来源:国家数据局