为什么?——国家数据基础设施建设的重要意义
(一)国家数据基础设施是下一个30年全球经济增长的新引擎
上世纪90年代初,美国提出并开始实施“国家信息基础设施(NII)”行动计划,推动互联网在全球迅速普及,一举奠定了美国在传输网络、根服务器、IPV4协议等方面的技术领先优势,培育出了微软、英特尔、谷歌、脸书、亚马逊、苹果、特斯拉等一大批信息技术跨国企业,并推动全球经济高速增长了30多年。当前,国家数据基础设施(NDI)将成为引领下一个30年经济增长的新引擎,我国通过建设和运营国家数据基础设施并不断扩大在世界其他国家和地区的“朋友圈”,将不断增强在数据交换交易协议和标准等软基础设施制定的话语权,掌握适度超前的通信网络和算力等硬基础设施研发的主动权,进而引领数据新技术、新产品、新模式、新应用爆发,为我国培育出一大批新的全球型数据企业,并推动下一个30年全球数字经济高速发展。
(二)国家数据基础设施是国家掌控数据战略资源的有效手段
电力、通信、铁路等是工业时代的国家战略资源,必须牢牢掌控在国家手中。这些国家战略资源均具有网络状、跨区域分布等特点,我国通过建设覆盖全国的电力网、电信网、铁路网等基础设施,成立了一批中央企业,牢牢控制住了相应的战略资源。数据作为数字时代的国家战略资源,也必须牢牢掌握在国家手中。与电力、铁路、通信是工业时代国家战略一样,数据也具有网络状、跨区域分布等特点,通过建设横向联通、纵向贯通、协调有力的全国一体化国家数据基础设施,可以有效统筹运营国家公共数据资源和重要企业数据资源,将数据这一数字时代的新型战略资源牢牢掌握在国家手中。
(三)国家数据基础设施是实现数据安全高效流通的技术保障
自上世纪90年代互联网普及以来,全球数据资源爆发性增长。但是,在全部数据资源中,只有两成左右是可流通数据,八成左右是个人隐私、企业机密、国家秘密等不可流通数据。即使在20%可流通数据中,在万维网上真正流通起来的结构化数据只有4%,而其他16%的图片、音频、视频等多模态非结构化数据,由于技术还未突破而不能在互联网上自由流通。近年来,随着人工智能大模型的异军突起,对数据资源的需求陡增,据京数智科技研究成果,预计到2028年全球可流通数据将完全耗尽。数据生产方式将从互联网上采集结构化数据的传统方式转向数据资源的广度和深度两个方向拓展:第一个方向是向广度拓展,即从互联网爬取数据向物联网自动生成数据拓展。各种可穿戴设备、智能家电、道路监控设备、工业互联网自动感应装置等生成的多模态非结构化数据,正成为当前数据来源的主流,专业化的数据标注与合成技术正成为海量非结构化数据转化为高质量数据集的关键核心技术。第二个方向是向深度拓展,即过去由于涉隐涉密而被尘封的海量私域数据,正在成为人工智能高价值数据集的重要数据源。传统意义上的不可流通数据,将在依托隐私保护计算、区块链、控制技术、可信数据空间、数联网、数场等数据安全流通技术构建的数据基础设施支撑下,逐步都变成可流通数据,实现在安全可信条件下的大规模、快速率、高通量流通利用。
(四)国家数据基础设施是构建全国一体化数据市场的支撑底座
是什么?——国家数据基础设施的涵义及其特征
(一)国家数据基础设施的涵义
国家数据基础设施是从数据要素价值释放的角度出发,面向社会提供数据采集、汇聚、传输、加工、流通、利用、运营、安全服务的一类新型基础设施,是集成硬件、软件、模型算法、标准规范、机制设计等在内的有机整体。国家数据基础设施在国家统筹下,由区域、行业、企业等各类数据基础设施共同构成。网络设施、算力设施与国家数据基础设施紧密相关,并通过迭代升级,不断支撑数据的流通和利用。
(二)国家数据基础设施的特征
从以上涵义可以看出,国家数据基础设施具有一个目标、八大功能、三类设施和四重架构等四方面特征:
一个目标。建设和运营国家数据基础设施的目标就是充分释放数据要素价值。通过构建安全可信、高效流通的国家数据基础设施,从根本上解决数据“供不出、流不动、用不好”的难题。
八大功能。国家数据基础设施具有数据采集、汇聚、传输、加工、流通、利用、运营、安全服务等八项功能。即国家数据基础设施在确保安全前提下,提供了一个数据“采汇传算流用运”等数据流通利用功能于一体的环境和设施。
三类设施。国家数据基础设施是以区域数据基础设施和行业数据基础设施为主体,以企业数据基础设施为有益补充的横向联通、纵向贯通、协调有力的全国一体化数据基础设施。
四重架构。国家数据基础设施由网络基础、算力底座、流通利用和全过程安全等四类设施组成,其中,数据流通利用设施是核心,网络和算力设施是底座,安全设施是保障。即数据流通利用设施为数据流通利用提供安全可信环境,包括可信数据空间、数场、数据元件、数联网、区块链网络、隐私保护计算平台等技术设施,网络和算力设施提供数据高速传输和算力高效供给等基础支撑,安全设施为国家数据基础设施安全可靠运行的提供安全保障。
做什么?——国家数据基础设施建设的技术路线
国家数据基础设施建设和运营是一个前无古人的创新事业,需要从技术创新和应用普及两端同时发力,相向而行。一方面,应组织和出台国家级重大研发等相关政策,鼓励和支持企业不断创新突破数据可信安全流通技术。另一方面,应大力支持和鼓励数据可信安全流通技术在更大范围、更多领域应用,在应用中持续迭代技术、不断降低成本,最终实现数据安全流通技术基础设施化。
1.技术路线1——隐私保护计算技术
隐私保护计算指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一类信息技术,保障数据在产生、存储、计算、应用、销毁等数据流转全过程的各个环节中“可用不可见”。隐私保护计算的常用技术方案有安全多方计算、联邦学习、可信执行环境、密态计算等;常用的底层技术有混淆电路、不经意传输、秘密分享、同态加密等。
2.技术路线2——区块链技术
区块链是分布式网络、加密技术、智能合约等多种技术集成的新型数据库软件,具有多中心化、共识可信、不可篡改、可追溯等特性,主要用于解决数据流通过程中的信任和安全问题。
3.技术路线3——数据使用控制技术
数据使用控制技术是指在数据的传输、存储、使用和销毁环节采用技术手段进行控制,如通过智能合约技术,将数据权益主体的数据使用控制意愿转化为可机读处理的智能合约条款,解决数据可控的前置性问题,实现对数据资产使用的时间、地点、主体、行为和客体等因素的控制。
4.技术路线4——可信数据空间
可信数据空间是基于共识规则,联接多方主体,实现数据资源共享共用的一种数据流通利用设施,是数据要素价值共创的应用生态,是支撑构建全国一体化数据市场的重要载体。可信数据空间须具备数据可信管控、资源交互、价值共创三类核心能力。
5.技术路线5——数场
数场是依托开放性网络及算力和隐私保护计算、区块链等各类关联功能设施,面向数据要素提供线上线下资源登记、供需匹配、交易流通、开发利用、存证溯源等功能,支持多场景应用的一种综合性数据流通利用设施。数场从点、线、面、场、安全五个维度构建标准化技术框架。点是数据主体进入数场的接入点。线是数场内连接各主体、各平台的高速数据传输网,实现数场内各主体之间的互联互通。面是数场中数据主体、传输网络的集合,是实现数据大规模流通、高效安全利用的核心。由点到线、由线到面构成数场基础设施。场是基于数场基础设施构建的数据应用、场景化创新,以及相关能力、流程、规范的统称。安全是覆盖点、线、面、场的动态全流程保护措施。数场在技术架构上包括接入点、功能平台、管理平台、安全保障、网络传输等基础服务平台。
6.技术路线6——数联网
数联网由数据流通接入终端、数据流通网络、数据流通服务平台构成,提供一点接入、广泛连接、标准交付、安全可信、合规监管、开放兼容的数据流通服务。
7.技术路线7——数据元件
怎么做?——国家数据基础设施建设的实施路径
国家数据基础设施建设和运营,一方面要鼓励地方、行业、企业积极探索,大胆实践,并且应包容创新,允许失败。另一方面应加强国家数据基础设施标准制定工作,按照统一目录标识、统一身份登记、统一接口要求,建设数据流通利用设施底座。
(一)加强顶层设计
国家数据基础设施最终将建设成一个横向打通、纵向贯通的全国一体化设施,各地方、各行业、各企业在建设之初就应按照统一标准实施。应加强国家数据基础设施标准制定和实施工作,特别是要尽快按照统一目录标识、统一身份登记、统一接口要求等标准规范,加快建设国家数据流通利用设施底座。
(二)分步建设实施
国家数据基础设施既面临需求迫切的要求,也面临技术和应用不成熟的考验。因此,一方面要坚定地试,大胆地用,另一方面也要把握节奏,持续迭代发展。因此,今后5—10年,国家将三步走策略,分阶段突破数据安全流通关键技术和基础设施化。
第一阶段为试点试验阶段。一方面组织国家重大科技专项,对隐私保护计算、区块链、控制技术、可信数据空间、数场、数联网、数据元件等为代表的数据可信安全流通关键核心技术开展技术攻关,以期快速实现技术突破;另一方面将通过国家数据基础设施建设试点试验,并行开展各种技术路线的探索实践。
第二阶段为技术收敛阶段。通过试验试点,逐步淘汰资源消耗大、传输计算效率低的技术路线,围绕资源消耗和传输计算效率达标的技术路线进行提炼总结,研究制定国家推荐的数据安全可信流通技术标准和数据流通利用基础设施建设标准,形成国家安全可信数据流通技术路线。
第三阶段为全面建设阶段。在全国各城市、各行业推广应用已收敛的技术路线,大规模建设行业数据基础设施、城市数据基础空间,鼓励建设企业数据数据基础设施,最后实现互联互通,形成横向打通、纵向贯通、协调有力的国家数据基础设施。