今年全国两会上,“数字经济”再次成为的热点话题。
2024年政府工作报告提到:要健全数据基础制度,大力推动数据开发开放和流通使用;适度超前建设数字基础设施,加快形成全国一体化算力体系;推动解决数据跨境流动等问题。
这为我国数据要素市场的进一步发展指出了方向。
与此同时,如何进一步推动数据要素市场化配置,也成为代表委员们热议的话题。
目前,数据的价值已经成为业界共识。然而,从产业视角来看,数据要素的供给和流通使用、数据资源的联动和配置等课题的探索才刚刚开始;从企业视角来看,数据质量保障、合规化使用路径、高价值场景挖掘等难点仍然普遍存在。
那么,围绕数据要素相关议题,2024年两会代表们给出了哪些提案?在实践中,又有哪些技术能够助力数据要素的价值进一步释放?
近日,国家数据局又联合多部门下发通知,宣布开展全国数据资源情况调查,全面调研国内数据资源生产存储、流通交易、开发利用、安全等情况。
这标志着我国数据要素市场建设正在从“顶层设计”走向“实践探索”阶段。
面对如何推动数据要素市场化配置、产业数字化转型等现实问题,今年两会期间,多位人大代表和政协委员也积极建言献策。
全国政协委员、南方科技大学副校长金李指出,当前数据要素市场建设仍存在一些问题,例如国家级数据交易所建设滞后、“用数”的环境与氛围尚未形成、数据跨境流通探索力度有待增强、国家级算力基础设施建设力度有待加强等。
全国政协委员、北京国家会计学院教授秦荣生指出,当前我国数据交易市场处于初始发展阶段,面临数据交易市场分割、交易规模不大、数据安全合规难以保障、数据交易质量参差不齐、数据交易监管薄弱等难点问题,围绕数据交易产生的争议也日渐增多。
全国政协委员、京东集团技术委员会主席、京东云事业部总裁曹鹏带来了国产化数字基础设施发展相关的建议。
他认为,构建国产化数字基础设施迫在眉睫,软硬协同才能最大化发挥算力底座的作用。
同时,应推动采用云原生、容器化、分布式的新型国产算力底座,通过发展先进算力实现技术革新升级。
全国政协常委、中国工程院院士、中国科学院大连化学物理研究所所长刘中民建议,通过推进数据确权、推动数据定价、规范交易场所、增设算力枢纽、统筹宏观布局等,进一步做好数据要素市场化配置改革工作。
作为数学家、统计学家,全国政协委员、中国科学院院士陈松蹊指出,中国目前尤为缺乏高质量的再分析科学数据集,建议组建由领域与数据科学家组成的数据融合团队,实现科学数据自立自强。
同时,企业构建数据文化需要有数据科学团队,必须从加强数据分析人才培养入手。
从多份数据要素相关提案来看,今年的议题依然重点聚焦在数据立法、数据要素市场化、数据确权和定价、数据安全和监管等方面。
但随着数据数据要素市场培育进展加速,今年提案在各个方向上进一步细化,例如,针对如何统筹数据交易所,如何开展数字基础设施建设、保障数据质量,如何通过技术手段保障数据确权,如何进行数据人才培养等,都有了更为具体的方案建议。
事实上,数据要素市场培育是一个宏大的课题,涉及体制机制、市场流通、产品研发、标准规范等多层次的深度探索,而在探索过程中无疑会不断涌现出新模式、新业态,而这些全新的实践背后,都有政策、市场、技术、资源等多项因素的共同推动。
例如,人工智能发展驱动数据要素市场需求爆发。伴随着大模型时代的到来,通用人工智能(AGI)产业正迎来爆发期,更加需要大规模、高质量、多样化的数据集提升模型效果和泛化能力。
然而,我国人工智能领域高质量数据集缺乏、数据供给的产业生态不健全、企业数据资源获取成本高等问题依然严峻。
2023年5月,我国达成了首笔基于大模型训练数据集的数据交易。
北京国际大数据交易所与北京市科学技术研究院进行科学数据专区建设运营合作签约,打造了全国首个专门针对科技领域数据交易流通的专题数据区域。
同期,北京市发布的《促进通用人工智能创新发展的若干措施(2023-2025年)》提出,针对当下大模型训练高质量中文语料不足导致的中文语境应用落地问题,要归集高质量基础训练数据集,并通过北京国际大数据交易所开放多模态语料库。
不仅如此,人工智能的发展使高性能算力资源存在巨大缺口,亟需统一规划建设算力交易中心,协调优质算力资源,实现统一调度和最优匹配。
以运营商中国电信为例,在网络基础设施方面,中国电信建设了5G共享基站超过120万站,发布“灵泽2.0数据要素平台”,汇集高质量数据资源构建基础积累,打造“2+3+2”产品体系赋能千行万业,构建“数据要素交易+可信流通计算与共享+运营管理支撑”三大模块,提供全流程数据交易服务。
在算力基础设施方面,中国电信形成“2+4+31+X+O”梯次分布、云边协同的泛在算力基础设施体系。
“一城一池”覆盖超过240个城市,边缘算力节点超过800个,天翼云算力总规模达3.8EFLOPS。
2023年2月24日,宁夏联合中国电信、北京国际大数据交易所、中科曙光等机构,打造的国内首个一体化算力交易调度平台——东数西算一体化算力服务平台正式上线。
在推进数据安全共享和发挥数据价值方面,隐私计算技术持续推动政务数据的合规安全流通,支撑公共数据在小微普惠服务场景的应用。
例如,深圳福田区的公共数据隐私计算平台,是广东省首个基于全信创架构融合了可信执行环境(TEE)、多方安全计算(MPC)两种隐私计算技术路线的平台,构建了一个多方数据安全融合计算环境。
基于该隐私计算平台,5家金融机构与福田区政务服务数据管理局,签约达成公共数据开发利用合作关系。
在保障各参与方数据安全的前提下,促进“政政”“政企”之间的数据价值共享互惠,打破原有的高价值数据因敏感度高而形成的数据壁垒,实现有条件共享的数据基于“原始数据不出域、数据可用不可见”的流通新范式。
中国信通院《数据要素白皮书(2023年)》指出,数据要素在强调通过大数据处理投入生产的同时,进一步突出了数据在交易流通过程中产生经济价值。
可控、可计量、可流通是数据要素对数据技术提出的新要求,新技术不断涌现为数据要素价值释放保驾护航。
例如,以云原生、软硬协同以及湖仓一体等技术为代表的数据处理技术,持续助力用户降本增效。
云原生技术通过存储计算分离架构,实现资源池化和极致弹性,具备高扩展性、高可用性、跨地域规模、低成本等优势,可为用户提供真正具备秒级智能弹性扩容能力、随需而动。
软硬协同技术为软件技术带来了新的机遇。一些企业陆续发布GPU数据库、数据库一体机等产品,以满足业务规模不断扩张的需求。
硬件技术的发展一方面促进了数据处理技术性能提升,另一方面也推动了数据处理技术与其他新兴技术的融合,使得技术体系的安全性和智 能性得到提升。
在湖仓一体方面,数据仓库(Data Warehouse)和数据湖(Data Lake)两项技术在不断演进过程中逐渐融合形成湖仓一体(Data Lakehouse)技术架构。
湖仓一体集数据湖的灵活性、可扩展性优势以及数据仓库的数据结构和数据管理功能于一体,能够降低数据冗余、减少存储成本,提升数据处理时效性。
当前,湖仓一体技术落地应用速度持续加快,应用领域主要集中在互联网、电信运营商以及金融等国内数字化程度较高行业。
由于数据要素具有规模经济性,企业将趋向于持续积累数据,能够助力企业降本增效的技术将会进一步受到关注。
此外,以人工智能、隐私计算、区块链、图技术等为代表的新兴技术,持续护航数据要素安全流通,例如:
向量数据库能够支撑AI技术赋能数据要素价值释放。
一些非结构化数据需要通过机器学习算法从中提取出以向量为表示形式的“特征”,向量数据库的兴起便是为了解决对这些向量进行存储与计算的问题。
图分析技术助力洞察数据连接新价值。
数据要素时代,数据规模将会不断增大,数据量及数据自身丰富度不断增加,图分析技术能够有效分析数据之间的关联性以及处理数据之间的复杂关系。
隐私计算与区块链相结合,能够实现数据密态流转。
在控制面以区块链为核心构建数据流通管控层;在数据面以隐私计算为核心构建密态数联网。
数据流转过程中以密态形式流通,保障其流转、计算、融合直到销毁的全链路安全可控,同时将数据要素持有权和使用权分离,实现数据可用不可见、使用可控可计量、以及使用权跨域管控。
图联邦技术能够打破数据孤岛。
图联邦技术是为了解决数据孤岛、隐私保护和数据安全问题提出的概念,在保护用户隐私和公司数据的前提下,更好地发挥数据价值。
时空大数据平台或时空数据库实现海量时空数据管理、查询、统计与分析。
在现实世界中有超过80%的数据都和地理位置(空间)相关,而所有数据均含有时间属性。因此,实际业务场景中许多数据需要通过时空大数据平台或时空数据库来处理。
近年来,时空大数据平台以及时空数据库等技术的发展,有效应对北斗时空大数据服务、数字孪生、智慧城市等新兴数据应用业务场景下对于时空数据处理的需求。
未来,新兴技术还将在应用过程中不断融合以适应不同场景下的技术需求,向着更加高效、安全的方向不断发展。
可以预见,围绕数据的采集、存储、计算、管理、流通、安全各个环节,技术体系将不断革新。
相关阅读
【科技云报道原创】
转载请注明“科技云报道”并附本文链接