本期周周谈针对《数据领域名词解释》中部分相似度高、易混淆的名词,从概念辨析、历史沿革等角度进一步释义解读,希望能够对大家理解原文有所帮助。更丰富详细的内容,推荐阅读下方文字稿哦!
10月21日,国家数据局就《数据领域名词解释》(以下简称“《名词解释》”)向社会公开征求意见,《名词解释》共包含41项数据相关的名词,涉及数据要素、数据管理、数字技术等大类。针对《名词解释》中部分相似度高、易混淆的名词,本文尝试从概念辨析、历史沿革等角度进一步释义解读,希望能够对大家理解原文有所帮助。根据《名词解释》对“数据”的释义,原始数据、数据资源、数据产品、数据资产、数据要素均为“数据”在不同视角下的表现形式,因此本章内容将以不同视角出发,辨析上述名词的内在涵义。原始数据、数据资源、数据产品侧重于数据全生命周期视角,分别代表数据采集、使用、加工等不同环节。原始数据存在于数据产生和采集的源头,是数据的初始表现形态,具有信息冗余、质量低下、应用低效等特征;对于原始数据中具备使用潜力的数据,进一步通过数据标准化、质量管控等治理方式加以规范,即形成可供利用的数据资源;数据产品是面向具体应用场景需求对数据资源的进一步萃取和封装,通常以“算法模型+数据资源+终端服务”的形式完成设计和交付。数据要素是从经济学视角对数据的定义。类比《经济学原理》中对生产要素的定义,数据要素强调数据需要与社会生产经营活动进一步结合;参考《数据要素白皮书(2022)》中的论述,“数据要素”一词是面向数字经济,在讨论生产力和生产关系的语境中对“数据”的指代,是对数据促进生产价值的强调。数据资产侧重于财务视角。资产是财务领域的基本概念,财政部《企业数据资源相关会计处理暂行规定》正式提出符合资产定义和确认条件的数据资源可以计入企业资产负债表进行披露。在本次《名词解释》中,除“合法拥有或控制”、“预期带来经济利益”等资产定义外,特别强调了“货币计量”,是对于会计准则中“成本或价值能够可靠计量”条件的进一步释义,也是当前企业实践中的痛点。目前业界尚未就数据资产的计量方式和标准达成广泛共识,其探索多倾向于针对不同特点的数据资产分别采用成本法、收益法和市场法等方式进行测算。数据流通强调了数据在不同主体之间的交换与转移,其实质是数据权属发生了变化。从目前数据流通的各种类型来看,数据开放与共享是将查询权或使用权无条件或有条件开放给一部分群体,例如公共数据开放;而数据交易则是通过商业行为对数据进行分类定价、流通和买卖,实现数据所有权或使用权的转移。数据交易是数据流通的一种货币化形式。按照交易场所划分,可分为场外交易和场内交易,场外交易是由企业或个人自主产生的“点对点”数据交易,场内交易则是企业或个人通过数据交易所或数据交易中心进行的交易。当前,我国数据交易所仍处于建设阶段,数据确权、估值等关键环节仍在探索,数据交易以场外交易为主。根据《中国数据交易市场研究分析报告(2023年)》,2022年中国数据交易行业市场规模为876.8亿元,场内交易约占整体市场规模的5%。结构化数据是由二维表结构来表达和实现的数据,对数据格式和内容有严格限制,适用于关系数据库存储,可划分为基础数据、主数据、事务数据、报告数据、观测数据和规则数据。不同类型的结构化数据有不同的管理模式,如基础数据的管理重点在于变更管理和统一标准管控;主数据的管理重点是确保同源多用、重点进行数据内容质量检验等。非结构化数据形式多样,无法用关系数据库存储,如网页、图片、视频、音频等。非结构化数据需要转化为结构化数据才能被机器有效识别,常见的方法如自然语言处理(NLP,包括Word2Vector、卷积神经网络等算法)、光学字符识别(OCR)等。随着人工智能、ChatGPT的发展,非结构化数据的治理与应用更加受到了重视,企业内部应加强知识库等文档类数据的管理,提升非结构化数据的采集、存储与转换效率,使其符合大模型输入与训练要求,不断提升智能问答的精准性。半结构化数据具有一定结构化特征,但不符合关系数据库模式,如XML(可扩展标记语言)、JSON(JavaScript对象表示)等。半结构化数据的管理融合了结构化与非结构化数据管理的特征,可提取半结构、非结构化数据的关键信息,到结构化数据中进行二次管理利用,或对数据内容的客观理解进行管理。数据分析与数据挖掘在日常用语中常常被混用。本次《名词解释》也是对这两个概念的一种澄清。数据分析是大类,是指从包含数据收集、数据处理、数据分析、撰写分析报告等环节的全过程,强调通过合适的统计分析方法,提炼有价值的信息,找出数据背后的规律,为商业决策、市场趋势预测等提供科学依据。数据挖掘是数据分析的手段之一,强调从大量的、不清洁的数据中提取隐含的、有意义的、可理解的信息,进而解决特定的问题,是目前人工智能和数据库领域研究的热点领域,包括建立模型、模型数据集准备、模型训练、模型检验等环节,常用方法为Web网页挖掘、回归分析、决策树、神经网络、机器学习等。数据仓库、数据湖与湖仓一体三种架构各有特点,数据湖强调原始数据的存储和灵活性,数据仓库强调数据的集成和分析能力,而湖仓一体则试图结合这两者的优势,提供更灵活、高效的数据处理和分析平台。数据仓库通过对大量数据源的数据经过清洗、加工与整合,便利后续更快速的查询和分析。数据仓库的概念最早可以追溯到20世纪60年代的管理信息系统与电子计算机兴起时期,1988年,IBM的研究员Bill Inmon首次提出了“数据仓库”的概念;90年代,数据仓库的理论和实践得到了快速发展,出现了多种维度建模方法,如星型模式、雪花模式等。传统的数据仓库存在扩容难的问题,对此,许多厂商都提出了数仓上云的解决方案。数据湖允许以任意规模存储所有结构化、半结构化与非结构化数据,最早以大数据平台解决方案的形式出现。自2013年Pivot提出了数据湖架构以来,后续几年时间里,数据湖产品开始不断在市场上出现,商业领域普遍接受数据湖作为数据中心,许多厂商都提出了完整的数据湖解决方案。湖仓一体是一种新的数据管理架构,由Databricks在2020年提出。它将数据湖的灵活性、成本效益和规模与数据仓库的数据管理和事务管理能力结合起来。它基于低成本、可直接访问的存储数据管理系统,同时具备传统分析型数据库管理系统的管理和性能特征,如事务管理、数据版本、审计、索引、缓存和查询优化。它支持多数据类型统一存储,实现数据在数据湖、数据仓库之间无缝调度和管理,并使得上层通过统一接口进行访问查询和分析。隐私计算、多方安全计算、联邦学习、可信执行环境与密态计算密态计算是其中最大的概念,密态计算包含隐私计算技术,隐私计算是密态计算的一种主要方法。密态计算通过综合利用各种可信隐私计算技术,实现计算过程的数据可用不可见,计算结果能够保持密态化。隐私计算作为保障数据安全流通的有效方式,已逐渐成为促进数据要素跨域流通应用的核心技术。隐私计算是指在保证数据提供方不泄露原始数据的前提下,让数据使用方仍然能正常使用数据,进而得到数据的分析计算结果的技术,核心是让跨域流通的数据在全生命周期中“可用不可见”。一个典型的例子就是百万富翁问题,即两个百万富翁想比一比谁更有钱,但谁也不想告诉别人自己具体有多少钱。隐私计算有三种主流技术路线:多方安全计算、联邦学习、可信执行环境,它们各有所区别侧重,也可以结合起来使用,解决单一技术路线的瓶颈问题,产生“1+1>2”的效果。多方安全计算是指在无可信第三方的条件下,设计一套密码学方法,使得多个参与方在不泄露各自隐私数据的前提下,各自输入数据,共同完成计算,实现数据安全高效地融合。联邦学习的核心理念仍然是“数据可用不可见”,但主要的应用场景是机器学习模型的训练和使用,在保证参与方原始数据不出域的前提下,完成机器学习模型的构建,实现“数据不动模型动”。可信执行环境指在硬件中建立安全可信的区域,实现系统隔离,保证在安全区域内部代码数据的保密性和完整性。目前在基于硬件保护的可信执行环境之外,基于软件虚拟化的安全沙盒概念也较火,其核心就是基于第三方的可执行环境,通过加密和隔离机制,创建一个与主操作系统隔离的可信区域,在这个区域中,数据和计算过程都受到保护,不受外部环境的影响和窥探。参考文献:
[1]深圳数据交易所. 国家数据局向社会公开征求《数据领域名词解释》意见[EB/OL]. (2024-10-22). https://mp.weixin.qq.com/s/5tif4_X6FPxmdw6cvH0BgA
[2]万存知.大数据在征信体系建设中应用的思考[J]. 金融电子化, 201901
[3]华为公司数据管理部.华为数据之道[M]. 北京:机械工业出版社.2020
[4]隐私计算联盟, 中国信通院. 隐私计算白皮书[EB/OL]. (2022-12). http://221.179.172.81/images/20221229/48421672279200206.pdf
[5]Open Islands. 浅析数据安全之密态化计算[EB/OL]. (2022-10-27). https://mp.weixin.qq.com/s/Ia9jojT8U5F990fws6FvBg
[6]信息化观察网. 隐私计算概念,你都清楚吗?[EB/OL]. (2022-02-28). https://www.infoobs.com/article/20220228/52698.html
撰稿:标准术语研究小队
编辑:童心怡