孙凝晖:“数据件:一种数据要素标准化抽象” | CCCF精选

学术   科技   2024-10-09 19:34   北京  



要实现数据要素的社会化流通利用离不开标准化抽象。本文分析了当前数据要素抽象方法的不足,从价值释放的角度梳理了标准化的挑战与需求,提出了一种数据要素标准化抽象方法——数据件,并介绍了其基本结构、组织方式以及典型应用。






数据要素及其标准化




数据作为数字经济时代的关键生产要素,是基础性资源和战略性资源,也是重要生产力。围绕数据要素的发展,国家进行了多方位的体系化布局,2022年国务院出台了《“十四五”数字经济发展规划》《关于构建数据基础制度更好发挥数据要素作用的意见》《数字中国建设整体布局规划》等文件,强调“强化优质供给,促进合规流通”。2023年,国家数据局正式成立,统筹数据资源整合共享和开发利用,推动数据要素在社会层面“供得出、流得动、用得好”,以释放数据要素价值,培育新质生产力。


数据要素要实现大范围的流通利用离不开标准化抽象,这是很多全球化技术的一个共性特征。例如,工业时代,货物运输能够实现全球化发展,在于它有一个基本抽象——集装箱,能够对从运输到计量的整个流程都做到标准化;信息时代,互联网信息通过两个基本的抽象,即IP(Internet Protocol)包与网页,实现了信息构建、组装、寻址、传输和处理的标准化,从而在全球范围内催生了丰富多彩的互联网应用。


数据的标准化抽象过程本质上是一个数据与应用对象不断解耦的过程,新的解耦需求催生了数据基本抽象的演化,形成了新的标准化体系。解耦的对象层级越高,标准化抽象后的数据流通利用范围越广。一般来说,数据标准化抽象的演化过程可以分为如下三个阶段:


1.第一次标准化抽象源自数据与应用程序的解耦。传统算法与数据的耦合导致了程序设计的复杂性,数据库系统的出现正是为了屏蔽程序访问数据的复杂性,其核心是通过数据表结构的标准化抽象,实现了结构化数据与应用程序的解耦,从而降低了应用程序的开发门槛。


2.第二次标准化抽象源自数据与业务系统的解耦。随着业务应用的多样化与数据形态的多元化,企业内部业务系统与数据的耦合阻碍了企业级数据应用的发展,从而催生了对多元数据的进一步标准化抽象(结构化数据—数据表、半结构化数据—键值对),形成了数据湖/湖仓一体等中台形态,屏蔽数据在企业内汇聚分析的复杂性,降低了企业级系统的开发门槛。


3.第三次标准化抽象源自数据与社会主体的解耦。当前,数据要素价值释放的基石在于数据在社会范围内的流通与利用,因此需要将数据与社会主体进一步解耦,即数据不再仅从属于某一个特定的主体,也不再仅被某一特定主体使用。为了屏蔽数据要素在不同主体间流转使用的复杂性,降低数据要素社会化供给、流通与应用门槛,亟需新的数据要素基本抽象及其相应的标准化体系。这就是本文提出数据件(dataware)作为一种新的数据要素标准化抽象的动机。


数据要素标准化抽象的一个重要目标是服务于数据要素价值的“聚变释放”。我们观察到,数据要素价值释放的特征与传统网络信息存在明显的不同。传统的网络信息价值涌现可以类比为“核裂变”过程,即互联网上的信息扩散越广,其产生的价值越大。正如梅特卡夫定律(Metcalfe’s Law)指出的,网络的价值与联网用户数量的平方成正比。相反,数据要素的价值释放则可以看作是一个“核聚变”过程,海量的数据通过汇聚和深加工,最终实现价值的涌现。当前的大语言模型即为一个例证,通过汇聚超40 TB不同领域、不同类型的大数据进行训练,ChatGPT等模型显示出了智能涌现的能力。因此,如何支撑数据要素的高效汇聚使用是数据要素标准化抽象的一个核心需求牵引。




研究现状




目前国内外对数据要素的抽象方法主要有两个典型代表,分别是基于数据元件的实现方案和基于数字对象的实现方案。



数据元件

2020年初,中国电子信息产业集团有限公司与清华大学联合开展数据安全与数据要素化工程研究,提出了以“数据元件”为核心的工程方案,并设计数据要素市场化模型,打造“一库双链”,培育三级市场。数据元件是基于通用需求,通过标准化数据处理流程形成的连接数据供需两端的“中间态”,是原始数据与应用之间的数据初级产品和交易标的物,具体是指对数据脱敏处理后,根据需要由若干相关字段形成的数据对象,具备可定价、可确权、可计量等特性。引入数据元件这种“中间态”后,数据要素化治理过程将被分解为元件开发和元件应用两个关键环节:在元件开发环节,将采用特征选择、特征抽取、聚合分析、统计分析、封装测试等方法处理原始数据,得到数据元件;在元件应用环节,将数据元件作为流通的数据要素并建立相关定价审核机制,以实现对应用的赋能。


数据元件方案虽然对数据要素的生产和消费进行了解耦,但其侧重为数据交易提供支持,并没有针对数据的高效汇聚使用场景提出标准化抽象设计方案。



数字对象

1988年,“互联网之父”罗伯特·卡恩(Robert Elliot Kahn)提出“数字对象”(digital objects)概念,主要针对互联网资源进行统一抽象,以屏蔽资源的异构性。一个数字对象包括数据对象标识(Digital Object Identifier, DOI)、元数据和数据实体(数据源)三个部分,其中DOI 是数字对象的身份ID,唯一且持久地识别每个数字对象;元数据是数据的描述信息,用于发现、搜索数字对象;数据实体(数据源)则代表原始数据。目前DOI发展较为成熟,已在数字图书馆领域取得了全球性的规模化应用。通过将书籍、论文等数字资源构建为数字对象,并分配唯一且持久的DOI,可以在任意一个支持DOI的应用系统中解析到该标识对应的文献实体,避免了常见的统一资源定位符(URL)失效导致的资源不可访问问题。


数字对象体系架构(Digital Object Architecture, DOA)是一种互联网环境下对数字对象进行标识、解析、管理和安全控制的数据治理基础设施。DOA将从物理和虚拟世界中获得的信息、流程、服务等各类数据封装和抽象为互联网上的数字对象,并基于Handle系统建立了一整套完善的治理机制,实现了数字对象之间安全、高效、可控的互联互通和互操作。


2022年,北京大学黄罡教授团队主持研发了“基于数字对象架构的数联网及大数据互操作技术”,针对海量信息孤岛导致业务数据和第三方系统难以高效互操作,以及数据溯源、数据使用的管控等问题,实现了可信可管可控的数据互联互通互操作。该技术为数据要素的资产化、流通、交易等提供了新的思路。


数字对象方案主要是从信息互联和数据互联的角度对数据进行抽象,同样未针对数据的高效汇聚使用提供合适的解决方案。




数据要素标准化的挑战




本文面向数据要素价值聚变释放的场景,研究数据要素的标准化抽象方法,其实质是从计算处理的视角(而非传统的流通交易视角)出发,对数据要素建立一套标准化的生产、流通和使用技术体系。换一个角度,如果说“供得出、流得动、用得好”是数据要素标准化抽象的主要目标,那么我们认为“用得好”是它的“牛鼻子”,要从“用得好”的角度出发考虑“供得出、流得动”的标准化技术体系,而不是仅从“流得动”的角度思考标准化抽象方法。鉴于此,从计算处理的角度出发,数据要素标准化抽象必须解决如下三项挑战。



数据要素的抽象层次问题(如何易于使用)

现实世界中数据来源多样、应用五花八门,存在典型的“昆虫纲”难题,对数据要素抽象的层次是破解这个难题的关键。传统的数据集形式对数据抽象太浅,导致应用加工链路长、价值生成慢;反之,将数据转化为定制化服务则抽象过深,导致融合使用困难,难以适应复杂多样的现实需求。建立合适的数据要素抽象层次,是实现数据供给与消费高效解耦的关键。



数据要素的语义标准问题(如何交互使用)

传统信息的消费者主要是人类,而数据要素的消费者主要是机器(即各类数字处理系统)。如何使来自不同领域、不同模态的数据被机器准确地理解与使用,是决定数据要素价值释放的基础。因此,数据要素的标准化不只是形式或者结构上的标准化,必须解决数据要素语义标准化的问题,方能实现跨域跨模态数据要素的融合交互使用。



数据要素的安全管控问题(如何安全使用)

数据要素的价值释放是一个多阶段过程,伴随着多重安全问题。例如,数据供给阶段,面临着敏感信息、隐私信息泄露等问题;流通阶段,面临着数据权属失控、内容被伪造篡改等问题;消费阶段,则面临着数据滥用、越权访问等问题。传统的外挂式、后补式的安全机制往往捉襟见肘,因此,如何在数据要素的标准化抽象中原生地嵌入安全管控机制,是有效保障数据要素全生命周期安全的关键。




数据件





数据件定义

面向数据要素价值聚变释放的需求,针对上述关键挑战,本文提出数据件作为一种新的数据要素标准化抽象,以支撑数据要素的高效流通与汇聚使用。


定义:数据件是数据要素流通使用的基本单位,是对数据要素进行标准化抽象后建立的结构化对象,并基于一组标准、协议与机制设计,实现数据要素和数据主体、数据应用的“解耦”,支撑在全网对数据要素进行融合汇聚与深加工。


数据件的理念可以类比于云计算中“容器”的概念,容器通过对应用程序及其所需软硬件资源的统一封装,实现了程序在不同平台上的快捷运行,而不依赖于其他运载工具。数据件则是通过对数据要素的语义、结构和基本操作等进行标准化封装,实现数据要素在不同主体、不同应用系统间的高效流通与使用。


数据件应满足以下四个基本要求:


可寻址

数据件应包含相应的标识与寻址机制,以支持对分布于广域范围内的数据件进行识别与定位。无论数据件存储在什么样的物理位置和软硬件环境,数据件的可寻址性保障了数据消费主体在全网范围内对数据件的查找、定位与获取。


可交换

数据件的可交换性是指数据件在跨主体、跨系统使用时语义的互通与一致。一方面,这保障了来自不同主体生产的数据件可以实现语义级的对齐与融合;另一方面,也保障了一个主体生产的数据件能够被不同领域、不同行业的系统准确识别与使用。


可操作

数据件应提供标准化的访问与操作接口,以支持其在不同的数据应用系统上即插即用与进一步深度加工。数据件的操作接口为不同系统提供了使用数据件的能力,其封装的层次决定了数据要素与应用系统解耦的程度。


可管控

可管控指数据件应具备内生的安全管控机制,以支持对数据件从生产、流通到使用全过程的多层次管控。可管控是实现数据件社会化流通使用的基本条件,是数据件汇聚使用过程去风险、保安全、明权益的核心手段。



数据件基本结构

针对数据件须满足可寻址、可交换、可操作及可管控的基本要求,本文研究形成了数据件的基本结构,如图1所示。


图1  数据件基本结构


语义标识

语义标识是数据件唯一、持久且具有语义信息的标识,能够支撑在全网范围内对数据件的快速语义检索与定位,通常包含两部分标识信息:一部分由数据件的元数据构成,例如数据件发布者、所属地域与类别等;另一部分基于数据要素的数据内容,通过采样、嵌入学习等方式进行表征后获得。


信息结构

信息结构是数据要素内容信息的一种规范表达,旨在促进数据要素在跨领域、跨主体、跨系统使用时的信息共享、对齐与融合。信息结构的使用依赖于一套标准化的信息交换模型,通常由国家或者行业的标准委员会制定推行,同时用户可按照相应规范在标准框架下进行灵活细化的扩展。


标化能力

标化能力提供访问和使用数据要素的标准化操作接口,分为基础操作能力和高级应用能力两类。基础操作能力提供通用的数据操作接口,包括排序、选择、过滤、映射等;高级应用能力基于对数据应用模式的基本抽象,生成定制化的数据中间态与操作接口,从而实现针对上层应用的即插即用。不失一般性,我们将数据应用模式归纳为统计分析、传统机器学习、大模型训推等典型模式,并通过一套自动化加工处理链路实现相应的高级应用能力。


访问控制

访问控制结构提供数据件在多利益主体间的安全隔离和对流通使用过程的可管可控,实现了“点对点”的权限控制粒度,可避免数据件的复制及越权滥用。具体的,通过基于非对称密钥的加密算法以及数据件全生命周期管控机制等设计,解耦数据件的权限控制与使用,从而兼顾数据件使用过程的权限控制透明性与高效性。



数据件的组织

数据件通过数据场(datafield)的形式实现广域无中心的按需组织与灵活使用。数据要素天然具有规模庞大、广域分散的特征,导致传统分门别类、集中管理的“货架模式”不再适用。数据场(如图2所示)的理念类似“直播带货”,是一种按需组织模式,它基于用户需求对数据件进行汇聚组织,形成数据件从供应方到需求方的直销模式,从而实现数据要素的按需服务。


图2 数据场示意图


数据场的实现基于一组数据件互联协议栈,由数据件的使用、定位及获取等多层协议组成,如表1所示。


表1 数据件互联协议栈的组成


查询语言:数据场描述语言(Datafield Description Language, DDL)是对数据件需求的规范化描述。数据场描述语言采用类SQL的形式设计,在标准SQL语法上额外增加了时间、空间、语义等多维度关联操作原语,从而支撑用户实现对数据件需求的灵活描述。


检索协议:数据件通过无中心语义检索(Decentralized Semantic Retrieval, DSR)协议支撑数据场生成,用户无须通过集中式的搜索引擎系统即可利用数据场描述语言对数据件进行多维度联合检索,构造广域场景下的数据件虚拟视图。通过无中心检索,大幅降低了传统集中式搜索的成本,用户可更加专注于数据使用,而非其来源与位置。


路由解析:数据件采用持久化就近路由(Persistent Nearest Routing, PNR)进行语义标识解析,可自动根据节点距离和链路质量解析一条或多条数据传输链路,提升数据传输性能。此外,持久化就近路由协议直接绑定数据件资源而非服务器IP,在数据源节点位置移动时仍能持续保障数据访问。


数据交换:数据要素深加工场景的数据量往往极为庞大,数据件通过异步增量传输(Asynchronous Incremental Transfer, AIT)协议实现数据的即用即传和并行增量传输。通过即用即传技术可有效降低数据访问延迟,同时降低海量数据对网络带宽和本地磁盘存储带来的挑战;通过并行增量传输技术,实现数据复用和并行加速,进一步提升数据交换性能。



数据件的使用

数据件的使用主要是指对数据要素的广谱关联“深加工”,通常包括横向融合加工(以大数据分析为代表)与纵向深层加工(以AI大模型训练使用为代表)两种广谱关联技术体系。


大数据分析类应用

在横向融合加工中,数据件的标准化封装能力将有助于实现大数据分析业务与复杂数据处理流程的解耦,从而推动大数据分析更加广泛的行业应用。大数据分析主要利用人工智能技术对分散碎片化的大规模数据进行融合分析,实现对高价值信息与知识的挖掘以辅助决策。其中,对多源异构数据的关联融合是大数据分析面临的基础挑战之一,为此当前大数据分析通常被分解为对数据要素的“治理加工-存储管理-分析应用”三大模块,且相邻模块深度耦合。数据件基于标准化的信息交换模型,通过自动化要素加工流程,将来自不同领域、不同主体的数据要素进行语义级的对齐,通过组装使用实现多来源数据要素的融合,并进一步通过能力标化支撑对大数据典型存储管理系统的即插即用,由此实现了数据要素与分析应用的解耦,在降低大数据分析系统复杂性的同时提升系统的泛化适用能力。


AI大模型类应用

在纵向深层加工中,数据件的高级应用能力将大幅降低数据工程的门槛,从而高效服务于大模型类应用。如图3所示,数据件主要支撑AI大模型场景下的三类应用:大模型预训练、指令微调以及大模型知识库应用。针对大模型预训练,数据件通过自动化处理流程实现数据的质量过滤及标准化分词等,提供对多个数据件的组装、采样配比、联合组装等功能,从而构造出高质量且具有数据多样性的组合式数据件,供大模型训练;针对大模型指令微调,数据件执行标准化的指令加工流程,将数据要素构造成大模型所需的指令对形式,从而支撑领域模型的构建;针对大模型知识库应用,数据件提供多种向量表征的方法,可形成向量索引库、图索引库等多种形态,支撑大模型调用以快速实现搜索增强生成(Retrieval-Augmented Generation, RAG)类应用。


图3 数据件在大模型场景下应用的示意图




总结及展望




本文介绍了一种数据要素标准化抽象的方法——数据件,主要面向数据要素大范围流通利用,从计算处理的角度出发,建立数据要素的标准化高级抽象,从而促进数据要素的价值释放。文章通过梳理数据要素标准化面临的挑战,提出了数据件的统一抽象思路,并从数据件的定义、基本结构、组织以及使用四个方面阐述了数据件的具体内涵与构建方法。


数据件还有诸多方面有待进一步研究,包括:

1.数据要素价值评估。对数据要素价值的评估是指导高质量数据件构造的理论基础,需要相应的理论建模与价值运算体系的构建。

2.动态数据要素支持。除典型的静态数据要素通过批量处理封装之外,数据件还需要适配流式动态类的数据要素。

3.数据能力体系的完善。除了面向大数据分析、大模型训推之外,还需要针对其他应用(比如科学计算等)完善数据要素能力标化的技术体系。



孙凝晖

CCF理事长、会士。中国工程院院士。中国科学院计算技术研究所研究员。主要研究方向为计算机体系结构、高性能计算机。snh@ict.ac.cn


郭嘉丰

CCF专业会员。中国科学院计算技术研究所研究员。主要研究方向为大数据智能分析与检索。guojiafeng@ict.ac.cn




点击“阅读原文”,查看更多CCCF文章。

中国计算机学会
中国计算机学会官方订阅号,为CCF会员及计算领域的专业人士服务。
 最新文章