日前,普元大数据首席顾问李书超在2024中国国际大数据产业博览会,围绕多元运营和业务扩展等典型实践,分享《搭建数据产品体系,推动数据高效流通》的核心技术理念与数据要素价值。
演讲内容主要包括了四部分:数据资产形成与管理、产品设计开发过程、产品持续运营管理、数据全生命周期安全。
各位嘉宾好,很荣幸参与数博会。一年一度数博会,一点一滴讲要素。借数据要素活动论坛和大家分享下最近一年多我们在数据要素流通与建设领域的心得体会。我分享的主题是《搭建数据产品体系,推动数据要素的高效流动》。“数据产品”听名词大家都知道,但是其定义、内容、边界在整个业界并不是特别清楚。为什么讲数据产品,如今都在提数据要素流通。举个例子,某直辖市的数据交易所的产品平台包含了数据产品交易平台、数据资产交易平台、数据交易平台。使用哪一个呢?其实有很多内容都存在一定的混淆。从国家战略上说,我们推进数据要素流通、数据流转和交易。从未来整个数据要素流通的趋势上看,未来以区政府、监管机构、数据局、数据交易所、登记中心、企业、数商等多主体形式将进行互相参与。现在存在一个问题:流通的是什么?大家都知道流通的是数据,怎么把数据给别人?这有很多种的形式,做成一张报表或者一个App,不仅可以卖数据,还可以卖标签、卖模型、卖算法、卖知识。卖的数据都是数据,但形态是各种各样的。那么怎么标准化这种形态?就像社会商品交易一样,买个手机一定要知道是什么形态。数据产品大家都知道要做,最后做成什么样是未来我们要探究的。数据产品定义不应该由我们来下,可能由数据标准委员会或行业主体来定义数据标准。下面结合我们的实践,我们来看看数据产品是什么形态的,该如何来运转。数据产品一定包含资产。把数据卖给别人,通过一个APP,一个应用让别人来获取,本质是给他资产。在做这样的数据产品,做API或报表,做一个别人可以查询的功能,一定包含资产,而且这个资产一定是可切割的,因为要交接给别人。而买的数据产品可能有两种做法。第一种是获取数据并使用。类似大家常见的,比如买法人数据,有启信宝、天眼查,但是数据的所有权并不在购买方,大部分在签协议时会被要求不可售卖。第二种是单一来源数据买断。现在大家都讲数据资产入表,不知道大家有没有想过一个企业入表后,资产去抵押、授信、贷款,如果还不上怎么办?如果是固定资产银行来法拍,无形资产怎么办呢?比如公交集团资产入表了,把城市的公交运营数据入表了,如果万一有一天还不上拿走的是什么?是拿走了所有权,以这个资产衍生的相关产品以及对外创造的价值被收走了。入表的是一个持续的数据资产,一定要把可交易的产品和资产的关系及边界理清楚,这样无论交割或销售时都是可以非常清晰的。怎么做一个产品?我们做的是一个API、报表、应用,以什么方式,怎么来开发,数据产品和传统的应用有什么关系和差别。有产品就有运营。数据怎么流转,别人怎么来购买,对内外怎么来运营。个人信息安全、法人信息安全、空间地理信息安全,涉及国家安全的信息等等很多内容都要考虑。一般大家讲资产,更多时候是从技术的视角。但对内创造业务价值视角来看数据资产,它不仅仅是一条记录,还代表业务含义。例如一个表里可能有一万、两万的数据,没有表头就没有意义。很多时候我们要知道它的含义,而且要确权,到底这个数据资产是哪个部门的,确权收益,要做收益的分享。举个例子,政府数据以上海为例,有个行业叫汽车清洗行业,你在一个洗车行办了一张卡,如果这个洗车行倒闭了,钱无法要,正常是打12315,但对方告知不归市监局管。后来我们查了一下归上海绿化市容管理局管。一业一证,汽车清洗行业的证是由上海绿化市容管理局来发。所以,我们会从业务中梳理业务规则、定义。从ERP,MES,财务、OA等应用中,把数据的内容挖掘出来,看到这张表可能不知道是什么含义,但通过应用中挖掘的数据就可以知道其含义了。再通过技术分析融合,形成以数据模型为基础的资产。资产的核心是模型,从物理模型还原到技术模型、概念模型,从技术到相关的逻辑设计,到业务的实体,最终形成资产目录L1、L2、L3……本质上,这是一个层级模型关系。数据资产实际上是为了形成数据产品。有了资产后我知道资产在哪个数据库,哪个系统,知道这些资产关联了哪些流程、标签、图谱、服务以及资产又创建了哪些资产。举个例子,劳动密集型制造业或建筑业,有一个用工人员的信息表。基于人员的用工,可以做出一个年龄段统计资产表。通过服务整合形成一个产品,一个对当前行业用工情况的数据产品。建筑业讲年龄老龄化、建筑要智能化,工业机器人。本质上,就是用工人员的年龄结构老年化,大部分人的年龄大多在45岁以上。这个产品对政府的政策研究,建筑现代化的企业很有价值,通过观察经过几年后就没有工人了。所以现在就要大力发展其他的产品,类似这样我们就可以通过资产创生出很多产品。目前,大部分的数据产品做得比较好的主要是面向信贷的应用。举个例子,某电网发布了制造业指数,可以看出这个企业有多少用电量,这个企业的用电量增加还是降低。还可以深度分析法人企业风险,给金融机构做信贷扶持使用。我们发现,更多时候我们要开发和挖掘创新的点子形成数据产品,这些产品应用到业务流转,研产供销服的每个环节,如何优化设计、市场,这就是我们希望未来通过一些零散资产聚合后形成多视角多维度的资产最终搭建数据产品来让人使用。六、数据产品实现:需求、设计、开发、测试、封装、发布的全过程我们要充分理解产品的需求,这些需求可能是一些市场上搜不到的需求,也可能会转化成业务上的需求,转化成数据业务架构、信息模型。我们要有建模的能力,不仅仅是建一个表,更多是业务、产品建模。数据产品有别于传统应用最大的差别是一定要有数据,没有数据就不要讲数据产品。很多的业务应用不需要初始化数据,有的业务会把数据给你,比如ERP会有人填入库单出库单,在数据产品里没有人填的情况下首先要准备好数据。数据产品开发分两条线,开发功能和开发数据。开发功能指的是做一个API、报表、APP;开发数据指的是把数据收集回来,整合、加工、计算、标签、画像、算法。数据产品要封装。如果入表了,把这部分资产割给别人其实是把数据也割给别人。数据产品的边界在哪里?输入输出、用户权限、关联部分、集成接口、资源使用、数据传输等等这些方面都是在做数据产品中所要重点考虑的,每个环节都会有相关的办法和要求。对内,数据产品不仅仅是交易。近年我们协助过的大型央国企都想把数据内部灵活运转起来,那么数据怎么流转,权属怎么划分?这些都是数据产品对内所要考虑的问题。对外,企业准备数据资产、数据产品到登记机构,未来像证券一样要有独立的登记机构,有第三方数商做质量评估,数据交易所进场交易,企业和企业之间进行数据交易,这些都是运营的一部分。数据交付不能产生问题。对内交付可能会导致使用方不满,对外交付在协议中就要约定。发现问题、治理问题、解决问题,作评价。三权指持有者、加工者、运营者来分配。多法人下如果把数据产品、数据资产交易出去,创造了价值就要进行分配,如何分配?按劳分配或者谁占大头,要有一个分配方式。这三者之间未来要有定义,有互相的关系。在这里只是在我们的实践中去尝试了,相信未来有相关的行业指导,因为收益分配是很重要的原则。我们要持续鲜活地保证产品的更新,不断迭代才能够在市场上有竞争力。不得不谈的还有数据安全。我们不谈基础能力,本质上要基于资产、资产目录做安全分级。核心数据、重要数据都不是能交易的,大部分交易的都是一般数据,通常分级方法是金融业分五级,非金融业分四级,其中有很多复杂的场景。举个例子,不同的身份证号分级不一样。员工的身份证号可能是三级,客户的可能是四级,不完全绑定到一个类的字段上,而是绑定到一些场景、环境下建立数据分级。基于分级涉及到的安全能力:静态脱敏、动态脱敏、加密、权限、审计等,构建基于企业数据的全生命周期。数据安全法定义了数据处理的七环节,去年发了国标,在七环节上又补了数据销毁。最终形成了“数据全生命周期”——数据收集、数据存储、数据使用、数据加工、数据传输、数据提供、数据公开、数据销毁。我们是一家技术型企业,一直致力于覆盖客户核心关切领域的产品与解决方案,以国产化基座为统一平台,包含数据平台、低代码开发平台,从而构建数字化的应用和数据产品。我们有数据资产的全领域、全过程治理和管理,并基于数据资产构建决策分析,或者画像类、共享服务类、深度挖掘对内对外的数据产品。我们也协助很多大型企业做数据产品构建,支撑客户多元化的运营。
关于作者:李书超,普元信息大数据首席顾问。全面主持普元数据领域方案、产品规划建设,近20年数据领域咨询设计与项目建设经验,主导普元信息公司数据方案产品规划与研发,带领团队成功研发了普元信息公司数据中台系列产品,应用并服务了政务、金融、电信、能源、制造、工程建筑、物流、航空等多行业大型客户。