2025年1月4日,由CIO时代主办、新基建创新研究院提供智库支持的“AI引领的数字未来”新年论坛暨颁奖典礼在北京隆重举行,百余位来自政府、央国企、金融、制造、能源、新零售和互联网等多个领域的行业专家、研究学者、优秀CIO群体和科技企业代表等大咖欢聚一堂,共同探讨数字化时代的发展趋势和创新实践。会上Datablau数语科技创始人&CEO王琤带来《数据治理与数据资产管理最佳实践》的主题分享。以下是经过编辑后的演讲内容实录。
Datablau数语科技创始人&CEO 王琤
精彩观点
基于为国内 300 多家企业提供数据治理服务的经验,我总结了数据治理的建设路径。前期,企业需要搭建组织架构与制度体系,成立数据治理委员会和数据管理部,并发布元数据、数据标准、数据质量等相关管理制度。其中,确定数据标准或企业级数据模型是关键节点,这需要从业务和系统两个视角出发,自上而下和自下而上相结合,同时参考行业标准,统一业务口径。有了数据标准后,通过数据模型将其落地,落地方式包括在云端系统(TP 侧)或数据中台、数据底座(AP侧)上实现,最终形成企业数据资产。
在 AI 时代,算力和算法已不再是最大瓶颈,如何做好数据工作,这是实现 AI 价值的核心。我在数据管理领域已有 20 年经验,曾负责Erwin 的全球开发工作长达 11 年。Erwin 是数据库模型设计的常用工具,学计算机科学专业的人在大学学习数据库原理时可能会接触到。2016 年我创业成立 Datablau,目前公司已服务众多国内大型企业。
今天的分享主要涵盖几个方面:一是华为内部数据治理的实践历程,我们在创业之初就与华为深度合作,至今合作仍在持续;二是探讨数据底座与数据架构的关系,以及五级架构相关内容;三是数据血缘相关话题。
Datablau数语科技概览
Datablau 数语科技的核心产品包括数据模型平台、数据资产管理平台(涵盖元数据、数据标准、数据质量等模块)、数据资产目录平台、 数据安全管理平台等。在去年上半年,我们最新发布了3款新产品:数据架构管理平台、数据资产开发平台以及数据血缘链路监测平台
目前,Datablau 数语科技服务10+行业,包括泛金融(银行、保险、证券、基金)、高端制造、国央企等,其中超 50% 的行业头部客户都在使用我们的数据治理平台工具,构建数据治理体系。自 2019 年与华为合作以来,南网、国网、中交集团等大型国央企,以及部分排名靠前的汽车主机厂、家电企业和国有大行都成为我们的客户。
深耕行业多年,我们也备受权威咨询机构的关注,入选ForresterNow Tech™,成为亚太地区唯一入选的机器学习数据目录(MLDC)专业厂商;入选Gartner 中国数据治理代表厂商;在IDC 去年公布的《中国数据治理市场份额,2023——为 GenAI 做好准备》中,我们的市场占有率位居数据治理专业厂商第一。
基于300+大中型企业数据治理实战经验的累积,我总结了数据治理的建设路径。2006 年,我参与了建行新一代建设项目,这是国内数据治理的标杆项目。不同企业数据治理的时长不同,有的已开展近 20 年,有的只有三五年,但基本能在这个建设路径中找到对应阶段。
前期,企业需要搭建组织架构与制度体系,成立数据治理委员会和数据管理部,并发布元数据、数据标准、数据质量等相关管理制度。确定数据标准或企业级数据模型是关键节点,这需要从业务和系统两个视角出发,自上而下和自下而上相结合,同时参考行业标准,统一业务口径。有了数据标准后,通过数据模型将其落地,落地方式包括在云端系统(TP 侧)或数据中台、数据底座(AP侧)上实现,最终形成企业数据资产。可以通过数据质量和数据标准核标落标管理看板来衡量数据资产的质量和建设成效。这个过程周期较长,不能急于求成,全域数据治理并不现实,应按业务域专项推进。完成这些后,对存量系统的技术原始数据与数据标准进行盘点,形成数据资产目录,向业务部门开放,业务部门可据此申请数据服务。
当前,新的应用场景不断涌现。国家推动数据资产入表,数据安全合规要求也日益严格,同时出现了按业务场景进行数据治理的需求。这些都依赖数据链路监控,需要梳理业务流程和 IT 数据链路。数据资产入表方面,一些企业已将工时等信息录入数据资产,为成本法入表提供依据,未来我们还将探索市场法、收益法在数据资产衡量中的应用。此外,数据治理与 AI、大模型的结合也是热点。目前行业内多是单个业务域的应用,如财务、人资,未来企业私域场景需要跨业务域的应用,这就需要数据资产网关,将非结构化数据转化为结构化数据,并融入数据治理上下文,为 AI 应用提供支持,减少 AI 的 “幻觉” 问题。
华为数据治理实践
Datablau凭借国际的视野,专业的产品,于2019年正式与华为流程与IT部合作,重点参与建设华为底座的基础数据模型管理,践行数据入湖和数据资产一体化管理,经验收录于《华为数据之道》。华为数据治理始于财经域和供应链域,当时孟晚舟女士担任 CFO 兼数据 Owner ,财经域是数据治理的核心。2021 年,华为因去美国化,剔除 Oracle 的 ERP 系统,开展泛 ERP 项目,重新梳理数据,推出 Meta ERP 项目,如今华为每天有 3000 人使用我们的数据建模工具助力数字化转型。
起初,华为存在数据模型提交与落地 “两张皮” 的问题,提交的数据模型看似合规,但数据库物理层却缺乏规范。为此,华为采用一套信息架构,展现成四种形式:第一种是数据架构本身,通常分为层次结构,类似一棵树。第二种是ER图,主要用于数据模型的标准表达,适合数据专业人员,业务人员也越来越能理解。第三种是数据标准,这是最小粒度的管控,例如客户编码的定义、字段名称、长度精度和数据类型。第四种是数据分布,更多地涉及业务架构流程图。
在开发数据产品或业务系统时,模型设计是关键环节。模型评审通过后,会触发四件事:一是将模型同步到资产目录,供业务人员搜索和申请访问;二是数据入湖,但入湖有标准,避免数据湖变成垃圾场;三是确保设计态与生产态一致,通过模型基线比对生产元数据;四是模型管控的有效性。
数据底座与数据架构
数据中台和数据治理常被混淆。数据底座分为物理层和逻辑层。物理层关注存算能力,逻辑层则落实数字化转型蓝图,包括数据资产目录、数据架构、数据标准和数据质量等。业务架构指导数据架构、应用架构和技术架构,同时管控业务系统和数据中台。
以采购流程为例,业务表单对应多个业务对象,业务对象对应逻辑模型,最终落实到物理数据库。这样,从主题域分组到业务对象,再到逻辑实体和数据库表结构,形成了完整的层次结构。同时,CIO需要有架构管控概念,通过CRUD矩阵查看业务对象和业务系统的关联,识别架构风险。
数据血缘的价值场景
数据血缘是今年的爆发点,与数据安全合规和数据资产入表紧密相关。数据血缘分为横向和纵向,横向是数据加工链路,纵向是语义层面,即数据架构与业务架构的结合。现在,不仅要关注字段级血缘,还要关注算子级血缘,即字段之间的关系。
我们最新推出的Datablau数据血缘链路监测平台支持主流数据库存算平台,可以在数据仓库中查看表的流转状态,发现问题可以切换到对应脚本查看。还可以进行数据安全分类分级,并通过数据血缘传导。数据血缘涉及解析准确度、算子级血缘和性能。
·END·