1
华为数据治理方法论与实践解决方案
一、引言
在当今数字化时代,数据已成为企业的核心资产。华为作为全球领先的科技企业,其数据治理方法论和实践解决方案具有重要的借鉴意义。本文将深入探讨华为的数据治理之道,包括其治理体系、信息架构、数据底座、数据质量和安全管理等方面。
二、数据治理概述
(一)定义
业界主流定义
IS/IEC、TRO38505 - 2:2018 认为数据治理是关于数据采集、存储、利用、分发、销毁过程的活动集合。
GB/T4960.5 - 2018 指出数据治理是数据资源及其在应用过程中相关管控活动、绩效和风险管理的集合。
国际数据管理协会(DAMA)定义为对数据资产资产管理行使权力和控制的活动集合(规划、监督和执行)。
(GB T 36073 - 2018)《数据管理能力成熟度评价模型》包括组织架构、岗位设计、团队建设、数据责任等内容,是各项数据智能工作开展的基础。
狭义与广义之分
狭义的数据治理指数据资源及其应用过程中相关管控活动、绩效和风险管理的集合,保证数据资产的高质量、安全及持续改进,类似数据管控,满足内部风险管理和外部监管合规需求。
广义的数据治理指面向客户数据资产,进行数据汇集、加工、使用与价值实现的全生命周期管理,通过建立数据管理体系,统一信息架构与标准,形成数据质量度量机制,建立企业数据平台,实现企业数据全流程贯通和数据价值应用。
(二)华为数据治理的背景
华为数字化转型对数据治理提出了多方面要求,包括保障数据质量、实现数据联接与服务、确保数据安全合规以及推动业务数字化等。业务与数据双驱动,加强数据联接建设,以数据服务方式满足业务自助式的数据消费诉求,同时确保海量内外部数据的安全合规,完善业务对象、过程与规则数字化,提升数据自动采集能力,减少人工录入,并基于统一规则确保数据源头质量以及数据入湖,形成清洁、完整、一致的数据湖,作为数字化转型的基础。
三、信息架构
(一)定义与作用
信息架构(IA)是企业架构 4A 中的重要组成部分,是以结构化的方式描述在业务运作和管理决策中所需要的各类数据及其关系的一套整体组件规范。
它是联接业务架构与应用架构、技术架构的桥梁,整合抽象业务对象、逻辑数据实体和属性,承接业务的数据需求,牵引 IT 的规划设计,应用架构依据业务对象规划功能,技术架构依据数据模型设计数据存储方案。
(二)内容
信息架构包括数据资产目录、数据标准、数据模型和数据分布四个组件。
数据资产目录通过分层架构表达对数据的分类和定义,厘清数据资产。
数据标准是业务定义的规范,统一语言,消除歧义,为数据资产梳理提供标准的业务含义和规则。
数据模型通过 E - R 建模实现对数据及其关系的描述,指导 IT 开发,是应用系统实现的基础。
数据分布是数据在业务流程和 IT 系统上流动的全景视图,识别数据的 “来龙去脉”,是定位数据问题的导航。
(三)价值
统一语言,消除歧义,发布业务术语及数据标准,提高沟通效率。
从数据视角识别业务流断点,发现业务改进机会点,通过信息架构和数据流设计,消除信息孤岛,支撑业务流打通,提升 E2E 运作效率。
拉通业务流,提升运作效率,厘清信息资产,满足用户消费,改善数据质量,有效支撑决策,推动集成共享,降低变革成本。
四、数据底座
(一)建设目标
统一管理结构化、非结构化数据,确保公司数据完整、一致、共享。
能够追溯数据的产生者、业务源头以及数据的需求方和消费者等。
监控数据全链路下的各个环节的数据情况,诊断数据冗余、重复以及 “僵尸” 问题,降低数据维护和使用成本。
打通数据供应通道,为数据消费提供丰富的数据原材料、半成品以及成品,满足公司自助分析、数字化运营等不同场景的数据消费需求。
保障数据安全可控,基于数据安全管理策略,利用数据权限控制,通过数据服务封装等手段,实现对涉密数据和隐私数据的合法、合规地消费。
(二)总体框架
包括代表处 MU 数字化运营、BG 数字化运营、FU/BU 数字化运营等业务流相关部分,以及数据资产管理、消费、报告、自助分析、实时可视分析平台、智能决策等功能模块,还有元数据管理、数据质量、数据地图、数据管控等数据相关部分,以及数据服务、主题联接等数据整合部分,数据源涵盖内部数据和外部数据。
(三)华为数据湖特点
逻辑统一,类型多样,包含物理表和虚拟表,有结构化和非结构化数据,涵盖销售、服务交付等多个领域。
有原始记录,入湖方式有 PULL(拉)+PUSH(推)两种,包括离线和实时入湖,有六项入湖标准,即明确数据 Owner、发布数据标准、认证数据源、定义数据密级、制定数据质量方案、注册元数据。
(四)数据主题联接
通过以业务流(事件)为中心联接、以对象(主体)为中心联接、智能标签、指标数据、算法模型等 5 类联接方式将跨域的数据联接起来,将数据由 “原材料” 加工成 “半成品” 和 “成品”,支撑不同场景消费需求。
(五)数据服务
采用 “保姆式” 开发模式和 “服务 + 自助” 模式,满足业务需求,“服务 + 自助” 模式下服务建好后,业务实现报表周期为 1 - 2 天,平均响应周期为 30 天。
(六)IT 平台
全流程丰富数据平台组件,包括数据标准管控、数据集成、数据管理、数据资产、数据服务、标签画像 & 数据可视化、数据运营等功能模块,涉及多种数据库和数据集成方式,实现数据从业务源头的标准化到数据服务的生成与发布等全流程贯通。
五、数据质量管理
(一)重要性
通过伊春空难案例说明数据质量的重要性,因管局气象数据库系统中人为操作错误输错机场代码,导致空难发生,凸显数据质量问题可能带来的严重后果。
(二)定义与特性
数据质量定义为数据满足应用的可信程度。
具有六大特性,包括唯一性(同一数据只能有唯一标识符)、完整性(无缺失和遗漏)、及时性(满足业务对信息获取的时间要求)、有效性(值、格式和展现形式符合要求)、准确性(真实、准确记录原始数据)、一致性(遵循统一的数据标准)。
(三)管理框架
领导力方面,自上而下打造数据质量领导力,明确数据质量管理基本原则及要求。
政策方面,制定数据质量政策。
管控方面,进行数据质量管控。
文化方面,营造数据质量文化。
持续改进方面,全面推进数据质量持续改进机制。
能力保障方面,不断加强数据质量能力保障,包括建组织、定责任、促改进,落流程、发规范、管执行,自动化、识异常、控风险。
(四)华为实践
数据质量度量运作机制从 “设计” 及 “执行” 两个方面评估数据质量综合得分,牵引数据质量持续改进,对领域所有业务对象的信息架构建设情况进行评估,聚焦关键数据对准六大特性进行评估。
发布度量报告,根据度量结果分析总结本度量期间数据质量状况,包括总体得分及趋势、领域得分分布、关键数据质量工作措施等内容。
六、数据安全管理
(一)与传统安全的区别
传统 IT 安全以防外来攻击为主要目的,而数据安全治理通过对数据内容的分级管控融入业务流程,以防非授权访问为主要目的。政企安全建设相对重视传统 IT 安全防范,对数据安全治理缺少建设思路和方法。
(二)目标
政企行业加速数字化转型,面临外部合规性、数据驻留问题以及安全威胁形势,同时内部数据大量汇聚需要共享,随之而来的安全、隐私、信任和道德问题增加,数据安全治理的核心价值是 “让数据使用更安全”。
(三)成熟度评估模型
数据安全能力成熟度模型(DSMM)包括数据生命周期安全、安全关键能力、能力成熟等级三个方面,等级 1 为随机、无序、被动的执行安全过程,等级 2 为计划跟踪,等级 3 为充分定义,等级 4 为量化控制,等级 5 为持续优化。
(四)防护措施
隔离(高防区),绝密与敏感个人数据原则上不入湖,入湖需 OWNER 确认数据保护措施,高防区内可选择加密或不加密。
存储保护,敏感个人数据必须加密,绝密资产必须加密,对于不同场景可采用透明加密、静态脱敏、动态脱敏(基于身份)等方式。
访问控制,可追述数据溯源,通过在数据中增加伪列、伪行等手段跟踪数据泄漏源头。
安全审计,基于日志等级数提供安全事件中事后追溯、定位问题原因及划分事故责任的重要手段。
2
部分PPT参考
END
免责声明:文字章节为公众号原创,文章中方案展示章节PDF\PPT等来源于各文库类平台,源头无从查找,仅供读者学习、参考,禁止用于商业用途。其版权归作者或项目实施方所有,本公众号不对所涉及的版权问题承担法律责任。若版权方认为本公众号侵权,请联系小编删除。本文章赞赏费,是小编收集整理该资料以及整理资料运营所必需的费用支付,资料索取者请尊重版权方的知识产权,支持版权方和出版社。文章中如有错误及事实错误等,请指出,便于读者获取更准确的信息。
【PPT下载方式说明】
“数字化星球”与“精益管理星球”文档最低1000+全网最多精品文件哦。咨询,方案,案例应有尽有!