-- 《华为数据之道,Enterprise Data at Huawei》,华为公司数据管理部,机械工业出版社,2020年10月
================================
目录:
Chapter 0. 序和前言
第一部分:数据治理的的体系和框架
Chapter 1. 数据驱动的企业数字化转型
Chapter 2. 建立企业级数据综合治理体系
Chapter 3. 差异化的企业数据分类管理框架
第二部分:数据治理的三项重点建设任务
Chapter 4. 面向“业务交易”的信息架构建设
Chapter 5. 面向“联结共享”的数据底座建设
Chapter 6. 面向“自助消费”的数据服务建设
第三部分:数据治理的三项关键能力
Chapter 7. 打造“数据孪生”的数据全量感知能力
Chapter 8. 打造“清洁数据”的质量综合管理能力
Chapter 9. 打造“安全合规”的数据可控共享能力
第四部分:数据治理未来的思考
Chapter 10. 未来已来:数据成为企业核心竞争力
===============================
Chapter 0. 序和前言
1、为什么进行数字化转型?提升运营效率,改进效益
2、华为规划的数字世界是什么样子?业务对象、业务过程和业务规则的数字化。华为希望构造一个实现感知、联接和智能的数据平台。感知是物理世界和数字世界之间形成完整且有效的映射,联接是把各种离散的数据相互联系成有机整体。智能是在这个基础上加入一些大数据和高级模型算法。
3、如何进行数字化转型?先解决数据孤岛的问题,再进行深入的数据治理,实现数据随需共享,敏捷自助、安全合规。数据化转型是个持续优化的过程,只有起点,没有终点。
4、数字化转型要坚持业务和技术的双轮驱动,而连接双轮的轴就是数据。通过数据科学治理、数据平台建设、数据分析和建模,把数据变成服务。
5、数据的潜在的应用场景很多,但是企业只有将数据与自身业务相结合,从业务实际问题出发,结合数据分析技术找到解决方案,并及时变现,才有真正的意义。
===============================
Chapter 1. 数据驱动的企业数字化转型
1、非数字原生企业的数字化转型挑战
1.1 业务特征:产业链条长,多业务并存
1.2 运营环境:数据交互和共享风险高
1.3 IT建设过程:数据复杂,历史包袱重
1.4 数据质量:数据可信和一致性的要求程度高
2、数据化转型归根到底就是要解决企业的两大问题,成本和效率,并围绕“多打粮食,增加土地肥力”而开展。
3、2016年华为变革战略规划,明确要面向用户(企业用户、消费者、员工、合作伙伴、供应商)实现ROADS体验,持续提升效率、效益和客户满意度。
4、ROADS:实时real-time,按需on-demand,全在线all-online,服务自助DIY和社交化Social
5、华为数据工作的愿景:实现业务感知、互联、智能和ROADS体验,支撑华为数字化转型。
6、华为数据工作的目标:清洁、透明、智慧数据,使能卓越运营和有效增长。
================================
Chapter 2. 建立企业级数据综合治理体系
1、华为数据治理体系框架:建立公司级的数据治理政策 ;融于变革、运营与IT的数据治理 ;建立业务负责制的数据管理责任体系
2、建立公司级的数据治理政策: 华为数据管理总纲(信息架构管理原则,数据产生管理原则,数据应用管理原则,数据问责和奖惩管理原则)、信息架构管理政策、数据源管理政策、数据质量管理政策
3、融于变革、运营与IT的数据治理:建立管理数据流程、通过变革体系和运行体系进行决策、数据治理融入IT实施、通过内控体系赋能数据治理
4、建立业务负责制的数据管理责任体系:任命数据owner和数据管家、建立公司层面的数据管理组织
5、业务即行为、行为即记录、记录即数据
================================
Chapter 3. 差异化的企业数据分类管理框架
1、华为根据数据特性及治理方法的不同对数据进行了分类定义:内部数据和外部数据、结构化数据和非结构化数据、元数据。
2、结构化数据包括基础数据、主数据、事务数据、报告数据、观测数据、规则数据。
2.1 基础数据用于对其他数据进行分类,在业界也叫做参考数据。基础数据通常是静态的(如国家、币种),一般在业务事件发生之前就已经预先定义。基础数据的管理重点是变更管理和统一标准管控。
2.2 主数据是参与业务事件的主体和资源,是具有高业务价值的、跨流程和跨系统重复使用的数据。主数据与基础数据都是在业务事件发生之前预先定义,但是主数据的取值不受限于预先定义的数据范围。
2.3 事务数据在业务和流程中产生,是业务事件的记录
2.4 报告数据是指对数据进行处理加工后,用作业务决策依据的数据。
2.5 观测数据是指通过观测工具获取的数据,观测对象一般为人、事、物、环境。
2.6 规则数据是架构化描述业务规则变量(一般为决策表、关联关系表、评分卡等形式)的数据,是实现业务规则的核心数据。
3、非结构化数据包括文档、图片、音频和视频等。非结构化数据的治理核心是对其基本特征及内容进行提取,并通过元数据落地来开展的,结构化数据和外部数据也是一样。
4、确保数据“入湖有依据,出湖可检索”成为华为元数据管理的使命和目标。
5、元数据是描述数据的数据,用于打破业务和IT之间的语言障碍,帮助业务更好地理解数据。元数据通常分为业务、技术和操作三类。
5.1 业务元数据:用户访问数据时了解业务含义的途径,包括资产目录、Owner、数据密级等。
5.2 技术元数据:实施人员开发系统时使用的数据,包括物理模型的表与字段、ETL规则、集成关系等。
5.3 操作元数据:数据处理日志及运营情况数据,包括调度频度、访问记录等。
6、元数据管理架构包括产生元数据、采集元数据、注册元数据和运维元数据。
7、元数据采集是指从生产系统、IT设计平台等数据源获取元数据,对元数据进行转换,然后写入元数据中心的过程。元数据来源可以是关系数据库,BI报表工具等。
================================
Chapter 4. 面向“业务交易”的信息架构建设
1、随着企业数据化转型的推进,华为公司越来越认识到信息架构的价值并不应局限于支撑IT建设落地,而是更好地管理企业数据资产,更好地提升整个业务交易链条的效率。
2、华为的企业信息架构(Information Architecture)是指以结构化的方式描述在业务运作和管理决策中所需要的各类信息及其关系的一套整体组件规范,包括数据资产目录、数据标准、企业级数据模型和数据分布四个组件。
3、在企业架构EA的范畴内,信息架构IA也主要通过业务对象实现与业务架构BA、应用架构AA、技术架构TA的架构集成。
4、华为数据资产目录分为5层,L1为主题域分组,L2为主题域,L3为业务对象,L4是逻辑数据实体,L5是属性。
5、信息架构原则:建立企业层面的共同行为准则
5.1 数据按对象管理,明确数据Owner
5.2 从企业角度定义信息架构
5.3 遵从公司的数据分类管理框架
5.4 业务对象架构化、数字化
5.5 数据服务化,同源共享
6、信息架构建设核心要素:基于业务对象进行设计和落地。企业在设计业务对象时,围绕支持企业运作和管理的重要人、事、物去识别。
7、信息架构向IT侧落地的主要交付件是数据模型。华为将数据模型分为三层,概念数据模型,逻辑数据模型,物理数据模型。
8、华为在传统信息架构的基础上,提出了面向数字化转型的扩展:对象数字化、过程数字化、规则数字化,并打造与之相应的能力。
================================
Chapter 5. 面向“联结共享”的数据底座建设
1、华为的数据底座由数据湖、数据主题联接两层组成,将公司内外部的数据汇聚在一起,并对数据进行重新的组织和联接,为业务可视化、分析、决策等提供数据服务。
2、数据湖是逻辑上各种原始数据的集合,除了“原始”这个特征外,还有“海量”和“多样”的特征。数据湖原则上不对数据进行清洗和加工,但对于数据资产多源异构的场景需要整合处理,并进行数据资产注册。
3、数据主题联接是对数据湖的数据按业务流/事件、对象/主题进行联接和规则计算等处理,形成面向数据消费的主体数据,具有多角度,多层次,多粒度等特征,支撑业务分析、决策与执行。基于不同的数据消费诉求,主要有多维模型、图模型、指标、标签、算法模型5种数据联接方式。
4、数据入湖对的6个标准:明确数据owner,发布数据标准、定义数据密级、认证数据源、数据质量评估、元数据注册。
5、数据入湖的方式主要有物理入湖和虚拟入湖两种。
5.1 物理入湖是指将原始数据复制到数据湖中,包括批量处理、数据复制同步、消息和流集成等方式。
5.2 虚拟入湖是指原始数据不在数据湖中进行物理存储,而是通过建立对应虚拟表的集成方式入湖,实时性强,一般面向小数据量应用。
6、非结构化数据入湖包括基本特征元数据入湖、文件解析内容入湖、文件关系入湖和原始文件入湖4种方式。其中基本特征元数据入湖是必选内容,后面三项可以根据分析诉求选择性入湖或延后入湖。
================================
Chapter 6. 面向“自助消费”的数据服务建设
1、数据服务是基于数据分发、发布的框架,将数据作为一种服务产品来提供,以满足客户的实时数据要求,它能复用并符合企业和工业的标准,兼顾数据共享和安全。
2、数据服务具体分为两大类,数据集服务和数据API服务。
2.1 数据集服务最主要的特征是由服务提供方提供相对完整的数据集合,消费方访问数据集合,并自行决定接下来的处理逻辑。不允许将数据湖中跨业务对象的多个资产合并并封装为一个数据服务。
2.2 数据API服务是由数据提供方响应消费方对的服务请求,提供执行结果。
3、在提供数据的可供应性之后,企业应该帮助业务更便捷、更准确地找到它们所需要的数据,这就需要打造一个满足用户体验的数据地图。数据地图提供数据搜索、排序推荐、数据样例、资产/用户画像等关键能力。人人都是分析师,打造业务自助分析的能力,比如通过拖拉拽即可快速产生分析报告。
================================
Chapter 7. 打造“数据孪生”的数据全量感知能力
1、2003年,Michael Grieves教授首次提出了“与物理产品等价的虚拟数字化表达”的概念,并给出定义:一个或一组特定装置的数字复制品,能够抽象表达真实装置并可以以此为基础进行真实条件或模拟条件下的测试。数字孪生Digital Twin由此概念衍生并沿用至今。
2、数据感知可分为硬感知和软感知,
2.1 硬感知可分为9类,条形码和二维码,磁卡,RFID,COR和ICR,图像数据采集,音频数据采集,视频数据采集,传感器数据采集,工业设备数据采集。
2.2 软感知分为3类,埋点,日志数据采集,网络爬虫。
3、非数字原生企业不可能构建物理对象100%的镜像数字孪生,也完全没有必要这么做。每个数据孪生实际上只是对象的最有价值的一个或几个方面的数字模型。
================================
Chapter 8. 打造“清洁数据”的质量综合管理能力
1、ISO9000 标准对质量的定义是“产品固有特性满足要求的程度”,其中“要求”指“明示的、暗示的或必须履行的需求和期望”,强调“以顾客为关注焦点”、
2、华为数据质量指数据满足应用的可信程度,从六个维度描述:完整性、及时性、准确性、一致性、唯一性、有效性。
3、华为以ISO8000质量标准体系为依据,打造了PDCA持续改进的数据质量管理框架。
4、数据质量规则是判断数据是否符合数据质量要求的逻辑约束,包括单列、跨列、跨行、跨表数据质量原则。
5、通过组织、流程、IT三个方面的能力保障,使数据质量管理系统化,秩序化,常态化。
================================
Chapter 9. 打造“安全合规”的数据可控共享能力
1、数据安全治理绝不是一套IT工具组合的产品级解决方案,而是从决策层到技术层,从管理制度到工具支撑,自上而下贯穿整个组织结构的完整链路。
2、内部信息密级范围内五类:外部公开,内部公开,秘密,机密,绝壁。
3、隐私保护规范主体包括三个部分:个人数据分类、分级标准;个人数据保护基线;流转审批层级
4、数据风险识别:传统的元数据人工标识方案,通过规则、AI自动推荐方案
5、数据保护措施
5.1 不涉及绝密或敏感个人数据:明文存储,效率优先
5.2 涉及绝密和敏感个人数据:存储保护(面向表级管理的高仿区隔离、透明加密和基于字段级别的对称加密和静态脱敏)、访问控制、可追溯
6、数据安全和隐私保护能力架构
6.1 事前预防能力:风险标识,数据保护,授权控制,访问控制
6.2 事中预警:风险探针,比如引用业界DLP数据防泄漏技术,包括网络流量监控,用户行为分析等
6.3 事后追溯能力,日志追溯,引入数字水印等
================================
Chapter 10. 未来已来:数据成为企业核心竞争力
1、2019年10月,《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》,首次把数据作为与劳动、资本、土地、知识、技术、管理并列的生产要素。
2、围绕数据这一生产要素需要考虑,第一,提高数据资产的利用率,第二,如何降低数据的运行维护成本。
3、数据生态建设目标是:从依赖管理手段到依赖自动化技术,增强数据管理的可信、透明;通过基于密码学和区块链技术的智能合约代码化,支撑商业生态系统对的数据安全交换;构建统一标准的数据交换空间,实现与客户、合作伙伴协同的数据生态体验。
4、随着以算法、算力和数据为基础的人工智能的发展和广泛应用,我们可以认为出现了第四个世界- 机器认知世界。
5、物理世界,人类认知世界,数字世界,机器认知世界将构成全新的智能世界,数据将成为四个世界相互联接互换的枢纽。
===============================