导读 本文将分享蚂蚁集团在大数据治理实践过程中沉淀的经验。
1. 数据治理概况
2. 数据质量治理
3. 数据计存治理
4. 对数据治理未来的思考
首先,要保证整个数据在业务上是可以流转起来的、是可用的,包含两个基本要求:首先是要符合最近关注度非常高的用户隐私、反洗钱等监管法律的要求,保障数据是合规的;第二是要保证数据在各个环境上的存储、流转和使用都是安全的。这些是在安全合规领域要重点去解决的问题。 其次,交付给业务的数据不能错漏,也不能延迟,这属于数据质量范畴,这个领域主要解决让业务敢用数据的问题。 另外,大数据领域有非常多的人在协同开发,希望产出的数据是有序的,既是可复用的又是好用的,所以,需要重点做好数据架构的规划和治理,包括数据模型设计、数据标准规范和主数据等。 最后,数据是一个闭环的生态,从拿到数据到加工数据,再到赋能业务,希望整个过程是可持续的,在这个可持续的过程中需要有数据价值的体现。价值可以分成两类,一类是负向的价值成本,包括数据运转过程中计算、存储、数据资产带来的机器资源成本;另一类是正向的业务价值,是指数据被使用消费过程中发挥的价值。业界一直在关注数据的正向价值,从数据要素来讲,核心是将数据从原来的资源或者产品,转化成面向未来的商品。对数据价值的衡量是未来一大趋势。
数据质量治理
1. 数据质量产生分析
2. 数据质量治理挑战
业务方面:蚂蚁业务发展快,变更非常多,任何一次变更出错都可能有很大的影响。无论从用户体验,还是智能化角度,对数据产出的时效都有非常高的要求。 数据方面:大部分是金融层面的业务,对数据质量的要求也非常高。 用户方面:整条链路上有非常多的角色参与,比如有 BI 团队、技术团队、数据团队和产品运营团队等等。每个人的基本认知和专业水平都不一样,人为操作可能也会带来一定的风险。
3. 数据质量顶层设计
事前,做到整体的研发质量保障,包括测试、仿真等工作; 事中,重点解决变更风险的管控; 事后,当出现问题的时候,要确保整个生产运行是高可用的,需要重点建设主动发现和快速恢复的能力。 另外,还成立了数据和技术的联合蓝军对整个保障体系去做攻击,来验证布防是否可靠。
能力层,包含质量管控、质量识别、故障恢复和风险治理的能力,并建立了统一质量元数据中心,为后面 AI 加质量的尝试及相关能力的演进打下了一个非常好的基础。建议在做质量风险保障时,要重视元数据的建设,而且前期就要做好规划。同时,围绕元数据,我们结合大规模机器学习等算法去尝试探索智能化的波动、异常、离散等异常及风险点的识别。 系统层,主要围绕数据测试、发布管控、变更管理、质量监控、应急演练和质量治理建设六大产品的能力。 业务层,作为数据中台,产品能力开放给业务数据团队、质量团队使用,帮助建设每个业务数据质量的门户,包含整个应用分级管控研发流程、全链路的质量监控运维平台等。
5. 数据质量治理方案
事前要做到可管控、可仿真和可灰度,在需求阶段做分级变更定义,在研发阶段做规范、测试和发布,在预发阶段做仿真回放和 AB 灰度; 事中要做到可监控、可演练、可应急,数据全链路和应急监控等各个环节都能做演练和巡检; 事后要做到可度量、可审计和可持续,包括事件管理、问题故障审计报告、案例学习和晋级可晋级考试等,蚂蚁每年会有一次公司级别的数据红蓝攻防,也有一年两到三次的必须参加的安全生产晋级考试的运营活动。
如何不影响生产?因为数据是一条链,上游污染了,整条数据就污染了,而且恢复成本极高。在生产环境中,构建仿真无损环境进行无差别的供给,通过攻防平台相应的数据链路在无损环境里面去植入,从而不影响生产环境。 如何选择攻击对象?主要选择数据入口,比如数据同步、回流任务、人群标签、有时效性保障的业务基线场景等,要重点关注有止损、有舆情的场景,比如算钱等更重要的且效果更显性化的场景。 如何有效地攻击?要确保所有的攻击字段能够帮助业务发现有效的生产风险,核心是通过历史故障的分析和平移,以及重大业务变更的演练。另外,在核心的攻击能力方面,构建了 SQL 注入等能力,以及数据大幅度波动、内容格式突然异常、资金字段错位、任务重复的回流等多种方法。
数据计存治理
1. 数据计存治理面临的挑战
2. 数据计存治理核心思路
在组织设计层面,成立了数据架构小组。从架构域的维度统筹整个公司的数据架构和成本治理的工作。设立数据管理岗位和晋升的通道,制定研发协作机制和流程。其中,数据管理的岗位和晋升通道的设置非常关键,因为数据治理和数据管理,与数据研发,虽然都属于数据域领域,但能力与技能要求是不一样的,成长需要以不同的视角去看,所以设计了独立的晋升通道。 在规范制定层面,产出了蚂蚁数据架构规范、研发管理规范和数据治理管控规则。 在平台建设层面,研发侧正向地提升研发质量和管控资产无序增长,治理侧搭建平台化的治理工具,形成一套自动化的治理机制。
3. 数据计存治理策略
开源:数仓原来的资源是独享的,数仓和在线是分开的,而且数仓资源需求量非常大。在线数据库的资源使用率不高,基本在 25% 左右,夜间使用率可能更低,而输出储藏在夜间有非常高的计算资源需求,能不能把在线数据库空闲的资源共享给数仓离线计算呢? 节流:整体逻辑是数仓从任务和数据的角度尽可能去优化和节约,包含存储治理、计算治理、任务治理。
4. 面向开源的数据计存治理方案
将数仓应用层的数据访问统一收敛到数据中间层; 对数据中间层的热数据做跨层冗余; 将业务进行分级,对于高保的业务给予独占的资源,跟在线资源做适当的隔离,防止资源挤占。
引擎优化,比如参数优化,调度优化; 模型优化,比如数仓架构的链路、数仓设计、代码语法、数据压缩格式等; 代码优化,比如 join 的优化、UDF 的优化等; 资产管理优化,如果整个链路在业务上都没有应用,则考虑链路的整体下线,实现更敏捷的下线。
高频访问:热点数据,1 SSD + 3 HDD 热数据:访问频率正常,3HHD 归档数据:数据需要长期保留,访问频次低的,1.375 RAID HDD 归档模式 冷备存储:数据需长期保留,访问频次极低(比如监管数据等),单独建立了冷备集群,压缩比非常高,但是读取时耗费的计算资源比较高,一般是以 90 天的逻辑长期保留。
对数据治理未来的思考
一体化:数据在哪里治理就在哪里,随着大模型、ChatGPT、AI 的出现,以及蚂蚁自身业务的发展,目前关注在传统离线上的数据治理,未来会转变为基于湖仓一体(在线、离线、实时、图计算等)做一体化的数据治理,解决成本、合规和效率的问题。 价值化:数据作为生产要素,从内部的产品变为流通的商品,涉及到共享交易和开放,在数据确权价值的衡量及隐私保护方面去探索和突破价值点。 智能化:加入大模型做更智能的数据治理,原来是人工走向规则,接下来会探索更智能的方向。