导读 本文将介绍抖音集团管理数据、应对数据质量与效率挑战的策略,重点聚焦于如何通过指标服务提升数据产品的稳定性和可复用性。
1. 指标建设的痛点
2. 指标管理实践
3. 指标生产实践
4. 指标消费实践
5. 总结展望
01
指标管理的不统一:存在“同名不同义”或“同义不同名”的现象,使得仅依靠文档或基础管理平台难以有效管理指标。
指标口径的不统一:业务人员常面临指标定义不清晰、技术口径不明确的问题,这无疑增加了理解和使用指标的难度和成本。
指标消费的不统一:早期的指标定义和数据取数口径分散,导致在新的业务场景出现时,数仓不得不创建冗余的表和重复的指标,造成了资源的浪费。
第一层是指标生产,包括模型的设计,以及数据质量和稳定性上的一些保障方案。
第二层是指标管理,核心要解决的是指标的效率问题,还要保证指标的一致性。
第三层是指标消费,最终以指标专题这种方式实现指标一处定义多处消费的模式,以服务化的方式给到上游应用。
指标管理实践
1. 指标管理的核心问题
指标一致性问题:包括“同名不同义”、“同义不同名”以及指标间值冲突等问题。一致性是指标管理的基石,它直接影响数据的准确性和可靠性。
指标的持续保鲜和有效迭代:短期内研发指标相对容易,但长期维护其活力和有效性则更具挑战。为此,我们将从机制和流程的角度出发,建立保障措施,确保指标能够持续优化和更新,以适应不断变化的业务需求。
效率问题:包括指标定义和拆解的效率。在快节奏的业务环境中,快速响应和处理数据至关重要,要通过流程优化和技术迭代,提升指标管理的效率,以支持快速决策。
2. 整体协作流程
需求登记:首先,分析师需要在我们的指标平台上进行登记。这一步骤是整个协作流程的起点,通过平台提供的工具,需求得以明确和记录。
指标检查与拆解:数仓开发人员接到新需求后,首先检查该指标是否已经存在。如果尚未存在,开发人员将负责指标拆解,构建新的指标定义,包括原子指标和修饰词等,这是确保指标精确性和一致性的关键步骤。
模型创建与绑定:随后,从基建侧着手,开发人员创建相应的数据模型和表结构,并进行模型绑定。这一环节是将指标从概念转化为可操作、可查询的数据实体。
交付与应用:完成模型绑定后,新构建的指标最终交付给数据产品团队或分析师。这一交付不仅包括指标本身,还包括了指标的详细文档和使用指南。
全链路追踪:在整个指标的生命周期中,从模型绑定、指标分类归属到原子指标的对应,每个阶段都与指标消费环节紧密相连。这种端到端的流程设计,确保了每个指标的消费过程都是可追踪的,为数据的全链路追溯和优化奠定了基础。
3. 权责一致的组织设计
业务负责人:首先,业务负责人是需求和指标模型的提出者。他们通常是商业智能分析师或产品经理,拥有深厚的业务知识和专业背景。其职责是确保指标的原子定义和业务限定清晰无误,拥有最终解释权,是第一责任人。他们需要在各自领域内制定明确、无歧义的标准,保障指标建模的准确性和一致性。
数据应用层:紧接着,数据应用层的团队负责将这些指标模型转化为实际的数据产品。他们需要选择合适的实现方式,确保指标的准确实现和及时产出。与业务负责人的密切沟通是他们工作的关键,以确保对指标口径的理解完全一致,避免任何可能的歧义。
公共层数据团队:最后,基础信息的维护和管理由公共层数据团队统一负责,需要确保数据的一致性和可追溯性。
4. 如何保障指标的一致性
基础信息配置:涵盖数据域、业务过程、度量、修饰词、统计粒度、时间周期、指标单位和数据类型,这些是构成指标的基础元素。
指标拆解定义:细分为原子指标、衍生指标和复合指标。
原子指标由业务过程和度量构成。
衍生指标是在原子指标的基础上加入修饰词和时间周期。
复合指标则是通过四则运算或统计方法修饰词从衍生指标生成。
指标唯一性校验确保每个指标在系统中都是独一无二的。
原子指标和修饰词的相似性校验帮助我们避免指标定义的冗余和歧义。
5. 如何提升指标拆解效率
理念革新:首先,在理念上我们提倡“先聚焦核心”。我们认为,理想的指标管理最终形态可能是达到“无为而治”。我们根据业务特性和指标复用性,综合考量并制定拆解方案。例如,在短视频业务中,我们采取的是“先开发后拆解”的策略,以适应快速变化的业务需求。
流程优化:其次,我们通过梳理和沉淀业务过程、原子指标和修饰词,建立指标生产操作手册和指标树。这些措施有助于标准化和加速指标拆解过程。同时,我们还开发了批量化脚本,自动化常规的拆解任务,减少人工操作,大幅提升效率。
比如要投入到一条业务线上的指标管理,我们往往采取的一个策略是让偏公共层的专业数仓同学去系统性地梳理出一个业务过程,原子指标、修饰词是什么,最终把这条业务线上最核心的指标做好管理,并且会整理出相应的管理手册,推广到整条业务线上去,从而做好全员的指标管理。
6. 探索大模型自动拆解
7. 指标先生产后管理实践
指标生产实践
1. 指标生产的模型设计原则
2. 指标生产的质量保证体系
产品模块的梳理:了解每个产品模块的具体情况。
责任分配:明确每个模块的责任人,包括产品经理、开发人员和数据分析师(DA)。
保障标准:设定具体的标准,如产出时间、用户体验等,确保数据的准确性和及时性。
全链路血缘:分析模块之间的关系、消费情况和协同依赖,确保数据的一致性和可追溯性。
日常化管理:利用飞书群等工具,对异常告警进行播报和推送,实现数据质量的日常治理。
开发测试阶段:我们要求管理层的决策指标必须经过正确性、一致性和合理性的测试。
发布上线阶段:实施严格的变更管控,确保数据的稳定性。
线上运维阶段:从数据视角、工程视角以及应急机制出发,全方位保障数据的质量。
3. 指标生产的稳定性方案
首先,上游管理难。由于上游链路众多且保障能力参差不齐,因为有的可能是偏工程团队在管理,而且整条链路可能上游有的时候高达几十层,这使得上游管理的复杂性大大增加。这通常占到了整体故障的 40%。
其次,保障如何做到日常化。我们经常遇到优化后短期内效果显著,但随着时间推移,稳定性又逐渐变差的情况。
建立规范:我们定义了数据分层产出规范、指标新增和下线规范,以及研发规范,确保每一步都有明确的标准和流程。
链路优化:我们不仅优化了上游链路,还对计算任务进行了细致的调整,以提升整体的处理效率和稳定性。
日常化治理:关键在于量化稳定性问题,通过持续发现问题和优化推送,我们将治理工作融入日常。此外,在运维保障中,日常值班机制、SLA 签署和故障响应体系的建立也是我们稳定性保障中不可或缺的部分。
指标消费实践
1. 指标专题的概念和优势
搭建成本低:以目录结构管理,可以灵活添加指标/维度。
找指标快:体系清晰,信息一目了然。
跨集群、跨数据源:可以方便地跨集群、跨数据源联合分析。
智能路由:基于当前选择的维度或指标智能化地路由到一个稳定性、性能最佳的模型。
2. 指标专题的管理和维护
目录结构的灵活性:可以灵活地创建专题空间,管理员可以根据业务需求定义指标专题及其分类目录,确保业务指标体系的清晰展现。
权限分级的精细化管理:专题信息由管理员统一维护,确保了信息的可靠性。同时,支持多角色设定,包括业务线管理员、指标专题管理员、指标分类管理员,提高了操作的灵活性。
指标导入的便捷性:简化了指标导入流程,使得指标的添加和管理变得更加容易。
3. 指标列表-快速理解业户核心指标体系
可以帮助我们快速理解整个业务线的核心指标到底是什么。
灵活、清晰地展示指标优先级。
页面可作为业务模块指标体系直接分享。
4. 指标详情页-展现指标相关重要信息
业务详情页:这里汇聚了指标的核心业务信息,包括其定义、用途和业务影响。提供了近期数据的快照,使用户能够迅速把握指标的动态变化。此外,还关联了高热度的看板,使得业务团队能够从宏观角度理解指标在实际业务中的应用和价值。
技术详情页:深入技术层面,展示了每个指标的技术口径和计算逻辑,以及它们所关联的数据模型。为数据工程师和技术团队提供了一个清晰的技术视角,帮助他们更好地理解、维护和优化指标。
消费血缘:通过展示指标的血缘关系,帮助用户追溯数据的加工流程。这种可视化的血缘分析不仅方便了问题的诊断和定位,也加强了数据的透明度和可追溯性。
5. 指标消费应用
决策看板:通过专题指标与风神的直接打通,在可视化的 BI 工具中,可直接基于维度和指标快速搭建所需的数据看板,决策者可以快速获取深度分析,为决策提供强有力的数据支持。
自助取数:Chat BI 大模型的应用,降低了数据获取的技术门槛,让每个用户都能成为数据的探索者。
日报推送:自动化的日报推送不仅节省了时间,也确保了信息传递的时效性和个性化。
总结展望
指标生产:我们正朝着标准化、配置化、自动化的方向迈进,这一过程将确保指标生产的高效率和高质量。
指标管理:通过大模型自动化指标拆解,增强了指标的可理解性。这不仅提升了数据的透明度,也使得数据管理更为直观和便捷。
指标消费:我们致力于打造一体化数据架构,实现一处定义、多处消费的模式。这将简化数据应用流程,提高数据的利用率。