谁想在这个夏天拥有沙滩身材?我!我!我!谁想早睡早起去健身房,吃得健康?故事不同,问题相同。数据质量关乎责任、纪律和尊重参与,每个人都需要关心,要求自己。
一 一个故事引发的思考
数据质量管理始于人的责任和协作,而不是购买工具。只有当明确的需求、商定的优先事项、透明的数据架构、定义的流程和共同的目标结合在一起时,我们才能真正开始衡量和提高数据质量。数据质量是每个人的事,而不仅仅是别人的错。
拓展视野和建立共同目标才是关键
事实是,责任已经存在。如果我是销售人员,潜在客户的姓名和联系方式正确无误符合我的利益。如果我是财务人员,无论如何,我都会处理好账单地址和发票详细信息,因为否则我的流程将无法运行。当销售人员必须担心输入账单地址,或者财务女士需要整理买家的联系方式时,问题就开始了。或者,一个人工建立的团队必须根据要求处理这两者,并遵守严格的 SLA,而他们却不理解他们为什么要这样做。或者,当人们承担了服务于“更大利益”的责任,但他们的 KPI 都没有与更大利益挂钩。或者,当人们必须调整他们看待世界的方式以适应某种共同的模型,并在其中策划事物时。这不是他们的观点。他们既不是当地人,也不喜欢那里。当然,他们不会热衷于管理其中的一部分。如果我们不要求他们适应共同的观点并加以管理,而是承担起协调不同观点的负担,我们将看到质量和管理成本大幅下降。事实证明如此!
激励人们进行更开放、更诚实的对话
如果我们不再责怪他人,而是试着去理解他们的观点,很多事情就会变得容易起来。想象一下,如果营销部门找到 IT 部门,要求他们立即对摄像机负责。他们想到,这一切都与技术有关,因此从现在起,IT 部门应该参与所有录制项目……这听起来可能很荒谬,但这大致就是 IT 部门对营销部门的期望。确实如此。我认为这也与职位描述和个人绩效评估有关 - 如果我们更多地关注共同目标和协作目标,而不是个人荣誉和个人成就,我们就会激励人们进行更开放、更诚实的对话。因为它恰恰反映了数据(以及数据质量)学科自成立以来一直在努力解决的问题。“与我们分享业务知识。好的,谢谢你,这就是你说话和看待问题的方式不对的地方。顺便说一句,这是一个难以理解的框架,你拥有这部分,祝你好运,数据委员会见”。这不是我的话 - 而是我采访过的一位被指责“不支持数据战略”的商业专家的话。
对数据不负责 = 没有质量规则,那么即使使用最有效的 DQM 工具,也根本没有质量。
管理层应该成为表率并以身作则
这是人类行为中的普遍现象,从进化的角度来看,我们已经习惯于尽可能少地消耗能量,而生活在 21 世纪也不会一下子改变这一现状,因此关键是要将其分解成小步骤,就像许多事情一样,从教育孩子开始,因为他们是未来,他们掌握着未来变革的关键。现在,也应该回答“这对我有什么好处?”这个问题 ;-)同时,在职人员需要学会优先考虑数据质量,因此,数据管理也应该纳入他们的年度评估和组织的业务计划中,因此管理层应该成为表率并以身作则,而不是缺席或保持沉默。
二 数据质量的问题
在数据是关键资产的时代,保持数据质量至关重要。尽管人们普遍认识到数据的重要性,但许多组织仍难以将这种认识付诸行动。这一挑战因人们误以为购买工具可以解决所有数据质量问题而加剧。
就像健身一样,购买健身房会员资格或健身器材并不能自动让保持健康。真正的成功需要持续的努力和承诺。同样,虽然工具在数据质量管理中发挥着至关重要的作用,但它们并不是灵丹妙药。
数据质量不佳破坏信任
数据质量差会影响整个组织的团队,导致信任度严重下降。当数据不可靠时,它会削弱人们对报告、仪表板和分析的信心。决策者会变得犹豫不决,组织可能会出现优柔寡断和效率低下的问题。此外,当外部利益相关者(如客户和合作伙伴)发现呈现给他们的数据不一致和错误时,他们会失去信任。这种信任的侵蚀会导致关系紧张和声誉受损。
下游表中的错误:仅重命名源表而不更新下游依赖项可能会导致级联错误,从而影响多个报告和分析。
业务报告中的空数:当推荐列不再存在时,就会导致业务报告中的数据缺失或不正确,从而造成混乱和错误的决策。
报告和仪表板停机:不准确或不完整的数据可能会导致关键报告和仪表板停机,从而延迟重要的业务洞察。
训练机器学习模型失败:数据质量差可能导致训练机器学习模型失败,从而导致预测不准确和结果不可靠。
数据合并不当可能会导致客户来电大量涌入,导致高管在重要会议上得不到报告,并破坏同事的努力。这些不仅仅是例子,而是我们从用户访谈中听到的真实案例。它们说明了数据质量差的普遍影响,并强调了保持高标准以维护组织内部和外部利益相关者的信任的重要性。
三 什么阻碍采取行动提高数据质量
可能听说过上述问题,甚至在自己的团队中也遇到过这些问题。那么为什么没有采取行动呢?答案往往在于缺乏某些关键因素。如果没有这些要素,组织将很难从讨论转向实施。以下是一些关键因素,如果缺少这些因素,个人和团队将无法成功致力于数据质量。
到目前为止你还没有
当真实案例发生时,人们会吸取教训。俗话说,“别人的任何指导都无法取代自己从错误中吸取的教训。”通常需要亲身经历重大数据质量问题才能真正了解其影响。数据质量问题会严重损害组织内部和外部利益相关者的信任。只有在面对这些挑战之后,团队才能充分认识到主动数据质量管理的重要性。
缺乏领导支持和资源
有效的数据质量管理需要领导层的支持。这包括分配资源、设定优先事项以及培养重视数据质量的文化。如果没有领导层推动计划并将数据质量作为战略重点,就很难取得重大进展。
缺乏跨团队协作
当数据工程 (DE)、数据科学家 (DS) 和数据分析师 (DA) 等多个团队在数据管道中共同工作时,高数据质量至关重要。如果没有跨职能协作,持续的救火工作就会成为常态。要确保每个人都使用可靠的数据,需要跨团队进行有效的沟通和合作。
海量数据模型管理不足
管理大量数据模型(通常超过 500 个甚至超过 1,000 个)需要对细节一丝不苟,并采用系统化流程来确保所有模型的数据完整性。如果没有这些流程,复杂性很快就会导致错误和不一致。
无法充分处理复杂的数据管道
数据管道的复杂性通常由长有向无环图 (DAG) 表示,这些图跨越多个来源、阶段、中间体和集市,一直到多个 BI 工具、数据产品和 ML 模型,这意味着一个小错误可能会传播和放大,从而导致下游出现严重问题。如果没有严格的数据质量措施,管理这种复杂性将极具挑战性。
仅依赖代码测试和 CI
即使经过彻底的测试和持续集成 (CI),数据问题仍然可能发生。基本 dbt 测试和其他测试(如语法检查、SQLFluff、dbt-project-evaluator、dbt-checkpoint等)必不可少,但仅靠这些测试还不够。仅依靠代码测试和 CI 会凸显其局限性,并强调需要持续改进和保持警惕。此外,还需要进行强大的数据测试,以确保数据本身的完整性和可靠性。组织必须不断改进流程并解决新出现的问题,以保持数据质量。
缺乏问责文化
问责文化对于保持高数据质量至关重要。当组织中的每个人都了解他们在数据质量中的作用并承担责任时,整体质量就会提高。如果没有培训和意识计划,培养这种文化将非常困难,数据质量仍然是一项分散的责任。
四 实现高数据质量的步骤
虽然某些要素的缺失可能会阻碍数据质量的改善,但在开始改进之前,没有必要把所有要素都准备好。相反,你可以利用这些要点来回顾当前的情况,并确定可能缺少什么。例如,你可能没有大量的数据模型或复杂的数据管道,但如果你拥有领导层支持的问责文化,那么你已经有能力采取行动了。评估具体情况,利用优势,弥补任何差距,以有效地提高数据质量实践。
进行根本原因分析
有效的根本原因分析是解决数据质量问题的第一步。它涉及识别数据问题的根本原因,而不仅仅是解决症状。可以采取以下方法:
回顾问题:进行回顾,直面问题。这包括留出时间来反思最近的数据问题,了解哪里出了问题,并与团队讨论可能的改进。
协作和讨论:参与团队内部的协作讨论,深入探讨问题。利用团队成员的集体知识和经验来发现导致数据质量问题的关键因素
研究最佳实践
确保高数据质量需要了解并实施最佳实践。这些实践为有效的数据质量管理奠定了基础,并可显著提高数据的可靠性。
在实施新的工作流程之前,需要彻底研究最佳实践。因为在这几个月内进行的研究将影响决定未来几年数据质量的决策。
通常,首先由个人调查解决方案,在本地进行概念验证 (PoC),与团队分享多种可能性,然后决定解决方案。这与调查技术工具没什么不同。
技术驱动的数据团队喜欢构建事物,而业务驱动的数据团队则购买工具,因为他们无法构建。这是很自然的。他提醒我们根据团队和公司的优先事项做出决策,并考虑维护和迭代工作。
即使您的团队有能力构建,仔细评估每种情况也很重要。利用开源解决方案,如果项目缺少您需要的东西,请为其做出贡献。计算所涉及的工作量,包括工作时间和预算。通常,使用付费服务获得优惠比投入大量工程时间从头开始构建解决方案的成本更低。
采取行动提高数据质量
实现和保持高数据质量是一项多方面的挑战,但它对于建立信任、确保准确决策和推动组织成功至关重要。通过了解影响数据质量的因素并实施切实可行的步骤,您可以取得显著的进步。
现在是采取行动的时候了。我很乐意听听您在数据质量方面的故事和经验。分享您为提高数据质量所做的工作以及您面临的挑战。