数据治理在平安产险的数字化转型过程中扮演着至关重要的角色。近几年来,一方面依托“数据标准化”的治理思路,平安产险分别在业务、技术和数据三端逐步推进各项工作的落地,夯实数据基础,确保数据准确性和一致性;另一方面秉承“治理即应用”的思路,平安产险在“字段”治理的基础上,通过统一 ID 体系,串联客户全域数据,构建统一的客户画像,解决了“客户是谁、做了什么”的问题,并通过“产品化”和算法加持,赋能业务场景,体现数据治理价值。
在日前举办的 FCon 全球金融科技大会上,我们邀请到了平安产险客户大数据团队平台组负责人洪广智围绕“治理即应用:产险数据治理体系探索及实践”进行了深入介绍,从业务应用视角,分享了财产保险行业的数据治理模式规划及落地步骤。
探讨数据治理如何从治理本身转变为赋能业务应用;
通过工具和流程的优化,平安产险制定数据标准的速度提高了 20 倍;
基于“客户画像平台”,业务员的转化率比未使用的业务员高出 10%;
通过仿真预测能力,非车险策略制定从依赖人工经验转变为算法推荐,使用推荐策略的客户客均保费提升了 91.8%
以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理):
今天,我的分享主题是《“治理即应用”:产险数据治理体系探索及实践》。这个主题包含两层含义:首 先,数据治理必须紧密结合业务场景,聚焦于解决业务问题,这样才能有效推动数据治理工作的实施,并协调相关业务部门的参与。其次,治理后的数据使用效率应有所提高,我们通过产品化的方式,将治理好的数据快速、顺畅地输送到业务前线应用,从而提升数据治理的价值。
下面分三个部分进行介绍:第一,探讨为什么要进行数据治理,主要介绍平安产险在转型过程中遇到的痛点和问题;第二,介绍如何进行数据治理,包括产险数据治理的方法和基于大数据模型的应用探索;第三,分享治理如何赋能应用,即从治理到应用转变的思路,以及两个具体的业务场景案例。
数据治理在保险行业中至关重要,主要原因有三个方面。
首先,保险是一个受到严格监管的行业,自金融监管总局成立以来,对数据治理的要求不断提高。从罚单的金额和数量来看,2024 年上半年与去年同期相比数据质量相关的罚单增长了 83.9%,在业务过程中,如何做到数据可信,是亟待解决的问题。
其次,公司内部对数据治理的标准化要求很高。由于业务发展迅速、系统众多,导致数据分散、指标体系混乱、口径不统一。经常 出现同名不同义、同义不同名的情况,标签也不规范。因此,清晰地理解经营状况、统一语言和业务逻辑变得非常重要。
第三,业务发展同样需要数据治理的支持。在数字化转型的过程中,公司投入了大量资源进行数据文化和工具的培训,数据人员的认证率不断提升。目前,通过数据认证的业务人员已达 6000 人,占公司总人数的十分之一,并且这个比例还在不断上升。然而,如何提高这些人员的工作效率,尤其是减少他们在寻找和查询数据上的时间,成为了一个挑战。
为了让大家更直观地感受到业务对数据治理的迫切需求,这里举一个实际的业务场景。我们曾经开展了一个非车险保费的营销活动,活动结束后需要对效果进行复盘。
在提取签单保费数据时,我们发现同样的数据指标在不同系统报表中出现了三个不同的值,而且这三个值得出的结论完全相反,这使得我们难以判断活动的实际效果。技术团队解释了数据的来源和处理过程,但对于业务人员来说,这些技术细节难以理解。我们尝试在资产管理平台中搜索官方认证的统一口径指标,但搜索结果更加复杂,无法确定数据的来源和准确性。最终,我们不得不花费大量时间重新确定活动的数据口径,以准确衡量活动效果。这个例子清楚地表明,数据治理对于业务的顺利进行是非常迫切和必要的。
为了解决上述问题,平安产险探索出了一套数据治理的方法论,即通过数据标准化来推动数据治理工作的持续落地。这一方法论主要围绕三个核心动作:定标、贯标和质检。
定标要求 数据来源标准化,确保数据是唯一来源且经过认证。同时,数据内容也需标准化,每个字段的元数据、业务属性、技术属性和管理属性都必须完整明确。
贯标包含三个标准化要求:源端数据录入标准化,确保业务系统端对数据录入进行管控;提交需求标准化,要求新增需求按照模板推进和落地;数据模型建模标准化,在数据开发环节进行约束和规范;通过这些标准将业务部门、技术部门和数据部门串联起来,共同推动数据治理的实施。
质检则有三个抓手:在定标阶段明确数据质检规则;定期部署质检规则 并发现数据问题;定期通报并追踪解决数据问题。通过在生产端和大数据端全面落地这些动作,形成公司级的数据字典,实现全域数据的可查、可信和可用。
基于这个方法论,我们在具体落地实施依赖于三个工具:数据标准管理工具、质检工具和数据开发标准工具。
数据标准管理工具负责标准从申请、审核到上线下线的管理流程;质检工具包含丰富的质检规则库和配套的规则配置部署,发现和解决各种数据问题;数据开发标准工具则约束开发人员按照标准建表、建字段和建模型。
以保单投保页面新增性别字段的业务需求为例:需求提交阶段,所有业务需求必须通过统一系统入口提交,并遵循标准需求提交模板。在数据开发阶段,技术人员必须引用数据标准工具中的标准,如果是新增字段,必须先在标准工具中注册并通过审批。前端业务系统也需要对客户录入进行限制,确保按照标准规范执行。需求上线后,配套的数据质检工作包括部署规则,进行数据唯一性、一致性校验,以及数据波动性校验,并通过定期通报推动数据问题的解决。
在推进数据标准化的过程中,也面临一些挑战。一方面,制定标准高度依赖于人,且对人员的要求非常高,他们必须清楚了解所有业务环节的逻辑,能够快速准确地制定和判断标准。另一方面,治理方式难以全面铺开,目前只能聚焦于核心场景和数据,而海量的存量数据治理则面临人力资源的限制。
大模型的出现为各个领域带来了新的探索方向,尤其是在数据治理方面,大家都在期待大模型能够提升治理效率并赋能业务。在这样的背景下,我们内部启动了一个试点项目,旨在探索大模型在数据治理上的应用,项目名称为“企业数据智能管家”。
这个项目主要围绕三个核心能力展开:AI 助解、数据智典和数据透视镜,它们分别对应解决数据治理中的三大类问题。
AI 助解主要提供了两个核心功能:数据注释和数据体检。数据注释功能旨在解决存量数据中元数据缺失的问题,通过 AI 的能力补充完整,使得数据更易于理解和使用;数据体检则允许用户自定义质检规则,通过数据比对规则来发现潜在的问题。
为了实现这些功能,我们面临了两大挑战。首先是如何让大模型理解产险领域的专业术语和业务逻辑,即让模型“听得懂产险的‘黑话’”。为此,我们构建了两个知识库:一个是保险专业知识库,包含了险种、责任、保额和条款等专业内容;另一个是业务通识知识库,收录了我们内部长期积累的约定俗成的术语,如“大非车”、“自助率”等,以帮助大模型更好地理解业务场景。
第二个挑战是如何让大模型适配各种技术体系,确保生成的代码可以在不同的系统和数据库中正常运行。我们为此制定了一系列的查询模式,以适应不同的技术环境。
数据智典能力的核心目标是提高定标的效率和覆盖率。我们采用了多智能体的方法,一个充当“运动员”,一个充当“裁判员”,通过角色分工和交叉校验来提升标准产生的准确率和稳定性。同时,为了处理大量数据,我们采取了分段预处理和逐层汇总 的策略,以输出全量的数据标准。
数据透视镜是一个创新的找数工具,它允许用户用自然语言描述所需数据,通过多轮对话和 AutoGPT 技术来理解用户需求并自动编排执行顺序,简化找数步骤。这个工具的核心挑战在于理 解用户多样化的找数需求,并提供准确的数据定位。
整个产品的架构依托于我们建立的保险知识库,并利用大模型的能力构建数据治理功能,以替代传统的手工治理方式,全面提升数据治理的自动化水平。目前,这个项目已在部分领域逐步实施,我们期望短期内能从纯人工转向机器生成、人工审核的模式。长期愿景是实现系统的自动生成、自动执行,人工零干预,以进一步提升数据治理的效率和质量。
通过实施数据治理的标准化流程、升级工具以及试用大模型,我们取得了显著的成效。具体来说,这些成效体现在以下几个方面:
第一,我们的数据质量检查覆盖率有了明显的提高,随着质检覆盖率的增加,我们发现并修复问题的效率也得到了提升。
第二,通过工具和流程的优化,我们制定数据标准的速度提高了 20 倍,这大大加快了数据治理的进程。标准化工作不仅提高了效率,还扩大了覆盖范围,确保了更多核心业务场景的数据治理。
第三,通过优化工具,我们降低了使用数据的门槛,使得更多的人能够方便地访问和利用数据,从而提高了整体的数据使用效率。
数据治理的成效虽然显著,但人们常常质疑其对业务的实际价值。为了回答这个问题,我们需要探讨数据治理如何从治理本身转变为赋能业务应用。下面给大家分享一下我们从治理到应用转变的一些思路和两个业务案例。
我们引入了 DIKW 模型,它描述了从数据到信息、知识再到智慧的递进过程,其价值也随之逐层提升。DIKW 模型给我的启发是,数据的价值大小在于其组织形式的不断演进,数据从单一的点扩展到线、面、体,从而构建起更丰富的数据结构。那么,数据治理的价值发挥是否应该首先从将治理好的数据连接起来开始,将其从孤立的点转化为支撑应用的线,构建应用的底座。因此,我们的治理策略也随之升级,从原先的字段治理,转变为更宏观的客户数据治理。
在之前的治理中,我们可能只关注单个字段,如性别字段的准确性,但最终它只是一张表里面的一个字段。除了数据团队使用这些数据进行分析和策略制定外,我们开始思考如何把这些数据的价值进一步放大。通过将数据治理的焦点从单个字段转移到客户数据的整体治理,我们能够更全面地理解客户,提供更精准的服务,从而在业务应用中发挥更大的作用。这样的转变不仅提升了数据的内在价值,也为业务决策提供了更有力的支持,实现了数据治理到业务赋能的跨越。
在进行以客户为中心的战略转型过程中,我们面临的关键问题是 如何从渠道导向转变为客户导向,这涉及到数据层面上对客户的准确识别和理解。为了回答 “客户是谁”以及“客户长什么样” 这两个问题,我们对客户数据治理进行了升级,主要分为两个方面:
第一,构建统一的客户 ID 识别体系: 在产险业务中,涉及多种角色,如投保人、被保人、行驶证持有者、车主、出险人、报案人、投诉人等。我们需要明确这些角色的身份及其相互关系,通过建立统一的客户 ID 体系,我们可以将这些角色与相应的治理好的数据字段相连接,形成一个统一的客户视图。
第二,梳理客户与公司的业务关系: 在形成统一视图的基础上,我们进一步明确客户与公司之间的业务联系,包括客户的业务员是谁、是否使用过公司的服务、服务发生的网点等。通过梳理客户本身及其相关的业务网络,我们能够建立一个全面的客户视图和关系网络。
通过这样的治理,我们不仅能够清晰地识别客户,还能理解客户与公司之间的业务往来。例如,通过标准化治理,我们可以确定某个客户的性别、购买的保险类型(如非车险)、成交时间和保费等信息。通过这种客户数据治理的方式,形成了统一的客户视图和关系网络,为公司提供了一个强大的数据底座,使得我们能够在这一基础上开发更多的应用场景,更有效地进行业务决策。
我们通过产品化客户数据,进一步发挥了数据的价值。在构建了完整的客户视图和数据底座之后,开发了一个客户画像平台。在该平台推出之前,各个业务场景通常需要自行调用标签来了解客户的特征,例如他们是否购买过保险服务。然而,这种方式存在一些问题,比如同一个客户在不同渠道可能展现出不同的购买行为,而且数据来源的不一致性使得难以确定如何针对特定客户制定策略。
我们的客户画像平台解决了这些问题,它允许所有业务系统在平台上配置个性化标签,并且确保这些标签在不同场景下具有一致的含义和值。此外,我们提供了移动端和 PC 端的界面,以及一套标准的数据接口供前端业务应用使用。
产品上线后,使用该产品的业务员的转化率比未使用产品的业务员高出 10%。这个案例展示了数据治理虽然是基础工作,但其价值在于能够将数据串联起来,并通过产品化快速地将数据应用到业务场景中,从而产生实际的业务价值。在推动这个产品的过程中,我们深刻体会到了数据治理和产品化对于业务发展的重要性。
第二个案例是关于非车险策略制定的智能化应用。在策略制定的过程中,我们面临两个主要问题:首先,传统的策略制定依赖于手工分析,周期长,往往导致策略与市场现状脱节;其次,人工分析的数据使用范围有限,通常只限于分析人员所了解和使用过的数据。
为了解决这些问题,我们构建了一个仿真预测能力,它可以实现以下效果:
最优方案推荐:根据业务目标的基础上,输出不同客群的最优推荐策略;
方案效果评估:在最优方案下预测策略实施后的业务达成情况,以及业务指标的变化是否符合预期;
方案效果诊断:策略实施后,根据回流数据寻找更优解,并提供策略调优建议。
这样的应用使得 策略制定从依赖人工经验转变为算法推荐,提高了效率和准确性。自去年上线以来,该应用在业务上的 策略接纳率达到了 33.4%,使用推荐策略的客户 客均保费提升了 91.8%。这个案例有两个核心点:
第一,在进行推荐时,除了考虑画像数据和行为数据,还应该利用经营数据,即业务部门在特定时间节点和背景下所做的调整及其业务结果;第二,推荐系统需要考虑业务逻辑和约束,以确保推荐结果符合实际业务场景。
通过这两个案例,大家可以看到数据治理如何通过智能化应用为业务赋能。最后回归到数据治理的初心,就是“让数据触手可及,为业务插上鹏飞的翅膀”。
关注「InfoQ数字化经纬」公众号,回复「案例」领取《行知数字中国数字化转型案例集锦》。 关注「InfoQ数字化经纬」公众号,回复「进群」加入数字化读者群交流。