随着数据安全的重要性日渐凸显,纵向联邦学习作为隐私计算的热门技术,被应用在越来越多的场景中。但在应用时,传统的纵向联邦学习模型难以处理不同数据集之间存在的强烈偏差和非平衡性情况,导致模型训练效果下降。本文结合实际案例,介绍了在拆解联邦计算环节中,实现的一种纵向联邦学习处理大规模非对称数据的解决方案,在保障各方数据隐私安全的前提下,助力企业打造安全可信的创新营销路径。
亚信科技(中国)有限公司
近年来,随着数据量的爆炸性增长和隐私意识的提高,人们对于数据安全性和隐私保护的需求也越来越高。信通院、毕马威、艾瑞咨询等国内外权威机构均发布报告表示,预计至2025年我国隐私计算市场规模将超过百亿级,平台建设与数据运营两种商业模式将共同发力。另外从政策方面,数据隐私保护政策法规逐步深入,2023年“数字中国 2522”提出强化数字技术创新体系和数字安全屏障“两大能力”。
在这样的背景下,纵向联邦学习作为一种解决方案逐渐被广泛使用。纵向联邦学习可以在不同数据集之间进行数据共享和模型训练,同时保持各自的数据隐私不被泄露。
然而,在实际应用中,通信行业沉淀了大量的价值数据,且数据体量以亿级为单位,在与各个垂直领域的企业合作时,大规模非对称数据的存在给纵向联邦学习带来了新的挑战。传统的联邦学习模型难以处理不同数据集之间存在强烈的偏差和非平衡性的情况,导致模型训练效果下降。因此,如何解决大规模非对称数据对于纵向联邦学习的影响成为了当前亟待解决的问题。
为了解决大规模非对称数据的问题,一些新的解决方案被提出并得到了广泛的应用。在实践中亚信科技从数据保护与模型效果提升两个方面进行针对性优化,并在协助某车企寻找外部数据进行跨域合作赋能时进行实践验证。在保障各方数据隐私安全的前提下,帮助该企业实现安全可信的创新营销路径。
我国汽车行业经过十几年的高速发展,随着人口红利逐渐消失和中国经济转型,汽车产业已由增量市场逐渐转向存量市场竞争,增换购用户比例逐年上升,保客增换购将逐渐成为市场主导,以往传统的汽车增换购模型基于车企自有数据进行建设,存在客户信息实时性和准确性难以保证、数据维度不够全面、数据样本体量不足等局限,导致模型精度不足、跟进营销效率低下,造成营销人力浪费并错失商机。
运营商大数据相比于互联网公司数据、行业垂直媒体数据等,具有规模大、维度全、样本分布均衡、实时性强、真实准确、线上线下能闭环等优势,能够有效发挥数据互补作用,非常适合用于增换购模型优化,但在结合某车企与运营商的数据优势时,存在以下挑战:
● 数据量级差距悬殊:运营商侧数据集样本数量超过10亿,需要在保证双方数据隐私安全前提下,短时间内获得双方用户交集。
● 特征数量多:特征数量1000+,当特征数量较多时,会增加模型过拟合的风险、降低模型收敛速度,也会影响模型的可解释性;对训练效率提出挑战。
● 正负样本不均衡:营销活动的转化路径包括客户意向评估、营销线索下发、客户触达、下单、成交等环节,最终成功转化的客户(正样本)占比较低,导致正负样本分布不平衡。
结合业务场景特点,构建符合大规模非对称的联邦学习方案:
图1:大规模非对称的联邦学习技术方案示意图
1)数据准备
双方分别准备数据资源,在数据不做共享交换的前提下,进行内外数据联合建模,进一步丰富完善增换购画像,为精准营销提供有力支撑,进而实现流程优化,提升客户体验。车企接入会员、产品、回厂等相关数据;运营商侧从用户基础属性、社交偏好、消费偏好、金融属性、职住属性、汽车行业相关标签、用户终端相关标签等维度扩充特征空间。
2)隐私求交
数据提供方样本量超过10亿,发起方提供百万级正样本和负样本。由于双方数据量级差异非常悬殊,属于非平衡条件下隐私求交。因此,采取数据集即时抽取、求交任务定时调度的方式进行周期隐私求交,以提高数据对齐效率。
双方通过加密算法对双方ID进行匹配运算以获得重叠样本ID,以保障双方数据安全。加密对齐只需两方进行通信,无需协调方C参与;加密对齐过程只传输ID;流程如下:
3)子模型提升数据资源
基于汽车增换购的具体业务需求,结合模型业务场景,从车企、运营商建设的模型库中选择业务相关性强的子模型,进行模型标签数据构建。
在处理数据时保障数据质量与可信度:
● 数据规则及标准:基于项目实际需求建立一套符合自身实际,涵盖定义、操作、应用多层次数据的标准化体系。通过一体化全流程的数据治理体系,保障数据质量。
● 数据置信度:从数据容量、数据质量、特征选择以及算法选择及调试等多方面保障可信度。
● 数据维度提升:采用维度建模法,按维度表、事实表来构建数据仓库、数据集市,极大提升数据仓库的处理能力,紧紧围绕业务模型,直观反映业务问题。
● 标签维度提升:根据存量DNA特征标签,逐列分布与全量客户分布进行自动比对,删除缺陷序列,结合智能算法进行筛选,形成某一特征用户的可扩展、动态性的特征图谱。围绕业务需求搭建符合业务场景逻辑的标签体系。
4)模型构建----提升模型效能
利用联邦学习平台的可视化交互式模型编排功能,通过由底向上的流程进行模型建设,包括子模型选择、标签构建、样本对齐、联邦统计、联邦特征工程、联邦训练、模型评价、模型优化、模型选择九个步骤,构建目标模型。
图4:联邦学习平台的可视化交互式模型构建界面示意图
5)模型调优
基于模型评价指标设计,模型调优围绕提升AUC、Recall、Precision等指标展开:
图5:模型调优内容示意图
本案例通过纵向联邦学习技术,有效整合双方的行业数据优势,持续实时对增换购客户的意向度及意向车型进行模型推理及预测,基于真实样本的推理结果,模型表现出较好的预测能力,增换购营销中的领券率、到店率、有效线索占比等关键指标均表现出明显提升,实现了营销活动的闭环评估,最终促进增换购业务的精准营销。具体成效如下:
● 跨行业数据融合分析:融合XX车企自有数据及XX运营商全国运营商大数据,搭建增换购意向度模型及增换购意向车型两大模型;其中,XX运营商侧涉及13亿数据及千余个模型标签的分析及建模。
● 增换购用户输出:基于真实样本的推理结果,模型表现出较好的预测能力,共计输出增换购意向客户10万+、输出增换购意向车型分析10万+,支撑XX车企进行应用触达等。
● 营销效果提升:增换购营销中的到店率、领券率、有效线索占比均得到明显提升,实现了营销活动的闭环评估,最终促进增换购业务的精准营销。根据营销结果反馈,客户的换购意向率提升了60%,成交量中的40%是通过联邦学习技术精准锁定的目标用户。
● 电信行业联邦知识沉淀:基于运营商+汽车跨域合作的知识沉淀,将联邦协作知识提炼为可通用、可迁移的模板,结合亚信科技联邦学习平台提供的低门槛、开放普惠的FL开发与服务能力,实现联合建模能力在行业间低门槛落地,并转化为可观测、可量化的业务价值,实现应用场景的快速复制。
纵向联邦学习已经逐渐成为了保障数据隐私和安全的重要解决方案。亚信科技积极探索联邦学习技术跨行业应用,除了上述汽车增换购案例,也在金融获客、金融风控、政务风控、智慧医疗等多种领域实施,沉淀了丰富高效的隐私计算解决方案。在实践中从算法、软件、架构等各个维度的提升数据安全性、算法精确性及算力的高效能。经过大量的应用与实践,亚信科技利用硬件特性实现软件方案,提升隐私计算的安全性和计算性能,打造了亚信科技隐私计算一体机,助力联邦学习技术在垂直行业中的大规模应用。
亚信科技隐私计算一体机是融合软件和硬件技术于一体的专用设备,基于多年的运营商业务深耕经验与渠道挖掘,预置了丰富的应用场景,各垂直领域的企业使用时,开箱即可对接到通信行业数据要素与算法场景,充分利用运营商数据价值,快速实现运营商+车企、运营商+金融、运营商+政务、运营商+医疗等联合计算应用,高效赋能垂直行业;另外支持云网边全面协同,安全无缝对接通信大数据生态协作平台,而且从芯片级实现安全防护,支持TCM+TPCM,有效保障数据安全。还具有软硬件多规格灵活选装,全栈国产信创支持,高效能协同计算,支撑联邦学习模型在企业之间快速落地。
图6:隐私计算一体机开箱即接示意图
未来,亚信科技将从可信、安全、可控角度提升全流程保障能力;在可靠性、可用性方面提升平台工程化能力;从易用性、开放性角度进一步降低使用门槛和部署成本;积极参与开源生态建设,在技术领先性、行业最佳实践等方面持续演进,共同促进数据要素的可信安全流通。