隐私计算:
数据“可用不可见”给计算广告发展带来的新希望与新挑战
01
引言
假设有两方主体,分别是某品牌广告主和某短视频平台,广告主想在该平台上精准投放广告。广告主拥有自有顾客的基本信息和其线上小程序的用户数据;短视频平台拥有用户的浏览记录数据。如若能融合两方主体的数据,对广告精准投放的效果可是大有裨益,但如果双方都不希望就此将数据贡献出来,或者这样的操作涉及法律问题,该怎么办呢?又该如何保证广告投放的精准性呢?
▼
02
理论基础
事实上,引言中的情境反映了数据互联互通受到限制的问题,或称,数据孤岛。
数据孤岛指的是数据在不同部门相互独立存储,独立维护,彼此间相互孤立,形成的孤岛。数据孤岛普遍存在于所有需要进行数据共享和交换的系统之间,包括不同部门之间、不同企业之间、不同产业之间的数据信息能不能共享的问题。
在如今这个大数据的时代,数据成为诸多产业转型升级,推动社会发展的必要的燃料,其与作为引擎的算法的配合让传统产业提质增效,催生新业态的兴起。但数据孤岛问题让海量的数据信息无法联通共享,让数据的潜能无法得到最大化的释放,严重阻碍了数字经济的进一步升级发展。
数据孤岛的形成既有技术的阻碍,也有企业或行业保护机制的原因,还有政策和法规的因素。背后是对数据安全和隐私安全问题的考量,不可被忽视。因而,完全自由、不受孤岛限制的数据互联互通存在数据与隐私泄露的巨大潜在风险。
那么,是否存在既实现数据的互联互通,发挥数据的更大价值,又能保护数据与隐私安全的可能呢?
思考1:据你的了解和想象,有哪些破除“数据孤岛”的技术或策略呢?它们又存在什么不足呢?
03
隐私计算与广告应用
隐私计算(private-preserving computation)作为一种在不干扰数据保护的基础上打破“数据孤岛”的技术应运而生。
隐私计算是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,以保证数据在流通和融合的过程中的“可用不可见”。大数据挖掘技术、算法精准匹配技术普及后,商业平台以“为用户提供高质量服务”为由储存、加工个人隐私信息成为常态。计算广告作为受数据驱动的新兴领域,虽然在广告效果的提高上有着不俗的表现,但隐私安全问题一直备受诟病,并且随着各巨头平台的“围墙花园”建设,计算广告对数据的使用也是受到重重阻碍。隐私计算的到来无疑为计算广告行业带来新的曙光。
思考2:探究“数据孤岛”形成的多重原因。
隐私计算在计算广告中的应用主要包含多方安全计算、联邦学习和本地终端隐私计算三个方面。
1. 多方安全计算
多方安全计算是指在各个数据持有者不泄露自己的原始数据的基础上进行的计算,使得数据利用和原始数据保护兼得,达到多方安全的状态。利用隐私计算技术进行数据求交可以实现多方安全计算。
数据求交,顾名思义,就是求出各个数据库之间的交集,通过求交计算来捕捉各个数据库中的相同用户,基于各个数据库的数据聚合来丰富用户信息,获得对用户更全面深入的了解,从而支持广告的精准投放决策。无论是求交前的数据,还是求交后的数据都不会暴露给其他主体,各方都只能得到一个结果,而不会获知数据过程。
2. 联邦学习
根据微众银行发布的《联邦学习白皮书》的定义,联邦学习是在进行机器学习的过程中,各参与方可借助其他方数据进行联合建模。各方无需共享数据资源,即在数据不出本地的情况下,进行数据联合训练,建立共享的机器学习模型。
将这个定义放到广告情境里就会更好理解了。计算广告的一大核心追求是在正确的时间和情境,向正确的人,推送正确合适的广告。这个目标的实现需要推荐模型的支撑,而推荐模型的建立需要以大量的数据为原料,不断进行学习。如前文所述,出于商业保护、数据安全等原因,有的数据主体并不愿意将自己拥有的数据拿出来开放共享,数据不足便有可能影响推荐模型的有效性,进而阻碍广告的精准投放。
联邦学习的出现便很好地解决了这个问题。通过在计算广告中引入联邦学习技术,有助于进一步提高多方数据的安全性,同时有效降低成本。在安全性方面,通过联邦学习技术,广告主与媒体双方的用户特征与标签随机加密,双方无法知晓用户个体是否发生后端转化以及具体的风险标签。同时联邦学习中差分隐私技术的接入,将混淆与打散双方数据,使对方或第三方仅能看到整体情况,而无法识别数据中的任何个人。现如今,诸多互联网巨头和信息科技公司推出联邦学习平台,如腾讯云联邦应用平台软件、CTFL天翼联邦学习平台、京东智联云联邦学习平台、Data Trust阿里云隐私计算增强软件等。
3. 本地终端隐私计算
如之前一期推文(行为定向广告与用户隐私——苹果默认关闭IDFA)介绍,苹果颁布了新的隐私管理政策,将广告标识符(IDFA)设置为默认关闭的状态,要求所有应用必须征得用户的许可,才能对其进行跟踪。也就是说,苹果把能不能追踪用户、能不能推送广告的权利交给了用户。这就给广告主和应用厂商带来了不便与阻碍。于是,他们使用隐私计算技术尝试解决困难。
通过隐私计算的技术手段,在保证数据的安全,也就是数据不离开手机本地的前提下,直接在手机上做隐私计算。经过隐私计算的中间结果已经不再包含初始数据,也就不被认为是个人信息,事实上,这些结果并不是用户数据,只是用技术手段对数据进行学习,从而得到模型特征,因而不需要用户授权。
04
用户:有憧憬也有担忧
在线交易、在线社区、网络应用、算法推荐的大面积普及引发了严重的侵犯隐私权问题。2018年,中国某搜索引擎创始人称,如果中国人“可以用隐私换取便利、安全或者效率,在很多情况下,他们愿意这么做”。这番言论虽然不免绝对,但隐私计算的出现的确让用户在得到良好的服务和体验的同时,降低对隐私和数据风险的忧虑,两全其美。
但是从技术的落地到普及,从诞生到被公众接受和信任仍需要经历一段时间。很多用户对隐私计算仍然抱有疑虑,认为隐私计算只是一种理论上的完美,在现实操作中可能并不会那么完美和顺利。并且,一般公众对隐私计算背后的技术支撑完全不理解,也无法判定各媒体、广告主在推送广告之前是否经历隐私计算的环节,这个过程存在巨大的黑箱,容易滋生对消费者和用户的欺骗,使得用户隐私安全依旧得不到保障。诸如“隐私计算是否真的安全”仍是一般用户关心的重点。
针对这个问题,洞见科技CTO何浩认为隐私计算厂商在刚接触各类企业客户之时,都会迎来一个重复了千万次的“灵魂拷问”:“隐私计算安不安全?”何浩讲到,安全本身是一个系统性的问题,除却算法的安全之外,还包括传统信息系统的安全、网络安全等,仅涉及到算法安全的层次来讲的话,首先需要下一个定义——“没有绝对的安全”,即安全都是有前提假设的,首要是在安全性假设的框架中探讨算法的安全性,其次再去看这个安全性假设是否能够满足客户的场景需求。“如果这个假设是理论可行,但无法在实际场景中落地,那么便没有意义。”他强调。
05
隐私计算的初衷是打破数据孤岛,实现数据的互联互通。但随着各互联网巨头平台纷纷布局,基于自己的技术逻辑、算法原理和系统设计建设自有隐私计算平台,而且大多是闭源平台,造成平台间的数据交互困难。“数据孤岛”演化成“平台孤岛”。
“平台孤岛”让数据价值与潜能的发挥再次受到阻碍,而在计算广告的特定领域,它也给品效协同带来了新的困境和挑战。
传统的广告监测是一种事后监测,广告主一般从广告代理公司或委托第三方调查公司获取广告效果数据,缺乏即时的效果反馈与灵活的应对措施,广告效果具有延迟性、间接性和累积性。计算广告时代追求“品效合一”的效果可测量性,保证决策精准化。广告效果既有短期直接的提升,也有长远的品牌形象提升,品牌广告和效果广告是广告行业根据不同的活动目标与广告主区分的业务类型。品牌广告目的是吸引用户关注,增强用户对品牌的认知度,树立品牌形象,提升用户对品牌的好感度,维系品牌与消费者的良好关系。效果广告是结果导向型广告,实现价值转化,以追求短期效益最大化为直接目标,通过精准的用户定向实现销售增长与利润提升。在计算广告的发展中,这两种广告形式的界限正在逐步被打破,而实现它的核心在于数据的打通。通过媒体端和品牌方的数据打通,让增长目标有据可证、有据优化。
思考3:计算广告如何助力品效协同?
如今,有的媒体平台不再为品牌提供供数据回传受众的device ID的服务,这预示着,在该平台内投放广告的品牌广告主不会得到消费者的相关数据。但同时,媒体平台建立了隐私计算平台,企业如果想进行第三方数据监测,可以通过隐私计算平台实现,通过建立节点上传企业的第一方数据,和媒体平台曝光的ID在数据保护的前提下进行联邦学习和建模,以得到在广告投放后的归因分析和ROI分析结果。
但是由于平台之间的数据并不互通,也就是前文提到的“平台孤岛”问题。企业若在多个媒体平台都有广告投放安排,那么便需要在多个不同的媒体平台的隐私计算平台建立自己的第一方数据节点,才能和平台的数据进行联邦学习和建模,获得效果评估。这意味着企业需要大量的成本来与不同的隐私计算平台建立连接和打通,才能计算出每一个媒体对于企业的转化贡献,才能促进实现品效协同。对于那些拥有众多子平台的巨头平台来讲,这有利于将一个企业的广告投放都圈在自己的平台上。
06
结语
隐私计算技术对打破“数据孤岛”,发挥数据更大的潜能和价值有着重要的作用,“可用但不可见”突破了边界思维构建的技术架构,使得数据应用在保证数据安全的基础上,得到更大程度的流通和共享,这是匿名化技术的巨大进步,也是网络安全的重大突破。
但不可忽视的是,“数据孤岛”正在慢慢消逝,“平台孤岛”却在逐渐显现,“数据孤岛”渐渐演化成“数据群岛”,各大互联网巨头平台正在加紧搭建基于不同算法模式的隐私计算平台,开展新一轮的数据圈地,建造“围墙花园”,给数据的互联互通再一次提出挑战。未来,不同隐私计算平台的标准化建设、跨域互操作或许将成为隐私计算的新的发展方向。
思考4:“平台孤岛”的问题该如何解决?
参考资料:
【1】隐私计算能否解决“数据孤岛”难题?
https://baijiahao.baidu.com/s?id=1697642691378983321&wfr=spider&for=pc
【2】《2021年隐私计算白皮书》(隐私计算联盟,中国信息通信研究院云计算与大数据研究所,2021年7月)
【3】《联邦学习白皮书V2.0》(微众银行,2020年4月)
【4】隐私计算2022:“三种共识”与“四种展望”
https://www.jiqizhixin.com/articles/2022-03-01-3
【5】李鹏.品效协同的困境仅仅是数据“围墙花园”吗?[J].国际品牌观察,2021(08):36-37.
编辑:于晓雯 吴晓茹
感谢于晓雯同学供稿