技术前沿|VLDB 中稿快讯!更高效更易用的安全联合数据分析平台

文摘   2024-09-02 18:35   上海  
语:VLDB(International Conference on Very Large Data Bases)是数据库三大国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的 A 类国际学术会议。VLDB 2024 将于 2024 年 8 月 26 至 30 日,在中国广州举行。
蚂蚁集团论文《SecretFlow-SCQL: A Secure Collaborative Query pLatform》,在众多投稿论文中脱颖而出,顺利被接收。

该论文主要介绍了安全联合数据分析平台 SCQL(Secure Collaborative Query pLatform),基于底层的 MPC 协议实现 SQL 中的关系操作,从而支持通用 SQL 语句运行,在保证数据安全的同时充分利用数据价值。蚂蚁技术研究院将为您带来最新技术干货分享,一起来关注!

安全联合数据分析平台
大数据时代下,数据分析被广泛应用于各类业务场景中,丰富的数据可以带来巨大的业务价值。由于不同机构提供的特征、样本可以互为补充,为场景带来进一步增益,近年来跨机构联合数据分析的需求不断增长。然而,随着用户对隐私问题的日益关注,以及隐私保护相关国家法律法规的出台,使得机构间的数据无法联通,形成一个个数据孤岛。

安全多方计算(Secure Multi-Party Computation,MPC)为联合数据分析提供了一种有效的解决方案,在保证数据安全的同时,可以充分利用数据价值。然而,MPC 的性能瓶颈和查询语句的灵活性对联合数据分析框架构成了巨大挑战。在隐语中,我们构建了安全联合数据分析平台 SCQL(Secure Collaborative Query pLatform),基于底层的 MPC 协议实现 SQL 中的关系操作,从而支持通用 SQL 语句的运行。同时,我们利用原始数据分布的特点(水平/垂直),设计更加高效的 MPC 协议和关系操作,大大提高计算效率。用户使用过程中,体感上是在对多方联合的逻辑宽表进行查询,无需过多关心数据的实际物理分布及 MPC 底层协议的专业知识。用户还可以根据自身业务场景特点,配置可接受的安全退让,从而最大程度上利用到算法设计的加速策略

技术亮点:更高效、更易用
SCQL 使用多方安全计算中的秘密分享技术来保障联合计算的安全性,但这其中包含了两大挑战。一是需要做大量代码重构,使得程序行为对输入数据无感知(data-oblivious code)。二是应对实际业务中大数据量下的性能需求,需要对这类通信密集型的协议做针对性的优化。
/ 更高效/

首先,我们在底层的秘密排序协议实现中,选择了多方安全计算友好的基数排序方案,摆脱了对比较算子的依赖。针对 TTP 辅助的加性秘密分享,进行了基数排序核心组件的重新设计和实现:

其次,我们针对垂直切分的数据场景,优化数据库关系操作的实现,特别是将基数排序的思想用于 Group-by 算子的优化中,性能大幅提升

  1. 本地分组主键合并,使得不论多复杂的 group-by 语句,只会调用一次昂贵的密态排序
  2. 采用分组主键生成排序向量,而仅对待排数据表执行一次排序的方式,降低通信成本
  3. 将 min/max 聚合列作为最低优先级的排序主键,使这类聚合计算得以“免费”支持,避免在聚合中调用昂贵的比较算子
  4. 由于基数排序的复杂度和主键位分解后的位数正相关,我们允许用户根据实际场景设置主键的有效数位,从而大大减少基数排序的复杂度

此外,如果用户允许透露用户的交集(垂直场景接受的常用安全设置),可以使用 PSI 来实现快速 Join 算法如果用户允许透露每个分组的元素个数(安全性等同于执行最基础的 group-by-count 的 SQL 语句),可以将低效的密文聚合转变为成本可忽略不计的本地明文分片聚合

/ 更易用 /

最后,在系统设计层面上,我们致力于提高用户的易用性,使得用户在查询时只需基于逻辑宽表写对应的 SQL 语句,而无需关心底层数据表的逻辑分布、以及掌握底层多方安全计算的相关专家知识。用户可以在最小的改动下迁移业务加工逻辑到多方联合计算中同时,我们提供 CCL(Column Control List)语句来描述用户的安全需求,从而支持在编译阶段即可拒绝不合法的查询,并且选择当前安全设置下最高效的关系操作来加速运算

SCQL 已开源至 隐语SecretFlow 中,欢迎使用及参与共建。

  • GitHub 指路:https://github.com/secretflow/scql

  • 应用实践指南:https://www.bilibili.com/video/BV1KG411Q72P

论文解读直播预约
关于本篇论文的详细解读,将在 9月5日「蚂蚁技术研究院」线上直播中,与大家详细解读,欢迎预约直播~

 最新文章