北京时间2024年5月15日,第十四期AIRS-TNSE联合杰出讲座系列活动在线上举办。此次,我们邀请多伦多大学的李葆春教授介绍联邦学习数据隐私保护的相关研究,并分享他在这个领域内的成果与有趣发现。
本次讲座由AIRS副院长兼群体智能中心主任、香港中文大学(深圳)协理副校长、校长讲座教授、IEEE TNSE主编黄建伟教授担任执行主席和主持人。
联邦学习作为去中心化方式训练共享机器学习模型的实用范例之一,在过去五年中因其保护数据隐私的特性受到了学界的广泛研究。然而,最近的大量工作质疑其保护数据隐私的核心主张,并提出梯度泄露攻击来重建用于训练的原始数据。在微调大型语言模型的时代,能否保护数据隐私将至关重要。基于此,李葆春教授及其合作者聚焦于研究关键性问题:联邦学习能否保护数据隐私?
李葆春教授及其合作者首先讨论了现有文献中提出的一些不切实际的假设,如模型更新共享和梯度共享等价等,发现即使在这些假设下,梯度泄露攻击对原始数据的隐私也仅仅构成了有限程度的威胁。通过在实际假设下对联邦学习系统中的梯度泄露攻击进行综合评估,李葆春教授及其合作者系统地分析了梯度泄露攻击在各种配置下的有效性,并提出使得梯度攻击更加实际的前提条件,例如初始模型权重的狭窄分布及训练早期的反转。进一步地,研究提出了一种新的轻量级防御机制Outpost,在整个联邦学习过程中针对时间变化的隐私泄露风险级别提供充分且自适应的保护。Outpost防御方案根据Fisher信息矩阵在每次更新迭代时有选择地向梯度添加高斯噪声,其中噪声水平由每层权重分布量化的隐私泄露风险决定。同时,为了限制计算开销和训练性能下降,Outpost仅通过基于迭代的衰减来执行扰动。试验结果表明,在收敛性能、计算开销和防止梯度泄露攻击方面,Outpost可以比最先进的技术实现更好的权衡。最后,李葆春教授讨论了在微调大型语言模型方面,梯度攻击对于隐私泄露问题的影响。
李葆春教授的精彩分享发人深思,在参与者与两位教授的积极讨论中,涌现了许多有趣的问题。例如,数据隐私泄露的定义;梯度泄露攻击的实际性等。
视频回顾
Recording
AIRS-TNSE 联合杰出讲座系列
AIRS-TNSE Joint Distinguished Seminar Series
AIRS-TNSE 联合杰出讲座系列由 IEEE TNSE 期刊和深圳市人工智能与机器人研究院(AIRS)联合主办,香港中文大学(深圳)、网络通信与经济学实验室(NCEL)、IEEE 联合支持。该系列活动旨在汇聚网络科学与工程领域的国际顶级专家学者分享前沿科技成果。
*特别鸣谢李想对本文的贡献
相关阅读
AIRS-TNSE 联合杰出讲座系列第十三期回顾
AIRS-TNSE 联合杰出讲座系列第十二期回顾
AIRS-TNSE 联合杰出讲座系列第十一期回顾