记得给 “应用机器学习” 添加星标,收取最新干货
作者:香港城市大学 刘朗鸣
今天跟大家分享一篇来自于香港城市大学、吉林大学、密歇根州立大学等提出的关于联邦推荐的文章,该文章从一种全新的角度,即如何显著提高通讯效率同时保证鲁棒性和隐私保护,研究联邦推荐问题。具体地,该文指出了现有联邦推荐中的四个关键挑战,提出了更贴合联邦学习背景的优化目标,并给出了两种高效且鲁棒的联邦推荐算法 RFRec (推荐的正则化联邦学习方法)和RFRecF(快速版本) 寻找所提出优化目标的最优解。
论文: https://doi.org/10.1145/3627673.3679682
代码: https://github.com/Applied-Machine-Learning-Lab/RFRec
基于矩阵因式分解(MF)的推荐模型,是最流行的推荐系统(RS)方法,其利用了一种集中学习范式,该方法收集用户数据并在中央服务器中训练模型。集中式训练方法可以很好地解决用户偏好问题,并取得了巨大的成功。然而,个人用户越来越担心在中央服务器中存储和收集信息时的隐私问题。
最近一些工作将联邦学习(FL)技术集成到推荐系统中,以解决隐私问题,这些推荐系统被称为联邦推荐系统(FedRS)。主流FedRS方法使用与集中式推荐(centralized RS)相同的优化目标(MF error minimization),学习user和item的特征向量,并利用它们的内积来预测评分矩阵。在FL设置下,user特征向量仅在客户端上更新,item特征向量的梯度被聚合到服务器以进行item特征矩阵的更新。这种方法可以在服务器不访问和利用用户数据的情况下训练推荐模型,从而缓解隐私问题。这种方法就是所谓的交替更新方法。
然而,现有FedRS方法由于优化目标以及交替更新方法的局限性,仍然存在以下四个挑战。
非凸优化(Non-convex Optimization):MF误差最小化问题本质上是非凸的。非凸优化可能会收敛到次优点,从而危及推荐性能。此外,受FL设置的约束,公式中定义的用户和项目特征向量必须分别在客户端和服务器端更新,这可能会导致模型训练不稳定。 脆弱性(Vulnerability):现有的方法利用了交替更新规则,其中客户端和服务器高度依赖彼此进行更新。因此,当某些客户端由于网络或设备问题而无法参与时,更新过程可能会终止。 隐私泄露风险(Privacy Leakage Risk):梯度通信仍可能导致隐私泄露。具体来说,服务器可以根据连续两次的梯度反推用户对item的评分。 通讯低效(Communication Inefficiency):由于交替更新规则,FedRS方法的收敛速度较低。
针对上述联邦推荐的挑战,作者提出了一种新颖的推荐的正则化联邦学习方法。具体地:
作者提出了一种FedRS的凸优化公式,该公式被表示为正则化经验风险最小化(RERM)问题,可以在收敛和通信效率的理论支持下指导FedRS方法的设计。为了解决提出的优化问题,作者提出了RFRec来解决所提出的RERM问题,并提出了更快的版本RFRecF,以提高通信效率。 作者从理论和实验上证明了它们的鲁棒性和隐私保护能力,它们为提高通信效率提供了保证。在四个公共基准数据集上进行了广泛的实验,展示了提出的方法在高级基线下的最新性能。作者还进行了深入分析,以验证其有效性和效率。
方法论
1. FedRS的问题表述
为了更好诠释FL设置下的推荐任务,作者将FedRS重新表述为RERM问题,同时学习局部和全局模型。作者将局部模型定义为 ,其中元组 表示客户端(用户)的本地模型,是用户特征向量。注意到这里 是局部项矩阵,它不同于 。表示用户 的评分向量。全局模型为。
具体如下图所示:
其中 和 是累积局部损失和正则项。 和 是客户端的损失函数。最小化 可为每个客户获得最优局部模型 。添加正则化项 以惩罚 和 之间的差异。因此,最小化 可以得到最优的全局item矩阵 。
2. 算法设计
作者提出了两种解决优化问题的方法,即RFRec和RFRecF。所提出的方法不是像大多数FedRS方法那样传递梯度,而是传递联邦学习的模型,从而降低了隐私泄露的风险。特别地,它们实现了比FedRS方法更高的通信效率。两种方法的算法框架如下图所示。
(1)RFRec.
为了稳定有效地找到所提出问题的最优解,作者提出了RFRec,它在客户端进行局部梯度下降(local GD)以更新模型。首先,作者将正则化项添加到主目标中,以获得局部优化目标。然后,本地模型可以在客户端上通过梯度下降更新规则进行更新,如下所示
然而,客户端在不知道平均模型的情况下无法计算。因此,客户端需要先上传到服务器,服务器进行聚合操作(即计算)。之后,再被服务器分发给客户端,客户端进行本地模型更新。伪代码如下:
(2)RFRecF.
为了在RFRec的基础上进一步提高通信效率,作者在FL训练过程中应用了非均匀随机梯度下降(non-uniform SGD)方法,并将其命名为RFRecF(表示快速版本)。作者定义的随机梯度如下:
其中是的无偏估计量。注意这里的SGD和随机采样小批量数据进行更新的标准SGD不同。然后,作者类似地将局部随机梯度定义为的无偏估计。客户端上RFRecF的更新规则如下
客户端在整个过程中进行随机更新,而中央服务器只负责模型聚合。具体来说,作者每次生成一个伯努利随机变量,概率为,或者,概率均为。然后根据的值决定随机梯度的选择(主loss还是惩罚loss)以及通讯轮次的操作(客户端->服务器还是服务器->客户端),具体见伪代码。伪代码如下:
3 鲁棒性的深入分析.
当客户端参与度低时(例如,一些设备失去连接),现有的方法很容易受到攻击,因为客户端和服务器的更新高度依赖于彼此。为了解决这个问题,作者让服务器不再承担模型和梯度的更新任务,这意味着服务器只承担模型聚合任务。有两个优点:
1)对于服务器:当部分设备无法参与聚合时,模型聚合不会受到影响。因为根据大数定律,样本平均值几乎处处收敛到期望,因此可以使用剩余设备的平均值 来近似估计 ,其中 表示第 轮的参与设备数量。
2)对于客户端:由于平均模型是稳定的,因此即使在一段时间内没有连接到服务器,每个客户端也可以继续进行本地更新。
4 加强隐私保护.
更新伊始,本地模型之间存在巨大差异,当每个客户端上传到服务器时,信息泄露更有可能发生。为了解决这个潜在的问题,作者在上应用了一种clipping机制并利用局部差分隐私(LDP)(例如,使用拉普拉斯机制)如下:
保护机制确保--DP (),其中是隐私预算,越小越好。然后,扰动的被发送到服务器进行平均。当服务器取的平均值时,扰动可以被大部分抵消,这样的话对收敛只有轻微影响。
5 收敛理论和通讯效率.
作者还提供了所提出方法的收敛速率以及通讯效率的理论推导,在这里就不详细展开了。
收敛速率(convergence rate)
理论最优收敛轮次(optimal iterations)
理论最优通讯轮次(optimal communications)
实验
作者在实验部分主要研究六个问题:
与最先进的FedRS模型相比,提出的RFRec和RFRecF的推荐性能如何? 与FedRS模型相比,RFRec和RFRecF是否获得了更好的通信效率? 所提出方法每个组件对于推荐性能的贡献如何? 所提出的方法的鲁棒性如何? 参数如何影响RFRec和RFRecF? 如何平衡隐私保护和模型性能?
1.数据集
作者选用ML-100k,ML-1M,KuaiRec和Jester数据集作为本文数据集,其统计数据如下:
评估指标:Recall@10,MRR,NDCG@10
2.对比实验
对比方法:
① 集中式推荐方法:PMF,SVD++ ② 联邦式推荐方法:FCF,FedRec,FedRec,FedFast,SemiDFEGL,FedNCF
模型总体推荐性能比较
总的来说,RFRec和RFRecF在所有数据集上的表现明显优于其他联邦基线,证明了所提出方法的优越性。作者将这些改进归因于所提出的FedRS新公式能够很好地平衡局部和全局模型的学习。此外,所提出的方法RFRec和RFRecF都提供了稳定的训练过程,保证了收敛到最优模型。
3.通讯效率
在本节中,作者评估了所提出方法的通信效率。作者使用FCF和FedFast作为基线来比较通信成本,因为它们在所有基线中都有相对较好的推荐性能。
RFRec和RFRecF的通信效率在两个数据集上始终超过联邦基线模型,证明了所提出方法的有效性。具体来说,FedFast的通信效率优于FCF,因为它使用聚类和采样方法来加快训练过程。尽管RFRec在通信效率上仅略高于FedFast,但它提供了更好的推荐性能。特别地,RFRecF在通信效率方面在所有方法中遥遥领先,因为RFRec利用灵活的non-uniform SGD方式来减少通信轮次。
4.消融实验
为了测试两个关键部分的贡献,作者在四个数据集上对RFRec和RFRecF的两个变体进行了消融研究,包括(1)w/o Regular:没有正则化项 ,以及(2)w/o Penalty:没有惩罚项 。记录RMSE以比较推荐性能,如图下图所示。
5.鲁棒性
作者在ML-1m上进行了实验,以证明提出方法的鲁棒性,设备掉线率从0%到90%,以模拟极端情况(例如,客户端失去连接),结果如下。所提出方法即使在参与率很低的极端情况下,也能提供良好的推荐性能。结果证明了作者提出的方法在真实场景中的有效性,例如工业场景,其中由于设备连接丢失而导致的轻微性能下降是可以接受的。
6.超参分析
在本节中,作者调整重要的超参数 以找到最佳选择。具体来说,作者根据之前理论分析中超参和收敛速度以及通讯轮次的关系,分别在 和 范围内对 和 进行搜索。
7.隐私保护测试
为了展示推论中提到的隐私保护和性能之间的权衡,并确定扰动的最佳参数,作者在ML-1m数据集调整剪切阈值和噪声尺度上进行了实验。隐私预算由计算,越小越好。作者在图中报告了主要结果。一般来说,隐私保护和准确性之间存在权衡。例如,当放大时,RMSE会变大,这意味着推荐性能较差,而隐私预算会变小,意味着更好的隐私强度。反之亦然。
总结
本文将FedRS的优化问题重新表述为RERM问题,以适应FL设置。为了有效和高效地解决所提出的优化问题,作者提供了两种方法,RFRec和RFRecF,分别利用局部GD和非均匀SGD方式来学习最优模型参数。作者提供了收敛和通信的理论分析,展示了所提出方法的稳定性和高通信效率。此外,作者还演示了所提出方法的隐私保护机制。大量实验证明,提出的方法比其他最先进的FedRS方法具有优越性和有效性。
END