CIKM 2024 | 高效鲁棒的正则化联邦推荐

文摘 2024-11-13 10:00 中国香港

记得给 “应用机器学习” 添加星标，收取最新干货

作者：香港城市大学刘朗鸣

今天跟大家分享一篇来自于香港城市大学、吉林大学、密歇根州立大学等提出的关于联邦推荐的文章，该文章从一种全新的角度，即如何显著提高通讯效率同时保证鲁棒性和隐私保护，研究联邦推荐问题。具体地，该文指出了现有联邦推荐中的四个关键挑战，提出了更贴合联邦学习背景的优化目标，并给出了两种高效且鲁棒的联邦推荐算法 RFRec (推荐的正则化联邦学习方法)和RFRecF（快速版本） 寻找所提出优化目标的最优解。

论文: https://doi.org/10.1145/3627673.3679682
代码: https://github.com/Applied-Machine-Learning-Lab/RFRec

基于矩阵因式分解（MF）的推荐模型，是最流行的推荐系统（RS）方法，其利用了一种集中学习范式，该方法收集用户数据并在中央服务器中训练模型。集中式训练方法可以很好地解决用户偏好问题，并取得了巨大的成功。然而，个人用户越来越担心在中央服务器中存储和收集信息时的隐私问题。

最近一些工作将联邦学习（FL）技术集成到推荐系统中，以解决隐私问题，这些推荐系统被称为联邦推荐系统（FedRS）。主流FedRS方法使用与集中式推荐（centralized RS）相同的优化目标（MF error minimization），学习user和item的特征向量，并利用它们的内积来预测评分矩阵。在FL设置下，user特征向量仅在客户端上更新，item特征向量的梯度被聚合到服务器以进行item特征矩阵的更新。这种方法可以在服务器不访问和利用用户数据的情况下训练推荐模型，从而缓解隐私问题。这种方法就是所谓的交替更新方法。

然而，现有FedRS方法由于优化目标以及交替更新方法的局限性，仍然存在以下四个挑战。

非凸优化（Non-convex Optimization）：MF误差最小化问题本质上是非凸的。非凸优化可能会收敛到次优点，从而危及推荐性能。此外，受FL设置的约束，公式中定义的用户和项目特征向量必须分别在客户端和服务器端更新，这可能会导致模型训练不稳定。
脆弱性（Vulnerability）：现有的方法利用了交替更新规则，其中客户端和服务器高度依赖彼此进行更新。因此，当某些客户端由于网络或设备问题而无法参与时，更新过程可能会终止。
隐私泄露风险（Privacy Leakage Risk）：梯度通信仍可能导致隐私泄露。具体来说，服务器可以根据连续两次的梯度反推用户对item的评分。
通讯低效（Communication Inefficiency）：由于交替更新规则，FedRS方法的收敛速度较低。

针对上述联邦推荐的挑战，作者提出了一种新颖的推荐的正则化联邦学习方法。具体地：

作者提出了一种FedRS的凸优化公式，该公式被表示为正则化经验风险最小化（RERM）问题，可以在收敛和通信效率的理论支持下指导FedRS方法的设计。为了解决提出的优化问题，作者提出了RFRec来解决所提出的RERM问题，并提出了更快的版本RFRecF，以提高通信效率。
作者从理论和实验上证明了它们的鲁棒性和隐私保护能力，它们为提高通信效率提供了保证。在四个公共基准数据集上进行了广泛的实验，展示了提出的方法在高级基线下的最新性能。作者还进行了深入分析，以验证其有效性和效率。

方法论

1. FedRS的问题表述

为了更好诠释FL设置下的推荐任务，作者将FedRS重新表述为RERM问题，同时学习局部和全局模型。作者将局部模型定义为，其中元组表示客户端（用户）的本地模型，是用户特征向量。注意到这里是局部项矩阵，它不同于。表示用户的评分向量。全局模型为。

具体如下图所示：

其中和是累积局部损失和正则项。和是客户端的损失函数。最小化可为每个客户获得最优局部模型。添加正则化项以惩罚和之间的差异。因此，最小化可以得到最优的全局item矩阵。

2. 算法设计

作者提出了两种解决优化问题的方法，即RFRec和RFRecF。所提出的方法不是像大多数FedRS方法那样传递梯度，而是传递联邦学习的模型，从而降低了隐私泄露的风险。特别地，它们实现了比FedRS方法更高的通信效率。两种方法的算法框架如下图所示。

（1）RFRec.

为了稳定有效地找到所提出问题的最优解，作者提出了RFRec，它在客户端进行局部梯度下降（local GD）以更新模型。首先，作者将正则化项添加到主目标中，以获得局部优化目标。然后，本地模型可以在客户端上通过梯度下降更新规则进行更新，如下所示

然而，客户端在不知道平均模型的情况下无法计算。因此，客户端需要先上传到服务器，服务器进行聚合操作（即计算）。之后，再被服务器分发给客户端，客户端进行本地模型更新。伪代码如下：

（2）RFRecF.

为了在RFRec的基础上进一步提高通信效率，作者在FL训练过程中应用了非均匀随机梯度下降（non-uniform SGD）方法，并将其命名为RFRecF（表示快速版本）。作者定义的随机梯度如下：

其中是的无偏估计量。注意这里的SGD和随机采样小批量数据进行更新的标准SGD不同。然后，作者类似地将局部随机梯度定义为的无偏估计。客户端上RFRecF的更新规则如下

客户端在整个过程中进行随机更新，而中央服务器只负责模型聚合。具体来说，作者每次生成一个伯努利随机变量，概率为，或者，概率均为。然后根据的值决定随机梯度的选择（主loss还是惩罚loss）以及通讯轮次的操作（客户端->服务器还是服务器->客户端），具体见伪代码。伪代码如下：

3 鲁棒性的深入分析.

当客户端参与度低时（例如，一些设备失去连接），现有的方法很容易受到攻击，因为客户端和服务器的更新高度依赖于彼此。为了解决这个问题，作者让服务器不再承担模型和梯度的更新任务，这意味着服务器只承担模型聚合任务。有两个优点：

1）对于服务器：当部分设备无法参与聚合时，模型聚合不会受到影响。因为根据大数定律，样本平均值几乎处处收敛到期望，因此可以使用剩余设备的平均值来近似估计，其中表示第轮的参与设备数量。

2）对于客户端：由于平均模型是稳定的，因此即使在一段时间内没有连接到服务器，每个客户端也可以继续进行本地更新。

4 加强隐私保护.

更新伊始，本地模型之间存在巨大差异，当每个客户端上传到服务器时，信息泄露更有可能发生。为了解决这个潜在的问题，作者在上应用了一种clipping机制并利用局部差分隐私（LDP）（例如，使用拉普拉斯机制）如下：

保护机制确保--DP ()，其中是隐私预算，越小越好。然后，扰动的被发送到服务器进行平均。当服务器取的平均值时，扰动可以被大部分抵消，这样的话对收敛只有轻微影响。

5 收敛理论和通讯效率.

作者还提供了所提出方法的收敛速率以及通讯效率的理论推导，在这里就不详细展开了。

收敛速率（convergence rate）

理论最优收敛轮次（optimal iterations）

理论最优通讯轮次（optimal communications）

实验

作者在实验部分主要研究六个问题：

与最先进的FedRS模型相比，提出的RFRec和RFRecF的推荐性能如何？
与FedRS模型相比，RFRec和RFRecF是否获得了更好的通信效率？
所提出方法每个组件对于推荐性能的贡献如何？
所提出的方法的鲁棒性如何？
参数如何影响RFRec和RFRecF？
如何平衡隐私保护和模型性能？

1.数据集

作者选用ML-100k，ML-1M，KuaiRec和Jester数据集作为本文数据集，其统计数据如下：

评估指标：Recall@10,MRR,NDCG@10

2.对比实验

对比方法：

① 集中式推荐方法：PMF，SVD++
② 联邦式推荐方法：FCF，FedRec，FedRec，FedFast，SemiDFEGL，FedNCF

模型总体推荐性能比较

总的来说，RFRec和RFRecF在所有数据集上的表现明显优于其他联邦基线，证明了所提出方法的优越性。作者将这些改进归因于所提出的FedRS新公式能够很好地平衡局部和全局模型的学习。此外，所提出的方法RFRec和RFRecF都提供了稳定的训练过程，保证了收敛到最优模型。

3.通讯效率

在本节中，作者评估了所提出方法的通信效率。作者使用FCF和FedFast作为基线来比较通信成本，因为它们在所有基线中都有相对较好的推荐性能。

RFRec和RFRecF的通信效率在两个数据集上始终超过联邦基线模型，证明了所提出方法的有效性。具体来说，FedFast的通信效率优于FCF，因为它使用聚类和采样方法来加快训练过程。尽管RFRec在通信效率上仅略高于FedFast，但它提供了更好的推荐性能。特别地，RFRecF在通信效率方面在所有方法中遥遥领先，因为RFRec利用灵活的non-uniform SGD方式来减少通信轮次。

4.消融实验

为了测试两个关键部分的贡献，作者在四个数据集上对RFRec和RFRecF的两个变体进行了消融研究，包括（1）w/o Regular：没有正则化项，以及（2）w/o Penalty：没有惩罚项。记录RMSE以比较推荐性能，如图下图所示。

5.鲁棒性

作者在ML-1m上进行了实验，以证明提出方法的鲁棒性，设备掉线率从0%到90%，以模拟极端情况（例如，客户端失去连接），结果如下。所提出方法即使在参与率很低的极端情况下，也能提供良好的推荐性能。结果证明了作者提出的方法在真实场景中的有效性，例如工业场景，其中由于设备连接丢失而导致的轻微性能下降是可以接受的。

6.超参分析

在本节中，作者调整重要的超参数以找到最佳选择。具体来说，作者根据之前理论分析中超参和收敛速度以及通讯轮次的关系，分别在和范围内对和进行搜索。

7.隐私保护测试

为了展示推论中提到的隐私保护和性能之间的权衡，并确定扰动的最佳参数，作者在ML-1m数据集调整剪切阈值和噪声尺度上进行了实验。隐私预算由计算，越小越好。作者在图中报告了主要结果。一般来说，隐私保护和准确性之间存在权衡。例如，当放大时，RMSE会变大，这意味着推荐性能较差，而隐私预算会变小，意味着更好的隐私强度。反之亦然。

总结

本文将FedRS的优化问题重新表述为RERM问题，以适应FL设置。为了有效和高效地解决所提出的优化问题，作者提供了两种方法，RFRec和RFRecF，分别利用局部GD和非均匀SGD方式来学习最优模型参数。作者提供了收敛和通信的理论分析，展示了所提出方法的稳定性和高通信效率。此外，作者还演示了所提出方法的隐私保护机制。大量实验证明，提出的方法比其他最先进的FedRS方法具有优越性和有效性。

END

同时欢迎关注我们的知乎账号：应用机器学习，获取更多内容

https://www.zhihu.com/people/aml_cityu

http://mp.weixin.qq.com/s?__biz=MzI1MjE5MzgwOA==&mid=2247485730&idx=1&sn=04e8b04aaf3cd5c048534dcaa716a547

应用机器学习

介绍机器学习最近技术进展和资讯

最新文章

香港城市大学 AI 机器学习数据挖掘大语言模型全奖PhD/联培PhD

CIKM 2024 | 高效鲁棒的正则化联邦推荐

ICDM 2024 | GPRec: 两级用户增强建模

NeurIPS 2024 | LLM-ESR: 大语言模型增强的长尾序列推荐系统

CIKM 2024 | 基于大语言模型的多场景推荐增强范式

CIKM2024 | 编辑医疗大模型的事实性知识和解释能力

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

KDD 2024 | 基于生成流网络的用户留存建模

KDD 2024 | ControlTraj: 利用路网拓扑指导轨迹生成

TKDE 2024 | 多层次图知识对比学习

CIKM 2024 | HierRec:多场景推荐——场景感知分层建模

CSUR 2024 | 多模态推荐系统综述

祝贺！赵翔宇老师获批第一期CCF-阿里妈妈科技袋基金大模型方向支持！

AML666！AML实验室在KDD CUP 2024 大语言模型多任务挑战赛中获得总榜亚军，全部5个赛道进入前三名的优异成绩

KDD 2024 | ERASE: 深度推荐系统中的特征筛选方法基准

NAACL 2024 | MILL: 一种利用大语言模型进行相互验证的零样本查询扩展方法

KAIS 2023 | AutoAssign+: 流媒体推荐中的自动共享嵌入分配设计

SIGIR 2024 | 当MOE遇上LLMs:针对医疗多任务的参数高效微调方法

CIKM 2023 | 用于医疗文本分类的多任务学习框架KEMTL

ICDE 2024 | 序列推荐的自增强序列去噪框架SSDRec

WSDM 2024 | 多场景推荐冷启动问题的扩散模型增强范式

重磅！OpenAI 官宣上线 GPT Store！超300万个 GPTs 大爆发

综述：LLM驱动的生成式信息抽取

ChatGPT官方登陆应用市场！OpenA再放大招，可精准识别中文

IJCAI22 | 基于纯MLP方法的序列推荐模型

Bard全面升级，新大模型能超GPT-4，谷歌反击ChatGPT

WWW 2023 | 基于MLP序列的自适应结构搜索推荐模型AutoMLP

WWW 2023|基于强化学习的多任务推荐系统

AAAI 2023 | 自动时空多任务学习AutoSTL

WWW 2023 | IMF: 用于链接预测的交互式多模式融合模型

基于反事实因果的图对比学习负样本生成

Decision Transformer 在优化用户留存中的应用

多行为推荐的去噪与提示调节

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉